Kaggle回归问题Mercedes——Benz Greener Manufacturing

目录

  • 前言
  • 1 题目介绍
  • 2 数据清洗
  • 3 数据可视化分析
  • 4 模型训练
  • 5 源码

前言

这是我在大三选修课的课程设计,内容参考了Kaggle上高赞的代码,有详细批注,整体比较基础,结构相对完整,便于初学者学习。这个是一个回归问题,我的另外一篇博客《Kaggle分类问题Titanic——Machine Learning from Disaster》介绍了回归问题。除此之外我的《电商评论文本挖掘》也是我当年的课程设计,也有详细的批注,相比这个难度会稍微高些。

1 题目介绍

题目背景:自1886年第一辆奔驰汽车问世以来,梅赛德斯奔驰一直代表着重要的汽车创新。为确保每一款独特的汽车配置在上路之前的安全性和可靠性,Daimler的工程师开发了一个强大的测试系统。但是,如果没有强大的算法,为如此多可能的特征组合计算他们的测试系统的速度,这将是复杂且耗时的。而我们的任务是使用代表奔驰汽车功能的不同排列的数据集,以预测通过测试所需的时间。这个时间将有助于更快的测试,在不降低Daimler标准的情况下,减少二氧化碳排放。

数据介绍:数据匿名,没有具体介绍,共有378个变量,分别为时间y以及其他相关特征。
在这里插入图片描述

2 数据清洗

1)对数据进行概览。
在这里插入图片描述
2)查看所有变量的种类。
在这里插入图片描述
在这里插入图片描述

3)查看为object类的列
在这里插入图片描述
4)查看是否有缺失值(无)
5)查看int列,可以看出大部分整数列的值都是0与1,有些全为0的可以将他们删去。
在这里插入图片描述
在这里插入图片描述

3 数据可视化分析

1)利用stripplot绘制X0与y的关系。
在这里插入图片描述
2)利用boxplot绘制X2与y的关系。
在这里插入图片描述
3)利用violinplot绘制X3与y的关系。
在这里插入图片描述
4)利用barh绘制水平条形图,展现01变量0与1的比重。
在这里插入图片描述
5)利用heatmap查看每列0或1所对应的平均y值,可以发现出现了很好的区分。
在这里插入图片描述
6)利用regplot绘制ID列的线性回归图,可以看出随着id的增大,有个轻微下降的趋势。
在这里插入图片描述
7)利用violinplot查看查看训练集与测试集ID的分布,可以看出ID是随机的。
在这里插入图片描述
8)根据xgboost,得到重要的变量。
在这里插入图片描述
在这里插入图片描述
9)根据随机森林得到重要的变量。
在这里插入图片描述
在这里插入图片描述

4 模型训练

使用PCA、ICA、tSVD等对数据进行降维。
在这里插入图片描述
在这里插入图片描述
使用TPOT自动选择机器学习模型和参数。搜索整个管道空间是特别耗时的,在默认的TPOT参数下(100 generations with 100 population size),TPOT将在完成前评估1万个管道配置。网格搜索1万个超参数组合用于机器学习算法,而且用10倍的交叉验证来评估这1万个模型,这意味着大约有10万个模型在一个网格搜索的训练数据中被匹配和评估。这是一个非常耗时的过程,即使对于像决策树这样的简单模型也是如此。

典型的TPOT运行将需要数小时到数天才能完成(除非是一个小数据集),但是可以中断运行,并看到目前为止最好的结果。TPOT还提供warm_start参数,可以从中断的地方重新启动之前运行的TPOT。

generations(default=100),运行管道优化过程的迭代次数。一定是正数。一般来说,值越大,性能越好。

population_size(default=100),在每一代遗传中保留的个体数(基因编程)。一定是正数。一般来说,值越大,性能越好。

verbosity(default=0),0将不会打印任何东西;1将打印很少的信息;2打印更多的信息并提供一个进度条;3打印所有内容,并提供一个进度条。
在这里插入图片描述
导出TPOT选择好的模型与其参数。
在这里插入图片描述

5 源码

为了更好的观看效果,我将源码放在了Github上,如有帮助,希望点个星星支持一下,感谢。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/104370.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

webscoket在vue中的使用

项目场景: 提示:项目相关背景: 什么是webscoket?: WebSocket是一种计算机通信协议,通过单个TCP连接提供全双工通信信道。实现了web客户端和服务器之间的实时通信,与传统的HTTP连接相比,允许以…

设计模式笔记

工厂模式: 1.Simple Factory Pattern : 是指由一个工厂对象决定创建出哪一种产品类的实例,简单工厂是产品的工厂,工厂类负责创建的对象较少,客户端需要传入工厂类的参数,对于如何创建对象的逻辑不关心。 缺点&#xf…

Unity3d:GameFramework解析:实体,对象池,资源管理,获取计数,引用计数,自动释放

基本概念 1.GF万物基于引用池IReference 2.ObjectBase : IReference类的m_Target持有unity中Mono,资源,GameObejct 3.AssetObject : ObjectBase类m_Target持有Assetbundle中的Asset,具有获取,引用两个计数管理释放 4.ResourceObj…

线索二叉树——找前驱、后继

前言 一个二叉树被线索化之后,一个节点的前驱或后继会存在两种情况, 1、tag1,有明确的线索化前驱或后继, 2、tag0,只存在左右孩子,但是没用明确的线索化前驱后继,需要分析 //线索二叉树结点定义…

如何将PC电脑变成web服务器:将内网主机映射到外网实现远程访问

如何将PC电脑变成web服务器:将内网主机映射到外网实现远程访问 我是艾西,今天跟大家分享内容还是比较多人问的一个问题:如何将PC电脑变成web服务器。内网主机作为web服务器,内容包括本地内网映射、多层内网映射解决方案、绕过电信…

Linux socket网络编程概述 和 相关API讲解

socket网络编程的步骤 大体上,连接的建立过程就是:服务器在确定协议类型后,向外广播IP地址和端口号,并监听等待,直到客户端获取了IP地址和端口号并成功连接: 使用socket来进行tcp协议的网络编程的大体步骤…

创邻科技张晨:图数据库,激活数据要素的新基建

“数据经济时代,数据要素产业链的各细分领域均蕴含机遇,图技术作为网络协同和数据智能的底层发动机,将深度掘金数字中国价值潜能”。 8月22日,在2023中国(南京)国际软件产品和信息服务交易博览会的信息技术…

操作系统期末考试复习——简答题总结

最近考研在复习OS,顺便把大二期末考试的简答题整理了一下~ 1、操作系统的定义 “操作系统(operating system,简称OS)是管理计算机硬件与软件资源的计算机程序 2、操作系统的基本类型及特征 批处理操作系统、分时操作系统、实时…

400电话系统如何进行数据分析和优化?

400电话系统可以通过以下方式进行数据分析和优化: 呼叫记录:400电话系统会记录每一次呼叫的相关信息,包括呼叫时间、呼叫持续时间、呼叫地点等。通过分析呼叫记录,企业可以了解客户的呼叫习惯和行为模式,如高峰时段、呼…

新唐Nuc980学习笔记1 - 工程创建和下载

一、新唐nuc980 新唐nuc980 iot开发板是Linux 工业物联网开发平台,新唐科技提供工业物联网开发平台采用 NUC980DK 微处理器,此为一套完整的工业用物联网开平台,包含了完整的硬件设计与软件参考设计。包含了新唐执行速度 300 MHz 的 ARM9 MPU …

idea的debug断点的使用

添加断点(目前不知道如何添加断点,就给AutoConfigurationImportSelector的每个方法都加上断点): 然后将StockApplication启动类以debug方式运行,然后程序就会停在119行 点击上边的step over让程序往下运行一行&#x…

有效降低传导辐射干扰

一直以来,设计中的电磁干扰(EMI)问题十分令人头疼,尤其是在汽车领域。为了尽可能的减小电磁干扰,设计人员通常会在设计原理图和绘制布局时,通过降低高di / dt的环路面积以及开关转换速率来减小噪声源。 但…

Mybatis动态之灵活使用下

目录 ​编辑 前言: 1.mybatis的分页 1.1分页的应用场景 1.2分页的使用方式 2.mybatis中特殊字符处理 2.1mybatis中特殊字符介绍 2.2mybatis中特殊字符的使用方式 前言: 上篇我已经写了Mybatis动态之灵活使用,接着上篇写mybatis的分页…

Django基础3——视图函数

文章目录 一、基本了解1.1 Django内置函数1.2 http请求流程 二、HttpRequest对象(接受客户端请求)2.1 常用属性2.2 常用方法2.3 服务端接收URL参数2.4 QueryDict对象2.5 案例2.5.1 表单GET提交2.5.2 表单POST提交2.5.3 上传文件 三、HttpResponse对象&am…

Source Insight配置Cppcheck做静态测试(Windows)

1.安装cppcheck 先从cppcheck官方网站下载cppcheck的安装包。 注: (1)官网地址:https://sourceforge.net/projects/cppcheck (2)截止2023年8月,官方发布的最新版本是cppcheck-2.11-x64-Setup.…

rabbitmq卸载重新安装3.8版本

卸载之前的版本的rabbitmq 卸载rabbitmq 卸载前先停止rabbitmq服务 /usr/lib/rabbitmq/bin/rabbitmqctl stop查看rabbitmq安装的相关列表 yum list | grep rabbitmq卸载rabbitmq相关内容 yum -y remove rabbitmq-server.noarch 卸载erlang 查看erlang安装的相关列表 …

漏洞扫描和漏洞评估

进行漏洞扫描和漏洞评估是确保系统和应用程序安全性的重要步骤。 下面是一个详细的步骤指南,说明如何进行漏洞扫描和漏洞评估。 步骤: 信息收集: 在开始漏洞扫描之前,收集有关目标系统和应用程序的信息,包括IP地址、…

OnePlus Open可折叠手机:规格、价格、发布日期等详细信息汇总!

我们知道OnePlus可折叠手机即将问世,无论它是否被命名为OnePlus Open。我们迫不及待地想让它到来,为该公司再添一根弦,为最好的可折叠手机增添一个新的竞争对手。 OnePlus以前没有生产过任何可折叠产品,但它确实拥有合作伙伴公司Oppo的丰富知识,并可以向三星、摩托罗拉和…

前端工程化之模块化

模块化的背景 前端模块化是一种标准,不是实现理解模块化是理解前端工程化的前提前端模块化是前端项目规模化的必然结果 什么是前端模块化? 前端模块化就是将复杂程序根据规范拆分成若干模块,一个模块包括输入和输出。而且模块的内部实现是私有的&…

利用LLM模型微调的短课程;钉钉宣布开放智能化底座能力

🦉 AI新闻 🚀 钉钉宣布开放智能化底座能力AI PaaS,推动企业数智化转型发展 摘要:钉钉在生态大会上宣布开放智能化底座能力AI PaaS,与生态伙伴探寻企业服务的新发展道路。AI PaaS结合5G、云计算和人工智能技术的普及和…