Kaggle分类问题Titanic——Machine Learning from Disaster

目录

  • 前言
  • 1 题目介绍
  • 2 数据清洗
  • 3 数据可视化分析
  • 4 模型训练
  • 5 源码

前言

这是我在大三选修课的课程设计,内容参考了Kaggle上高赞的代码,有详细批注,整体比较基础,结构相对完整,便于初学者学习。这个是一个分类问题,我的另外一篇博客《Kaggle回归问题Mercedes——Benz Greener Manufacturing》介绍了回归问题。除此之外我的《电商评论文本挖掘》也是我当年的课程设计,也有详细的批注,相比这个难度会稍微高些。

1 题目介绍

题目背景:在1912年4月15日,当时世界最豪华的游艇,泰坦尼克号撞到冰山沉入海底,其中船上2224位乘客中的1502位死在了此次事故中。在幸存者中,尽管有一些是来自于幸运,但是大部分幸存着是来自于女人、小孩还有一些贵族。而我们的任务就是通过机器学习,计算出人们幸存的概率。

数据介绍:

变量含义备注
survival存活情况0为没有存活;1位存活
pclass船舱地址1为最好;2为中等;3为最差
sex性别
age年龄
sibsp同行的配偶或兄妹数量
parch同行的父母或孩子数量
ticket票号
fare船票价格
cabin船仓号
embarked登船港口C为Cherbourg;Q为Queen Stown;S为Southampton

2 数据清洗

1)首先对所有数据进行整体概览。
在这里插入图片描述
2)观察空值情况,发现需要处理Age与Cabin。
在这里插入图片描述
3)填补缺失值,对Age使用中位数填补,对Cabin船舱号使用众数填补,对Fare使用中位数填补。
在这里插入图片描述
4)由于乘客ID是从1按顺序增加,与其他变量没有相关性;船舱有太多缺失;票号有纯数字,有字母加数字,而且全是不同的,无法使用。对这三列进行删除。
在这里插入图片描述
5)对数据列进行进一步出列,将SibSp陪同的配偶、兄妹数量和Parch陪同的父母孩子数量混合,合并为FamilySize家庭人数;根据FamilySize可以进一步划分出IsAlone是否独自一人乘船(1为独自,0为非独自);因为英语中一个人的称谓能反应出一些人的年龄、性别或者地位,所以单独将对人名的称谓划分出来;根据票价的大小进行等频率切割,以便之后处理;根据年龄的大小进行按值切割,以便后续处理。
在这里插入图片描述
6)根据观察,发现有一些特别、无实际意义的称谓,对他们进行统一处理,变为Misc。
在这里插入图片描述
7)对数据中的str类变量,利用LabelEncoder,对标签进行编码,转为数字。
在这里插入图片描述
8)经过上面的处理完成了对数据的清洗,下图为原始,与分箱操作的变量名。
在这里插入图片描述

3 数据可视化分析

1)对Fare、Age、FamilySize绘制boxplot,可以观察到,票价花费大部分集中在两位数,购买头等舱的并不是很多;年龄大部分集中在28左右,有少部分的婴儿和老人,家庭成员数量普遍为1到2个,也有很多人是独自乘船。
在这里插入图片描述
2)利用hist绘制票价花费、年龄分布、家庭成员数量的存活数,可以发现票价越低,死亡人数相对越多;年龄越高或者越低存活概率越高;家庭成员数量在2到5个的存活概率越高。
在这里插入图片描述
3)利用barplot绘制港口、船舱等级、是否独自一人的幸存率,可以发现,C港口登船的相对存活率最大,头等舱的存活率更大,有同行的人的存活率更大。
在这里插入图片描述
4)利用pointplot绘制票价等级、年龄分布、家庭人数的幸存率,可以发现票价越高存活率越大,16岁以下的孩子与48到64岁间的人存活率更大,家庭成员数量为4的存活率最大。
在这里插入图片描述
5)利用boxplot與violinplot绘制船舱等级与票价花费、与是否幸存,船舱等级与年龄分布、与是否幸存,船舱等级与年龄分布、与是否幸存,可以发现进一步的关系。
在这里插入图片描述
6)利用kdeplot绘制年龄与幸存的核密度图,可以发现婴儿比起老人存活的概率更大,没有幸存下来的主要在30岁左右。
在这里插入图片描述
7)利用pairplot,绘制各个属性的关系图,对角线上是各个属性的核密度图,而非对角线上是两个不同属性之间的相关图。
在这里插入图片描述

4 模型训练

根据如下常用算法模型,进行一一对比选择。
在这里插入图片描述
根据ShuffeSplit进行交叉验证数据分割,之后根据cross_validate分别计算出训练集正确率、测试集正确率、标准差。
在这里插入图片描述
在这里插入图片描述
根据训练集正确率对结果进行排序,可以看到SVC的效果最好。
在这里插入图片描述
对正确率进行可视化。
在这里插入图片描述
之后也可以利用VotingClassifier进一步根据多模型“投票”来获得结果,VotingClassifier分为软投票与硬投票,硬投票是指直接根据少数服从多数,软投票是指根据权重进行投票,需要用到predict_proda。根据结果,发现利用软投票效果也还不错,不过时间的代价也比较巨大。
在这里插入图片描述
在这里插入图片描述

5 源码

为了更好的观看效果,我将源码放在了Github上,如有帮助,希望点个星星支持一下,感谢。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/103137.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言】动态内存管理(malloc,free,calloc,realloc)-- 详解

一、动态内存分配 定义:动态内存分配 (Dynamic Memory Allocation) 就是指在程序执行的过程中,动态地分配或者回收存储空间的分配内存的方法。动态内存分配不像数组等静态内存分配方法那样,需要预先分配存储空间,而是由系统根据程…

基于微信小程序+Springboot校园二手商城系统设计和实现

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、目前专注于大学生项目实战开发,讲解,毕业答疑辅导✌ 🍅文末获取源码联系🍅 👇&#x1f3…

android Junit4编写自测用例

10多年的android开发经验,一直以来呢,也没有使用过android自带的测试代码编写。说来也惭愧。今天也花了点时间稍微研究了下。还挺简单。接下来就简单的说一下。 新建工程 直接默认新建一个工程,就会有两个目录androidTest和test(unitTest)两…

Qt+C++动力监控动画仿真SCADA上位机

程序示例精选 QtC动力监控动画仿真SCADA上位机 如需安装运行环境或远程调试&#xff0c;见文章底部个人QQ名片&#xff0c;由专业技术人员远程协助&#xff01; 前言 这篇博客针对<<QtC动力监控动画仿真SCADA上位机>>编写代码&#xff0c;代码整洁&#xff0c;规则…

Spring 为什么使用三级缓存解决循环依赖

文章目录 前言1. 什么是循环依赖1.1 互相依赖1.2 递归依赖 2. Sping中循环依赖有什么问题&#xff1f;3. 什么是三级缓存4. Spring 可以解决哪些情况的循环依赖&#xff1f; 二级缓存作用——普通循环依赖实操环节1. 实例化类A对象2. 实例化类B对象3. B对象完成创建4.继续创建A…

合宙Air724UG LuatOS-Air LVGL API--对象

对象 概念 在 LVGL 中&#xff0c;用户界面的基本构建块是对象。例如&#xff0c;按钮&#xff0c;标签&#xff0c;图像&#xff0c;列表&#xff0c;图表或文本区域。 属性 基本属性 所有对象类型都共享一些基本属性&#xff1a; Position (位置) Size (尺寸) Parent (父母…

2.文章复现《热电联产系统在区域综合能源系统中的定容选址研究》(附matlab程序)

0.代码链接 1.简述 光热发电是大规模利用太阳能的新兴方式&#xff0c;其储热系 统能够调节光热电站的出力特性&#xff0c;进而缓解光热电站并网带来的火电机组调峰问题。合理配置光热电站储热容量&#xff0c;能够 有效降低火电机组调峰成本。该文提出一种光热电站储热容 量配…

mysql-sql性能分析工具

一、sql执行频率 MySQL 客户端连接成功后&#xff0c;通过 show [session|global] status 命令可以提供服务器状态信息。通过如下指令&#xff0c;可以查看当前数据库的INSERT、UPDATE、DELETE、SELECT的访问频次&#xff1a; -- session 是查看当前会话 ; -- global 是查询全…

异地机房容灾备份方案,异地容灾备份方式有哪些

任何时候&#xff0c;我们都不能避免自然灾害、硬件问题、黑客攻击等事故。这些事情可能会导致数据中心的偏瘫&#xff0c;甚至影响整个业务的正常使用。因此&#xff0c; 机房容灾备份计划已成为确保业务连续性的关键对策。 一、异地机房容灾备份方案是什么&#xff1f; 国外…

运维高级学习--Docker(二)

1、使用mysql:5.6和 owncloud 镜像&#xff0c;构建一个个人网盘。 #拉取mysql5.6和owncloud镜像 [rootlocalhost ~]# docker pull mysql:5.6 [rootlocalhost ~]# docker pull owncloud [rootlocalhost ~]# docker images REPOSITORY TAG IMAGE ID CREATED …

接口自动化yaml文件读取与写入

前言 在走进yaml文件之前大家应该都很想知道他是用来干嘛的&#xff1f; 是的是的&#xff0c;他是用来做接口自动化测试的。 我们一起来学习他吧&#xff01;——&#xff08;一定要收藏带走哦❤&#xff09; 1、yaml文件有什么作用呢&#xff1f; ①可作为配置文件使用—…

maven工具-maven的使用-镜像仓库、本地仓、IDEA使用maven

Maven 一、为什么使用maven 添加第三方jar包jar包之间的依赖关系处理jar包之间的冲突获取第三方jar包将项目拆分成多个工程模块实现项目的分布式部署 二、maven简介 ​ Maven项目对象模型(POM)&#xff0c;可以通过一小段描述信息来管理项目的构建&#xff0c;报告和文档的…

Pytorch06-复杂模型构建

https://github.com/ExpressGit/Pytorch_Study_Demo 1、PyTorch 复杂模型构建 1、模型截图2、模型部件实现3、模型组装 2、模型定义 2.1、Sequential 1、当模型的前向计算为简单串联各个层的计算时&#xff0c; Sequential 类可以通过更加简单的方式定义模型。2、可以接收…

学习ts(七)泛型

定义 泛型允许我们在强类型程序设计语言中编写代码时使用一些以后才指定的类型&#xff0c;在实例化时作为参数指明这些类型。在ts中&#xff0c;定义函数、接口或类的时候&#xff0c;不预先定义好具体的类型&#xff0c;而在使用的时候在指定类型的一种特性。 例子&#xff…

数据库——Redis 单线程模型详解

文章目录 Redis 基于 Reactor 模式来设计开发了自己的一套高效的事件处理模型 &#xff08;Netty 的线程模型也基于 Reactor 模式&#xff0c;Reactor 模式不愧是高性能 IO 的基石&#xff09;&#xff0c;这套事件处理模型对应的是 Redis 中的文件事件处理器&#xff08;file …

day 38 | ● 518. 零钱兑换 II ● 377. 组合总和 Ⅳ

518. 零钱兑换 II 这道题就是完全背包问题&#xff0c;因为可以选择的数量是无限的。所以第二层的遍历顺序就是从前往后。 因为是次数问题&#xff0c;递推公式是 的&#xff0c;初值应该设定为dp【0】 1&#xff0c;否则无法进行累加。 func change(amount int, coins []i…

线性代数的学习和整理5: 矩阵的加减乘除及其几何意义

目录 1 矩阵加法 1.1 矩阵加法的定义 1.2 加法的属性 1.2.1 只有同类型&#xff0c;相同n*m的矩阵才可以相加 1.2.1 矩阵加法的可交换律&#xff1a; 1.2.2 矩阵加法的可结合律&#xff1a; 1.3矩阵加法的几何意义 2 矩阵的减法 2.1 矩阵减法定义和原理基本同 矩阵的…

正则表达式一小时学完

闯关式学习Regex 正则表达式&#xff0c;我感觉挺不错的&#xff0c;记录一下。 遇到不会的题&#xff0c;可以评论交流。 真的很不错 链接 Regex Learn - Step by step, from zero to advanced.

Linux常用命令——dhcrelay命令

在线Linux命令查询工具 dhcrelay 使用dhcrelay命令可以提供中继DHCP和BOOTP请求 补充说明 dhcrelay命令使用dhcrelay命令可以提供中继DHCP和BOOTP请求&#xff0c;从一个没有DHCP服务器的子网直接连接到其它子网内的一个或多个DHCP服务器。该命令在DHCP中继服务器上使用&am…

广播与组播

广播含义 数据包发送方式只有一个接收方&#xff0c;称为单播如果同时发给局域网中的所有主机&#xff0c;称为广播只有用户数据报&#xff08;使用UDP协议&#xff09;套接字才能广播广播地址 一个网络内主机号全为1的IP地址为广播地址 发到该地址的数据包被所有的主机接收 2…