Kaggle系列(一):Spaceship Titanic(太空飞船泰坦尼克)

开坑开坑Kaggle系列(通过kaggel练习机器学习与数据分析能力)

2022年3月9日,这是第一个版本的太空泰坦尼克任务

我的Github中发布了本任务包含的相应源码与思路分析讲解,欢迎来⭐。

本文主要记录如何对数据进行分析的过程。

开始开始!!!

----------------------------------------------------------分割线--------------------------------------------------------------

首先我们对数据进行下载

由于可能产生的版权或者一系列的问题,就不将数据集放置在此。

你可以从kaggle的网站上下载数据集。url:Spaceship Titanic | Kaggle

"""从官网摘录的字段描述 from Spaceship Titanic | Kaggle"""

""" train.csv - Personal records for about two-thirds (~8700) of the passengers, to be used as training data.

PassengerId - A unique Id for each passenger. Each Id takes the form gggg_pp where gggg indicates a group the passenger is travelling with and pp is their number within the group. People in a group are often family members, but not always.(乘客的ID 共由六位数字组成,前四位为团队编号,代表可能为一同参加的旅行)

HomePlanet - The planet the passenger departed from, typically their planet of permanent residence.(乘客所属母星)

CryoSleep - Indicates whether the passenger elected to be put into suspended animation for the duration of the voyage. Passengers in cryosleep are confined to their cabins.(是否处于休眠状态)

Cabin - The cabin number where the passenger is staying. Takes the form deck/num/side, where side can be either P for Port or S for Starboard.(乘客的床铺位置)

Destination - The planet the passenger will be debarking to.(乘客目的地)

Age - The age of the passenger.(乘客年龄)

VIP - Whether the passenger has paid for special VIP service during the voyage.(乘客是否为VIP客户)

RoomService, FoodCourt, ShoppingMall, Spa, VRDeck - Amount the passenger has billed at each of the Spaceship Titanic's many luxury amenities.(乘客在船上各类的消费数量) Name - The first and last names of the passenger.(乘客姓名)

Transported - Whether the passenger was transported to another dimension. This is the target, the column you are trying to predict.(乘客是否进入异次元空间)

test.csv - Personal records for the remaining one-third (~4300) of the passengers, to be used as test data. Your task is to predict the value of Transported for the passengers in this set.(测试集除了不提供Transported属性外,其他与训练集相同) """

数据集中包含训练集,测试集与示例提交样本(未进行摘录)。训练集与测试集中的样本属性相同且在某些特定属性中含有缺失值。

首先我们假设所有属性均独立,所以我们需要对各属性是否对乘客进入异次元空间有影响做出分析。

我们分析了“乘客一同参加的旅行团队的成员数量find_connection_in id.py”,“乘客所属母星find_connection_in HomePlanet.py”,“是否处于休眠状态find_connection_in cryosleep.py”,“乘客目的地find_connection_in destination.py”,“乘客是否为VIP客户find_connection_in VIP.py”属性对于乘客是否进入异次元空间的影响。

运行find_connection_in id.py我们得到:

此处说明乘客一同参加的旅行团队的成员数量与乘客是否进入异次元空间有一定影响

运行find_connection_in HomePlanet.py我们得到:

此处说明乘客所属母星与乘客是否进入异次元空间有一定影响

运行find_connection_in cryosleep.py我们得到:

此处说明乘客是否处于休眠状态与乘客是否进入异次元空间有大量影响

运行find_connection_in destination.py我们得到:

此处说明乘客目的地与乘客是否进入异次元空间有一定影响

运行find_connection_in VIP.py我们得到:

此处说明乘客是否为VIP客户与乘客是否进入异次元空间有一定影响

年龄属性:有着较好区分人物的效果,且数值方便处理,所以决定加入训练属性中。

消费金额的五个属性:通过将训练集中的部分拆分为验证集的方法,并加入这五个属性进行验证性训练(find_connection_in consumption.py),我们发现损失值大大降低,并且这五个属性中都为消费金额,为可直接处理的连续值,虽然在数据集中含有缺失数据的情况,但均将缺失数据赋值为0进行训练。

而最终本实验共训练11/12个属性:HomePlanet(将原星球使用0/1/2代替)&& CryoSleep(不做处理)&& Destination(将目的地星球使用0/1/2代替)&& Age(不做处理)&& VIP(不做处理)&& RoomService, FoodCourt, ShoppingMall, Spa, VRDeck(消费金额,不做处理)。选择性使用旅行团队的成员数量属性进行训练(因为发现效果不佳,预计可能需要与姓名属性相配合才能达到更好的效果)

______________________________以上为数据分析部分_______________________________

___________________________以下为训练以及数据处理部分___________________________

此任务本人选用随机森林方法进行训练(因为比较方便哈哈哈哈,也是第一次在kaggle上没有寻找参考仅靠自我分析数据与构建模型,虽然最后仅获得score:0.78115,但是毕竟梦想才刚刚开始嘛对吧)

randomforest.py为随机森林训练代码(可采用不同属性进行尝试虽然kaggle每天只给10次提交机会)

create_members.py为生成团队人数信息代码

以上提到的python文件的源码均在我的GitHub/Kaggle/spaceship-titanic项目中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12121.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

霍金-现代最伟大的物理学家之一、20世纪享有国际盛誉的伟人之一

据 BBC 等多家外媒报道,知名物理学家史蒂芬霍金已经去世,享年 76 岁。 霍金的家人在周三凌晨发表声明,证实他已在剑桥的家中死亡。霍金的孩子 Lucy , Robert 和Tim 在一份声明中说:“我们亲爱的父亲今天去世了!我们感到…

刚刚,霍金的一个预言成真了,这次吓坏不少人!

1 刚刚去世的霍金,对于人工智能,曾有这样的预言: 如果有人设计计算机病毒,那么就有人设计不断自我完善、直到最终超越人类的人工智能,其结果将是一种新的生命形式。 你可能并不是一个讨厌蚂蚁的人,但也会无…

霍金与硅谷:你不知道的故事

硅谷Live / 实地探访 / 热点探秘 / 深度探讨 “我的名字是斯蒂芬霍金,在过去的50年中,我到全世界进行演讲和学习,给大众普及关于时间和空间的奥秘,还有那掌握全宇宙的法则。” Welcome to my world。 2012年,6月19日晚…

细数霍金关于AI的五大预言,向伟大的科学巨人致敬

今天,我们这个时代最著名的物理学家之一斯蒂芬霍金去世了,享年76岁。这位英国科学家以其在黑洞和相对论方面的开创性著作而闻名,并撰写了几部畅销书。 2017年,霍金宣布将他在1966年,也就是24岁时撰写的博士论文上传到剑…

霍金去世 但他对人工智能的预言时刻提醒着人类!【附霍金一生大事记】

▼ 点击上方蓝字 关注网易智能 为你解读AI领域大公司大事件,新观点新应用 【网易智能讯 3月14日消息】据英国天空新闻等多家媒体报道,世界著名物理学家史蒂芬霍金去世,享年76岁。 让我们回顾下霍金的一生: 1968年 霍金与乔治艾利斯…

《时代》专访ChatGPT之父:人工智能影响经济还需要很多年

划重点: ① OpenAI的首席执行官山姆奥特曼(Sam Altman)曾表示,如果使用不当,人工智能会让所有人都消亡。 ② 在倡导人工智能可能性的同时,奥特曼敦促政策制定者制定规则和通过监管来减轻人工智能可能带来的…

知识就是力量,图谱路在何方 | ChatGPT冲击下,招商银行如何“抢救”知识图谱?

“知识就是力量”我们耳熟能详,但培根的这句话其实还有后半句“更重要的是运用知识的技能”。对于人工智能来说,知识图谱就是其如何对知识进行运用的技能体现。在金融领域,如何运用这一技能更好地理解客户需求,提高业务效率和客户…

可以免费使用的ChatGPT-4,微软开放Bing Chat功能,供用户体验

微软Bing取消了 Bing Chat的等待名单,现在用户可以通过使用 Edge 浏览器并使用微软帐户登录就可以使用Bing Chat了。 ▐ 入口 打开Bing首页,用户点击 "聊天/Chat" 即可进入Bing Chat界面。目前Bing Chat提供了三种响应风格(更有创…

ChatGPT vs. Bing vs. Bard

随着 2022 年 ChatGTP 的推出,人工智能聊天机器人的世界突然走上了一条新道路。如今,密切关注 AI 的人都知道,不同公司推出了几款产品。从谷歌拥有自己的 Bard AI,到微软发布新的 Bing AI Chat,再到 OpenAI 发布GPT-4。…

嗯?大火的ChatGPT和new bing都离不开它?

概述:本文是对 WhalePaper 向量检索领域第一次直播活动内容的文字版,会对向量检索这个 ChatGPT 和 new bing 都离不开的技术进行介绍,结合了 ChatGPT 以及 new bing 的应用场景进行讲解,相信被标题骗进来的你还真能有所收获的&…

微软再次挑战谷歌搜索市场,Bing已经深度整合OpenAI,你会用 Bing 的 ChatGPT 做些什么?

输入特定关键字并努力寻找所需信息的日子已经一去不复返了 输入特定关键字并努力寻找所需信息的日子已经一去不复返了。Microsoft Bing 即将发布其 ChatGPT 集成,这将允许用户以自然的方式提问并获得量身定制的搜索体验,这将重塑我们探索互联网的方式。 我预览了 Bing 的 C…

New bing带着chatGPT来啦

话不多说,随着chatGPT的到来,GPT-4的升级,AI时代真的要来啦。现在微软浏览器 bing 已经接入最新的GPT版本,而且是免费,重要的事情说三遍,免费使用GPT,免费使用GPT,免费使用GPT&#…

ChatHub | 卧龙和凤雏!同时对话ChatGPT和新Bing!~

1写在前面 最近忙的不行,根本没有时间打开电脑。💻 随着GPT-4和new bing的发布,真的可以说是AI的iphone时刻到来了。🤩 现在也是越来越多的网站接入了AI,以后人人都可以是程序员了。😚 New Bing在GPT-4的加…

chatGPT 商业会员系统开源

前言 本项目是一个商用版服务平台,基于Java语言实现服务端功能,前端使用React框架,底层使用官方的ChatGPT API。用户可以通过一键部署方便地使用本平台。除了支持chat对话模型外,还支持openai官方所有api,包括余额查询…

2023最新ChatGPT商用源码+支持ai绘画(Midjourney)+GPT4.0+Dall-E2绘画+支持Mind思维导图生成

目录 1.系统演示 1.1 GPT模型提问 1.3 Midjourney专业绘画 1.4 mind思维导图 1.5 AI绘画广场 2.SparkAi商用系统介绍 2.1前台演示站点 2.2 SparkAi源码下载 2.3 源码部署教程 3.开始搭建 3.1基础env环境配置 4.环境安装 4.1 Node版本 4.2 安装pnpm模块 4.3 安装…

2023最新ChatGPT商用网站源码V4.8.4+支持MJ绘画+GPT4.0

2023最新ChatGPT商用网站源码V4.8.4支持MJ绘画GPT4.0 可同时、单独、开启或者关闭GPT3.5和GPT4.0两种ChatGPT提问模型,用户可切换,次数套餐也是分开的。支持手机电脑不同布局页面自适应。 一、程序 下载:ChatGPT商业运营网站系统支持GTP4支持…

chatgpt赋能python:用Python改变图片颜色

用Python改变图片颜色 在数字化时代,图片已经成为了重要的沟通方式,无论是在社交媒体、广告还是推销中。但是,有时候我们需要一些新的创意,比如更改图片颜色。那么,如何用Python改变图片颜色呢? 准备工作…

如何在 Hexo Blog 网站上添加图标(iconfont 使用)

emsp; 因为在制作自己的个人主页的时候遇到了Hexo主题没有提供对应图标的问题,就查看了一下Hexo主题是如何添加图标的。发现主要的方法是直接修改fonts文件夹下的iconfont.svg文件。修改yilia theme下的font文件,这个也刚好是同学blog使用的主题&#x…

chatgpt赋能python:Python没有桌面图标:一个程序员的经验分享

Python没有桌面图标:一个程序员的经验分享 如果你是一个有着十年Python编程经验的程序员,那么你一定会知道Python在许多方面都是一个非常强大和灵活的编程语言。但是,如果你在编写Python代码时使用了桌面图标,你可能会感到有些困…

chatgpt赋能python:Python图标长什么样子?

Python图标长什么样子? 如果你是一名Python开发人员或一位正在学习Python编程语言的初学者,你可能已经熟悉了Python的图标。但是,你知道Python的图标长什么样子吗?在这篇文章中,我们将介绍Python的图标是什么&#xf…