参加Kaggle比赛的流程

请提前准备好python的数据分析相关库,例如pandas、numpy、sklearn等

1. 参加比赛:Titanic

1.1 在比赛页面下载数据

这里以“泰坦尼克号生存率预测”案例为例
在这里插入图片描述

train.csv为训练集,
test.csv为测试集,
gender_submission.csv为提交的样例,用于告诉你提交的格式

1.2 分析数据并训练分类器

# -*- coding: utf-8 -*-import pandas as pd #数据分析
import numpy as np #科学计算
from pandas import Series,DataFramedata_train = pd.read_csv("G:/Machine Learning/Kaggle/GettingStar/Titanic/train.csv")
data_trainfrom sklearn.ensemble import RandomForestRegressor### 使用 RandomForestClassifier 填补缺失的年龄属性
def set_missing_ages(df):# 把已有的数值型特征取出来丢进Random Forest Regressor中age_df = df[['Age','Fare', 'Parch', 'SibSp', 'Pclass']]# 乘客分成已知年龄和未知年龄两部分known_age = age_df[age_df.Age.notnull()].as_matrix()unknown_age = age_df[age_df.Age.isnull()].as_matrix()# y即目标年龄y = known_age[:, 0]# X即特征属性值X = known_age[:, 1:]# fit到RandomForestRegressor之中rfr = RandomForestRegressor(random_state=0, n_estimators=2000, n_jobs=-1)rfr.fit(X, y)# 用得到的模型进行未知年龄结果预测predictedAges = rfr.predict(unknown_age[:, 1::])# 用得到的预测结果填补原缺失数据df.loc[ (df.Age.isnull()), 'Age' ] = predictedAges return df, rfrdef set_Cabin_type(df):df.loc[ (df.Cabin.notnull()), 'Cabin' ] = "Yes"df.loc[ (df.Cabin.isnull()), 'Cabin' ] = "No"return dfdata_train, rfr = set_missing_ages(data_train)
data_train = set_Cabin_type(data_train)dummies_Cabin = pd.get_dummies(data_train['Cabin'], prefix= 'Cabin')dummies_Embarked = pd.get_dummies(data_train['Embarked'], prefix= 'Embarked')dummies_Sex = pd.get_dummies(data_train['Sex'], prefix= 'Sex')dummies_Pclass = pd.get_dummies(data_train['Pclass'], prefix= 'Pclass')df = pd.concat([data_train, dummies_Cabin, dummies_Embarked, dummies_Sex, dummies_Pclass], axis=1)
df.drop(['Pclass', 'Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'], axis=1, inplace=True)import sklearn.preprocessing as preprocessing
scaler = preprocessing.StandardScaler()from sklearn import linear_model# 用正则取出我们要的属性值
train_df = df.filter(regex='Survived|Age_.*|SibSp|Parch|Fare_.*|Cabin_.*|Embarked_.*|Sex_.*|Pclass_.*')
train_np = train_df.as_matrix()# y即Survival结果
y = train_np[:, 0]# X即特征属性值
X = train_np[:, 1:]# fit到RandomForestRegressor之中
clf = linear_model.LogisticRegression(C=1.0, penalty='l1', tol=1e-6)
clf.fit(X, y)data_test = pd.read_csv("G:/Machine Learning/Kaggle/GettingStar/Titanic/test.csv")
data_test.loc[ (data_test.Fare.isnull()), 'Fare' ] = 0
# 接着我们对test_data做和train_data中一致的特征变换
# 首先用同样的RandomForestRegressor模型填上丢失的年龄
tmp_df = data_test[['Age','Fare', 'Parch', 'SibSp', 'Pclass']]
null_age = tmp_df[data_test.Age.isnull()].as_matrix()
# 根据特征属性X预测年龄并补上
X = null_age[:, 1:]
predictedAges = rfr.predict(X)
data_test.loc[ (data_test.Age.isnull()), 'Age' ] = predictedAgesdata_test = set_Cabin_type(data_test)
dummies_Cabin = pd.get_dummies(data_test['Cabin'], prefix= 'Cabin')
dummies_Embarked = pd.get_dummies(data_test['Embarked'], prefix= 'Embarked')
dummies_Sex = pd.get_dummies(data_test['Sex'], prefix= 'Sex')
dummies_Pclass = pd.get_dummies(data_test['Pclass'], prefix= 'Pclass')df_test = pd.concat([data_test, dummies_Cabin, dummies_Embarked, dummies_Sex, dummies_Pclass], axis=1)
df_test.drop(['Pclass', 'Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'], axis=1, inplace=True)test = df_test.filter(regex='Age_.*|SibSp|Parch|Fare_.*|Cabin_.*|Embarked_.*|Sex_.*|Pclass_.*')
predictions = clf.predict(test)
result = pd.DataFrame({'PassengerId':data_test['PassengerId'].as_matrix(), 'Survived':predictions.astype(np.int32)})
result.to_csv("G:/Machine Learning/Kaggle/GettingStar/Titanic/logistic_regression_predictions.csv", index=False)

1.3 得到分类结果,根据比赛格式要求,输出

运行完上述代码后,会得到一个logistic_regression_predictions.csv,打开后如图
在这里插入图片描述

1.4 提交结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

2. 编码环境

2.1 使用自己的Jupyter Notebook

2.2 使用Kaggle网站上的Notebook

创建一个Kaggle笔记本(“Notebook”),在其中存储所有代码

(1)单击比赛页面上的笔记本(“Notebooks”)选项卡。然后,点击“新笔记本”(“New Notebook”)。
在这里插入图片描述

(2)点击“创建”(“Create”)。(不要更改默认设置:“Python”应该出现在“Select language”下面,而您应该在“Select type”下面选择了“Notebook”。)

在这里插入图片描述
在这里插入图片描述
这显示了比赛数据的存储位置,以便我们可以将文件加载到笔记本中,下一步我们会做的。

在这里插入图片描述

至此,你只需要不断的提升你的模型即可

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/58872.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Kaggle竞赛】Kaggle竞赛了解

Contents 1 关于Kaggle竞赛 1.1 比赛奖牌规则如下:2 图像识别竞赛流程3 数据准备 3.1 模型设计3.2 迭代训练3.3 模型测试4 总结 关于Kaggle竞赛 Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle.com/,网站主页面如下&am…

【ACM训练】2023 河南 CCPC省赛 vp

2023 河南 CCPC省赛 题目链接 VP赛况: 目录 2023 河南 CCPC省赛赛况及总结赛况总结 补题 赛况及总结 赛况 开场:我提前打印了题册,于是我们开始分开看题目,我先看了A,发现很签,遂上机,8 m…

欢迎报名参加第三届火焰杯软件测试开发选拔赛

欢迎报名参加第三届火焰杯软件测试开发选拔赛- 高校赛道,预选赛在10月30日(本周日)14:00正式开始!本次预选赛开设多个奖项涉及数万元奖励 参与练习赛熟悉题型 >>> 火焰杯软件测试高校就业选拔赛https://eval…

2023年中国高校计算机大赛-团队程序设计天梯赛(GPLT)上海理工大学校内选拔赛(同步赛) A — E

2023年中国高校计算机大赛-团队程序设计天梯赛(GPLT)上海理工大学校内选拔赛(同步赛) 文章目录 A -- A Xor B Problem题目分析code B -- 吃苹果题目分析code C -- n皇后问题题目分析code D -- 分苹果题目分析code E -- 完型填空题目分析code…

有哪些信息学奥赛相关的比赛和考试

CSP-J1 CSP-S1 第1轮 初赛 相关在线测试网站 CSP-J1 CSP-S1 第1轮 初赛 相关在线测试网站_dllglvzhenfeng的博客-CSDN博客 中小学信息学相关比赛汇总(C类) 中小学信息学相关比赛汇总(C类)_中小学编程比赛_dllglvzhenfeng的博客-CS…

信息学奥赛这个竞赛,要不要入坑?

点击蓝字|关注我们 本篇文章1881 字,预计 8 分钟读完。 👆看看孩子是否适合学信息学(一年级及以上) 就在上个星期,上海市计算机学会发了两个通知,第一个是关于第三届上海市青少年算法竞赛活动时间变更的通知…

很全信息学赛事汇总来啦,快看你能参加哪些比赛?

信息学竞赛 C语言推荐赛事 蓝桥杯 C创意编程组 蓝桥杯是由工业和信息化部人才交流中心主办的赛事,比赛组别很多,信息学学子可以重点关注 C创意编程组(初级组、中级组、高级组)。 一般刚入门开始学习信息学的同学,可以尝…

【CSDN竞赛】一些对于比赛的看法和想要为大学生推荐的一些竞赛

CSDN的第五期编程挑战赛也在9月4日结束了,这场比赛在开始的时候出了一点小意外,确实服务器炸了,维修也不及时,这个锅也是逃不掉,不过好在官方最后还是修复完成,并适当的延长了比赛进入的时间,这…

信息学竞赛有什么好的比赛网站?

1、HustOJ MYOJhttp://47.110.135.197 热心家长创建的一个自测 OJ,与华中科技大学颇有渊源。不定期举办一些针对初学者的比赛。菜鸟们不妨一试。 2、信奥题库 信奥题库https://www.oitiku.com/ 3、计蒜客 www.jisuanke.com 课程要付费,但是月赛和题…

CISAW信息安全保障人员--风险管理

CISAW认证技术专业方向有十几个分类,安全集成即是依托软硬件系统,应用网络情报相关理论、技术、方法、手段和经验,获得风险化思路。国资委明确将获得CISAW认证作为测试所属企业和机构的信息化水平的评价项。 一、CISAW风险管理主要面对方向。…

以学校为背景的疫情仿真,含各种决策分析以及博弈行为(附代码)

仿真是以博主学校为原型建模的哦,其实不管是哪里都大同小异,代码是我和我一个组员一起写的,比较简单就直接仍最后面了,大家多多点赞收藏支持一下啦!博主本身不是做和图有关的问题的,这只是一个结课论文&…

实操小微风控报告中的地址信息的清洗与照面和司法数据使用

在中小微企业的大数据风控体系中,工商数据与司法数据是最基本也是最常见的两类信息维度,在企业大数据体系的应用场景中扮演着重要角色。由于企业工商与司法数据的多部分内容属于社会公开化信息,因此在行业市场内也是非常容易获取的&#xff0…

教授专栏11|张处:企业支付政策和信用风险:来自信用违约掉期(CDS)市场的证据

文 / 张处教授 莫迪里亚尼-米勒(Miller-Modigliani )的理论认为在完美市场的条件下不论公司采用何种股息政策企业价值都不会受影响。然而,在不满足此条件的市场中,股息派发的增减对企业价值会有影响,因此股息政策和股票回购政策属于重要的企业…

印度程序员工资水平

印度程序员平均工资水平 $6000 - $12,000。 中国平均水平(文中数字):$5500 - $9000 。 今天看到的一篇印度网站 indiatimes.com 上的文章,关于印度和中国在BPO(业务流程外包(Business Process Outsourcing)…

各国程序员薪资水平

👇👇关注后回复 “进群” ,拉你进程序员交流群👇👇 看到一份「2022年各国程序员的平均薪资报告」,给大家参考看看。 出品 | OSC开源社区(ID:oschina2013) 智能招聘平台 C…

【答辩问题】计算机专业本科毕业设计答辩的问题及回答

Q5你的毕业论文进行的研究方法是什么?   A:一些专业在初试中可能不会重点考察研究方法问题,但是在研究实践中研究方法却是基础,所以基础研究方法还没掌握的同学可要好好补补课了,不然没有研究方法怎么做毕业论文的研…

计算机设计大赛答辩ppt

参加的是2020年的计算机设计大赛,软件应用与开发大类。我们的答辩PPT仅供参考。 可以去我的资源扫码下载—>>>计算机设计大赛作品开发文档和答辩PPT 资源是包含开发文档和答辩PPT的。 完整展示可以看我的视频---->>>计算机设计大赛答辩PPT展示 …

[开题报告+论文+源码]基于Android仿QQ聊天系统

课题名称: 基于Android的网络聊天软件的设计与实现 1.本课题所涉及的问题在国内(外)的研究现状综述 随着科技的发展手机作为一种非常重要的通讯工具,其功能越来越强大,相对于电视、互联网等方式。手机凭借…

GAMS模型编写与求解(入门)

GAMS模型编写与求解(入门) 背景1 编写流程1.1 集合声明1.2 参数赋值1.2.1 标量声明1.2.2 一维向量声明1.2.3 二维向量声明 1.3 变量声明1.3.1 变量关键字1.3.2 举例 1.4 约束1.4.1 约束声明1.4.2 约束编写 1.5 模型建立及求解说明1.6 模型代码 2 特别注意…

数学建模----图与网络模型

目录 一.图的基本概念与数据结构 1.基本概念 2.图与网络的数据结构 1.邻接矩阵表示法 2.关联矩阵 3.Matlab工具箱简介 1.图的生成 4.问题讨论 1.最短路问题 2.最小生成树问题 一.图的基本概念与数据结构 1.基本概念 点对应于研究对象,根据关系将一些点对应相…