第五届“泰迪杯”数据分析技能赛 经验/代码分享
品牌:“泰迪杯”数据分析技能赛
组织单位:泰迪杯数据分析技能赛组织委员会、广东泰迪智能科技股份有限公司、广东省工业与应用数学学会、人民邮电出版社、北京泰迪云智信息技术研究院、网宿科技股份有限公司
数据+代码分享:
链接:https://pan.baidu.com/s/1D32jlIgXuSiJWNN-w1ZKqQ?pwd=xx78
提取码:xx78
(献丑奉上,,求个关注嘛,嘿嘿,拜托拜托~)
比赛时间:
2022-11-12 ~ 2022-11-13 每天早上8:00~晚上20:00
题目展示:
泰迪杯分析赛分AB两题,每题都单独评委评分,可以任选一题做或者两题都做,建议两个题都做。
获奖展示:
经验总结:
虽然比不上荣获“泰迪杯”的大佬队伍,但是获得两个一等奖也还算阔以,(嘿嘿)以下是我通过这场比赛的感悟总结(我们是进行“老带新”模式,大三带大二参赛)。
1、组队队友选择:
寻找另外两个队友时,最好寻找一男一女搭配,女生最好是文采比较好,有word撰写论文经验最佳,男生最好能基础编程,数据处理、简单可视化操作。
2、分工明确:
作为队长,在比赛一开始阅读完题目后,就需要合理分配任务,比如题目的前一,前二大题是数据处理和可视化,可以分配给男生,构思论文结构然后交代给女生,让她先搭建好论文框架,最后分工明确、层层把关。
3、队内队外勤交流
队内,每做完一题,需要和负责论文撰写的进行明确交流,必要的文字描述和结果截图都需要两人合作交流写在论文。
队外,可以与其他队交流难题,分享做题解决办法,加快做题速度。“互相帮助”。
解题流程和必备知识点技能:
对于解题流程和需要掌握的知识点以及必备技能,我整理了XMind思维导图文件如下:
XMind思维导图文件链接:https://pan.baidu.com/s/1L83550izPkVhy7VHZAmpoQ?pwd=xx78
提取码:xx78
泰迪杯一般处理流程
数据读取
读取方式
df=pd.read_csv(“df_train_a1.csv”)
df=pd.read_excel(“C:/Users/X/Jupyter_file/B题/附件/附件1.xlsx”,sheet_name=‘安徽省’)
dates = pd.read_csv(‘dates.txt’, names=[‘col1’,‘col2’], header=None)
- df=pd.read_csv(“df_train_a1.csv”)
- df=pd.read_excel(“C:/Users/X/Jupyter_file/B题/附件/附件1.xlsx”,sheet_name=‘安徽省’)
- dates = pd.read_csv(‘dates.txt’, names=[‘col1’,‘col2’], header=None)
读取表格拼接
-
pd.concat([data,data1],axis=1)
-
pd.merge(data,data1,on=‘ID’)
数据处理、分析
数据整体查看
- df.info()
- df.isnull().sum()
- df.describe()
重复值处理
- df[df[‘MEMBER_NO’].duplicated()]
- df.drop_duplicates()
- df.drop_duplicates(subset=[‘A’,‘B’],keep=‘first’,inplace=True)
异常值处理
-
箱线图展示大概离群值
- import seaborn as sns
sns.boxplot(x=data[‘sepal length (cm)’],data=data)
- import seaborn as sns
-
详细显示离群临界点
- print(np.percentile(df[‘basic_4’],99))
print(np.percentile(df[‘basic_4’],1))
- print(np.percentile(df[‘basic_4’],99))
缺失值处理
- 删除
- 均值填充
- 随机填充
- 关联填充
各列特征数据展示
数据可视化
plt
pyecharts
tableau
- 仪表盘数字大屏
特征工程
特征编码
- sparse矩阵
- one-hot编码
特征衍生
数据归一化、标准化
特征筛选
- 删除低方差特征
- 相关系数热力图
- 模型的特征重要性展示选择
数据上采样、下采样
特征降维
- PCA降维、反向随机特征选择
机器学习建模
数据集划分
建模
-
监督学习
-
分类
- 随机森林
- 决策树
- KNN
-
回归
- 线性回归模型
- 随机森林
- 决策树
-
-
无监督学习
-
聚类
- k-means
-
训练、预测
模型评估
-
调参
-
评估指标
-
稀疏矩阵
-
分类
- 随机森林
- 决策树
- KNN
-
回归
- 线性回归模型
- 随机森林
- 决策树
-
-
无监督学习
-
聚类
- k-means
-
训练、预测
模型评估
- 调参
- 评估指标
- 稀疏矩阵