第五届“泰迪杯”数据分析技能赛经验代码分享

第五届“泰迪杯”数据分析技能赛经验/代码分享

品牌：“泰迪杯”数据分析技能赛

组织单位：泰迪杯数据分析技能赛组织委员会、广东泰迪智能科技股份有限公司、广东省工业与应用数学学会、人民邮电出版社、北京泰迪云智信息技术研究院、网宿科技股份有限公司

数据+代码分享：

链接：https://pan.baidu.com/s/1D32jlIgXuSiJWNN-w1ZKqQ?pwd=xx78
提取码：xx78

在这里插入图片描述

（献丑奉上，，求个关注嘛，嘿嘿，拜托拜托~）

比赛时间：

2022-11-12 ~ 2022-11-13 每天早上8:00~晚上20:00

题目展示：

泰迪杯分析赛分AB两题，每题都单独评委评分，可以任选一题做或者两题都做，建议两个题都做。
在这里插入图片描述

在这里插入图片描述

获奖展示：

在这里插入图片描述

经验总结：

虽然比不上荣获“泰迪杯”的大佬队伍，但是获得两个一等奖也还算阔以，（嘿嘿）以下是我通过这场比赛的感悟总结（我们是进行“老带新”模式，大三带大二参赛）。

1、组队队友选择：

寻找另外两个队友时，最好寻找一男一女搭配，女生最好是文采比较好，有word撰写论文经验最佳，男生最好能基础编程，数据处理、简单可视化操作。

2、分工明确：

作为队长，在比赛一开始阅读完题目后，就需要合理分配任务，比如题目的前一，前二大题是数据处理和可视化，可以分配给男生，构思论文结构然后交代给女生，让她先搭建好论文框架，最后分工明确、层层把关。

3、队内队外勤交流

队内，每做完一题，需要和负责论文撰写的进行明确交流，必要的文字描述和结果截图都需要两人合作交流写在论文。

队外，可以与其他队交流难题，分享做题解决办法，加快做题速度。“互相帮助”。

解题流程和必备知识点技能：

对于解题流程和需要掌握的知识点以及必备技能，我整理了XMind思维导图文件如下:

XMind思维导图文件链接：https://pan.baidu.com/s/1L83550izPkVhy7VHZAmpoQ?pwd=xx78
提取码：xx78

在这里插入图片描述

泰迪杯一般处理流程

数据读取

读取方式

df=pd.read_csv(“df_train_a1.csv”)
df=pd.read_excel(“C:/Users/X/Jupyter_file/B题/附件/附件1.xlsx”,sheet_name=‘安徽省’)
dates = pd.read_csv(‘dates.txt’, names=[‘col1’,‘col2’], header=None)

df=pd.read_csv(“df_train_a1.csv”)
df=pd.read_excel(“C:/Users/X/Jupyter_file/B题/附件/附件1.xlsx”,sheet_name=‘安徽省’)
dates = pd.read_csv(‘dates.txt’, names=[‘col1’,‘col2’], header=None)

读取表格拼接

pd.concat([data,data1],axis=1)
pd.merge(data,data1,on=‘ID’)

数据处理、分析

数据整体查看

df.info()
df.isnull().sum()
df.describe()

重复值处理

df[df[‘MEMBER_NO’].duplicated()]
df.drop_duplicates()
df.drop_duplicates(subset=[‘A’,‘B’],keep=‘first’,inplace=True)

异常值处理

箱线图展示大概离群值
- import seaborn as sns
  sns.boxplot(x=data[‘sepal length (cm)’],data=data)
详细显示离群临界点
- print(np.percentile(df[‘basic_4’],99))
  print(np.percentile(df[‘basic_4’],1))