第五届“泰迪杯”数据分析技能赛 经验代码分享

第五届“泰迪杯”数据分析技能赛 经验/代码分享

品牌:“泰迪杯”数据分析技能赛

组织单位:泰迪杯数据分析技能赛组织委员会、广东泰迪智能科技股份有限公司、广东省工业与应用数学学会、人民邮电出版社、北京泰迪云智信息技术研究院、网宿科技股份有限公司

数据+代码分享:

链接:https://pan.baidu.com/s/1D32jlIgXuSiJWNN-w1ZKqQ?pwd=xx78
提取码:xx78

在这里插入图片描述

(献丑奉上,,求个关注嘛,嘿嘿,拜托拜托~)

比赛时间:

2022-11-12 ~ 2022-11-13 每天早上8:00~晚上20:00

题目展示:

泰迪杯分析赛分AB两题,每题都单独评委评分,可以任选一题做或者两题都做,建议两个题都做。
在这里插入图片描述

在这里插入图片描述

获奖展示:

在这里插入图片描述

在这里插入图片描述

经验总结:

虽然比不上荣获“泰迪杯”的大佬队伍,但是获得两个一等奖也还算阔以,(嘿嘿)以下是我通过这场比赛的感悟总结(我们是进行“老带新”模式,大三带大二参赛)。

1、组队队友选择:

寻找另外两个队友时,最好寻找一男一女搭配,女生最好是文采比较好,有word撰写论文经验最佳,男生最好能基础编程,数据处理、简单可视化操作。

2、分工明确:

作为队长,在比赛一开始阅读完题目后,就需要合理分配任务,比如题目的前一,前二大题是数据处理和可视化,可以分配给男生,构思论文结构然后交代给女生,让她先搭建好论文框架,最后分工明确、层层把关。

3、队内队外勤交流

队内,每做完一题,需要和负责论文撰写的进行明确交流,必要的文字描述和结果截图都需要两人合作交流写在论文。

队外,可以与其他队交流难题,分享做题解决办法,加快做题速度。“互相帮助”。

解题流程和必备知识点技能:

对于解题流程和需要掌握的知识点以及必备技能,我整理了XMind思维导图文件如下:

XMind思维导图文件链接:https://pan.baidu.com/s/1L83550izPkVhy7VHZAmpoQ?pwd=xx78
提取码:xx78

在这里插入图片描述

泰迪杯一般处理流程

数据读取

读取方式

df=pd.read_csv(“df_train_a1.csv”)
df=pd.read_excel(“C:/Users/X/Jupyter_file/B题/附件/附件1.xlsx”,sheet_name=‘安徽省’)
dates = pd.read_csv(‘dates.txt’, names=[‘col1’,‘col2’], header=None)

  • df=pd.read_csv(“df_train_a1.csv”)
  • df=pd.read_excel(“C:/Users/X/Jupyter_file/B题/附件/附件1.xlsx”,sheet_name=‘安徽省’)
  • dates = pd.read_csv(‘dates.txt’, names=[‘col1’,‘col2’], header=None)

读取表格拼接

  • pd.concat([data,data1],axis=1)

  • pd.merge(data,data1,on=‘ID’)

数据处理、分析

数据整体查看

  • df.info()
  • df.isnull().sum()
  • df.describe()

重复值处理

  • df[df[‘MEMBER_NO’].duplicated()]
  • df.drop_duplicates()
  • df.drop_duplicates(subset=[‘A’,‘B’],keep=‘first’,inplace=True)

异常值处理

  • 箱线图展示大概离群值

    • import seaborn as sns
      sns.boxplot(x=data[‘sepal length (cm)’],data=data)
  • 详细显示离群临界点

    • print(np.percentile(df[‘basic_4’],99))
      print(np.percentile(df[‘basic_4’],1))

缺失值处理

  • 删除
  • 均值填充
  • 随机填充
  • 关联填充

各列特征数据展示

数据可视化

plt

pyecharts

tableau

  • 仪表盘数字大屏

特征工程

特征编码

  • sparse矩阵
  • one-hot编码

特征衍生

数据归一化、标准化

特征筛选

  • 删除低方差特征
  • 相关系数热力图
  • 模型的特征重要性展示选择

数据上采样、下采样

特征降维

  • PCA降维、反向随机特征选择

机器学习建模

数据集划分

建模

  • 监督学习

    • 分类

      • 随机森林
      • 决策树
      • KNN
    • 回归

      • 线性回归模型
      • 随机森林
      • 决策树
  • 无监督学习

    • 聚类

      • k-means

训练、预测

模型评估

  • 调参

  • 评估指标

  • 稀疏矩阵

    • 分类

      • 随机森林
      • 决策树
      • KNN
    • 回归

      • 线性回归模型
      • 随机森林
      • 决策树
  • 无监督学习

    • 聚类

      • k-means

训练、预测

模型评估

  • 调参
  • 评估指标
  • 稀疏矩阵

保存模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69340.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

奥运会数据分析

本项目将会从以下角度来呈现奥运会历史: 1、🏆各国累计奖牌数; 2、⚽️各项运动产生金牌数 3、⛳️运动员层面 参赛人数趋势 女性参赛比例趋势 获得金牌最多的运动员 获得奖牌/金牌比例 各项目运动员平均体质数据 4、主要国家表现 &am…

数据分析案例-往届世界杯数据可视化

目录 1.引言 2.项目简介 2.1数据集介绍 2.2技术工具 3.数据可视化 3.1往届世界杯获奖国家TOP5 3.2往届世界杯比赛数据情况 3.3往届世界杯观众人数情况 3.4往届世界杯主办方情况 3.5往届世界杯冠军队情况 1.引言 足球是世界上非常受欢迎的运动之一,在全球…

还在开发短信验证码登录?试试(本机号码一键登录)

点击上方蓝字关注我们 技术总监面试,提问:Redis热点key解决方案 一、 关于秒验(一键登录)基本原理 秒验(一键登录)产品整合了三大运营商特有的数据网关认证能力,升级短信验证码体验,…

模拟验证码发送

目录 一.模拟验证码发送 1.输入手机号,点击发送随机生成6位数字码, 2.两分钟内有效,把验证码放入Redis里面,设置过期时间为120秒 3.判断验证码是否符合一致,从Redis获取验证码和输入的验证码进行比较 4…

打造抖音爆款脚本文案,让你分分钟钟上热门涨粉。

要想在抖音里面占据一席之地,运营者必须具备基本的短视频脚本创作能力。 有的人,为了一个创意能想上一天;而有的人,通过一些技巧,延伸出无数个好的想法。 那么优质的短视频脚本的创意又是从何而来的呢?猫哥告诉你短视频脚本文案要怎么写。 如果你本身是做文案工作的,…

1062 Talent and Virtue (25 分)排序(水题)

题目 About 900 years ago, a Chinese philosopher Sima Guang wrote a history book in which he talked about people’s talent and virtue. According to his theory, a man being outstanding in both talent and virtue must be a “sage(圣人)”…

PAT甲级 1011 World Cup Betting (20 分) 题解

\quad 这个题难在题意理解上面,说白了就是给你九个数,三个一组,找出一组中最大的数字并记录下这个数所属类别(W,T,L)。一行是一组。最后把每个组最大的数乘起来,乘0.65,再减去1,最后将所得结果乘2输出。即 …

day8 足球运动员分析

足球运动员分析 背景信息 当前,足球运动是最受欢迎的运动之一(也可以说没有之一)。 任务说明 我们的任务,就是在众多的足球运动员中,发现统计一些关于足球运动员的共性,或某些潜在的规律。 数据集描述…

The Most Common Habits from more than 200 English Papers written by Graduate Chinese Students

目录 定冠词/不定冠词的使用 a an the句子不要太长在段落开始直接陈述中心思想不要在段落开头直接使用时间状语从句将重要的主语放在最最开始以表示强调which/that所引导的定语从句的指代不明Respectively的使用有关in this paper/study数字‘Figure’ and ‘Table’‘such as’…

GPT系列的数据集之谜

文|Alan D. Thompson 源|OneFlow 译|杨婷、徐佳渝、贾川 半个月以来,ChatGPT这把火越烧越旺。国内很多大厂相继声称要做中文版ChatGPT,还公布了上线时间表,不少科技圈已功成名就的大佬也按捺不住&#xf…

Claude 2 解读 ChatGPT 4 的技术秘密:细节:参数数量、架构、基础设施、训练数据集、成本...

“ 解密 ChatGPT 4的模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、令牌计数、层数、并行策略、多模态视觉适应、不同工程权衡背后的思维过程、独特的实施技术。” ‍‍‍‍ 01 — 最近偶然看到一份文档《GPT-4 Architecture, Infrastructure, Training Da…

Window的创建

Window的创建 上一篇说到了Window和WindowManager的关系并且讲述了WindowManager如何添加Window与Window内部的三个方法的实现 这篇主要讲几个常见的Window的创建比如Activity,Dialog和Toast 其中Activity属于应用Window Dialog属于子Window Toast属于系统Window z-order…

密码验证 长度八位包含字母数字特殊字符

View Code 1 #region 密码验证2 if (tbPassword.Text "")3 {4 CommonFunction.ShowMessage(this.Page, "密码不能为空");5 return;6 }7 …

smart计算机英语作文,关于科技的英语作文(精选5篇)

关于科技的英语作文(精选5篇) 在平平淡淡的日常中,大家都跟作文打过交道吧,写作文可以锻炼我们的独处习惯,让自己的心静下来,思考自己未来的方向。一篇什么样的作文才能称之为优秀作文呢?下面是小编精心整理的关于科技…

华为鸿蒙的科技话题作文800字,科技的发展作文800字4篇

科技的发展作文800字4篇 科技改变生活,可以说没有科技的高速发展就没有今天的我们。那么以下是小编为大家整理的科技的发展作文800字,欢迎大家阅读! 科技的发展作文800字(一) 随着科学技术的高度发展,科技是利是弊成了人们热议的话…

计算机未来的发展英语作文,关于科技发展英语作文(通用10篇)

关于科技发展英语作文(通用10篇) 在平平淡淡的学习、工作、生活中,大家总免不了要接触或使用作文吧,写作文可以锻炼我们的独处习惯,让自己的心静下来,思考自己未来的方向。那么一般作文是怎么写的呢?下面是小编为大家整…

计算机技术发展作文,【推荐】科技发展作文三篇

【推荐】科技发展作文三篇 在日复一日的学习、工作或生活中,大家都写过作文,肯定对各类作文都很熟悉吧,作文是经过人的思想考虑和语言组织,通过文字来表达一个主题意义的记叙方法。相信许多人会觉得作文很难写吧,下面是…

Android混合开发快速上手掌握

目录 一 混合开发简介 二 Android-Js互调 2.1 准备自己的html文件 2.2 WebView控件的准备设置 2.3 Android调用Js代码 2.4 Js调用Android方法和传参数 三 常用的几个方法和注意点 3.1 WebViewClient中的shouldOverrideUrlLoading拦截url 3.2 WebViewClient中的onPageS…

安卓开发快速集成即时通讯聊天,只需几行代码轻松实现

信贸通即时通讯系统,一款跨平台可定制的 P2P 即时通信系统,为电子商务网站及各行业门户网站和企事业单位提供“一站式”定制解决方案,打造一个稳定,安全,高效,可扩展的即时通信系统,支持在线聊天…

IM即时通讯聊天,5分钟显示一次时间。JS

想在聊天界面想做个和微信一样的时间显示 达到下图这种效果 百度了一下,发现都是有点不全的,把网上的合并了一下组成下方的js文件 记录一下 1.建议新建一个JS文件 common.js 1.第一个方法是把时间戳转成具体时间日期 /** * 对Date的扩展,将…