个人主页:在线OJ的阿川
大佬的支持和鼓励,将是我成长路上最大的动力
阿川水平有限,如有错误,欢迎大佬指正
前面的博客
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
Python初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
相信看完,您会有所了解
这是个目录
- 数据分析流程
- 详细化
- 获取数据
- 数据格式
- 评估数据
- 数据错误类型
- 如何进行评估
数据分析流程
流程:
- 获取数据
- 读取数据
- 评估数据
- 清洗数据
- 整理数据
- 分析数据
- 可视化数据
详细化
获取数据
常见两种方式
- 公开数据集平台
- 飞桨
- 天池
- 和鲸社区
- 自己获取
- 公开API
- 爬虫
数据格式
让人喜欢的数据格式
- json(编程人员喜欢的格式)
-
对象
-
数组
-
对象和数组中的数据,通过解析加转换可以变成Python数据
-
读取json格式文件实例(read_json):
-
-
- scv(分析师喜欢的格式)
- 体积小
- 结构工整
- 容易让人理解
- 读取csv格式文件实例(csv)
- 实例目录
- read_csv 读取csv格式文件
- index_col 指定标签索引
- header 指定列标签
- set_option 展示更多想要的内容
- info 展示概况信息
- describe 展示统计学信息
- 实例目录
评估数据
数据错误类型
数据错误主要分为
-
结构类
- 乱数据
- 整洁数据
- 每列是一个变量
- 每行是一个观察值
- 每个单元格是个一个值
-
内容类
- 脏数据
- 丢失数据
- 重复数据
- 不一致数据
- 无效/错误数据
- 干净数据
- 脏数据
如何进行评估
针对结构类
- .head 看前几行
- .tail 看后几行
- .sample 随机几行
- 针对内容类
-
评估缺失值
-
info 可查看一些概况
-
isnull 查看缺失值
- 搭配sum 可得缺失值的个数
-
-
评估重复值
- duplicated 一个值第1次出现为false,第2次出现为true
- 参数subset 指定列条件
- 参数subset 指定列条件
-
评估不一致数据
value_counts 查看类型
-
评估无效/错误数据
-
用两种方法来尝试
- sort_values 看是否有值明显错误的数据
- descripbe 看是否有值明显错误的数据
-
好的,到此为止啦,祝您变得更强
道阻且长 行则将至 |
---|
个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力