数据特征分析

数据特征分析主要包括分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析几种分析。

分布分析

分布分析的最终成果是形成能体现数据的图表

分布分析主要有两种类型:对定量数据的分布分析和对定性数据的分布分析

对定量数据的分布分析

要形成一个图表的话对于定量数据最有代表性的就是频率分布直方图。构造频率分布直方图的步骤初中时已经学过,顺序为求极差,设定组距分组,统计每组的频数,算出每组的频率,最后绘图.

具体的代码如下:

# 代码3-3 捞起生鱼片的季度销售情况
import pandas as pd
import numpy as np
catering_sale = 'D:\DataMiningCode\chapter3\demo\data\catering_fish_congee.xls'  # 餐饮数据
data = pd.read_excel(catering_sale,names=['date','sale'])  # 读取数据,指定“日期”列为索引,前面那个位置放地址,后面的names放获取的对象,这里xls表只有两列,可能是命名第一列为
#data,后一列为sale,并且指定第一列的日期为索引##如果下面这段代码不打的话频率分布直方图会粘在一起,而且横坐标会改变,默认为一段一段不会有组中值,应该是书的代码不匹配
##bins和labels这两个列表是用来服务data['sale分层']这个语句的
#bins=[0,500,1000,1500,2000,2500,3000,3500,4000]#bins 参数的含义是所画出的直方图的“柱”的个数;每个“柱”的值为其跨越的值的个数和。这里应该是横坐标分点的横坐标的值
#labels=['[0,500)','[500,1000)','[1000,1500)','[1500,2000)','[2000,2500)','[2500,3000)','[3000,3500)','[3500,4000)']#labels是标签,是每一个柱子的展示标签,写在横坐标的下面
#data['sale分层']=pd.cut(data.sale,bins, labels=labels)#建议看博客pandas的cut方法,第一个位置是我们要进行切割的列表;bins是切片的方式,可以是数字,可以是列表;lables是每个柱子的标
##这个表的名称是sale分层  
##下面这两行代码建议看博客里面的方法(无语住,我实在不会了)
#aggResult=data.groupby(by=['sale分层'])['sale'].agg({'sale': np.size})
#pAggResult=round(aggResult/aggResult.sum(),2,)*100import matplotlib.pyplot as plt
d = 500  # 设置组距
num_bins = round((max(data['sale']) - min(data['sale'])) / d)  # 计算组数,用最大值减最小值除以设定好的组距
plt.figure(figsize=(10,6))  # 设置图框大小尺寸
plt.hist(data['sale'], num_bins)#hist方法的第一个位置为要处理的数据集;第二个位置放bins,可以为数组可以为整数,如果是整数的话就是分成几组的意思
plt.xticks(range(0, 4000, d))#每一个组距d输出一个x轴的标签
plt.xlabel('sale分层')#x轴的标记为sale分层
plt.grid()#用grid()方法为图画上格子
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.title('季度销售额频率分布直方图',fontsize=20)#显示标题,fontsize用来设置字体的大小
plt.show()#展示图

我出现的问题:(这里的代码我用#标记了,其实这个问题不用看,原因是不同版本pandas库的书写问题)

解决办法:暂未解决,目前知道的是pandas库更新出现的语句形式的转变问题(不要看 )

https://blog.csdn.net/KIKI_ZSH/article/details/118722642?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167827984316782425146513%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167827984316782425146513&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-118722642-null-null.142^v73^insert_down1,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=groupby%E5%87%BD%E6%95%B0&spm=1018.2226.3001.4187https://blog.csdn.net/KIKI_ZSH/article/details/118722642?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167827984316782425146513%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167827984316782425146513&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-118722642-null-null.142%5Ev73%5Einsert_down1,201%5Ev4%5Eadd_ask,239%5Ev2%5Einsert_chatgpt&utm_term=groupby%E5%87%BD%E6%95%B0&spm=1018.2226.3001.4187

我出现的问题:

不了解pandas库里的cut方法

解决办法:

https://blog.csdn.net/heianduck/article/details/124409593?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167827918816800186528145%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167827918816800186528145&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-124409593-null-null.142^v73^insert_down1,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=pandas%E7%9A%84cut%E5%87%BD%E6%95%B0&spm=1018.2226.3001.4187https://blog.csdn.net/heianduck/article/details/124409593?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167827918816800186528145%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167827918816800186528145&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-124409593-null-null.142%5Ev73%5Einsert_down1,201%5Ev4%5Eadd_ask,239%5Ev2%5Einsert_chatgpt&utm_term=pandas%E7%9A%84cut%E5%87%BD%E6%95%B0&spm=1018.2226.3001.4187

我出现的问题:

忘记round函数的用法

解决办法:

https://blog.csdn.net/qq_34035425/article/details/123237006?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167827607716800192283930%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167827607716800192283930&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-123237006-null-null.142^v73^insert_down1,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=round%E5%87%BD%E6%95%B0&spm=1018.2226.3001.4187https://blog.csdn.net/qq_34035425/article/details/123237006?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167827607716800192283930%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167827607716800192283930&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-123237006-null-null.142%5Ev73%5Einsert_down1,201%5Ev4%5Eadd_ask,239%5Ev2%5Einsert_chatgpt&utm_term=round%E5%87%BD%E6%95%B0&spm=1018.2226.3001.4187

我出现的问题:

不了解matplotlib里面的hist做直方图的方法

解决办法:

https://blog.csdn.net/chongbaikaishi/article/details/108965600?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167828084316800211596945%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167828084316800211596945&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~baidu_landing_v2~default-4-108965600-null-null.142^v73^insert_down1,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=hist&spm=1018.2226.3001.4187https://blog.csdn.net/chongbaikaishi/article/details/108965600?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167828084316800211596945%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167828084316800211596945&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~baidu_landing_v2~default-4-108965600-null-null.142%5Ev73%5Einsert_down1,201%5Ev4%5Eadd_ask,239%5Ev2%5Einsert_chatgpt&utm_term=hist&spm=1018.2226.3001.4187

我出现的问题:

不了解matplotlib里面的xtricks做为横坐标标记注释的方法

解决办法:

https://blog.csdn.net/u011208984/article/details/90720516?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167828145616800182713174%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167828145616800182713174&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-90720516-null-null.142^v73^insert_down1,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=xticks&spm=1018.2226.3001.4187https://blog.csdn.net/u011208984/article/details/90720516?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167828145616800182713174%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167828145616800182713174&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-90720516-null-null.142%5Ev73%5Einsert_down1,201%5Ev4%5Eadd_ask,239%5Ev2%5Einsert_chatgpt&utm_term=xticks&spm=1018.2226.3001.4187

我出现的问题:

不了解matplotlib里面的grid()方法

解决办法:

发现它其实就是加上格子

运行结果:

对定性数据的分布分析

对定性数据,通常只能采用饼图和条形图来展示,因为只能统计一下定性数据的比例。

具体代码:

# 代码3-4 不同菜品在某段时间的销售量的分布情况
import pandas as pd
import matplotlib.pyplot as plt
catering_dish_profit = 'D:\DataMiningCode\chapter3\demo\data\catering_dish_profit.xls'  # 餐饮数据
data = pd.read_excel(catering_dish_profit)  # 读取数据,指定“日期”列为索引# 绘制饼图
x = data['盈利'] #用x标记data中“盈利”这列
labels = data['菜品名']#用labels标记data当中的“菜品名”这列
plt.figure(figsize = (8, 6))  # 设置画布大小
plt.pie(x,labels=labels)  # 绘制饼图,第一个位置是标记待处理的数据盈利这列的盈利额,第二个位置显示每个区域对应的描述文本
plt.rcParams['font.sans-serif'] = 'SimHei'#用来正常显示中文标签
plt.title('菜品销售量分布(饼图)')  # 设置标题
plt.axis('equal')#plt.axis(‘equal’)表示 x,y轴刻度等长
plt.show()# 绘制条形图
x = data['菜品名']#用x标记data中“菜品名”这列
y = data['盈利']#用y标记data中“盈利”这列
plt.figure(figsize = (8, 4))  # 设置画布大小
plt.bar(x,y)#bar方法用来绘制柱状图,其中第一第二的位置分别是x轴和y轴的数值
plt.rcParams['font.sans-serif'] = 'SimHei'#用来正常显示中文标签
plt.xlabel('菜品')  # 设置x轴标题
plt.ylabel('销量')  # 设置y轴标题
plt.title('菜品销售量分布(条形图)')  # 设置标题
plt.show()  # 展示图片

我遇到的问题:

不了解pie方法绘制饼图

解决办法:

https://blog.csdn.net/m0_37149062/article/details/120307950?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167828551216800188573262%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167828551216800188573262&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-120307950-null-null.142^v73^insert_down1,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=pie%E7%BB%98%E5%88%B6%E9%A5%BC%E5%9B%BE&spm=1018.2226.3001.4187icon-default.png?t=N176https://blog.csdn.net/m0_37149062/article/details/120307950?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167828551216800188573262%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167828551216800188573262&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-120307950-null-null.142^v73^insert_down1,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=pie%E7%BB%98%E5%88%B6%E9%A5%BC%E5%9B%BE&spm=1018.2226.3001.4187

我遇到的问题:

不了解anxi方法让xy两个轴等长

解决办法:

https://blog.csdn.net/qq_36439087/article/details/121527402?ops_request_misc=&request_id=&biz_id=102&utm_term=plt.axis(%27equal%27)&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-121527402.142^v73^insert_down1,201^v4^add_ask,239^v2^insert_chatgpt&spm=1018.2226.3001.4187icon-default.png?t=N176https://blog.csdn.net/qq_36439087/article/details/121527402?ops_request_misc=&request_id=&biz_id=102&utm_term=plt.axis(%27equal%27)&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-121527402.142^v73^insert_down1,201^v4^add_ask,239^v2^insert_chatgpt&spm=1018.2226.3001.4187

我遇到的问题:

不了解bar方法绘制柱状图

解决办法:

https://blog.csdn.net/weixin_46707493/article/details/119829962?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167828587516800227479011%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167828587516800227479011&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-119829962-null-null.142^v73^insert_down1,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=plt.bar%28x%2Cy%29&spm=1018.2226.3001.4187icon-default.png?t=N176https://blog.csdn.net/weixin_46707493/article/details/119829962?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167828587516800227479011%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167828587516800227479011&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-119829962-null-null.142^v73^insert_down1,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=plt.bar%28x%2Cy%29&spm=1018.2226.3001.4187

运行结果:

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/66852.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国货之光,处女座的福音!最详细华强北洛达1562M悦虎版二代蓝牙耳机评测

2016年,随着苹果发布初代AirPods,原来一直不愠不火的蓝牙耳机市场一时大热,“真无线蓝牙耳机”(简称TWS,True Wireless Stereo)开始走进人们的视野。随着各大手机厂商(奸商)取消手机上的3.5mm耳机插口,真无线蓝牙耳机加速普及,直至今天变成人们手中不可或缺的电子产品…

DayDayUp:计算机技术与软件专业技术资格证书之《系统集成项目管理工程师》软考考试简介及其知识点架构总结、课程讲解目录(立项-整体-范围-进度-成本-质量-人力资源-沟通-干系人-风险-采购等)

DayDayUp:计算机技术与软件专业技术资格证书之《系统集成项目管理工程师》软考考试简介及其知识点架构总结、课程讲解目录(立项-整体-范围-进度-成本-质量-人力资源-沟通-干系人-风险-采购等) 目录 术语简称简介 计算机软件资格考试【软考】的简介及其知识点架构总…

DL之RNN:基于RNN实现模仿贴吧留言

DL之RNN:基于RNN实现模仿贴吧留言 目录 输出结果 代码设计 输出结果 更新…… 代码设计 注:CPU上跑的较慢,建议GPU运行代码

CSDN:2020年度CSDN博客之星评选竞赛——180号【一个处女座的程序猿】,感谢您,投上的宝贵一票,感谢!感恩!

CSDN:2020年度CSDN博客之星评选竞赛——180号【一个处女座的程序猿】,感谢您,投上的宝贵一票,感谢!感恩! 导读:新的一年,改革春风吹满地,新的一年要争气! 博…

使用BottomNavigationView底部导航栏、添加数量角标提醒

度娘了一圈发现基本上都是TabLayout或者其他的导航栏添加角标,所以写这篇博客记录下来。 先来看下实现的效果图: 代码也是很简单的 BottomNavigationMenuView中的每一个Tab就是一个FrameLayout,所以我们可以在上面随意添加View、这样也就可以…

CSDN:2019年度CSDN博客之星评选竞赛——105号【一个处女座的程序猿】,感谢您,投上的宝贵一票,感谢!感恩!

CSDN:2019年度CSDN博客之星评选竞赛——105号【一个处女座的程序猿】,感谢您,投上的宝贵一票,感谢!感恩! 导读:新的一年,改革春风吹满地,新的一年要争气! 博…

DayDayUp:《复仇者联盟4:终局之战》娱乐闲谈——当灭霸碰上一个处女座的程序猿

DayDayUp:《复仇者联盟4:终局之战》娱乐之谈——当灭霸碰上一个处女座的程序猿 目录 《复联4》简介 《复联4》相关—片段 《复联4》相关—网友搞笑图片 《复联4》相关—娱乐闲谈 《复联4》简介 《复仇者联盟4:终局之战》(Aven…

嫁人当嫁处女男 - 解构处女座男人

2019独角兽企业重金招聘Python工程师标准>>> 解构处女座男人 想要对那位处女座的男人、善于吹毛求疵的分析大师示爱吗?嗯,在你开始诱惑这位处女男之前,你得先搞懂几件事。抛开偏见,本文将告诉你所有关于处女男的一切细节。 “偏见者的心灵,就像眼睛的瞳孔,你给…

DayDayUp:我是CSDN开发者生态联盟成员“一个处女座的程序猿”:渡己是一种能力,渡人是一种格局

DayDayUp:我是CSDN开发者生态联盟成员“一个处女座的程序猿”:渡己是一种能力,渡人是一种格局 目录 CSDN开发者生态联盟成员简介 个人2020年度工作总结 CSDN开发者生态联盟成员简介 问:请简单自我介绍(公司姓名职位…

CSDN TOP1“一个处女座的程序猿“如何通过写作成为百万粉丝博主

文章目录 如何通过写作成为百万粉丝博主 前言 一、什么内容是受欢迎的写作内容? 二、介绍一些经典的技术文章逻辑框架设计? 三、如何系统地输出技术内容? 四、技术创作给我带来的变化和成长 五、现场问题答疑(Q&A) 六、最后 如…

关于软件界面设计、控件颜色搭配、一些实用建议(偷懒技巧)总结——针对C# WinForm/WPF技术

之前的文章讲了很多控件包的用法,我们做C#WinForm工程师的,基本都是做上位机的,很多都是公司没有专门的设计团队,界面做成什么样,基本全凭自己审美。 但我们只是个程序员,又不懂设计,不可能在界…

装修到底要不要请设计师?

例如想把自己的家装修的漂亮一点,或者遇到了自己实在无法解决的装修问题,例如想划分出一些房间或者某些功能没有解决好。都可以找设计师 但如果是比较大型的空间,例如酒店或办公室,自己没有太多的想法来指导施工队,那么…

上海人设提示访问接口出错

我自己苹果手机,更新了系统导致CA证书没有了,“上海人设”App 业务经办打不开,提示访问接口出错,我试着卸载重装,然后重新领取CA证书,问题解决,希望可以帮助到大家。 也可以不用卸载重置&#x…

李彦宏15年前专利曝光 Google模仿百度?

8月9日晚间消息,位于弗吉尼亚州的美国专利局总部档案库的一角,存放着几页看似毫不起眼的纸张。但如果拿出去拍卖的话,这几页纸将价值连城。因为其上记载着的,或将是全球最值钱的技术专利之一,正是它,催生并…

8月20科技资讯|李彦宏内部信曝光;三大运营商否认 4G 降速;ThinkPHP 6.0 RC4 版本发布

「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道。风里雨里,我们将每天为朋友们,播报最新鲜有料的新闻资讯,让所有技术人,时刻紧跟业界潮流。 「CSDN 极客头条」&a…

算力至上?AI芯片大对决

作者 | 老石谈芯的老石 来源 | 老石谈芯(ID:laoshi_tanxin) 头图 | CSDN 下载自东方IC 目前,全世界超过90%的数据都是在过去的两三年之内产生的。随着人工智能、自动驾驶、5G、云计算等各种技术的不断发展,海量数据都…

GPU是AI时代的算力核心

人工智能(Artificial Intelligence),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 它起源于20世纪五六十年代,经过半个多世纪的演变,经历了符号主义、连接主义和行为主体三次浪潮的相互交织发…

AI + 算力 = “最强龙头”?

随着人工智能技术的飞速发展,“AI算力”的结合应用已成为科技行业的热点话题,甚至诞生出“AI算力最强龙头“的网络热门等式。该组合不仅可以提高计算效率,还可以为各行各业带来更强大的数据处理和分析能力,从而推动创新和增长。 …

比特大陆发布第三代AI芯片,INT8算力达17.6Tops

9月17日,福州城市大脑暨闽东北信息化战略合作发布会在数字中国会展中心隆重召开。本次发布会上,比特大陆正式推出了第三代AI芯片BM1684,同时也宣布BM1684将作为底层算力,赋能福州城市大脑,助力数字福州、数字中国的建设…

算力至上?四大AI芯片大对决

来源 | 老石谈芯(ID: laoshi_tanxin) 目前,全世界超过90%的数据都是在过去的两三年之内产生的。随着人工智能、自动驾驶、5G、云计算等各种技术的不断发展,海量数据都将会继续源源不断的产生。预计到2025年,数据总量将…