上市公司数据分析
从中商情报网下载的数据,表格中会存在很多的问题,查看数据的信息有无缺失,然后做数据的清晰,有无重复值,异常数据,省份和城市的列名称和数据是不对照的,删除掉一些不需要的数据,省份不完整的数据,然后进行数据分析以及可视化,如上市公司中的行业Top5,用饼图绘制;绘制哪些城市的上市公司数量最多Top10,用柱形图绘制;北上深上市公司数量占比,绘制饼图或者水球图;根据上市年份画出上市公司数量;上市公司的分布,集中在一线城市辐射范围内,也跟地域有关;把所有的子图全部布局到一起,生成网页文件,在网页文件中可以拖拽图表进行重新布局,布局完成后点击网页上的‘save config’按钮,会生成chart_config.json文件,把文件 复制粘贴到代码的同级目录下,然后使用Page的保存格式进行保存。
1.导入数据
2.数据清洗
3.数据分析及可视化
3.0 上市公司中行业Top5
3.1 哪些城市的上市公司数量最多(Top10)
3.2 北上深上市公司数量占比
3.3 上市公司数量(按上市年份)
3.4 上市公司分布
3.5 做可视化的大屏
根据以上制作的图表,制作可视化的大屏。
打开生成的html文件,图表带虚线框,可以调整大小和位置,拖动鼠标进行图形的摆放
摆放完成后,点击左上角save config,把得到的json文件保存到代码的同级目录下,运行以下代码。
得到最终可视化大屏的图表。
PPT中插入可视化图表
在PPt中插入浏览器的图片的渲染效果。
- 需要先进行注册表的设置
将该注册表中(打开CMD命令输入regedit)
定位到:HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\Microsoft\Internet Explorer\ActiveX Compatibility{8856F961-340A-11D0-A96B-00C04FD705A2}
将右侧 Compatibility Flags值21改为十六位0
定位到:\HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\Microsoft\Internet Explorer\ActiveX Compatibility{8856F961-340A-11D0-A96B-00C04FD705A2}
将右侧 Compatibility Flags值21改为十六位0
HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office\ClickToRun\REGISTRY\MACHINE\Software\Microsoft\Office\16.0\Common\COM Compatibility{8856F961-340A-11D0-A96B-00C04FD705A2}
将右侧 Compatibility Flags值400改为十六位0
2.PowerPoint2003以上的版本,文件—>选项—>自定义功能区中添加开发工具选项卡,添加Web browser控件。
3.开发工具---->控件----->其他控件
选择 Microsoft Web Browser,单击确定。
4.在PPt上 画出 图表显示的范围,调整矩形框的大小。然后在控件组中选择命令按钮,进入放在ppt上,双击命令按钮进入代码编写模式,如图所示添加第二行代码,括号内为生成图表的位置及名称。
5.关闭代码框,进入ppt放映状态,单击命令按钮,允许ActiveX控件运行就可以了
6.单击"是",允许文件运行活动内容。
7.保存文件为 启用宏的PowerPoint演示文稿。
遇到的问题:
百度搜索bootCDN,搜索echarts,找到合适的链接复制下来,用记事本打开html文件替换掉图表的scr
案例分析-黑色星期五
数据背景
了解以下数据是关于什么内容的,从哪来的,可靠性如何。美国黑色星期五的数据集,类似于美国版的双11。大多数的商品进行打折促销,很多人去采购各种商品,
分析方向
根据分析需求进行分析操作,假想从以下几个角度进行设想分析,实际的分析还要基于问题进行,以后遇到销售问题可以进行参考。
1.销售画像
作为销售数据,要进行销售画像,对销售情况做简单的了解,如破案时对犯罪嫌疑人的心理活动进行画像,主要从销售总览、用户情况、商品情况进行分析;
2.用户画像
只要从性别分布和消费情况、年龄分布和消费情况、不同城市的用户和消费情况。
3.商品画像
主要从最喜欢的商品分布和消费情况、不同年龄段喜欢商品分布和消费情况、男女喜欢的商品和消费情况
数据分析及可视化
了解完数据背景和分析方向后,就要对数据进行分析及可视化。
一、原始数据
查看数据信息为 数据行和列的个数,数据的个数、数据的类型以及缺失情况。对数据分析有影响的就要填充缺失值,没有影响的话就直接删除或者不进行操作。
User_ID,购物者的ID;Product_ID,商品的ID;Gender,购物者的性别;Age,购物者的年龄范围;Occupation,购物者的行业、职位;City_Category,购物者的城市;Stay_In_Current_City_Years,购物者在城市待的年份;Marital_Status ,结婚状态;Product_Category_1,商品的类别,1,2,3类;Purchase,花费的金额。
二、数据清洗
缺失值的处理,分为删除和填充操作,查看缺失值在数据中的比值。缺失的数据对数据分析没有影响,可以不做处理。
三、数据分析及可视化
EDA,探索性的数据分析,不涉及统计学的知识,做数据的清洗和画图,从图中得到结论。
3.1销售画像
消费者一共消费的总额、用户总人数、人均消费金额、消费商品的总类等。
3.2用户画像
性别分布对消费情况的影响
用pyecharts绘制图表
男女消费金额的比例
%
女生消费人数占28%,但是消费额占到四分之一左右。
婚姻状况对消费的影响
男性女性已婚未婚的比例
已婚,未婚消费的情况
年龄分布对销售情况的影响,主要的消费人群是在哪个年龄段。
不同年龄段消费的金额,26-35岁之间消费的金额最多。
用户所在的城市对消费的影响,B城市的购买力最大,人数少消费占比大。
每个城市花费支出的金额,购买消费能力
每个城市不同年龄段人数的分析
每个城市居住年份人数的比例
居住年份对消费的影响,第1年刚到一个城市消费能力低,游客到外地消费力大,2年的时候准备定居,消费能力比较大,3-4年的时候东西已经有了不会再买大件物品,基本的用品已经购齐了。
职业分类的人数
职业分类对消费金额的影响
四、结论
1.未婚比已婚人群多,商品定位要照顾年轻人
2.集中在18-35年龄范围,购买力大,商品定位在18-35岁之间
3.B城市购买力最大
4.购买人群随着居住年份增加而相应的减少, 居住两年的人群消费能力比较大,住的越久,消费能力越差
5.不同职业差异比较大,重心放在这些购买力大的人群
通过例子了解数据分析的流程,数据清洗过程比较繁琐,可视化比较消耗时间,从图表中发现结论,结论的获得要有依据。