一、数据集介绍
数据集来源:
Baby Goods Info Data-数据集-阿里云天池
http://tianchi.aliyun.com
- 会员基础信息表
-
销售数据表
二、数据字段描述
次数据是关于婴儿商品的,共两张表:
-
表一会员(婴儿)信息表,共954条数据:
- user_id:用户id
- birthday:出生日期
- gender:性别(0 男性;1 女性)
-
表2为购买商品:
user_id:用户id
auction_id:购买行为编号
cat_id:商品种类id
cat1:商品属于哪一个类别
property:商品属性
buy_mount:购买数量
day:购买时间
三、从数据中能得到哪些信息?
- 产品分类数量
- 单品销量如何
- 月平均销售和年平均销量是多少
- 购买的用户中,男女比例是多少
- 用户年龄阶段
- 不同年龄阶段的购物倾向
- 用户生命周期
四、确定业务分析问题
五、数据清洗
这里由于数据量比较小,可以使用Excel进行处理,但是本着能用代码装X的就不用软件的理念,比较喜欢使用python进行处理,主要是怕代码太久不敲,就没感觉了,提倡大家多使用代码处理,毕竟今后要接触的数据量会越来越大。
-
读取数据
-
合并数据
-
缺失值、重复值检查
- 这里有一点小问题,合并之后是存在缺失值的,这个问题在python中需要写几层的逻辑,但是放到Excel中只需要用vlookup函数批一下就行了。
-
删除不需要的字段
-
日期格式转换
因为这里只有购买日期和生日,而且格式还是int64,日期需要进行运算才能得到宝宝的年龄。
-
替换列名,保存处理结果
到此我们的数据预处理基本就结束了,下面我们换工具,用Excel做可视化。
其实我们这里还需要处理一下,关于合并数据的时候有一些问题产生,我们pandas.merge中的参数‘outer’只是将数据简单合并了,还会遗留很多问题,比如缺失值,这里的逻辑比较复杂,就不一一称述了。
提示一下:
- 数据量不大的时候直接用Excel处理很方便,数据量大的时候只能写处理逻辑,你是可以有选择的。
- 这里我用了Excel去做最后的处理,毕竟vlookup函数很好用,直接批一下就出来了。
-
最后数据这个样子,中间就用vlookup函数在另一张用户信息表中批出来的生日和性别,年龄用(购买日期 - 生日)/365
-
Excel处理完数据后将内容拷贝到另一张表去,只拷贝数值和格式
-
否则没办法进行换算
六、数据分析
-
产品分类数量
-
单品销量如何
- 我们可以看到,这里商品的类别就6种,其中28类别的商品销量是最高的
-
月平均销售和年平均销量是多少
-
这里我们可以看到,近年的各类别商品的销售趋势,除了38、50022520、122650008销售量波动小,其他几项根据商品的具体信息可以猜测这段时间行情的变化。
-
这里需要注意观察数据集的时间,这里的数据只到2015年第一季度,所以2015年的数据难免会有下降趋势。
-
我们就从2012年看到2014年,从整体上看,所有商品的年销量是与日俱增的,行情趋于上升。
-
这是所有数据的月销量,如果数据完整,我们以月分析的时候要将不完整的数据先剔除掉,这样有助于整体性的分析。
-
这里有看到11月的销量特别,我们可以联想到“双十一”,很不错,这是一个非常重要的节点,画图看看
- 没错,数据是不会骗人的,我们在月销售总量表中可以看到,11月确实比其他月份销售数量高出一倍以上。其中50022520这个商品类型在这个时间段购买比较多,从这里我们可以看出,在双十一活动中,50022520这款产品是主导产品。
-
购买的用户中,男女比例是多少
- 还有一个“ 2 ”的选项,我们姑且认为这是未确定的,也就是还在肚子里。
-
用户年龄阶段
-
用户不同年龄段的百分比
-
这里我们能看出来我们的用户群体主要集中在哪个年龄阶段,这样更加适合我们去调整产品对应类型。
-
我们可以看到,这里的数据显示我们的主要客户集中在0~3岁的用户占据将近80%
-
-
不同年龄阶段的购物倾向
- 图是服务于分析的,另外也是为了让被人更清晰直观的感受到数据的变化和分布情况。
7、报表撰写
-
根据我们分析的结果,结合业务场景给出建议,在我们分析的时候其实有很多问题已经暴露出来了
-
举几个例子
- 在这张图中,商品分类和销量之间的关系中我们可以根据商品具体类别查看到销售情况比较好的几个类别,我们可以建议在这些商品中加大营销力度。
- 这张图中我们看到,11月份的某类产品销量突高,之前我们猜测是双十一活动造成的,我们可以考虑在营销方面下功夫,策划其他产品在各个购物节的活动。
- 这张图中也是有信息的,我们的主要服务对象在0-3岁之间,那么我们可以针对性的进行调研,提升用户体验,将主要用户服务好。
- 还可以根据这部分用户的特性对热门商品进行竞品分析,引进大家喜爱的品牌和同功能不同款式的产品。
- 根据不同年龄阶段的购物倾向图,前面我们分析出主要用户在0-3岁之间,我们可以看到0~3岁之间编号28和50022520这两类产品的占比比较大,我们需要在这两类产品中深挖用户的购物倾向。
- 在3-4岁这里有50014815占比特别高,我们能够从从之前的分析中得出,这个类别的产品是在购物活动中产出的热门产品,堆积出来的量不能将他放入购物倾向的分析。
总结:
到此,简单的数据分析流程就梳理完了,由于数据有限,在很多用户的行为和产品相关信息都没有,没办法继续深挖。
在实际工作中当然没有这么简单的数据,最难的是数据处理,和分析方法,多看书,多钻研,多搜索,大家共勉。