一、项目介绍
1.概述
本数据集是阿里巴巴提供的一个淘宝用户行为数据集(数据来源:数据集-阿里云天池),包含了2017年11月25日至2017年12月3日之间有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
列名称 | 说明 |
用户ID | 整数类型,序列化后的用户ID |
商品ID | 整数类型,序列化后的商品ID |
商品类目ID | 整数类型,序列化后的商品所属类目ID |
行为类型 | 字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav') |
时间戳 | 行为发生的时间戳 |
用户行为类型共有四种,它们分别是:
行为类型 | 说明 |
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品加入购物车 |
fav | 收藏商品 |
2.数据清洗
在Sequel Pro中,创建新表,将原数据集导入。考虑原数据集数据量大,本次分析随机抽取数据集中十分之一用户行为数据,并对数据进行如下清洗:
(1)缺失值处理:建立新表时,设置各字段not null,确保导入数据无空值;
(2)去重:对数据中存在的重复数据进行删除;
(3)时间戳格式化处理:将时间戳改为可读的时间形式,并新建两列,分别为日期(%Y-%m-%d )、时间(%H);
(4)异常值处理:限定时间范围为2017年11月25日至2017年12月3日,删除不在时间范围内的异常数据。
最终得到随机抽取的数据集相关字段如下:
列名称 | 说明 |
user_id | 整数类型,序列化后的用户ID |
item_id | 整数类型,序列化后的商品ID |
category_id | 整数类型,序列化后的商品所属类目ID |
behavior_type | 字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav') |
date_time | 行为发生的日期时间 |
dt | 行为发生的日期 |
hours | 行为发生的时间(仅包含小时) |
最终得到随机抽取的数据集相关大小如下:
维度 | 用户数量 | 商品数量 | 商品类目数 | 行为数据量 |
数量 | 98,818 | 1,585,933 | 8,079 | 9,952,257 |
3.宏观指标
指标 | 浏览量 | 访客数 | 总订单数 | 转化率 | 平均浏览量 | 客均订单数 |
PV | UV | OD | CVR | PV/UV | OD/UV | |
指标数 | 8,916,542 | 98,818 | 201,284 | 2.26% | 90 | 2 |
使用Python对数据进行进一步分析。
二、用户行为习惯分析
1.用户日活跃情况分析
图1. 日访问量、日访客数分布图
图2. 日均访客浏览量分布图
从上述图中发现,(1)日常访客和浏览量总体比较稳定,日常单日访客量在7万至7.4万之间,单日浏览量在98万到109万之间,平均访客浏览量集中在14次/人上下。(2)周末的日访客量、日浏览量、平均访客浏览量水平总体高于工作日,原因是相较于工作日,用户在周末有更多的休闲的时间进行进行网购消费。(3)12月2日-12月3日(周六、周日)日访客量、日浏览量、平均访客浏览量水平明显高于往常(工作日和上周末),因为 12月2日开始的双十二预热活动拉动大量用户“围观”,相关数据也明显提高。
图3. 日成交量分布图
从日成交量分布图来看,12月2日-12月3日确实刺激了更多用户进行消费,单日成交量有了大幅提高。
2.用户时活跃情况分析
图4. 点击次数时段图
图5.收藏加购/成交次数时段图
一天中,用户点击、收藏加购活跃在6:00-10:00、18:00-21:00上涨明显,在21:00-22:00达到顶峰;用户成交波动不大。针对这一特点,18:00-22:00推荐进行促销等营销活动,提高成交量,进而提高总交易额。
3.用户购买次数情况分析
图6.有购买行为用户购买次数分布图
有购买行为的用户67016人,占总用户的67.8%,有购买行为的用户中约72%的用户购买三次及以内,与0-2-4次相比较,购买4-6-8次之间的用户流失较多,针对购买三次及以内的用户,要增加触达,使该批次用户养成消费习惯,进而向忠诚用户转化。
4.用户复购情况分析
图7.用户复购率水滴图
结合图6,22907名用户在2017年11月25日至2017年12月3日之间出现一次购买行为,44109名用户出现复购行为,复购率为66%。
图8.各时间间隔下复购行为次数分布图
80%的复购消费行为出现在2天内,针对近期有购买行为的用户,“精准营销”, “趁热打铁”,增加触达,培养用户忠诚度。
图9.用户复购热力图
图9横坐标为2017年11月25日至2017年12月3日的日期,该热力图表示横坐标对应日期间隔一定天数后的日期用户留存比例,纵坐标为间隔天数。日常用户留存比例整体比较稳定,在17%-24%之间。
三、用户行为路径分析
对用户行为路径进行分析,用户购买商品的路径可以分为五种:(1)不浏览商品详情页,直接购买;(2)浏览商品详情页——购买;(3)浏览商品详情页——收藏——购买;(4)浏览商品详情页——加购——购买;(5)浏览商品详情页——收藏,加购——购买。其中,通过路径(1)进行购买的行为数95251次,占总购买次数的47%,剩余购买路径分析如图下:
图10.用户浏览后购买商品路径图
如图所示,浏览商品详情页次数8916542次,浏览商品详情页后直接购买59748次,浏览商品详情页后收藏或加购834431次,收藏或加购商品后购买46285次。由此商品详情页的跳失率为90%,商品详情页后最终转化为购买行为的转化率为1.7%。即用户对商品详情页的关注很大, “100%”次浏览商品详情页后,“90%”次退出后再未进行其他任何行为,最终转化为“1.7%”的购买行为。具体造成商品详情页跳失率大的原因需采取措施进行具体分析,进而进行针对性的调整。
图11.用户购买次数分布图
针对不同行为路径,对用户购买商品行为次数做出区分。77%的消费行为来源于购买商品直接购买或者浏览商品详情页后直接购买,23%的消费行为来源于收藏或者加购。其中,收藏、加购、同时收藏加购三种行为转化为消费行为的转化率分别为6.18%、4.21%、6.7%,与收藏相比,买家更倾向于加购的动作,加购的动作具有较高的购买意图。
四、用户价值分类
运用RFM模型对用户进行分层,因为没有累计交易金额M,所以针对R、F两个维度进行用户分层。依据原数据计算各用户最近一次消费的时间间隔(R)及均值,计算各用户2017年11月25日至2017年12月3日时间内消费频率及均值。按如下思路进行打分:
分数 | R的分层标准 | F的分层标准 |
0 | 用户最近一次消费的时间间隔大于均值 | 用户消费频率小于均值 |
1 | 用户最近一次消费的时间间隔小于等于均值 | 用户消费频率大于等于均值 |
将分数进行连接,得到如下分层:
a)11:重要价值,近期有购买且购买频繁
b)10:重要发展,最近购买但历史购买次数少
c)01:重要保持,近期没购买,历史购买次数多
d)00:重要挽留,近期也没买,历史买的也少
图12.用户分层图
重要价值用户占比21%,该部分用户忠诚度较高,可提供VIP服务,针对用户需求进行精准营销,同时拓宽与用户沟通渠道,加深与用户交流,使用户具有可持续的忠诚度。重要发展用户占比36%,针对该部分用户,可“趁热打铁”,在即将到来的双十二大促活动,通过发放优惠券、增加推送等手段,提高他们的购买频率,并在后期做好售后服务,加深用户对品牌的认同,进而增加入会的转化。重要保持用户占比6%,占历史购买较多用户的23%,从侧面反映出淘宝用户的黏性较高。针对该部分用户,可通过短信、推送、站内信息等方式,增加触达。重要挽留用户占比37%,占比较多,针对该部分用户,需弄清楚用户流失的原因,对症下药,进而挽留用户。
五、总结
本次从阿里巴巴提供的一个淘宝用户行为数据集中随机抽取9.9万用户行为数据,从用户行为习惯、用户行为路径、用户价值三方面,搭建指标体系进行分析。主要结论及相应策略如下:
- 日常访客量、浏览量、成交量总体比较稳定,周末数据表现较工作日略好,大促活动能极大刺激用户浏览页面、成交订单。
- 从一天表现来看,用户点击、收藏加购活跃在6:00-10:00、18:00-21:00上涨明显,在21:00-22:00达到顶峰 。21:00-22:00为黄金时段,在该时段开展促销活动、增加产品曝光等获取更多用户。
- 用户粘性较好,复购率为66%,80%的复购消费行为出现在前次购买的2天内,且用户留存率较稳定在17%-24%。利用RFM模型中的“R”“F”对用户进行分层,对老客分策略进行积极维护。针对没有复购的用户,增加该客群的push,适当发放优惠券等,提高该用户群群体的复购率,进而逐渐提高用户忠诚度。
- 30%最终购买行为直接来源于商品详情页浏览,但商品详情页的跳失率高,商品详情页后最终转化为购买行为的转化率较低。建议进一步进行用户调研,找寻跳失率高,转化率低的原因,进而优化商品详情页。
- 与收藏相比,买家更倾向于加购的动作,加购的动作具有较高的购买意图 。