一、分析目的:
在大数据时代的背景下,广告主可从购买媒介变成直接购买用户。广告的精准投放对广告主、服务平台与潜在用户而言,在提升效率与商业效益方面,有了更迫切的需求。然而网络广告形式多样,很多广告投放系统率相对缺乏针对性,使得网络广告精确度不够高。因此,对推广数据的研究是十分必要的。所以本次项目将从用户特征,投放时间,投放位置以及高点击率广告的特征等方面多维度进行数据分析,以提高用户点击率,实现淘宝展示广告精准投放,提升广告投放效果。
二、数据来源:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=56
原始样本骨架raw_sample
从淘宝网站中随机抽样了114万用户8天内的广告展示/点击日志(2600万条记录),构成原始的样本骨架。
字段说明如下:
(1) user_id:脱敏过的用户ID;
(2) adgroup_id:脱敏过的广告单元ID;
(3) time_stamp:时间戳;
(4) pid:资源位;
(5) noclk:为1代表没有点击;为0代表点击;
(6) clk:为0代表没有点击;为1代表点击;
广告基本信息表ad_feature
本数据集涵盖了raw_sample中全部广告的基本信息。字段说明如下:
(1) adgroup_id:脱敏过的广告ID;
(2) cate_id:脱敏过的商品类目ID;
(3) campaign_id:脱敏过的广告计划ID;
(4) customer_id:脱敏过的广告主ID;
(5) brand:脱敏过的品牌ID;
(6) price: 宝贝的价格
用户基本信息表user_profile
本数据集涵盖了raw_sample中全部用户的基本信息。字段说明如下:
(1) userid:脱敏过的用户ID;
(2) cms_segid:微群ID;
(3) cms_group_id:cms_group_id;
(4) final_gender_code:性别 1:男,2:女;
(5) age_level:年龄层次;
(6) pvalue_level:消费档次,1:低档,2:中档,3:高档;
(7) shopping_level:购物深度,1:浅层用户,2:中度用户,3:深度用户
(8) occupation:是否大学生 ,1:是,0:否
(9) new_user_class_level:城市层级
用户的行为日志behavior_log
本数据集涵盖了raw_sample中全部用户22天内的购物行为(共七亿条记录)。字段说明如下:
(1) user:脱敏过的用户ID;
(2) time_stamp:时间戳;
(3) btag:行为类型, 包括以下四种:
ipv:浏览
cart:加入购物车
fav:喜欢
buy:购买
(4) cate:脱敏过的商品类目;
(5) brand: 脱敏过的品牌词;
(本数据集数据量极大(2600万),故随机选取10%的数据来分析)
三、数据预处理
3.1 导入数据集
3.2 缺失值检测与填充
a.检测
user表有2个属性有缺失值:pvalue_level(缺失54.24%)、new_user_class_level(缺失32.49%),
广告基本信息表ad有1个属性有缺失值:brand(缺失29.09%);
样本数据表dataset没有缺失值。
所以只需对 user_data、ads 两个表进行缺失值填充。
b.填充
1.user表
‘pvalue_level’(消费档次:1低2中3高):通过KNN算法(基于K个最近邻的填充算法)进行预测填充;
'new_user_class_level '(城市层次):该属性值为分类属性,对其进行众数填充。
2.ad表
‘brand’(品牌ID):由于该数据为id类数据,填充其上下条数据的值,在本文中使用的是填充上一条数据的值。
3.3 数据合并
将ad,user,datab表按顺序合并起来。
3.4 时间戳数据处理
四、分析思路
1、从广告方面,可以从广告自身的渠道、点击量最高的广告的特征、广告的投放时间进行分析。
2、从用户角度,可以对点击广告的用户进行特征分析,分别对top3的广告点击用户进行聚类分析,对商品和用户分类
3、获取和top3类似的商品分别推送给点击top3广告的用户
4、对广告商品进行交易环节漏斗分析,对比不同广告收费模式下的利润最大化以及优化方法。
五、分析过程
5.1广告投放渠道分析
资源位430539_1007的点击率要高于430548_1007,表明第一个广告投放渠道要优于第二个。
2.2广告投放时间
以一天的小时为单位分析
16-19时、21-22时和0-2时的广告点击率都相对较高,3时、7-8时、14-15时的点击率极低。这几个时间段的广告投放效果很差。当然,点击率的高低对比也受各时间段的浏览量影响,点击率的低的时间段有可能是由于高浏览量造成,点击率高的时间段也有可能是由于低浏览量造成。具体情况还需要更多数据进一步分析。
以一周时间来分析
2.3广告投放的目标人群(有点击行为的用户特征)
a.用户性别
1代表男性,2代表女性,男性的广告点击率高于女性。
b.消费档次
1代表低档,2代表中档,3代表高档,说明随着消费档次的提高,用户打开广告的欲望越低。
c.购物深度
1.代表浅层用户,2代表中度用户,3代表深度用户,说明随着购物深度的增加,用户打开广告的欲望越低,浅层用户更容易被广告吸引。
d.是否大学生
0代表不是大学生,1代表是大学生,广告对大学生吸引较小,非大学生更容易被广告吸引,点击广告。
e.年龄层次
年龄层级2的用户广告点击率最高,1、3、6也很高,0、4、5较低,其中4最低。广告投放目标为用户年龄层级为1236时效果较好,4基本很难被广告吸引。
结论
1.渠道:430539_1007渠道的广告投放效果要好于430548_1007渠道。
2.时间:6-19时、21-22时的广告投放效果较好,周二的广告投放效果好。
3.用户:具有男性,地中档的消费档次,浅层购物深度,非大学生,年龄层次在1、2、3、6的用户点击意愿更强。
广告投放时需要参考上述点击率较高的特征变量
二、CPA相关
通过fav/pv得知用户点击广告并浏览后收藏广告推送的产品转化率为1.47%。
绘制交易环节漏斗图
用户在点击广告浏览后,加入购物车的转化率约为2.5%,购买转化率约1.4%,和点击浏览广告后加入收藏的转化率(1.46%)接近。如果是选择CPA作为广告收费计算方式,需要提高用户的加入购物车转化率,购买转化率和收藏转化率。这三个转化率低,是用户在点击广告进入商品详情界面,即着落页后,较难激发购物欲望,说明着落页需要优化,才可以提高转化率,优化广告投放效果。