1. 说明
《淘宝穿衣搭配》比赛是2015年的一个天池算法比赛,现已开放为新人赛,仍可下载数据,上传结果及计算排名。具体地址是: https://tianchi.aliyun.com/getStart/information.htm?spm=5176.100067.5678.2.78904065HrZLpP&raceId=231575
这是一个集图片、文字、数据挖掘于一体的比赛,可下载的数据是千万级的,在网上也可以找到冠军及一些选手的解题思路。新人可用来练手,通过评分定位自己的实力,也能从前人的思路中受到启发。
2. 具体问题
竞赛数据包含三部分,分别是:商品基本信息数据(分类、文本、图像);用户历史行为数据(用户、商品、购买时间);和专家提供的搭配套餐数据(商品组合)。任务是预测给定商品最佳搭配的前200个商品。 具体计分公式是:
其中n表示答案集合中商品的数量,p(k)表示在k截断之前的预测准确率,当第k个商品在答案集合中Δ(k)为1,否则为0。从中可见:在答案中越靠前的商品权重越大。
购物表数据共1361万条,用户110万个,50万种商品,不重复关键字8万多个,280种分类。
3. 问题分析
测试集中的数据均未出现在专家推荐表中,无法直接使用专家推荐。测试集中出现的商品大约有一半即没被购买过,也没被推荐过,要想对预测它的搭配,就需要找到与之类似的商品。因此本题可分解成两部分:求某商品的最佳搭配,求某商品的近似商品。
求最佳搭配,可在专家推荐表中获取商品所在组中的其它商品,用户购买记录可将用户在某一时段购买的商品认为是可配搭商品,并从中减掉不可搭配的品种。不可搭配的品种由专家推荐表算出,280个类别可以有约280x280种组合,而专家给出的可组合类别只有不到1000种。
求近似商品,可通过商品信息中商品的分类,关键字,图片计算,主要使用在同类中找关键字TF/IDF加权后最近似的商品。
4. 无监督学习和半监督学习
此题代表了一类典型的问题:从以往的用户行为中寻找规律,以便辅助和引导用户之后的行为,像视频,新闻,购物推荐都属于此类问题,俗称啤酒尿布问题(在超市购物时买尿布的往往也买啤酒)。
此题应该算是一个无监督或半监督学习问题。尽管用公式给出了计分标准,但开发者仍不知道预测搭配的5000x200项中,具体哪些正确的,哪些是错误的。线上每天只有两次评分机会,根据其反馈只能在粗略的方向上调整。
因为是无监督学习,各个特征影响的大小,很多都是靠人和经验和猜,然后花大量的时间在线上验证自己的猜测,监督学习算法,迭代改进算法都无法使用。于是在第二赛段,有些选手将其改造成半监督学习:通过专家推荐生成正例,通过随机抽取生成反例,这样就可以代入算法了。 常用于处理无监督学习的方法有聚类,关联规则,规则等等。
5. 规则算法
有人把此题解法戏称为“规则吊打”,就是说它非常考验规则。再看看自己的解法,以及别人分享出的算法,前期几乎都是“人”总结出来的规则,比如:同一个人在同一季节购买的更可能是搭配,对同时购买次数进行排序,有些类别不适合搭配等等。如果不知道数据的具体意义,这些规则都无法获得。当然,这也是特征工程的一部分。
常见的与规则相关的算法有从决策树中抽取规则,它是一个监督学习;还有关联规则,比如Apriori算法或Fp-Growth算法,基本都属于统计类算法,该类算法也适用于本文中的问题。
6. 文本分析
题目给出的数据中包括商品的描述,给出的不是具体的文字,而是其关键字转换成的ID号,就是说一个商品的描述信息由多个 ID号组成。如果两件商品都包括很多同样的关键字,则说明它们可能是近似商品。这只是一个粗略的比较,可能与一件相品关键字个数相同的几百件商品,所以还要考虑每个关键字的重要程度。几乎所有人都使用了TF/IDF算法,使用中也有一些技巧,比如在什么范围内取IDF?是在同一类中取,还是在所有商品中取。
7. 图像处理
除了数据表,此题还提供了好几G的图片,也是用来计算商品的相似度和搭配度的,由于图片太多,处理时间太长,并且需要大量存储空间,所以很多人都忽略了该特征。也有人处理了其中的一部分,比如只在找不到搭配信息,没有购买记录,又找不到关键字类似的商品时,才分析其图片信息。求取图片特征的方法可以用SIFT(有相应的python库),即尺度不变特征变换。
8. 一些小技巧
(1) 大数据问题
此题应该算是数据量较大的问题,一次处理上千万条数据,内存不够会让程序运行起来非常慢,又只能使用一个cpu,因此在前期处理时,可切成了几个小数据集,用多线程分别计算后再合并。
(2) 按时间分组
除了统计每个用户购买的所有商品以外,还需要考虑季节,比如冬天的不能和夏天的搭配,可使用判断前后一个月内购买,以及将时间分为春夏秋冬等方法。
(3) 简化成模型
题目给的信息量很大,而我们关注的只是测试集中的5000个商品,以及与它近似的商品,因此,在前期可以先不考虑简化成模型,因为简化都或多或少会造成数据损失。
(4) 上传结果评分
如果同时改进了几个问题,那最好分开评测,因为同时提交,会分不清哪些是加分项,哪些是减分项。
技术文章定时推送
请关注公众号:算法学习分享