实战淘宝穿衣搭配

1. 说明

 《淘宝穿衣搭配》比赛是2015年的一个天池算法比赛,现已开放为新人赛,仍可下载数据,上传结果及计算排名。具体地址是: https://tianchi.aliyun.com/getStart/information.htm?spm=5176.100067.5678.2.78904065HrZLpP&raceId=231575
 这是一个集图片、文字、数据挖掘于一体的比赛,可下载的数据是千万级的,在网上也可以找到冠军及一些选手的解题思路。新人可用来练手,通过评分定位自己的实力,也能从前人的思路中受到启发。

2. 具体问题

 竞赛数据包含三部分,分别是:商品基本信息数据(分类、文本、图像);用户历史行为数据(用户、商品、购买时间);和专家提供的搭配套餐数据(商品组合)。任务是预测给定商品最佳搭配的前200个商品。 具体计分公式是:

其中n表示答案集合中商品的数量,p(k)表示在k截断之前的预测准确率,当第k个商品在答案集合中Δ(k)为1,否则为0。从中可见:在答案中越靠前的商品权重越大。
 购物表数据共1361万条,用户110万个,50万种商品,不重复关键字8万多个,280种分类。

3. 问题分析

 测试集中的数据均未出现在专家推荐表中,无法直接使用专家推荐。测试集中出现的商品大约有一半即没被购买过,也没被推荐过,要想对预测它的搭配,就需要找到与之类似的商品。因此本题可分解成两部分:求某商品的最佳搭配,求某商品的近似商品。
 求最佳搭配,可在专家推荐表中获取商品所在组中的其它商品,用户购买记录可将用户在某一时段购买的商品认为是可配搭商品,并从中减掉不可搭配的品种。不可搭配的品种由专家推荐表算出,280个类别可以有约280x280种组合,而专家给出的可组合类别只有不到1000种。
 求近似商品,可通过商品信息中商品的分类,关键字,图片计算,主要使用在同类中找关键字TF/IDF加权后最近似的商品。

4. 无监督学习和半监督学习

 此题代表了一类典型的问题:从以往的用户行为中寻找规律,以便辅助和引导用户之后的行为,像视频,新闻,购物推荐都属于此类问题,俗称啤酒尿布问题(在超市购物时买尿布的往往也买啤酒)。
 此题应该算是一个无监督或半监督学习问题。尽管用公式给出了计分标准,但开发者仍不知道预测搭配的5000x200项中,具体哪些正确的,哪些是错误的。线上每天只有两次评分机会,根据其反馈只能在粗略的方向上调整。
 因为是无监督学习,各个特征影响的大小,很多都是靠人和经验和猜,然后花大量的时间在线上验证自己的猜测,监督学习算法,迭代改进算法都无法使用。于是在第二赛段,有些选手将其改造成半监督学习:通过专家推荐生成正例,通过随机抽取生成反例,这样就可以代入算法了。 常用于处理无监督学习的方法有聚类,关联规则,规则等等。

5. 规则算法

 有人把此题解法戏称为“规则吊打”,就是说它非常考验规则。再看看自己的解法,以及别人分享出的算法,前期几乎都是“人”总结出来的规则,比如:同一个人在同一季节购买的更可能是搭配,对同时购买次数进行排序,有些类别不适合搭配等等。如果不知道数据的具体意义,这些规则都无法获得。当然,这也是特征工程的一部分。
 常见的与规则相关的算法有从决策树中抽取规则,它是一个监督学习;还有关联规则,比如Apriori算法或Fp-Growth算法,基本都属于统计类算法,该类算法也适用于本文中的问题。

6. 文本分析

 题目给出的数据中包括商品的描述,给出的不是具体的文字,而是其关键字转换成的ID号,就是说一个商品的描述信息由多个 ID号组成。如果两件商品都包括很多同样的关键字,则说明它们可能是近似商品。这只是一个粗略的比较,可能与一件相品关键字个数相同的几百件商品,所以还要考虑每个关键字的重要程度。几乎所有人都使用了TF/IDF算法,使用中也有一些技巧,比如在什么范围内取IDF?是在同一类中取,还是在所有商品中取。

7. 图像处理

 除了数据表,此题还提供了好几G的图片,也是用来计算商品的相似度和搭配度的,由于图片太多,处理时间太长,并且需要大量存储空间,所以很多人都忽略了该特征。也有人处理了其中的一部分,比如只在找不到搭配信息,没有购买记录,又找不到关键字类似的商品时,才分析其图片信息。求取图片特征的方法可以用SIFT(有相应的python库),即尺度不变特征变换。

8. 一些小技巧

(1) 大数据问题

 此题应该算是数据量较大的问题,一次处理上千万条数据,内存不够会让程序运行起来非常慢,又只能使用一个cpu,因此在前期处理时,可切成了几个小数据集,用多线程分别计算后再合并。

(2) 按时间分组

 除了统计每个用户购买的所有商品以外,还需要考虑季节,比如冬天的不能和夏天的搭配,可使用判断前后一个月内购买,以及将时间分为春夏秋冬等方法。

(3) 简化成模型

 题目给的信息量很大,而我们关注的只是测试集中的5000个商品,以及与它近似的商品,因此,在前期可以先不考虑简化成模型,因为简化都或多或少会造成数据损失。

(4) 上传结果评分

 如果同时改进了几个问题,那最好分开评测,因为同时提交,会分不清哪些是加分项,哪些是减分项。


技术文章定时推送
请关注公众号:算法学习分享

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/34197.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Android】仿淘宝商品详情页

话不多说---先上效果图: 图1 商品详情页 图2 加入购物车点击事件 需求分析: 图1中主要需要实现的效果: 1.轮播图 2.顶部导航栏的渐变 3.顶部导航栏随着滑动的位置选择对应的值以及点击滑动到对应位置 图2中主要需要实现的效果&#xff1…

仿淘宝— 商品图片切换

在线展示 html: <div id"box"><ul><li id"li01"><img src"./images/01.jpg" alt""></li><li id"li02"><img src"./images/02.jpg" alt""></li><l…

淘宝内容场下的人物理解系统

本文的人物理解特指对人的视觉特征的识别&#xff0c;即从视觉维度&#xff0c;获取视频或图片中人物的身份、性别、年龄、颜值、身材、服饰、人-物关系等各种信息。 背景介绍 随着网络通信技术的迅猛发展&#xff0c;主流的信息传播已经揉合了文本、图像、语音、视频等多种媒体…

实战3-淘宝用户行为分析及可视化

淘宝用户行为分析及可视化 目录 淘宝用户行为分析及可视化分析背景明确问题读取和理解数据数据预处理数据分析与可视化用户行为分析日PV和日UVPV与UV相关性可视化 时PV和时UV相关性可视化 不同行为类型用户PV分析操作行为分析操作行为情况操作行为可视化 用户消费行为分析日ARP…

怎样一同下载淘宝天猫的商品主图详情图细节图和属性图并保存

我们都知道一个商品链接里的图片素材&#xff0c;包含有主图、主图视频、详情图、属性图等等&#xff0c;那么我们能不能把一整个链接里的所有商品图一次都给导出来保存呢&#xff1f;答案是&#xff0c;当然是可以的&#xff0c;可我们该怎么正确的去操作呢&#xff1f;下面小…

超稳定的接口——淘宝/天猫获得淘宝商品详情

item_get-获得淘宝商品详情 注册开通 onebound.taobao.item_get 公共参数 名称类型必须描述keyString是调用key&#xff08;必须以GET方式拼接在URL中&#xff09;secretString是调用密钥api_nameString是API接口名称&#xff08;包括在请求地址中&#xff09;[item_search,…

弘辽科技:如何拍摄出效果好的淘宝主图?商品主图的基本要求有?

原标题《弘辽科技&#xff1a;如何拍摄出效果好的淘宝主图&#xff1f;商品主图的基本要求有&#xff1f;》 开店后&#xff0c;对于商家而言&#xff0c;接下来就是对店铺的一系列的运营和优化操作。比如商品主图设计与拍摄、店铺装修、商品发布、订单管理和配送等工作。可以…

淘宝用户行为分析

一、项目介绍 1.概述 本数据集是阿里巴巴提供的一个淘宝用户行为数据集&#xff08;数据来源&#xff1a;数据集-阿里云天池&#xff09;&#xff0c;包含了2017年11月25日至2017年12月3日之间有行为的约一百万随机用户的所有行为&#xff08;行为包括点击、购买、加购、喜欢&…

模仿淘宝主页

图片资源链接&#xff1a;http://pan.baidu.com/s/1jHAdLNg 密码&#xff1a;5uo1 代码资源链接&#xff1a;链接&#xff1a;http://pan.baidu.com/s/1slRaUIT 密码&#xff1a;8kin html 代码如下&#xff1a; <!DOCTYPE html> <html lang"en"> …

Android模仿淘宝详情页界面

话不多说—先上效果图&#xff1a; 图1中主要需要实现的效果&#xff1a; 1.轮播图 2.顶部导航栏的渐变 3.顶部导航栏随着滑动的位置选择对应的值以及点击滑动到对应位置 Android模仿淘宝详情页界面文件&#xff1a;url80.ctfile.com/f/25127180-734377737-78795d?p551685…

聊聊淘宝天猫个性化推荐技术演进史

引言&#xff1a;个性化推荐技术直面用户&#xff0c;可以说是站在最前线的那个。如今&#xff0c;从用户打开手机淘宝客户端&#xff08;简称“手淘”&#xff09;或是手机天猫客户端&#xff08;简称“猫客”&#xff09;的那一刻起&#xff0c;个性化推荐技术就已经启动&…

淘宝买家秀后台操作与各场景展示逻辑

宝贝洋淘买家秀&#xff1a;可操作加精展示在宝贝评价页面 店铺洋淘买家秀&#xff1a;店铺买家秀内容查看及管理 精选买家秀&#xff1a;被平台审核通过的买家秀&#xff0c;就是精选买家秀集合地。可操作转发至微淘。 加精后的买家秀会在详情页下出现&#xff0c;效果如下 …

生成式 AI 讲故事,儿童也能创作自己的睡前故事? #Create With Alexa

哈佛大学的 Sandra Cortesi 认为&#xff0c;父母应该尽量多地让孩子接触能够激发其主动创造力的技术。 亚马逊正在通过一项新的 Alexa 功能进入生成式人工智能热潮&#xff0c; 开始涉足讲故事领域&#xff0c;Create With Alexa 就是亚马逊在讲故事技术的一次尝试&#xff0c…

COMSOL空气反应 模型框架

Comsol等离子体模块&#xff0c;40多种空气反应框架&#xff0c;主要N2和O2。

chatgpt赋能python:Python中文版转换指南

Python中文版转换指南 Python是一种流行的编程语言&#xff0c;它的简单易学和开发效率高受到了全球众多开发者的青睐&#xff0c;但是很多初学者非常苦恼的是&#xff0c;Python的官网和文档全都是英文版的。在中国大陆的用户中&#xff0c;这一问题尤为突出。 本文将介绍Py…

chatgpt赋能python:Python文本编码转换详解

Python文本编码转换详解 在Python中&#xff0c;文本编码转换是一个非常常见的任务。本文将详细介绍Python中的文本编码转换&#xff0c;并提供一些常见的示例和代码片段。 什么是文本编码转换&#xff1f; 在计算机中&#xff0c;文本是以二进制形式存储的。文本编码是一种…

Oracle帐户被锁了,怎么解锁

当多次输入错误密码时&#xff0c;会被oracle视为恶意连接&#xff0c;账户就会锁定&#xff0c;解锁也很简单&#xff0c;步骤如下 第一步&#xff1a; 在数据库安装的电脑上&#xff0c;运行窗口中输入cmd&#xff0c;调出命令提示符界面。 第二步&#xff1a; 用管理员身…

Oracle scott账户被锁定,scott默认密码,sys,system默认密码

Windows安装oracle 安装oracle 出现Environment variable: "PATH" 在stage\cvu\目录下修改cvu_prereq.xml文件&#xff0c;在<CERTIFIED_SYSTEMS>字段下添加&#xff1a; 改 cvu_prereq.xml 里面 的配置&#xff0c;cvu_prereq.xml 文件在oracle安装解压包da…

实现登录密码输入错误次数过多,锁定用户账号,前台可以进行解锁的业务(未完善版本)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、前台实现解锁二、后台逻辑实现二、步骤1.数据库2.代码实现 前言 工作的第一天&#xff0c;就接到了一个登录锁定与解锁的需求&#xff0c;第一反应&#x…

geth如何解锁账户?

2019独角兽企业重金招聘Python工程师标准>>> 默认情况下&#xff0c;你在Geth中的账户是被锁住的&#xff0c;你不能用这些被锁住的账户发送交易&#xff0c;例如转账或调用合约方法。因此如果你需要使用Geth发送交易&#xff0c;就需要先解锁账户。那么&#xff0c…