一.分类和标签的区别
■标签是扁平的,分类是层级的。
■标签是精确的,分类是粗糙的。
■标签是多维的,分类是一维的。
二.标签的本质:元数据
事实上,在数据领域,有一个鼎鼎大名的词汇与标签极其雷同,无论它的定义、适用范围,还是它的衍生应用都与标签令人惊讶地一致。它就是:元数据。
元数据:用来描述数据的数据,是从数据中抽取出来用于说明其特征的数据,是结构化数据。
■元数据是结构化数据。
■元数据是可被搜索和精确定位的。
■元数据可以附属在任意结构数据上。
■元数据使得图片、文档、视频这些无法搜索内容的非结构化数据也可以被搜索、组织和管理。
三.标签的两种类型
1.规则标签
这类标签最简单,就是运营团队人为制定的规则,然后给这堆规则命名。例如沉默用户,定义为启动 APP 后10分钟内就离开的用户;流失用户,定义为3个月内没有回访的注用户。这里的默和用就是规则标签。规则标签,有时候也叫业务标签。
2.特征标签
在内容分发领域,更多应用的是特征标签,不再是人为制定的规则,而是通过机器学习来理解内容并提取特征作为标签,即把原始的图文或视频的文本信息丢进 NLP ,然后 NLP 去分析和理解并输出特征文本,即标签。一篇文章,有可能全篇的文字都没有提到比尔·盖茨,但是 NLP 也能输出比尔·盖茨,这种操作用高级的说法就是:内容理解
。
四.标签系统的核心逻辑
1.标签是结构化数据
标签常态下是一个普通得不能再普通的文本,文本一定是可以结构化的,也就是说标签是可以被结构化,可以被有效存储、组织、管理、搜索和精确定位的。总之,结构化数据的特点和治理方式可以完美地套用到标签上。
2.标签是可被搜索和精确定位的
由于标签是结构化的,是可以在关系型数据库中有效组织、存储和管理的,那么,它就一定能被搜索且被精确定位。也就是说,我们总是有很高效的办法来定位每一个标签。
这一点非常重要,结构化数据总是能够被高效地搜索和定位,这样就让标签数量可以无后顾之忧地爆发性增长。而随着标签数量的不断增长,标签能够愈加精确地去描述信息,让信息本身也愈加容易被精确定位和搜索,这是一个双赢的结果。
3.标签可用于各种数据结构上
虽然标签是结构化的,但其本身并不局限于只能描述结构化的数据。
事实上,标签用以描述的信息是普适性的,也就是说标签可以应用于任意数据结构,比如常规的文本、图片、视频、音频、超链接,甚至更抽象的信息。
4.标签可以使原本无法描述、搜索和定位的数据也可以被描述、搜索和定位
这个特性简直就是标签的黑科技,如果把标签比作天火,数据比作擎天柱,那么给数据加上标签,也就等于给擎天柱附加了天火的飞行引擎。众所周知,视频这种非结构化数据不仅存储起来让人头疼,搜索起来更让人头疼。因为非结构化数据很难被搜索和精确定位。而上述的给视频增加文件名、标题甚至大段描述文字的效果依然很差,因为这种
描述的信息量非常有限。
百度就已经开始研发针对视频的每一帧来打标签的技术,而最能让群众接受和喜闻乐见的针对视频内容或者视频帧的标签,就是二次元们用的弹幕。
B站的视频弹幕列表,不仅标记了弹幕出现的时间点,还能双击弹幕快速跳转到对应的视频内容时间点上。
五.标签和权重
当我们给某些信息打上这些标签时,其实我们潜意识是有一个预期和判断的,大致就是一线城市和十线县城赋予信息的重要程度是完全不一样的,即信息被打上广州和被打上曲麻莱县具有完全不同的含义,也就是说:标签是有权重的。
■有了权重,标签就有了分级,于是使用标签的信息就有了分级。
■有了权重,标签就有了优先级,于是使用标签的信息就有了优先级。
■有了权重,标签可以满足个性需求,于是使用标签的信息就可以体现个性需求。
六.最佳实践1:BAT是怎么建设标签体系的
1.工程应用中的标签体系
在实际工程应用中,标签体系通常是和分级体系结合在一起成为完整的内容分类体系。相对粗粒度的分类体系和相对细粒度的标签体系各司其职,共同发挥作用。在内容分发平台中( UC 头条、今日头条等 APP )。
(1)一级类
最顶层,最粗粒度,也是最通用的分类,例如社会、娱乐、科技等。一般有15~20个,各个内容分发平台差别不大,各个内容类型(图文、短视频、音频等)差异也不大。
(2)二级分类次级,次粒度的分类,二级分类很好理解,把一级分类细拆下来就是了,例如一级分类的娱乐细拆为电影、音乐、电视剧等二级分类。
(3)三级分类
这个不是每家都有,原因在于:三级分类已经和标签的粗粒度差不多,可以用标签来代替三级分类;三级分类数量太大,体系化管理和维护成本太高。某信息流产品的一级分类有22个,二级分类有88个,再拆到三级分类就是指数级的增加了。于是,三级分类在工程应用中的定位是填补上层二级分类和下层标签体系之间的粒度空白。
什么是粒度空白?例如一级分类是娱乐,二级分类是电影,标签是王家卫,可能会出现下面这种情况:假设我是一个文艺电影爱好者,如果用二级分类的电影做推荐,那可就太粗了。如果用王家卫的标签做推荐,那可就太细了,文艺片有好多导演的嘛, CTR 肯定惨不忍睹。那怎么办呢?简单,在电影和王家卫之间增加一个:文艺片,既比电影的粒度细,又比王家卫的粒度粗,既可以满足看文艺片的需求,也不会天天推王家卫这么局限。
研究中文语义和词义的专家就给出了解决方案:针对指向性不明显,建议标签优先使用名词,且唯一指代。
实体词代表的标签称为实体标签。实体标签必须是名词,且必须是唯一指代。
苹果,是实体标签吗?并不是。
因为实体标签的要求:名词,且唯一指代。苹果,是名词,但不是唯一指代,苹果可以指代科技公司、手机、水果、牛仔裤。所以如果用"苹果"作为标签去推荐,我看了苹果手机,你却给我推1斤3元的苹果,岂不是让人啼笑皆非?
难道我就不能用"苹果"了吗?当然可以用,只不过要给它另外起个名字:概念标签。概念标签通常表示的是**"一类"或"某种相似"的内容,**
2.图文和短视频的标签生产有什么不同?
现代工程中,基本上是通过 NLP 来生产标签的,也就是把图文或者短视频丢进 NLP 模型,模型呼啦呼啦一顿运算找出"自认为"最符合输入内容特征的标签,完事。这个事的核心逻辑是 NLP 模型的效果(准确率,召回率和覆盖率,简称准召覆)严重依赖输入的信息以及信息量。依赖的信息仅为文本信息,图片、语音没用,并且信息量越多越好,越纯净越好
**图文信息的 NLP 准召覆业内平均都可以做到85%以上,短视频的 NLP 准召覆能到70%就不错了。**针对短视频的文本信息少,有效信息都在视频和音频中,一般采用融合模型来搞定。融合模型:不仅分析短视频仅有的文本信息,同时对视频帧和音频进行处理,故谓之融合模型。
七.最佳实践2:BAT是如何让标签赋能各个业务模块的
1.标签如何赋能内容管理和运营
内容均衡化和针对性入库,内容库运营者负责内容源、内容质量等,分类的粒度太粗了,而且同一分类下的内容也会千差万别。举个例子,假如内容库有社会这个分类,那么极有可能出现这种可能:
■国家领导人出访友邻达成友好共识。
■磊叔家隔壁的小哥哥聚众打架引发青少年教育反思。
当热点运营者发现社会分类的 CTR 显著高于大盘,那么到底是教育这个二级分类火了,还是青少年教育这个标签火了,还是隔壁小哥哥打架这件鸡毛蒜皮的事情爆冷突然火了呢?
通过分析分类体系和标签体系的 CTR ,运营者发现是"青少年教育"这个标签打上的内容都火了,接下来就可以人工监控"青少年教育"这个标签的热度,控制好推荐策略中的权重,太热容易失控,这叫热点运营;同时自媒体运营同学可以告诉广大自媒体作者:老师您好,写个青少年教育的文章呗,保量下发,这叫创作引导。
2.标签如何赋能冷启动
用户冷启动:通常会引导我们关注一堆内容,本质是标签。
内容冷启动:内容被打上标签,第一次下发时,优先下发给与标签相匹配的用户。
3.标签如何赋能相关推荐
标签简直就是天然为推荐场景而生的,毕竟都在讲要个性化推荐,都在讲精准推荐。标签的精准指向恰好就是为此服务的。标签推荐下发场景的应用丰富多彩,玩法五花八门,各家也是百花齐放。
对于常见的内容型产品,典型的用户路径是这样的:
某个用户触达入口→内容 list →内容详情页→返回内容 list →另一个内容详情页→ repeat →退出。
这么描述可能有点抽象,我们找个有代入感的场景来说明。
例如,用户收到一条推送,点击进入推送列表,点击某条内容进入详情页,看完后要么写个评论,要么分享点赞收藏,要么什么都不做就闪人。
发现问题了吗?停留时间太短,好不容易拉来的流量过来溜达一圈就走了。如此浪费流量自然不能坐视不理,得想点办法。有了,让用户在某个页面多停留一会儿不就解决了。看来看去,好像只有详情页有点空间增加一些内容来留住用户。如果用户点进来,而且浏览到正文末尾了,那么可以认为
用户对此内容有强兴趣。可以在正文末增加与当前内容强相关的推荐,行话叫相关推荐。
这么描述还是抽象,我们再说得具体一些:
■ A 君点击了一篇办理港澳通行证的文章。
■ A 君看到了最后一行。
■ A 君发现后面还有"你可能还想看",里面推荐了香港和澳门的旅游景点和美食。
■ A 君觉得还不错,看了一篇有关香港旅游的文章。
■ A 君不仅看完了文章,还在"你可能想看"又点击了其他内容。
■"无限循环"。
然后运营者发现, APP 使用时长猛增几十倍,可喜可贺。描述得有点简单,不过实际情况确是如此,相关推荐的核心逻辑是这样:
■如果内容的阅读完成率和阅读时长达到某个阈值,即认为当前内容命中了用户的即时兴趣。
■如果命中了用户的即时兴趣,即认为当前内容的某些特征命中了用户的即时兴趣。
■如果当前内容的某些特征命中了用户当前兴趣,即认为用户有更高的可能性去浏览基于这些特征推荐的其他内容。
■如此这般就形成了基于标签的相关推荐场景下的流量莫比斯环。
核心逻辑的关键词就是内容的特征,即标签,命中了用户的即时兴趣,即当前浏览下的兴趣。
4.标签赋能产品
上面几个赋能都是运营相关的,那么产品呢?产品方面有标签露出、关注标签。分别对应的产品有: B 站 APP 的视频详情页有露出相关的标签;什么值得买的标签可以订阅,标签命中的内容如有更新会主动告知用户.
5.标签赋能用户画像和兴趣探索
这里更好玩,用户画像和兴趣与标签系统是基于同一套标签库的,不然怎么样进行用户兴趣和内容推荐的匹配呢,不多解释。好玩的反而是在兴趣探索,为什么?总不能一直给用户推荐相似的内容吧,天天吃龙虾也会腻的。
八.最佳实践3:标签系统的局限和劣势
准确地说是实体标签的局限和劣势。实体标签的定义是:名词,且唯一指代,优点是精准,局限是太精准,故导致实体标签的覆盖率有天花板,现代工程中实体标签的覆盖率大概只能到70%~75%,因为精准,所以局限;同时易导致推荐策略过度收敛。在推荐系统中,实体标签很精准,特征很明显,好处是描述用户兴趣非常准确,有利于提高推荐系统的效果,但容易导致推荐系统判断用户兴趣时变得极其狭隘和过度精准,行话就是过度收敛。由于标签会让推荐越来越收敛,所以在推荐策略中的核心关注点就是保持推荐的精准和兴趣探索的平衡。
■增加负反馈,让用户明确告诉推荐系统不喜欢哪些内容,并且这种负反馈的权重很大,优先级很高。
■ ReRank 层增加强策略,人为约束标签的过度收敛。
■人工运营中,可能会打压部分热门标签的流量或者降低权重。某些时效性很强的标签,比如娱乐圈的那些破事,爆出来后时效性也就那么几天,没必要一直霸着好位置占流量,所以这类标签通常在推荐系统中会被加上一个时间衰减函数,让它们尽快衰减。