内容运营工具:标签体系

一.分类和标签的区别

■标签是扁平的,分类是层级的。
■标签是精确的,分类是粗糙的。
■标签是多维的,分类是一维的。

二.标签的本质:元数据

事实上,在数据领域,有一个鼎鼎大名的词汇与标签极其雷同,无论它的定义、适用范围,还是它的衍生应用都与标签令人惊讶地一致。它就是:元数据。
元数据:用来描述数据的数据,是从数据中抽取出来用于说明其特征的数据,是结构化数据。
■元数据是结构化数据。
■元数据是可被搜索和精确定位的。
■元数据可以附属在任意结构数据上。
■元数据使得图片、文档、视频这些无法搜索内容的非结构化数据也可以被搜索、组织和管理。

三.标签的两种类型

1.规则标签
这类标签最简单,就是运营团队人为制定的规则,然后给这堆规则命名。例如沉默用户,定义为启动 APP 后10分钟内就离开的用户;流失用户,定义为3个月内没有回访的注用户。这里的默和用就是规则标签。规则标签,有时候也叫业务标签。
2.特征标签
在内容分发领域,更多应用的是特征标签,不再是人为制定的规则,而是通过机器学习来理解内容并提取特征作为标签,即把原始的图文或视频的文本信息丢进 NLP ,然后 NLP 去分析和理解并输出特征文本,即标签。一篇文章,有可能全篇的文字都没有提到比尔·盖茨,但是 NLP 也能输出比尔·盖茨,这种操作用高级的说法就是:内容理解

四.标签系统的核心逻辑

1.标签是结构化数据
标签常态下是一个普通得不能再普通的文本,文本一定是可以结构化的,也就是说标签是可以被结构化,可以被有效存储、组织、管理、搜索和精确定位的。总之,结构化数据的特点和治理方式可以完美地套用到标签上。
2.标签是可被搜索和精确定位的
由于标签是结构化的,是可以在关系型数据库中有效组织、存储和管理的,那么,它就一定能被搜索且被精确定位。也就是说,我们总是有很高效的办法来定位每一个标签。
这一点非常重要,结构化数据总是能够被高效地搜索和定位,这样就让标签数量可以无后顾之忧地爆发性增长。而随着标签数量的不断增长,标签能够愈加精确地去描述信息,让信息本身也愈加容易被精确定位和搜索,这是一个双赢的结果。
3.标签可用于各种数据结构上
虽然标签是结构化的,但其本身并不局限于只能描述结构化的数据。
事实上,标签用以描述的信息是普适性的,也就是说标签可以应用于任意数据结构,比如常规的文本、图片、视频、音频、超链接,甚至更抽象的信息。
4.标签可以使原本无法描述、搜索和定位的数据也可以被描述、搜索和定位
这个特性简直就是标签的黑科技,如果把标签比作天火,数据比作擎天柱,那么给数据加上标签,也就等于给擎天柱附加了天火的飞行引擎。众所周知,视频这种非结构化数据不仅存储起来让人头疼,搜索起来更让人头疼。因为非结构化数据很难被搜索和精确定位。而上述的给视频增加文件名、标题甚至大段描述文字的效果依然很差,因为这种
描述的信息量非常有限。

百度就已经开始研发针对视频的每一帧来打标签的技术,而最能让群众接受和喜闻乐见的针对视频内容或者视频帧的标签,就是二次元们用的弹幕。
B站的视频弹幕列表,不仅标记了弹幕出现的时间点,还能双击弹幕快速跳转到对应的视频内容时间点上。

五.标签和权重

当我们给某些信息打上这些标签时,其实我们潜意识是有一个预期和判断的,大致就是一线城市和十线县城赋予信息的重要程度是完全不一样的,即信息被打上广州和被打上曲麻莱县具有完全不同的含义,也就是说:标签是有权重的
■有了权重,标签就有了分级,于是使用标签的信息就有了分级。
■有了权重,标签就有了优先级,于是使用标签的信息就有了优先级。
■有了权重,标签可以满足个性需求,于是使用标签的信息就可以体现个性需求。

六.最佳实践1:BAT是怎么建设标签体系的

1.工程应用中的标签体系
在实际工程应用中,标签体系通常是和分级体系结合在一起成为完整的内容分类体系。相对粗粒度的分类体系和相对细粒度的标签体系各司其职,共同发挥作用。在内容分发平台中( UC 头条、今日头条等 APP )。
在这里插入图片描述

(1)一级类
最顶层,最粗粒度,也是最通用的分类,例如社会、娱乐、科技等。一般有15~20个,各个内容分发平台差别不大,各个内容类型(图文、短视频、音频等)差异也不大。

(2)二级分类次级,次粒度的分类,二级分类很好理解,把一级分类细拆下来就是了,例如一级分类的娱乐细拆为电影、音乐、电视剧等二级分类。

(3)三级分类
这个不是每家都有,原因在于:三级分类已经和标签的粗粒度差不多,可以用标签来代替三级分类;三级分类数量太大,体系化管理和维护成本太高。某信息流产品的一级分类有22个,二级分类有88个,再拆到三级分类就是指数级的增加了。于是,三级分类在工程应用中的定位是填补上层二级分类和下层标签体系之间的粒度空白。

什么是粒度空白?例如一级分类是娱乐,二级分类是电影,标签是王家卫,可能会出现下面这种情况:假设我是一个文艺电影爱好者,如果用二级分类的电影做推荐,那可就太粗了。如果用王家卫的标签做推荐,那可就太细了,文艺片有好多导演的嘛, CTR 肯定惨不忍睹。那怎么办呢?简单,在电影和王家卫之间增加一个:文艺片,既比电影的粒度细,又比王家卫的粒度粗,既可以满足看文艺片的需求,也不会天天推王家卫这么局限。

研究中文语义和词义的专家就给出了解决方案:针对指向性不明显,建议标签优先使用名词,且唯一指代。

实体词代表的标签称为实体标签。实体标签必须是名词,且必须是唯一指代。
苹果,是实体标签吗?并不是。
因为实体标签的要求:名词,且唯一指代。苹果,是名词,但不是唯一指代,苹果可以指代科技公司、手机、水果、牛仔裤。所以如果用"苹果"作为标签去推荐,我看了苹果手机,你却给我推1斤3元的苹果,岂不是让人啼笑皆非?
在这里插入图片描述

难道我就不能用"苹果"了吗?当然可以用,只不过要给它另外起个名字:概念标签。概念标签通常表示的是**"一类"或"某种相似"的内容,**

在这里插入图片描述

2.图文和短视频的标签生产有什么不同?
现代工程中,基本上是通过 NLP 来生产标签的,也就是把图文或者短视频丢进 NLP 模型,模型呼啦呼啦一顿运算找出"自认为"最符合输入内容特征的标签,完事。这个事的核心逻辑是 NLP 模型的效果(准确率,召回率和覆盖率,简称准召覆)严重依赖输入的信息以及信息量。依赖的信息仅为文本信息,图片、语音没用,并且信息量越多越好,越纯净越好

**图文信息的 NLP 准召覆业内平均都可以做到85%以上,短视频的 NLP 准召覆能到70%就不错了。**针对短视频的文本信息少,有效信息都在视频和音频中,一般采用融合模型来搞定。融合模型:不仅分析短视频仅有的文本信息,同时对视频帧和音频进行处理,故谓之融合模型。

七.最佳实践2:BAT是如何让标签赋能各个业务模块的

1.标签如何赋能内容管理和运营
内容均衡化和针对性入库,内容库运营者负责内容源、内容质量等,分类的粒度太粗了,而且同一分类下的内容也会千差万别。举个例子,假如内容库有社会这个分类,那么极有可能出现这种可能:
■国家领导人出访友邻达成友好共识。
■磊叔家隔壁的小哥哥聚众打架引发青少年教育反思。
当热点运营者发现社会分类的 CTR 显著高于大盘,那么到底是教育这个二级分类火了,还是青少年教育这个标签火了,还是隔壁小哥哥打架这件鸡毛蒜皮的事情爆冷突然火了呢?
通过分析分类体系和标签体系的 CTR ,运营者发现是"青少年教育"这个标签打上的内容都火了,接下来就可以人工监控"青少年教育"这个标签的热度,控制好推荐策略中的权重,太热容易失控,这叫热点运营;同时自媒体运营同学可以告诉广大自媒体作者:老师您好,写个青少年教育的文章呗,保量下发,这叫创作引导。

2.标签如何赋能冷启动
用户冷启动:通常会引导我们关注一堆内容,本质是标签。
内容冷启动:内容被打上标签,第一次下发时,优先下发给与标签相匹配的用户。

3.标签如何赋能相关推荐
标签简直就是天然为推荐场景而生的,毕竟都在讲要个性化推荐,都在讲精准推荐。标签的精准指向恰好就是为此服务的。标签推荐下发场景的应用丰富多彩,玩法五花八门,各家也是百花齐放。
对于常见的内容型产品,典型的用户路径是这样的:
某个用户触达入口→内容 list →内容详情页→返回内容 list →另一个内容详情页→ repeat →退出。
这么描述可能有点抽象,我们找个有代入感的场景来说明。
例如,用户收到一条推送,点击进入推送列表,点击某条内容进入详情页,看完后要么写个评论,要么分享点赞收藏,要么什么都不做就闪人。
发现问题了吗?停留时间太短,好不容易拉来的流量过来溜达一圈就走了。如此浪费流量自然不能坐视不理,得想点办法。有了,让用户在某个页面多停留一会儿不就解决了。看来看去,好像只有详情页有点空间增加一些内容来留住用户。如果用户点进来,而且浏览到正文末尾了,那么可以认为
用户对此内容有强兴趣。可以在正文末增加与当前内容强相关的推荐,行话叫相关推荐。
这么描述还是抽象,我们再说得具体一些:
■ A 君点击了一篇办理港澳通行证的文章。
■ A 君看到了最后一行。
■ A 君发现后面还有"你可能还想看",里面推荐了香港和澳门的旅游景点和美食。
■ A 君觉得还不错,看了一篇有关香港旅游的文章。
■ A 君不仅看完了文章,还在"你可能想看"又点击了其他内容。
■"无限循环"。
然后运营者发现, APP 使用时长猛增几十倍,可喜可贺。描述得有点简单,不过实际情况确是如此,相关推荐的核心逻辑是这样:
■如果内容的阅读完成率和阅读时长达到某个阈值,即认为当前内容命中了用户的即时兴趣。
■如果命中了用户的即时兴趣,即认为当前内容的某些特征命中了用户的即时兴趣。
■如果当前内容的某些特征命中了用户当前兴趣,即认为用户有更高的可能性去浏览基于这些特征推荐的其他内容。
■如此这般就形成了基于标签的相关推荐场景下的流量莫比斯环。
核心逻辑的关键词就是内容的特征,即标签,命中了用户的即时兴趣,即当前浏览下的兴趣。

4.标签赋能产品
上面几个赋能都是运营相关的,那么产品呢?产品方面有标签露出、关注标签。分别对应的产品有: B 站 APP 的视频详情页有露出相关的标签;什么值得买的标签可以订阅,标签命中的内容如有更新会主动告知用户.

5.标签赋能用户画像和兴趣探索
这里更好玩,用户画像和兴趣与标签系统是基于同一套标签库的,不然怎么样进行用户兴趣和内容推荐的匹配呢,不多解释。好玩的反而是在兴趣探索,为什么?总不能一直给用户推荐相似的内容吧,天天吃龙虾也会腻的。

八.最佳实践3:标签系统的局限和劣势

准确地说是实体标签的局限和劣势。实体标签的定义是:名词,且唯一指代,优点是精准,局限是太精准,故导致实体标签的覆盖率有天花板,现代工程中实体标签的覆盖率大概只能到70%~75%,因为精准,所以局限;同时易导致推荐策略过度收敛。在推荐系统中,实体标签很精准,特征很明显,好处是描述用户兴趣非常准确,有利于提高推荐系统的效果,但容易导致推荐系统判断用户兴趣时变得极其狭隘和过度精准,行话就是过度收敛。由于标签会让推荐越来越收敛,所以在推荐策略中的核心关注点就是保持推荐的精准和兴趣探索的平衡。
■增加负反馈,让用户明确告诉推荐系统不喜欢哪些内容,并且这种负反馈的权重很大,优先级很高。
■ ReRank 层增加强策略,人为约束标签的过度收敛。
■人工运营中,可能会打压部分热门标签的流量或者降低权重。某些时效性很强的标签,比如娱乐圈的那些破事,爆出来后时效性也就那么几天,没必要一直霸着好位置占流量,所以这类标签通常在推荐系统中会被加上一个时间衰减函数,让它们尽快衰减。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/197983.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python爬虫的七个常用技巧总结,这些你一定得知道!

文章目录 前言1、基本抓取网页2、使用代理IP3、Cookies处理4、伪装成浏览器5、验证码的处理6、gzip压缩7、多线程并发抓取关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包项目源码合集①Python工具包②Python实战…

锐捷EG易网关login.php以及其后台cli.php/branch_passw.php RCE漏洞复现 [附POC]

文章目录 锐捷EG易网关login.php以及其后台cli.php/branch_passw.php远程代码执行漏洞复现 [附POC]0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.构造POC3.复现 锐捷EG易网关login.php以及其后台cli.php/branch_passw.php远程代码执行漏洞复…

Mysql -常见函数

目录 字符串函数 数值函数 日期函数 流程函数 字符串函数 -- 拼接 SELECT CONCAT(Hello, World); -- 小写 SELECT LOWER(Hello); -- 大写 SELECT UPPER(Hello); -- 左填充 SELECT LPAD(01, 5, -); -- 右填充 SELECT RPAD(01, 5, -); -- 去除空格 SELECT TRIM( Hello World )…

批量替换WordPress文章内图片链接

在WordPress使用过程中,如果中途更换了域名,原先文章内的图片使用的是原来的域名,就会造成文章页里面的图片链接无法显示。如果从后台文章挨个修改就比较麻烦。可以通过数据库进行批量替换即可。 使用 PHPMyadmin 打开 数据库,登…

【C++】一文全解C++中的异常:标准库异常体系&自定义异常体系(含代码演示)

前言 大家好吖,欢迎来到 YY 滴C系列 ,热烈欢迎! 本章主要内容面向接触过C的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! 目录 一.C语言传统的处理错误的方式二.C异常…

修完这个 Bug 后,MySQL 性能提升了 300%

最近 MySQL 官方在 8.0.35 上修复了一个 bug: 这个 bug 是由 Mark Callaghan 发现的。Mark 早年在 Google MySQL 团队,后来去了 Meta MySQL,也主导了 RocksDB 的开发。 Mark 在 #109595 的 bug report 给出了非常详细的复现步骤 在官方修复后…

【网络通信】探索UDP与TCP协议、IP地址和端口号的奥妙

🌺个人主页:Dawn黎明开始 🎀系列专栏:网络奇幻之旅 ⭐每日一句:往前走,朝着光 📢欢迎大家:关注🔍点赞👍评论📝收藏⭐️ 文章目录 📋前…

【Web】Ctfshow SSTI刷题记录1

目录 ①web361 362-无过滤 ②web363-过滤单双引号 ③web364-过滤单双引号和args ④web365-过滤中括号[]、单双引号、args ⑤web366-过滤单双引号、args、中括号[]、下划线 ⑦web367-过滤单双引号、args、中括号[]、下划线、os ⑧web368-过滤单双引号、args、中括号[]、下…

如何在 Nginx Proxy Manager(NPM)上部署静态网站

前言 众所周知,我们在之前介绍过 Nginx Proxy Manager(以下简称 NPM) 这个反向代理的神器,对于一些 Docker 搭建的 Web 项目,NPM 能够很轻松地给他们做反向代理。 然而对于一些静态网站,小伙伴们可能不知道怎么用 NP…

Ubuntu 安装VMware Tools选项显示灰色,如何安装VMware Tools

切换apt源为阿里云: https://qq742971636.blog.csdn.net/article/details/134291339 只要你的网络没问题,你直接执行这几个命令,重启ubuntu虚拟机即可、 sudo dpkg --configure -a sudo apt-get autoremove open-vm-tools sudo apt-get ins…

LangChain 2模块化prompt template并用streamlit生成网站 实现给动物取名字

上一节实现了 LangChain 实现给动物取名字, 实际上每次给不同的动物取名字,还得修改源代码,这周就用模块化template来实现。 1. 添加promptTemplate from langchain.llms import OpenAI # 导入Langchain库中的OpenAI模块 from langchain.p…

Autox.js和Auto.js4.1.1手机编辑器不好用我自己写了一个编辑器

功能有 撤销 重做 格式化 跳转关键词 下面展示一些 内联代码片。 "ui"; ui.layout( <drawer id"drawer"><vertical><appbar><toolbar id"toolbar"title""h"20"/></appbar><horizontal b…

深度学习——(生成模型)DDPM

前置数学知识 1、先验概率和后验概率 先验概率&#xff1a;根据以往经验和分析得到的概率,它往往作为“由因求果”问题中的“因”出现&#xff0c;如 q ( x t ∣ x t − 1 ) q(x_t|x_{t-1}) q(xt​∣xt−1​) 后验概率&#xff1a;指在得到“结果”的信息后重新修正的概率,是…

MIKE水动力笔记19_统计平均潮差

本文目录 前言Step 1 ArcGIS中创建渔网点Step 2 将dfsu数据提取到渔网点Step 3 Python统计平均潮差 前言 日平均潮差&#xff08;average daily tidal range&#xff09;&#xff1a;日高潮潮高合计之和除以实有高潮个数为日平均高潮潮高&#xff0c;日低潮潮高合计之和除以实…

redis问题归纳

1.redis为什么这么快&#xff1f; &#xff08;1&#xff09;基于内存操作&#xff1a;redis的所有数据都存在内存中&#xff0c;因此所有的运算都是内存级别的&#xff0c;所以性能比较高 &#xff08;2&#xff09;数据结构简单&#xff1a;redis的数据结构是专门设计的&…

「Verilog学习笔记」根据状态转移图实现时序电路

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点&#xff0c;刷题网站用的是牛客网 这是一个典型的米利型状态机。三段式即可解决。 米利型状态机&#xff1a;即输出不仅和当前状态有关&#xff0c;也和输入有关。 其中ST0&#xff0c;ST1&#xff0c;ST3的…

分组交换技术

目录 一、新型计算机网络的基本特点 二、电路交换 1、回顾电路交换的原理 2、使用交换机连接许多部电话 3、电路交换举例 4、电路交换的三个阶段 5、电路交换的特点 三、分组交换 1、因特网有边缘部分与核心部分组成 2、分组交换的原理 3、分组交换的优点 4、存储转…

蓝桥杯每日一题2023.11.19

题目描述 “蓝桥杯”练习系统 (lanqiao.cn) 题目分析 首先想到的方法为dfs去寻找每一个数&#xff0c;但发现会有超时 #include<bits/stdc.h> using namespace std; const int N 2e5 10; int n, cnt, a[N]; void dfs(int dep, int sum, int start) {if(dep 4){if(s…

[AI]ChatGPT4 与 ChatGPT3.5 区别有多大

ChatGPT 3.5 注册已经不需要手机了&#xff0c;直接邮箱认证就可以&#xff0c;这可真算是好消息&#xff0c;坏消息是 ChatGPT 4 还是要收费。 那么 GPT-3.5 与 GPT-4 区别有多大呢&#xff0c;下面简单测试一下。 以从 TDengine 订阅数据为例&#xff0c;TDengine 算是不太小…

5.Java中的注释及Javadoc文档

本文讲解 Java 中的注释以及 Javadoc 文档 ~ 文章目录 1. 注释1.1 引言1.1.1 何为注释&#xff1f;1.1.2 注释有何用&#xff1f;1.1.2.1 方便阅读1.1.2.2 调试程序 1.1.3 单行注释和多行注释 1.2 方法注释1.2.1 什么是方法注释&#xff1f;1.2.2 如何写方法注释&#xff1f;1.…