CSDN 个性化推荐的数据治理

目录

  • 1. 背景
  • 2. 数据治理
    • 2.1 从内容层面提升数据质量
    • 2.2 从用户层面提升数据质量
    • 2.3 增加特定数据的曝光
    • 2.4 保证数据的正确性与实效性
  • 3. 总结


相关阅读

  • CSDN 个性化推荐系统的设计和演进
  • 如何支持研发对CSDN个性化推荐系统重构

1. 背景

CSDN 的个性化推荐流在主站中是一个很重要的模块,在过去半年多的时间里,AI 小组通过人工智能等相关技术,在原有数据召回源的基础上,根据用户的反馈以及内部的讨论和分析,不断优化个性化推荐流的数据质量,以达到推荐用户更感兴趣内容,提升用户阅读体验的目的。
在这里插入图片描述

个性化推荐流的数据源类型主要包括以下五类:博客、社区云帖子、问答提问、Blink 动态、直播,其中博客的占比最高。

数据源的召回在包含全站数据的数据仓库中使用 SQL 语句实现,并将召回的数据保存到业务库中进行混排与各种逻辑处理。以下是所有涉及到的数据源:

数据源召回数据源类型
热门blink召回Blink 动态
新用户冷启动白名单推荐池Blink 动态
用户关注推荐池内容召回Blink 动态
原力计划博客召回博客
协同过滤召回博客
用户个性化标签召回博客
新用户冷启动白名单推荐池博客
热数据博客
历史上的今天召回池博客
用户关注推荐池内容召回博客
用户搜索历史召回源博客
用户关注的社区云帖子社区云帖子
等你来答问答提问
正在直播的白名单召回源直播
用户关注直播召回直播

2. 数据治理

基于以上提到的召回源,我们进一步加入了一系列的限制,并且调整了召回逻辑,实现数据的治理,具体如下:

2.1 从内容层面提升数据质量

  • 过滤掉质量分小于等于 20 的博客 (质量分查询请点这里)。
  • 过滤掉标题党文章。例如:

阿里程序员写了一个新手都写不出的低级bug,被骂惨了。
见过仙女蹦迪吗?一起用python做个小仙女代码蹦迪视频
mybatis 缓存的使用,看这篇就够了
鬼知道我看了几遍!Java常用集合类总结
为了帮粉丝完成毕业设计,我发现了一款私活神器!!
该买哪家二手手机呢?程序员爬取京东告诉你!
家长叫我别天天我在房间没事多看看新闻,我说我马上写个爬虫爬新闻看!!!
华为员工离职心声:菊厂15年退休,感恩,让我实现了财务自由!
java扫雷游戏,触雷时学姐哭着扑向了你!
我要偷偷的学Python,然后惊呆所有人(第二天)

  • 过滤掉封面图违规的文章。

  • 去掉长度较短的 Blink 动态,去掉「已注销」用户的 Blink 动态。

  • 过滤掉软文,即去掉包含广告的文章,例如:
    在这里插入图片描述

  • 原力计划 的博客质量分要大于等于 80 分。原力计划作为官方活动,须保证其文章的高质量。

  • 过滤掉 毕业设计 相关的文章。毕业设计之类的文章,对于用户的参考性不大,大多是挂羊头卖狗肉。对于即将毕业正在写毕业设计的用户,建议去权威学术知识库检索已发表的论文进行参考。

  • 课程设计 相关的博客进行降权。理由同上,并且更希望学生用户更好利用 CSDN 平台,自主完成课程设计,提升自身的硬实力。

2.2 从用户层面提升数据质量

  • 引入用户黑名单机制,过滤掉 培训个人/机构账号 的文章,过滤掉 测试账号 发布的测试数据。
  • 引入用户灰名单机制,让运营对某些不合规用户对应的博客进行降权。
  • 过滤掉博客发布频率过高的用户对应的文章,此处假设高质量的博客需要花时间打磨。
  • 过滤禁言用户对应的数据。

2.3 增加特定数据的曝光

  • 提升带有红包的社区云帖子、博客、Blink 动态的权重,增加该类数据的曝光量。

2.4 保证数据的正确性与实效性

  • 确保个性化推荐召回源数据样本得分为升序,以保证后端混排的正确性。
  • 召回的所有博客数据都包含 统一标签+标题标签,并且能正确提取出时下最新的技术标签,保证负反馈机制的正确性。以前的数据只有部分博客包含标签,且无法提取最新的技术标签 (例如:ChatGPT)。
  • 保证数据的实效性,以前的召回源中包含冷启动数据,而这些冷启动数据是运营精选的,并且再也没有更新过,在现在看来就是旧数据。在当前其他召回源数据充足的情况下,暂时先去掉这类冷启动数据的召回源,后续考虑使用自动化的方式来挑选冷启动数据。
  • 过滤掉直播类型的社区云帖子,保证实效性。直播具有很强的实效性,而推荐流的更新频率大多以小时为单位,无法保证实效性,会导致推荐流中的直播已经结束的情况。

3. 总结

经过不断地迭代,推荐流数据在质量、正确性、实效性等方面得到了一定提升,但数据治理从来都不是一劳永逸的工作,随着时间的推移需要不断迭代与优化。此外,后续会进一步优化用户画像的效果,做到推荐用户真正感兴趣的高质量数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44010.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决多御浏览器问题的5大干货,看这一篇就够了

浏览器是我们频繁使用的软件之一,在使用浏览器的过程中,我们总会遇到各种各样的问题。小编这就为大家总结了一篇多御浏览器遇到问题的解决干货,这篇文章可以为大家解决多数问题,下面小编就来简单的说一说。 1、怎么对多御浏览器设…

微软 Authenticator更换登录设备

微软 Authenticator更换登录设备 要把微软 Authenticator换到其它手机,网上查到需要备份-恢复等,但是操作时发现需要Google play服务,但是安装后仍提示未安装,后发现用如下方式可进行更换。 1、登录该网址 https://mysignins.micr…

Microsoft365账号登录安全保护:使用microsoft authenticator应用验证

国际版Microsoft365在web端登录后显示组织需要更多信息,来保护账号安全。 点击下一步 使用Microsoft authenticator进行验证,在手机中下载authenticator客户端 此时可以选择添加工作账户-验证 若无法添加工作账户 选择“我想使用其他身份验证器应用”…

使用微软DNS服务器解决Hotmail、微软账户登录页面无法访问的问题

近日,在重装Windows 10系统之后,发现Edge浏览器无法登录微软账号做数据同步,具体表现为登录页面无法打开。此前,通过浏览器访问hotmail等页面的时候,也经常发生页面无法打开或者打开及其缓慢的情况,只是这次…

matlab快速解方程,matlab如何解方程 matlab解方程 matlab如何解方程

matlab解方程应该怎么解呢?在平常的学习当中,利用matlab解方程,绝对不是一门轻易掌握的学科。我们应该如何利用matlab解方程呢?下面相关方法分享给大家。 【matlab解方程】 1、先举一例,解方程"x^2100*x990" 在matlab ”Command …

matlab: 解一元多次方程与复杂的一元多次方程

1、解 syms x eqx^22*x1; ssolve(eq,x)结果: s -1-1 这里使用到syms x,意思是定义一个变量 x, 之后可以使用这个变量构造表达式。 solve(eq,x)是将x作为求解变量,求解eq0的结果。 2、比如需要求变量t, 已知k3, p6; 中间及经过 , , …

MMA-mathematica数值求解非线性偏微分方程组

参考:mathematica.pdf 参考:MATHEMATICA微分方程.pdf 数学微分方程,第三版,有两个目的。 首先,我们介绍和讨论在典型的本科和研究生课程中所涵盖的主题,包括拉普拉斯变换、傅立叶级数、特征值问题和边值问题…

MATLAB怎么解方程解,怎么用Matlab解方程?

工具/材料 matlab 2016a 打开matlab,首先定义变量x: syms x; matlab中solve函数的格式是solve(f(x), x),求解的是f(x) 0的解。 第一个例子,求解最常见的一元二次方程x^2-3*x10: solve(x^2-3*x1,x),解出的结果用精确的…

MATLAB用solve求解普通二元高次方程

MATLAB用solve求解普通二元高次方程 先说问题: 有这两个式子,其中除了u和λ,其他都是已知参数。所以,不必恐慌,看着很复杂,但是这个条件一加,其实就是很简单的二元高次方程组,把2式…

常微分方程的解法 (三): 龙格—库塔(Runge—Kutta)方法 、线性多步法

常微分方程的解法求解系列博文: 常微分方程的解法 (一): 常微分方程的离散化 :差商近似导数、数值积分方法、Taylor 多项式近似 常微分方程的解法 (二): 欧拉(Euler)方法 常微分方程的解法 (三): 龙格—库塔(Runge—Kutta&…

用ode45解微分方程遇到的实际问题

最近在用ode45解微分方程数值解,试图复现论文中的图。一般来说说微分方程(组)只要按照响应的条件去撰写好对应的回调函数即可,基本没什么难度,但对于本文遇到的的这个问题,可能还需要一些技巧去实现解法&am…

MATLAB-常微分方程求解

MATLAB中可以用来求解常微分方程(组)的函数有ode23、 ode23s、 ode23t、 ode23tb 、ode45、ode15s和odel13等,见下表。它们的具体调用方法类似,为了方便后面的描述, 在后面的介绍中将使用solver统一代替它们。 函数的具体调用方法如下。 [T,Y…

Mathematica解一个精巧的差分方程

Mathematica解差分方程很方便,记住一个词就可以了RSolve或者RSolveValue就可以了。以下这个例子比较特殊,存在解析解,但是软件算不出。 问题: 已知: a [ 1 ] 1 2 a[1]\sqrt{1\over2} a[1]21​ ​ a [ n 1 ] ( 1 …

解方程C++

数学上经常需要解方程。现在有函数: f(x) 2x^57x^3100,求f(x)y解。 提示:下面是goc程序画出的函数图形,可以看出函数是单调上升的。 输入格式 第一行1个实数:y,范围在[-1000000000,1000000000]。 输出格式 一个实数x…

matlab 差分方程的解(解答qq网友)

1、问题见图 2、解题代码 clear x(1)0; ybuchang0.01; y0:ybuchang:10; for n1:length(y)x(n1)x(n)ybuchang^(1/0.23)0.01*ybuchang; end plot(x(1:(end-1)),y,r) 3 结果:

计算物理中matlab处理微分方程解析解和欧拉法数值解的算法演示

我先来看一个问题的引入: 我们根据题目给出的微分方程编写matlab求解代码如下: syms cd m g v(t); eqn diff(v,t) g - cd/m*v^2; vt dsolve(eqn,cond)求解结果如下: 在得知相关初始条件后,对代码进一步设置求解: …

chatgpt赋能python:Python解代数方程,让你轻松求解复杂方程!

Python解代数方程,让你轻松求解复杂方程! 代数方程一直都是数学领域一个非常关键的研究领域,而求解这些方程也是一个非常复杂而又繁琐的任务。Python作为一门高效且强大的编程语言,可以帮助我们快速、准确地解决代数方程问题。在…

matlab解方程

工具/材料 matlab 2016a 打开matlab,首先定义变量x: syms x; matlab中solve函数的格式是solve(f(x), x),求解的是f(x) 0的解。 第一个例子,求解最常见的一元二次方程x^2-3*x10: solve(x^2-3*x1,x),解出的结果用精确的…

欧拉法与梯形法求解微分方程【含matlab源代码】

本文介绍两种入门级求解微分方程的方法 —— 梯形法与欧拉法。 将上述方程组改写成matlab语言: function F fun(t,Y)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % % 程序作…

【计算方法】python求解常微分方程|显式欧拉、改进欧拉、龙格库塔

显式欧拉 import numpy as np from scipy.integrate import odeintdef f(x,y):return y-2*x/y def f_ode(y,x):return y-2*x/ydef Explicit_Euler(f,a,b,y0,h):x_p np.linspace(a,b,int(1/h)1)n len(x_p)value np.zeros(n)value[0] y0for i in range(1,n):value[i] value…