推荐只需要精确?顶会论文看多样化推荐研究趋势

f5349f71eb9420857acd8a2d5d52fc55.gif

©作者 | 林子涵

来源 | RUC AI Box

本文主要基于最近 2 年发表在顶级会议(KDD、SIGIR、WWW、CIKM、IJCAI等)的多样化推荐相关论文,介绍最新的研究工作,梳理其背后的技术脉络,同时在最后总结多样化推荐中潜在的研究方向。本文旨在帮助推荐系统相关研究人员快速熟悉和掌握多样化推荐的最新研究进展,如有遗漏或错误,欢迎大家指正。

1. 什么是多样化推荐(Diversified Recommendation)

推荐系统(Recommender System)旨在挖掘用户的兴趣并为每个用户推荐多个与其兴趣匹配的商品。通常来说,用户的兴趣是多样的,即用户对于不同种类或不同属性的商品都会表现出或多或少的兴趣,其中用户可能更加偏好某一类商品。在这种情况下,一个多样化的推荐结果应当包含尽可能不同的商品来满足用户的多种兴趣,而不是只推荐用户最感兴趣的单一类别商品。然而,增加推荐结果的多样性往往会带来准确性的损失,如何平衡推荐的准确性和多样性就成为了一个关键挑战。

189da5b95d371c69eec6da2d0897b2d0.png

2. 经典的多样化推荐方法

由于多样化推荐系统最后的推荐结果中商品之间的差异性尽可能的大,所以经典的方法都是基于后处理的方法,即首先使用推荐算法获取到用户对于商品的偏好打分,再计算出商品之间的相似度,最后根据这两项分数贪心的选择一个推荐的商品集合,在满足商品分数高的前提下,使得集合内商品的相似度尽量低。两个经典的后处理方法分别是最大化边缘相关性(Maximal Marginal Relevance,MMR)和行列式点过程(Determinantal Point Process,DDP)。

MMR算法最早在SIGIR1998上面被用户搜索领域,其从所有候选文档中逐个选择文档放入结果列表中,选择文档是同时考虑了文档与搜索内容的匹配程度和此文档与结果列表中其他文档之间的最大相似度。具体来说,其将文档与搜索的相关性与文档之间的相似性以一定的权重相减作为目标函数,每次贪心的选择目标函数值最大的文档加入结果中,以实现在搜索结果中增加多样性的目的。

34db4d613143f4d8c1f6bcc9550cc799.png

MMR算法中的目标函数只考虑了商品间的二元相似性,这与推荐商品集合的整体相似性还存在一定的偏差。为了解决这个问题,DDP算法在2018年的NIPS上被应用到多样化推荐领域。其在推荐商品集合上定义了一个核矩阵,核矩阵的行列式便同时考虑了所有商品的相关得分和整体的相似度,并且构建这个核矩阵也可以通过贪心法逐个选择目标函数值最大的商品,同时通过最大化后验推断的方法,这个构建过程可以极大的加速。并且此方法可以天然的使用商品嵌入向量计算商品间的相似的,所以在多样化推荐的研究中有大量基于DDP的变种方法,后续的介绍中我们也可以看到其最新的应用。

5f44b5097b7ee01f40970a6e1d5ce7d6.png

3. 前沿多样化推荐研究

多样化推荐作为推荐系统研究的一个较冷门方向,近几年发表在顶会的工作虽不多,但也不乏一些高质量工作,下面我将从数据增广、训练策略、模型结构以及特殊场景下的多样化推荐四个方面对最新的研究工作简单介绍。

3.1 利用数据增广提高推荐多样性

建模用户兴趣的根本是学习用户交互行为的模式,高质量的交互数据成为了捕捉多样兴趣的关键,利用一系列技术为用户构建潜在的多样交互数据成为了这类模型的核心思想。

[KDD2020] A Framework for Recommending Accurate and Diverse Items Using Bayesian Graph Convolutional Neural Networks

这篇文章来自华为诺亚方舟实验室,其提出了一种使用节点复制的贝叶斯图神经网络(BGCN)。在这个模型中初始的U-I交互二部图上的节点根据其邻居集合的重叠度进行了重新的映射,得到了一个新的采样图,最终使用采样图与原图上分别使用GAT模型进行消息传播,得到的输出合并用于推荐。这种方法本质上可以看作一种图数据增广的策略,即对图的邻接矩阵进行一定程度的扰动,其定义的数据增广方式为每个用户节点的邻居可能被替换为与其行为相似的其他用户节点的邻居,通过增加数据层面的不确定性来提高模型的承载力,防止对用户兴趣建模的极端化。

fad5ec8f8768c96e633348f40e815533.png

[WWW2021] Future-Aware Diverse Trends Framework for Recommendation

本文来自于腾讯核浙江大学,提出了一种用于增强序列化推荐模型多样性的框架(FAT)。对于一个用户的行为序列,首先使用序列模型(LSTM)获取到当前用户的兴趣,再将当前用户的打分向量与其他所有用户打分向量计算皮尔森系数作为用户之间的相似度信息,再根据此相似度选择一些邻居用户,从邻居用户的交互中选择时间大于当前时间的未来交互序列并同样使用序列模型得到特征,再通过一个考虑时间信息的注意力层得到未来的趋势信息,与当前用户的序列特征一同用于推荐。

4f921fabde73d633b3b9f4219b977b99.png

[RecSys2021] Dynamic Graph Construction for Improving Diversity of Recommendation

本文来自于美团,提出了一种动态图构建的方法用于提高推荐多样性。现有的基于GNN的推荐模型大都采样一阶邻居聚合的方法进行端到端的训练,但是这种GNN结构会使得占据主导地位的节点特征淹没长尾节点的特征。为了解决这个问题,其将端到端的训练过程进行多轮迭代,每一次都为图结构增加一些新的边,以此希望能够缓解邻居聚合时的特征分布偏差。在添加新边时,为每一个用户节点贪心的选择新的邻居商品集合,在选择时同时考虑了商品与用户的匹配程度和商品与已有邻居之间的距离,力求新加入的商品尽量多样。其本质上还是通过发掘潜在的多样交互以丰富用户数据。

610f298ddbc724ae1a8fe991c505d356.png

3.2 定制训练策略提高推荐多样性

[WWW2021] DGCN: Diversified Recommendation with Graph Convolutional Networks

本文来自清华大学,提出了一个图卷积网络用于多样化推荐。其首先分析在图模型中如果使用所有的用户交互聚合得到用户特征,则用户特征会带有明显的类别属性,导致推荐偏向其交互更多的类别,为了消除这种类别带来的偏差,其提出了三个训练策略:1.使用一个训练任务进行对抗训练,最小化商品特征向量与其对应的类别标签之间的联系。2.图卷积时对邻居进行采样,采样的权重由所有的邻居商品的类别分布决定,以平衡不同类别下的邻居数量。3.根据类别进行负采样,按照一定比例选择随机采样或采样同一类别采样可以平衡准确性和多样性。本文是在GNN的框架下提出了一种较为通用的采样策略以提高类别多样性。

e4c8d00cb726ff6232d018a17609466c.png

[SIGIR2020 short] Enhancing Recommendation Diversity using Determinantal Point Processes on Knowledge Graphs

本文来自里昂大学研究团队,提出了一种结合知识图谱嵌入(KGE)和行列式点过程(DPP)的多样化推荐方法。直觉上讲,知识图谱能够为商品提供丰富的属性信息,应当能够帮助商品特征建模,所以本文中将交互关系与知识图谱中的各种关系统一使用TransE、TransH等知识图谱嵌入的方法进行建模,得到用户的商品的嵌入向量后,将用户与商品向量之间的距离作为核矩阵的对角线,商品向量之间的点积作为其余部分,得到的核矩阵便可以使用上面介绍的DPP方法进行贪心求解,也实现了对推荐结果的重排序。

3.3 设计模型结构提高推荐多样性

[WWW2021] Enhancing Domain-Level and User-Level Adaptivity in Diversified Recommendation

本文来自武汉大学和香港理工大学,提出了一个考虑了领域级多样性的双分支网络用于产生多样化推荐。其考虑了在不同领域数据集上用户对于多样化内容的需求程度不同,首先统计数据集整体的偏好分布,整体偏好分布的集中度用于决定两个模型分支各自所占的比例。两个分支都采用距离模型来建模交互数据,不同在于采样时类别的权重互为倒数,同时用户的历史交互在类别上的分布也被编码为向量加入到关系中。其在模型上将准确性目标和多样性目标放在两个分支中,通过平衡权重来达到多样性的推荐。

e3aa63bdf4906341637475bcc216f1b6.png

[IJCAI2019] PD-GAN: Adversarial Learning for Personalized Diversity-Promoting Recommendation

本文来自于阿里-南洋理工大学团队,提出了一种基于DPP的生成对抗网路模型用于多样化推荐。其在模型层面将负责准确性和多样性的模型分开,分别作为生成器和判别器,在生成器中首先使用矩阵分解模型(MF)来建模用户的偏好和商品之间的相似度,再将得到的向量构建为核矩阵输入到DPP模型中,使得DPP模型的输出尽量满足多样性,再将推荐结果列表交给判别器。判别器同样使用一个MF模型训练,其对得到的推荐列表进行打分,让结果的准确性尽量高,通过平衡两个目标实现多样化的推荐。其将双目标平衡与生成对抗模型相结合的思路十分巧妙。

10a44dfe97b6f1f1fdc5e109728b858c.png

[AAAI2021] A Hybrid Bandit Framework for Diversified Recommendation

本文同样来自阿里-南阳理工大学团队,其针对交互推荐的场景提出了一种集合模函数和分布函数的多臂老虎机框架。其分别定义了评价一个推荐结果相关性的模长函数和评价结果多样新的分布函数,并推导出二者在单词决策下的反馈变化,将推荐集合的生成建模为一个多步骤的决策过程,以使用强化学习的策略最大化累计奖励,最终实现推荐的商品集合在贪心情况下满足相关性和多样性的最大化。同时其理论证明了其优化策略可以在有限轮的学习下达到最优的累计奖励。

978a7ad39c53db6e67cc9f79111a149c.png

3.4 特殊场景下的多样化推荐

[CIKM2021] P-Companion_ A Principled Framework for Diversified Complementary Product Recommendation

本文来自UCLA和亚马逊,针对的推荐场景为互补产品推荐问题。在互补产品推荐中,需要针对用户的兴趣和当前已经购买的商品,为其推荐与当前商品配套的其他商品。面对这个场景,本文提出了一种层次化的推荐模型,其首先将商品间的共同购买关系建模为一个图,通过图嵌入算法得到商品的隐层表示,当一个商品和其所属的类别作为查询输入时,首先使用一个编码器模块针对输入类别预测其输出类别,再将输出类别和商品一起输入到预测模块中,在每一个目标类别下预测要推荐的商品。其通过对推荐过程进行分层处理,保证了在类别上的严格多样性。

8a3dd8d3ad24a0131fd393259b03a21a.png

[KDD2021] Sliding Spectrum Decomposition for Diversified Recommendation

本文来自小红书团队,针对小红书APP中独特的滑动浏览特性,设计了一种滑动频谱分解的方法来实现长商品序列上的多样性。用户的整个浏览序列可以根据固定的时间窗口进行切分,得到一个列数固定的矩阵,其中每一行便是用户在一个窗口内的浏览序列,则每一行对应的二维嵌入矩阵的行列式边可以衡量其多样性,考虑到行列式与矩阵的奇异值的关系,这样的过程可以拓展到三维矩阵上,对三维矩阵进行奇异值分解后,奇异值的乘积便可以近似作为多样性的体现。由此总体目标中的相关性和多样性便能够一起优化

e7accae648e0a236d907e72b3733f8dc.png

这其中比较关键的一步便是得到商品的嵌入向量,这里其综合了基于内容和基于协同的模型,提出了一种融合的CB2CF模型,将文本、图片和商品间的共现关系一并编码到向量中。

451062733a5102ef53ca2cf08949c180.png

[CIKM2021] On the Diversity and Explainability of Recommender Systems_A Practical Framework for Enterprise App Recommendation

本文来自Salesforce团队,针对企业场景下的APP推荐问题,提出了一个保证结果的多样性和可解释性的框架。其使将用户在所有商品上的分布简化为一个高斯分布,通过KL散度限制每个用户对应高斯分布与标准高斯分布之间的距离,同时使用多个平行的模块处理不同的特征组合,将输出作为推荐结果在特征层面的解释,最后通过在最终loss中平衡准确度目标和分布距离目标来实现对多样性的保证。

053d052988e584fc5a3ee710878f8301.png

4. 总结与未来方向

随着现在各类应用对于推荐系统的依赖,针对多样化推荐的需求也日益明显,最近相关会议和期刊上相关的模型也层出不穷,但总体上针对多样性的研究依旧无法避免设计方法以平衡准确性和多样性,具体体现在数据、策略、模型等不同层面。最后,总结一些目前尚未被很好考虑的多样化推荐方向,希望各位相关研究人员能够继续突破,产出高质量工作。

  • 考虑个性化的多样性:不同用户对于多样性的喜好不同,在用户层面平衡准确性和多样性能带来细粒度的多样性

  • 考虑时许的多样性:现有方法往往关注在一次推荐中保证多样性,但是多次推荐结果之间的多样性没有考虑

  • 可解释的多样性:为多样化的推荐结果生成解释能够帮助推荐系统理解推荐行为

  • 考虑视觉的多样性:推荐的商品往往以图片形式展示,将视觉上的多样性考虑在推荐中同样能提升用户体验。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

209d31d2e8b578bedd7d99835b7c2beb.png

063b28c632b15dc2f9b600f582649c30.png

075c258120eff607d14981f63ac89e0b.png

dfcfaf29c91d948a787ad5f1633c1fe1.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

440f3bada8fae5bffccbfd1e6de2da2a.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

41eba894fe0c1bf35636fad1516a354e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44584.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文阅读】社交网络传播最大化问题-02

Leader-Based Community Detection Algorithmin Attributed Networks 以往leader-aware算法创新点问题定义定义基础概念定义创新概念 模型构造第一步:确定每个节点的leader第二步:合并小分支以得到最终结果 实验数据集人工合成网络现实世界的网络 基线方…

https://zhuanlan.zhihu.com/p/20397902

首发于 前端外刊评论 关注专栏 登录 写文章 Webpack傻瓜指南(二)开发和部署技巧 张轩 9 个月前 注意啦:如果你还没有看第一篇 请先看下第一篇的基础知识:Webpack傻瓜式指南(一) - 前端外刊评论 - 知乎专栏…

继续!从顶会论文看对比学习的应用!

公众号作者上杉翔二 悠闲会 信息检索 整理 | NewBeeNLP 上周,我们分享了对比学习的一些应用,从顶会论文看对比学习的应用! 本篇博文将继续整理一些对比学习的应用,主要是集中在MoCo和SimCLR等模型。 1、LCGNN MoCo架构…

知乎采集问答栏目以及文章教学

知乎文章质量怎么样 现在的年轻人越来越多的人喜欢知乎了,因为知乎平台的质量越来越高,我自己就比较喜欢使用知乎,很多问题我喜欢看知乎的答案,不喜欢看其它平台的,原因就是因为知乎的答案更权威,更靠谱一…

短视频自导自演,分镜脚本如何设计

前言: 在进入主题之前我先强调一下,这篇完全是番外,小编的主线还是以编码类为重的文章。至于原因有两点,一是距离上次更新到现在已经快一个月,所以先总结一下近期玩的东西补上。二是我确实正在再次尝试做短视频&#x…

制作钓鱼网站(克隆网站)

克隆网站主要指模仿相关网页的页面格式,自己制作页面颜色、标识均与原网站视觉效果相同,且域名差别不大,被用于谋取利益的非法网站。 利用social-enginner-toolkit(set)可制作多种钓鱼网站,下面是其中一种:获取用户凭证信息的网站。 准备:kali linux(IP192.168.xx…

Thonny编辑器介绍

相信很多在学习python的朋友都纠结,到底选哪个编辑器(IDE)好呢,下面给大家推荐一个编辑器————Thonny: Thonny编辑器是一个很简洁的编辑器,UI设计也很好看,虽然很简洁,但是它的功…

使用SniperPhish进行电子邮件钓鱼

关于SniperPhish SniperPhish是一款专为渗透测试人员以及安全研究专家设计的网络钓鱼研究工具,其主要目的是为了通过模拟真实场景中的网络钓鱼攻击来提升用户的安全保护意识。SniperPhish可以将研究人员创建的钓鱼网站和钓鱼邮件绑定在一起,以实现集中跟…

一款可以阻止网络钓鱼诈骗的解决方案?

“你继承了一笔财富。要转账,我需要你的银行账户凭证。” 你是否也遇见过此类的电话诈骗话术。 根据2022年数据泄露调查报告,25%的数据泄露涉及网络钓鱼。 这是怎么发生的?参与网络钓鱼的欺诈者一般都是心理方面的高手。他们知道如何营造紧…

甲方安全之仿真钓鱼演练(邮件+网站钓鱼)

文章目录 一、简介1.1 前言1.2 整体思路1.3 演练所需1.4 各邮件厂商日群发上限 二、钓鱼平台搭建及配置2.1 gophish平台搭建2.2 收件目标配置(User & Groups)2.3 发信邮箱配置(Sending Profiles)2.4 邮件模版配置(…

如何识别钓鱼邮件

今天,带大家来防御钓鱼邮件。 钓鱼邮件,即一种伪造邮件,是指利用伪装的电子邮件,来欺骗收件人点击恶意URL,或诱导收件人下载带恶意程序的可执行文件。 对于恶意URL,通常会伪装成和真实网站一样,…

【自制】我造了一台 钢 铁 侠 的 机 械 臂 !【硬核】

有人说:一个人从1岁活到80岁很平凡,但如果从80岁倒着活,那么一半以上的人都可能不凡。 生活没有捷径,我们踩过的坑都成为了生活的经验,这些经验越早知道,你要走的弯路就会越少。

识别钓鱼邮件小技巧

先在收邮件时自动识别出外部邮件,然后再去甄别。 以Foxmail邮件客户端为例—— 1、点击右上角“设置”按钮——选择“工具”——选择“过滤器” 2、选择将过滤策略所希望应用于的邮件账户,点击“新建”。 (1)设置一个过滤器名…

C#小游戏—钢铁侠VS太空侵略者

身为漫威迷,最近又把《钢铁侠》和《复仇者联盟》系列又重温了一遍,真的是印证了那句话:“读书百遍,其意自现”。看电影一个道理,每看一遍,都有不懂的感受~ 不知道大伙是不是也有同样的感受,对于…

学习JavaEE过程中遇到的各种(奇葩)问题

学习JavaEE过程中遇到的各种(奇葩)问题 问题一: The superclass “javax.servlet.http.HttpServlet” was not found on the Java Build Path 遇到这个问题的时候我尝试在网上找答案按着答案一步步操作。 这是在按着网上答案来的正确流程&a…

奇葩算法系列——猴子排序

首先我们介绍无限猴子定理 无限猴子定理最早是由埃米尔博雷尔在1909年出版的一本谈概率的书籍中提到的,此书中介绍了“打字的猴子”的概念。无限猴子定理是概率论中的柯尔莫哥洛夫的零一律的其中一个命题的例子。大概意思是,如果让一只猴子在打字机上随…

Maven项目中遇到的奇葩问题

场景描述 开发项目搞环境是一个非常蛋疼的问题,总是会遇到各种奇葩的问题,今天就遇到了一个跟Maven有关的。新开发一个项目,从SVN下载下来项目之后,pom.xml中Spring相关的Jar包就一直报如下红叉 后来发现我的maven 中是已经有…

你所遇到过得奇葩的需求

在网上看到大家在谈论碰到过的奇葩需求,看着看着一天的劳累都被欢乐冲散了,特地搜集大家的留言,整理出来,给大家分享一下,希望也能给你的生活添加点乐子,哈哈哈。 0、部门老大:你,做…

PVE7更新AQC107网卡驱动,解决奇葩问题。

背景介绍 前段时间自己组装了一台生产力,期间在TB买了张AQC107的万兆电口网卡,回来后发现在PVE7环境下每次重启或启动后网卡总是没反应或者不会自动协商到10G,拔下来插到win主机上没问题,基本确定是驱动的问题,那么就着…

html文档中引入axios遇到的奇葩问题

html文档中引入axios遇到的奇葩问题 在body中引入代码&#xff1a; <script src"https://unpkg.com/axios/dist/axios.min.js"></script>然后插入一个按钮&#xff1a; <input type"button" value"get请求" class"get&qu…