论文笔记-WSDM2025-ColdLLM

论文笔记-WSDM2025-Large Language Model Simulator for Cold-Start Recommendation

  • ColdLLM:用于冷启动推荐的大语言模型模拟器
  • 摘要
  • 1.引言
  • 2.前言
  • 3.方法
    • 3.1整体框架
      • 3.1.1行为模拟
      • 3.1.2嵌入优化
    • 3.2耦合漏斗ColdLLM
      • 3.2.1过滤模拟
      • 3.2.2精炼模拟
    • 3.3模拟器训练
      • 3.3.1LLM训练
      • 3.3.2耦合过滤模型训练
    • 3.4实现策略
      • 3.4.1实际部署
      • 3.4.2复杂性分析
  • 4.实验
    • 4.1实验设置
    • 4.2模型性能
    • 4.3消融实验
    • 4.4超参数实验
    • 4.5在线评估
  • 5.总结

ColdLLM:用于冷启动推荐的大语言模型模拟器

⚠️这篇论文的前身是arXiv2024-Large Language Model Interaction Simulator for Cold-Start Item Recommendation(相关博客: 论文笔记-arXiv2024-LLM-InS ),可以移步查看LLM-InS。

论文: Large Language Model Simulator for Cold-Start Recommendation
代码: 无

摘要

冷启动商品仅依赖于内容特征,这限制了它们的推荐性能。目前的模型通过内容特征生成嵌入,但未能解决核心问题:缺乏历史行为数据。

为了解决这个问题,本文引入LLM模拟器框架,该框架利用大语言模型模拟用户与冷启动商品的交互,从根本上解决了冷启动问题。然而,仅使用 LLM 来遍历所有用户可能会在亿级系统中引入显著的复杂性。为管理计算复杂性,本文提出了一个用于在线推荐的耦合漏斗 ColdLLM 框架。ColdLLM 通过训练的耦合过滤器有效地将候选用户数量从亿级减少到数百,从而使 LLM 能够在过滤后的用户集上高效运行。

1.引言

当前的模型通常利用冷启动商品的内容特征生成嵌入。一类模型是生成模型,试图训练一个映射函数,以确保生成的嵌入接近行为嵌入。另一类模型是dropout 模型,通过结合生成的嵌入和行为嵌入进一步增强推荐模型的适应性。然而,现有的解决方案并未完全解决冷启动的根本问题:冷启动商品缺乏行为数据,这使得冷启动商品与热门商品本质上存在差异。这一根本差异造成以下三个限制:

  1. 内容-行为差距:合成嵌入仍然是基于内容特征生成的。这种方法导致合成嵌入与实际用户行为和交互学习得到的嵌入之间存在显著差异。
  2. 次优的冷推荐性能:当前的冷启动模型通常专注于将冷商品与热门商品一起推荐,而对热门商品的影响不大,未能显著提升热门商品的推荐性能。
  3. 内容推荐与行为推荐的混淆:现有的冷启动模型通常进行混合推荐,即将内容特征嵌入和行为嵌入混合在一起。

大语言模型(LLMs)在解决上述限制方面显示出潜力,因为LLMs能够从内容特征中理解用户偏好,并预测用户对商品的意图。然而,将 LLM 应用于冷启动商品推荐面临以下挑战:

  1. 冷启动行为的模拟:在没有实际交互数据的情况下训练 LLM 以预测用户对商品的意图是一项挑战。
  2. 模拟的效率:LLM 在推理效率上面临约束。为大量用户模拟冷商品的用户行为会产生显著的计算复杂性。
  3. 大规模推荐的可扩展性:目前缺乏成熟的框架利用 LLM 来解决大规模推荐系统中的冷启动商品问题。

因此,本文提出了一种新颖的 LLM 模拟器框架,从根本上解决商品冷启动问题。为了解决设计挑战,引入了 LLM 模拟器的定制结构,包括用户上下文构建、提示设计和模拟过程。为了加速模拟过程,提出了用于在线推荐的 ColdLLM,它通过训练的耦合过滤器有效地将候选用户从数十亿缩减到数百。该过滤器与 LLM 一起训练,以支持其模拟。本研究的关键贡献可以总结如下:

  • 正式定义行为模拟问题,并提出了一种新颖的 LLM 模拟器框架,从根本上解决冷启动推荐问题。
  • 为模拟器提出一种定制的训练策略和在线推荐应用策略。
  • 广泛的离线实验证明模型在冷推荐性能上超越了现有解决方案 21.69%,为期两周的 A/B 测试进一步验证了 ColdLLM 的有效性。

2.前言

用户集和商品集分别表示为 U U U I I I。有历史交互的商品称为热商品,记为 I w ​ I_w​ Iw;没有历史交互的商品称为冷商品,记为 I c ​ I_c​ Ic。每个热商品都有一个交互用户序列 s i \mathbf{s}_i si。对于冷商品 j j j,交互用户序列为空集,即 s j = ∅ \mathbf{s}_j = \emptyset sj=。通过历史交互的用户-商品对,可以学习每个用户和热商品的行为嵌入向量,记为 e u ​ \mathbf{e}_u​ eu。用 C C C 表示商品的内容,每个商品都有各自的内容特征,记为 c i ​ \mathbf{c}_i​ ci。对于用户,收集商品内容列表,记为 C u ​ C_u​ Cu

本文聚焦于最具挑战性的严格冷启动问题,从商品冷启动的角度来看,冷商品缺乏任何历史行为。在这种限制下,热商品和冷商品的推荐方式有所不同。热商品通过历史用户序列进行推荐,这些序列通常编码为行为嵌入。正式地,热推荐可以定义为:
在这里插入图片描述
其中 Emb c f ( ⋅ ) \text{Emb}_{cf}(\cdot) Embcf() 表示用于行为嵌入的协同过滤函数。冷商品的用户序列集为空,这使得冷商品的推荐定义为:
在这里插入图片描述

3.方法

ColdLLM的框架图如图2所示:
在这里插入图片描述

3.1整体框架

传统模型主要通过合成嵌入构建方法来解决冷启动问题,这可能导致冷商品与热商品之间存在自然差距。一种基本解决方案是为每个冷商品模拟用户行为,然后通过行为嵌入优化获得冷商品的嵌入。

3.1.1行为模拟

行为模拟总结了所有历史行为以及用户和商品的信息,以模拟可能的用户,这些用户可以帮助更新冷商品的嵌入。考虑到这一点,本文利用 LLM 分析所有积极的历史行为,作为生成冷商品用户序列的模拟器。具体而言,ColdLLM 过程可以正式定义为:
在这里插入图片描述
在理想情况下,ColdLLM 可以访问冷商品 c i \mathbf{c}_i ci 的信息、整个用户集 U U U、所有用户的完整历史交互 H H H 以及所有商品的内容细节 C C C

3.1.2嵌入优化

通过为冷商品模拟用户序列,这些商品被转化为热商品。通过模拟的行为,推荐系统利用现有的行为嵌入优化结构,利用训练好的用户和热商品嵌入来优化冷商品的嵌入。在离线数据集中,这种模拟甚至可以丰富训练数据,进一步增强用户表示。对于在线大规模平台,模拟的交互仅用于更新冷商品的嵌入。最终用于下游任务的冷嵌入可以正式表示为:
在这里插入图片描述
其中 Emb o p t ( ⋅ ) \text{Emb}_{opt}(\cdot) Embopt() 表示推荐系统的一般行为嵌入优化器, e i ( c ) ​ \mathbf{e}^{(c)}_i​ ei(c) 表示冷商品 i i i 的嵌入, s i ( c ) ​ \mathcal{s}^{(c)}_i​ si(c) 是冷商品的模拟用户序列。 E \mathbf{E} E 表示所有训练好的热嵌入,包括用户和热商品。

3.2耦合漏斗ColdLLM

与传统的基于嵌入的模型相比,原始的 ColdLLM 不适用于十亿规模的推荐。本小节提出了耦合漏斗 ColdLLM,以高效且有效地整合耦合过滤模型,并模拟冷启动项目的行为。

3.2.1过滤模拟

过滤过程的目的是将亿级数据集中潜在用户减少到几十到几千个范围。基于嵌入的过滤模型能够有效地将用户和项目嵌入到向量中,但在捕捉用户的内容级意图和项目的高级内容信息时遇到困难。为了解决这个问题,本文用 LLM 处理的嵌入增强过滤模型。

本文使用 LLM 提取项目的内容嵌入,然后应用匹配函数将该嵌入映射用于行为过滤,表示如下:
在这里插入图片描述
其中, f i ​ f_i​ fi表示项目 i ​ i​ i的过滤嵌入, F I ( ⋅ ) ​ F_I(\cdot)​ FI()是映射函数, L L M e m b ( ⋅ ) ​ LLM_{emb}(\cdot)​ LLMemb()是 LLM 嵌入读取函数。

嵌入读取函数的设计旨在从 LLM 中提取内容嵌入。具体而言,首先获得最后一层的嵌入,该嵌入代表处理后的标记信息,然后应用均值池化以推导任何给定冷启动项目的内容特征嵌入:
在这里插入图片描述
其中, E ( L ) ( c i ) [ j ] ​ E^{(L)}(c_i)[j]​ E(L)(ci)[j]表示 LLM 的第 𝐿 层的第 𝑗 个嵌入。这里, c i \mathbf{c}_i ci代表项目的内容特征, c i [ j ] \mathbf{c}_i[j] ci[j]指的是 c i \mathbf{c}_i ci 中的第 j j j个标记, ∣ c i ∣ |\mathbf{c}_i| ci表示 c i \mathbf{c}_i ci中标记的总数。

为了过滤出可能与冷启动项目互动的用户,同时考虑内容嵌入和行为嵌入。使用映射后的用户嵌入和映射后的项目嵌入的点积来识别前 𝐾 个最高得分候选:
在这里插入图片描述
其中, F U F_U FU 是用户的映射函数。

3.2.2精炼模拟

过滤之后使用大型语言模型(LLMs)进行检查和增强。在每次迭代中,将用户的上下文和项目的内容输入到 LLM 中,LLM 会输出用户是否会与该项目互动的预测,显示“是”或“否”。精炼模块考虑了三个技术细节方面:

(1)上下文构建:利用过滤过程中获得的项目嵌入来筛选相关项目。

(2)设计prompt:包含三个部分,即固定prompt,用户上下文和项目内容。

(3)精炼:遍历过滤后的用户集,仅保留被 LLM 模拟器预测为“是”的用户。

3.3模拟器训练

3.3.1LLM训练

采用低秩微调策略,以确保 LLM 能够捕捉推荐场景的数据分布。

3.3.2耦合过滤模型训练

耦合过滤模型有两个设计方案:1. 反映用户与项目的行为;2. 与 LLM 结合。具体而言,利用两对嵌入的组合来实现这一目的。

行为过滤的训练

对于每个给定的用户-项目对 ( u , i ) (u, i) (u,i),随机选择一个负对 ( u , j ) (u, j) (u,j)。这些对可以集合表示为三元组 ( u , i , j ) (u, i, j) (u,i,j)。行为过滤的输出可以表达为: Y ^ u i ( B ) \hat{Y}^{(B)}_{ui} Y^ui(B)。使用 BPR 损失来优化行为过滤模型的推荐性能:
在这里插入图片描述
其中 σ ( ⋅ ) \sigma(\cdot) σ() 是 sigmoid 函数。该损失鼓励过滤模型将积极项目的排名高于消极项目。此外,本文还利用 ALDI 中的对齐损失来帮助行为过滤的训练。

耦合 ColdLLM 过滤的训练

对于耦合的 LLM 过滤,应用 Y ^ u i ( L ) \hat{Y}^{(L)}_{ui} Y^ui(L)来过滤用户。除了 BPR 损失,引入耦合的 ColdLLM 损失,以保持与耦合过滤模型中的 ColdLLM 的相似性:
在这里插入图片描述

3.4实现策略

3.4.1实际部署

如图 3 所示,ColdLLM 框架由三个主要组件组成:(i) 在线服务;(ii) 在线训练(嵌入更新);(iii) 离线模拟。
在这里插入图片描述

当新项目上传到平台时,首先利用ColdLLM模拟用户交互以进行嵌入更新。这些模拟的用户-项目对随后被输入到在线嵌入更新结构中。由于这些交互是模拟的而非实际用户行为,仅更新冷项目的嵌入。最后,将更新后的冷项目嵌入传送到在线推荐服务。

3.4.2复杂性分析

ColdLLM 的计算复杂性主要包括三个部分:耦合过滤复杂性、耦合精炼复杂性和嵌入更新复杂性。

(1)耦合过滤:利用类似 FAISS 的相似性索引框架,可以高效地将候选用户从数十亿缩减到数百,复杂度为O(1),大约耗时 60 毫秒。

(2)耦合精炼:使用微调的 LLaMA-7B 模型来精炼过滤后的候选,以识别 20 个合格用户。该过程对于每个用户-项目对大约需要 200-400 毫秒。总的来说,LLM 精炼阶段的时间不超过 8 秒。

(3)嵌入更新:在线嵌入过程利用模拟的交互在 120 毫秒内优化冷项目的嵌入。

4.实验

4.1实验设置

数据集:CiteULike和ML-10M

基线:

  1. 基于 Dropout 的嵌入模拟模型:DropoutNet、MTPR 和 CLCRec

  2. 基于生成的嵌入模拟模型:DeepMusic、MetaEmb、GNP、GAR和 ALDI

  3. 行为模拟模型:UCC和MIGCN

为了进一步验证 ColdLLM 的普遍性,在三个广泛使用的推荐骨干网络上验证这些模型:MF、NGCF和 LightGCN。

评估指标:Recall@20 and NDCG@20

4.2模型性能

在这里插入图片描述

结论:

  1. ColdLLM 在当前方法上实现了显著的提升。从表中可以看出,ColdLLM 在不同的数据集和骨干网络上均表现出优势。

  2. 基于生成的嵌入模拟模型在热门和整体推荐中的表现通常优于基于 Dropout 的嵌入模拟模型。这表明,通过相同的嵌入层强制热门行为嵌入与冷内容嵌入对齐,可能会导致热门项目推荐的性能下降。

  3. 现有的行为模拟模型在整体和热门推荐中保持了相对良好的性能,但在冷推荐中表现不足。这可能是因为仅基于内容信息和深度神经网络(DNN)进行的行为生成不足以准确模拟冷项目的行为。

4.3消融实验

在这里插入图片描述
结论:

  1. w/o LSF 和 w/o BF 的性能下降表明了过滤模拟的有效性。

  2. w/o LSF & R 和 w/o BF & R 的模型表现出比 w/o LSF 和 w/o BF 更显著的性能下降,表明了精炼阶段的必要性。

4.4超参数实验

在这里插入图片描述
结论:

  1. 过滤候选数量K的影响:从结果中可以看出,整体和热门推荐的最佳结果是在适中的 K K K 值下实现的,例如 CiteULike 中的 K = 10 K=10 K=10。相反,对于冷推荐,较大的 K K K 更有利,其中 K = 50 K=50 K=50 在 CiteULike 中产生最佳结果。然而,过大的 K K K 可能会通过引入来自无关交互的噪声而降低性能。

  2. 学习率的影响:从图中可以观察到,三种推荐任务在相似的最佳学习率下达到了最佳结果,这表明学习率的调整对所有三个任务均适用。

4.5在线评估

为了验证 ColdLLM 在工业环境中的有效性,本文在一个大型电子商务平台上进行了在线 A/B 测试。实验持续了两周,涉及每组 5% 的用户。将 ColdLLM 与三种代表性基准进行比较:随机推荐、MetaEmb和 ALDI。表 3 展示了这些在线 A/B 测试的结果。
在这里插入图片描述
结论:

在所有指标上的显著提升突显了 ColdLLM 在解决实际推荐系统中商品冷启动问题的有效性。

5.总结

本文提出 ColdLLM,从根本上解决了大规模推荐系统中的冷启动问题,显著提高了性能和经济效益。在线和离线实验都验证了 ColdLLM 的有效性。基于这些观察,ColdLLM 为在大规模在线推荐中利用大语言模型开辟了新的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21583.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《DeepSeek-V3:人工智能大语言模型》

《DeepSeek-V3:人工智能大语言模型》 1. 引言 我们介绍了 DeepSeek-V3,这是一个强大的专家混合 (MoE) 语言模型,总共有 671B 个参数,每个令牌激活了 37B。 为了实现高效的推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些…

手机控制电脑远程关机

远程看看软件兼容iOS和Android设备,该软件除了能通过电脑远程关闭另一台电脑外,您还可以通过它在手机上远程关闭公司的电脑。您可以按照以下步骤进行操作以实现电脑远程关机: 步骤1.在手机应用商店搜索“远程看看”进行软件安装,…

Aseprite绘画流程案例(1)——画相机图标

原图: 步骤一:打开需要参照的图标 步骤二:将参照的图片拖放到右边,作为参考 步骤三:新建24x24的画布,背景为白色的画布 步骤四:点击菜单栏——视图——显示——像素网格(如果画布已经…

The Heliosphere 日球层

转自 The Heliosphere - NASA This is an artists concept of our Heliosphere as it travels through our galaxy with the major features labeled. Termination Shock: Blowing outward billions of kilometers from the Sun is the solar wind, a thin stream of electrica…

使用API有效率地管理Dynadot域名,为域名部署DNS安全拓展(DNSSEC)

关于Dynadot Dynadot是通过ICANN认证的域名注册商,自2002年成立以来,服务于全球108个国家和地区的客户,为数以万计的客户提供简洁,优惠,安全的域名注册以及管理服务。 Dynadot平台操作教程索引(包括域名邮…

vsan数据恢复—vsan缓存盘故障导致虚拟磁盘文件丢失的数据恢复案例

vsan数据恢复环境&故障: VMware vsan架构采用21模式。每台设备只有一个磁盘组(71),缓存盘的大小为240GB,容量盘的大小为1.2TB。 由于其中一台主机(0号组设备)的缓存盘出现故障,导…

匹配算法:向下就近原则,向下没有就向上

匹配算法&#xff1a;向下就近原则&#xff0c;向下没有就向上 实现方式一实现方式二总结 实现方式一 private static List<Integer> findMatches(List<Integer> sourceList, List<Integer> searchValues) {List<Integer> sortedList sourceList.stre…

AI客服-接入deepseek大模型到微信(本地部署deepseek集成微信自动收发消息)

1.本地部署 1.1 ollama Ollama软件通过其高度优化的推理引擎和先进的内存管理机制&#xff0c;显著提升了大型语言模型在本地设备上的运行效率。其核心采用了量化技术&#xff08;Quantization&#xff09;以降低模型的计算复杂度和存储需求&#xff0c;同时结合张量并行计算&…

Python VsCode DeepSeek接入

Python VsCode DeepSeek接入 创建API key 首先进入DeepSeek官网&#xff0c;https://www.deepseek.com/ 点击左侧“API Keys”&#xff0c;创建API key&#xff0c;输出名称为“AI” 点击“创建"&#xff0c;将API key保存&#xff0c;复制在其它地方。 在VsCode中下载…

【python】网页批量转PDF

安装wkhtmltopdf 网站&#xff1a;wkhtmltopdf wkhtmltopdf http://www.baidu.com/ D:website1.pdf 安装pdfkit库 pip install pdfkit 批量转换代码 import os import pdfkit path_wkthmltopdf rE:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe config pdfkit.configu…

架构师面试(三):订阅模型

问题 对【注册中心】【配置中心】【消息队列】和【IM】进行分析和抽象&#xff0c;可归纳出一个完整的业务模型单元&#xff0c;即【订阅系统】&#xff0c;下面关于实现订阅系统的几种模型的相关描述中&#xff0c;说法正确的有哪几项&#xff1f; A. 信箱模型&#xff0c;即…

数据结构:算法的时间复杂度和空间复杂度

1.算法效率 1.1 如何衡量一个算法的好坏 如何衡量一个算法的好坏呢&#xff1f; 比如对于以下斐波那契数列&#xff1a; long long Fib(int N) {if(N < 3)return 1;return Fib(N-1) Fib(N-2); }斐波那契数列的递归实现方式非常简洁&#xff0c;但简洁一定好吗&#xff…

linux下pip下载项目失败

想下载CLIP的项目复现代码的时候&#xff0c;出现问题如下&#xff1a; 于是手动使用 Git 克隆仓库&#xff0c; git clone https://github.com/openai/CLIP.git cd CLIP pip install .ls查看文件如下&#xff1a;(手动克隆git项目成功)

Redis文档总结

文档&#xff1a;https://redis.com.cn/topics/why-use-redis.html 1.我们为什么一定要用 Redis 呢&#xff1f; 速度快&#xff0c;完全基于内存&#xff0c;使用 C 语言实现&#xff0c;网络层使用 epoll 解决高并发问题&#xff0c;单线程模型避免了不必要的上下文切换及竞争…

【前端框架】Vue3 面试题深度解析

本文详细讲解了VUE3相关的面试题&#xff0c;从基础到进阶到高级&#xff0c;分别都有涉及&#xff0c;希望对你有所帮助&#xff01; 基础题目 1. 简述 Vue3 与 Vue2 相比有哪些主要变化&#xff1f; 答案&#xff1a; 响应式系统&#xff1a;Vue2 使用 Object.definePrope…

Django+Vue3全栈开发实战:从零搭建博客系统

文章目录 1. 开发环境准备2. 创建Django项目与配置3. 设计数据模型与API4. 使用DRF创建RESTful API5. 创建Vue3项目与配置6. 前端页面开发与组件设计7. 前后端交互与Axios集成8. 项目优化与调试9. 部署上线10. 总结与扩展10.1 项目总结10.1.1 技术栈回顾10.1.2 项目亮点 10.2 扩…

【论文笔记】MambaGlue: Fast and Robust Local Feature Matching With Mamba

【引用格式】&#xff1a;Ryoo K, Lim H, Myung H. MambaGlue: Fast and Robust Local Feature Matching With Mamba[J]. arXiv preprint arXiv:2502.00462, 2025. 【网址】&#xff1a;https://arxiv.org/pdf/2502.00462 【开源代码】&#xff1a;https://github.com/uri-Ka…

Office word打开加载比较慢处理方法

1.添加safe参数 ,找到word启动项,右击word,选择属性 , 添加/safe , 应用并确定 2.取消加载项,点击文件,点击选项 ,点击加载项,点击转到,取消所有勾选,确定。

Denoising Diffusion Restoration Models论文解读

论文要点 恢复的线性逆问题可以使用预训练的DDPM完成&#xff1a;1. 将降质矩阵使用SVD&#xff0c;得到分解矩阵&#xff1b;2. 使用分解矩阵将图像投影到降质类型间共享的谱空间&#xff1b;3. 谱空间中执行DDPM。 评价 同Track的方法同样很多&#xff0c;比如后续的DDNM、…

【JMeter使用-2】JMeter中Java Request采样器的使用指南

Apache JMeter 是一款功能强大的性能测试工具&#xff0c;支持多种协议和测试场景。除了内置的采样器&#xff08;如HTTP请求、FTP请求等&#xff09;&#xff0c;JMeter还允许通过 Java Request采样器 调用自定义的Java代码&#xff0c;从而实现更复杂的测试逻辑。本文将详细介…