多模态推荐系统最新进展总结

省时查报告-专业、及时、全面的行研报告库

省时查方案-专业、及时、全面的营销策划方案库

【免费下载】2023年1月份热门报告合集

ChatGPT团队背景研究报告

ChatGPT的发展历程、原理、技术架构及未来方向

ChatGPT使用总结:150个ChatGPT提示此模板

ChatGPT数据集之谜

《ChatGPT:真格基金分享.pdf》

2023年AIGC发展趋势报告:人工智能的下一时代


作者:西安交通大学,香港城市大学 刘启东

TLDR:今天跟大家分享一篇来自于香港城市大学、西安交通大学总结的多模态推荐系统综述,该文章总结了64篇多模态推荐系统相关的文献。具体的,该文根据统一的范式概括了多模态推荐的三个步骤,并从三个技术技术角度总结了现有的研究。另外,还总结了多模态推荐系统常用的数据集。作者希望通过总结的文章为该领域的学者与实践人员提供一个整体化的视角。

253900342dc814fbab46f281cf4056d2.png

论文: https://arxiv.org/abs/2302.03883

在本文所介绍的综述中,其对多模态推荐系统的一般流程进行了介绍:

  1. 特征提取 :在多模态推荐中,每个待推荐物品包括两类特征。一类是表格特征,例如物品的id、类别等。另一类是多模态特征,包括物品的描述性图片、评价文本等。在这一阶段,多模态推荐系统使用模态encoder对多模态特征进行编码,如使用ViT对图片进行处理,使用Bert对文本进行处理。

  2. 特征交互 :特征提取得到的不同模态特征的表征向量通常在不同的语义空间中,且用户对于不同的模态有不同的偏好。因此,在这一阶段多模态推荐系统对多模态表征进行交互和融合,获取物品和用户的表征向量。

  3. 推荐 :在得到了用户和物品的表征向量后,可以利用推荐模型去计算推荐概率,从而输出推荐列表。

8aef254ce72914080d5e6de54c50d72e.png

此外,该综述文章总结了多模态推荐系统的三大挑战:①如何融合不同语义空间下的模态表征并获得对每种模态的偏好;②如何在数据稀疏的情况下获得良好的表征;③如何同时优化参数量少的推荐模型和参数量大的模态编码器。

综述文章根据应对上述三大挑战的技术,将现有的多模态推荐研究划分为了三类:特征交互特征增强模型优化

c4a313a623e8c2f2dc676d376f2f74b6.png

1 特征交互

多模态数据是指描述信息的各种模态。因为它们是稀疏的并且具有不同的语义空间,将它们连接到推荐任务是必不可少的。特征交互可以通过非线性转换实现将不同特征空间转换为统一的语义空间,最终提升推荐的性能和泛化能力。如图 2 所示,我们将特征交互分为三种类型:桥接融合过滤 。这三个多种类型的技术实现了来自不同视图的交互,因此它们可以同时应用于一个多模态推荐模型。

9373317b7e88ad9013a5342873ee5e8e.png

1.1 桥接

这里的桥接指的是多模态信息传递通道的构建。它专注于根据多模态信息来捕获用户和项目之间的交互关系。多模态推荐与传统推荐的区别在于物品中包含丰富的多媒体信息。早期的研究简单地使用多模态内容来增强物品表达,但他们往往忽略了用户与用户之间的关联关系。图神经网络可以通过消息传递机制来捕获用户和物品之间的交互关系,从而增强用户表征,并进一步捕获用户对不同模态信息的偏好。图 2(a)举个例子:许多研究通过聚合每个模态的交互项目来获得用户1的偏好。此外,电影1的模态表示可以从潜在的项目-项目图中获得。

1.2 融合

多模态推荐场景下,用户和物品的多模态信息类型和数量非常大。因此,有必要融合不同的多模态信息来生成特征向量从而服务推荐模型。与桥接相比,融合更关注物品内的多模态关系。具体来说,它旨在将各种偏好与模式结合起来。由于物品间和和物品内模态关系对于学习物品表征都至关重要,因此许多 MRS 模型甚至同时采用融合和桥接。注意力机制是应用最广泛的特征融合方法,可以灵活地将多模态信息根据关注度和兴趣结合起来。如图 2(b) 所示,首先按融合粒度划分注意力机制,然后介绍 MRS 中存在的其他一些融合方法。

1.3 过滤

由于多模态数据不同于用户交互数据,它包含许多与用户偏好无关的信息。如图 2(c) 所示,电影3和用户1之间的交互是误交互,应该被移除。过滤在多模态推荐任务中去除噪声数据,通常可以提高推荐性能。值得的注意的是交互图或多模态特征本身可能存在噪声,因此可以分别在桥接和融合中结合过滤的方法。

2 多模态特征增强

同一对象的不同模态表征具有独特和共同的语义信息。如果可以区分这两种特征,MRS的推荐性能和泛化能力可以显著提高。最近,为了解决这个问题,部分工作提出了Disentangled Representation Learning(DRL)和Contrastive Learning(CL)进行基于交互的特征增强,如图3所示。

2bebaf75bb1ef32a99fadb45c0082286.png

2.1 解耦表征学习

不同模态的特征由于各种因素对不同的物品有不同程度的偏好。然而,每种模态中不同因素的表示往往是纠缠在一起的,因此许多研究人员引入了解耦学习技术来挖掘用户偏好中的细粒度因素,例如DICER、MacridVAE。此外,一些多模态推荐工作提出通过多模态数据挖掘各种隐藏因素,这些因素以复杂的方式高度纠缠在一起。

2.2 对比学习

与 DRL 不同,对比学习方法通过数据增强来增强表示,这也有助于处理稀疏性问题。MRS中的很多作品都引入了CL损失函数,主要是针对模态对齐和增强正负样本之间的深层特征信息。

3 模型优化

不同于传统的推荐任务,由于多模态信息的存在,当多模态编码器和推荐模型一起训练时,模型训练对计算量的要求会大大提高。因此,多模态推荐模型在训练时可以分为两类:End-to-end训练和两步训练。如图4(a)所示,End-to-end训练可以更新推荐模型的参数。两步训练包括第一阶段预训练编码器和面向任务的优化的第二阶段,如图 4(b) 所示。4e4be5b1466d34f083307152f0285e4b.png

4 数据集与模态编码器

在本节中,我们列举了典型的 MRS 数据集,以方便研究人员使用。另外, 介绍了模态编码器来处理不同数据集中的各种模态特征。

952c5b448a15bd03db2ababa41772fbb.png7c8c47bda4931d6a5d35f4095ece5c6e.png

5 挑战

最后,我们列出了几个研究的现有挑战:

通用解决方案 : 值得注意的是,虽然大部分工作就模型中一些阶段提出了方法,但没有提供这些技术组合的最新通用解决方案。

模型可解释性 :多模态模型的复杂性使其推荐难以解释,这会限制用户对系统的信任度和透明度。虽然少数工作提到了它,但它仍然需要探索。

计算复杂性 :MRS 需要大量数据和计算资源,这使得将它扩展到大型数据集和用户上具有挑战。多模态数据和模型的复杂性会增加计算量,从而增加推荐生成所需的成本和时间,使其对实时应用程序具有挑战性。

隐私 :虽然多模态信息可以通过减轻数据稀疏性使推荐系统受益,但它也增加了隐私泄露的风险。多模态信息丰富条件下如何保护个人隐私对研究人员来说也是一个很大的挑战。

一般的MRS数据集 :目前,MRS的数据集仍然有限,覆盖的模态不够广泛。此外,不同模式的数据质量和可用性可能会有所不同,这会影响准确性和推荐的可靠性。

更多细节请点击阅读原文精读原始论文。

更多干货请点击:

 
 
【免费下载】2023年1月份热门报告盘点

基于深度学习的个性化推荐系统实时化改造与升级.pdf

推荐技术在vivo互联网商业化业务中的实践.pdf

推荐系统基本问题及系统优化路径.pdf

大规模推荐类深度学习系统的设计实践.pdf

荣耀推荐算法架构演进实践.pdf

推荐系统在腾讯游戏中的应用实践.pdf

清华大学256页PPT元宇宙研究报告.pdf(附下载链接)

机器学习在B站推荐系统中的应用实践

小红书推荐系统中台应用实践

微信视频号实时推荐技术架构分享

推荐系统的变与不变

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16170.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LLM总结(持续更新中)

最新的参见LLM-Summary 引言 当前LLM模型火出天际,但是做事还是需要脚踏实地。此文只是日常学习LLM,顺手整理所得。本篇博文更多侧重对话、问答类LLM上,其他方向(代码生成)这里暂不涉及,可以去看综述来了…

清华发布首个最全大模型安全评测系统,ChatGPT登榜首!

夕小瑶科技说 原创作者 | 天于刀刀 Python当前大型语言模型的火爆程度我们不用再进行赘述了,伴随着百度文心一言打响国内商业大模型第一枪,华为盘古,阿里通义千问,智谱ChatGLM,科大讯飞星火等国内公司纷纷开始布局。 另一方面由于…

360+ChatGLM联手研发中国版“微软+OpenAI”

文章目录 人工智能福利文章前言360与智谱AI强强联合什么是智谱AI360智脑360GLM与360GPT大模型战略布局写在最后 ✍创作者:全栈弄潮儿 🏡 个人主页: 全栈弄潮儿的个人主页 🏙️ 个人社区,欢迎你的加入:全栈弄…

45岁当打之年再创业,剑指中国版ChatGPT,这位美团联合创始人能否圆梦?

文 BFT机器人 “即便只有一个人,我也要出发。” 这是45岁的前美团联合创始人王慧文再次冲上创业沙场的“征战”宣言,这一次他的梦想是“组队拥抱新时代,打造中国OpenAI”。 01 当打之年, AI新梦再起航 “我的人工智能宣言&…

一支不足百人的团队创造了 ChatGPT :90 后挑大梁,应届生 11 人,华人抢眼

让全网沸腾的 ChatGPT,其背后团队不足百人。ChatGPT 发布以来,在短短 2 个月时间月活破亿,成为历史上用户增长最快的消费应用。有分析机构感叹:“在互联网领域发展 20 年来,我们想不出有哪个消费者互联网应用比它上升速…

ChatGLM2-6B本地部署

ChatGLM2-6B本地部署 ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了如下新特性: 更强大的性能:基于 ChatGLM 初代模型的开…

ChatGLM-6B 本地部署指南!

Datawhale干货 作者:宋志学,Datawhale成员 注意事项-写在最前 显卡需要至少6GB的显存使用GPU部署模型需要自行安装torch和与自己显卡匹配的CUDA、cudnn 下载ChatGLM-6B 在GitHub上下载chatglm-6b的源码,地址如下 https://github.com/THUDM/C…

如何在本地部署运行ChatGLM-6B

在本篇技术博客中,将展示如何在本地获取运行代码和模型,并配置环境以及 Web GUI,最后通过 Gradio 的网页版 Demo 进行聊天。 官方介绍 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM)…

统计行业板块内涨停板数量,跟踪热点板块!股票量化分析工具QTYX-V2.6.0

前言‍‍ QTYX系统结构如下所示: 功能概述 目前A股市场的股票每天是有限制最大涨幅的,也就是涨停的概念。比如主板个股最大涨幅是10%,创业板个股最大涨幅是20%等。 对于个股而言并不是随随便便就能被推到涨停板的,它的背后是主力资…

股票数据分析

股票数据分析 前面我们介绍了Spark 和 Spark SQL,今天我们就使用 Spark SQL来分析一下我们的数据,今天我们主要分析一下股票数据 数据准备 这里郑重申明,我们的全部数据来自tushare, tushare 是一个免费提供各类金融数据 , 助力智能投资与…

华为版 ChatGPT“盘古 Chat”2023年7月7日正式发布

据某些媒体称,华为公司将发布一款直接对标 ChatGPT 的多模态千亿级大模型产品,名为“盘古 Chat”。 据介绍,盘古大模型于 2020 年 11 月在华为云内部立项成功。这款“盘古 Chat ”预计将于今年 7 月 7 日举行的华为云开发者大会 (HDC.Cloud …

苹果上演“无间道”?故意泄露假消息“钓鱼”,成功抓获 iOS 17 内部爆料者...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 在今年 3 月底,苹果预告了 WWDC23 大会的时间:北京时间 6 月 6 日至 10 日。据外媒预测,iOS 17、新款 MacBook Air 和 M3 芯片都有可能在本次大会中亮相。 然而对于…

被 Google 裁掉的 Golden 12K:开源开发者成重灾区,61 岁再求职!

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 2022 被视为全球经济的低谷期,如今 2023 新一年的到来,被众人赋予了很高的期望。 然而,新年伊始,全球科技巨头之一的 Google 最新宣布大规模裁员的消息&a…

简单聊聊工程质量中研发需要关心的点

一、背景 作为程序猿,工程质量是我们逃不开的一个话题,工程质量高带来的好处多多,我在写这篇文章的时候问了一下CHATGPT,就当娱乐一下,以下是ChatGPT的回答: 1、提高产品或服务的可靠性和稳定性。高质量的系…

ChatGPT不会很快接管人类工作,AI也不会免费打工

ChatGPT 等大模型的相继发布,让很多人倍感压力,害怕 AI 会很快接管他们的工作。对此,OpenAI 也曾发表过一项研究,表明 ChatGPT 的影响涵盖所有收入阶层,且高收入工作可能面临更大的风险。事实到底如何呢? …

AI辅助编程实践-Copilot

引言 在ChatGPT的浪潮下,当前大模型普遍引入了编程问题平台以及大量代码数据来训练逻辑和问答能力,同时大模型本身具备的自然语言理解和处理能力,使得我们可以与大模型进行代码编程上的交流与咨询,大大减少我们在一些琐碎事务上的…

chatgpt赋能python:Python动态调用方法:优雅的编程解决方案

Python动态调用方法:优雅的编程解决方案 Python语言的特性之一是其动态性。这意味着Python在运行时不仅能够创建新的对象和修改现有对象的属性,还可以动态地调用方法。这种能力在编写大规模的Python应用程序时格外有用。本文将深入探讨Python动态调用方…

聚观早报 | ChatGPT登顶美区iOS免费榜;库克不满苹果首款MR设备

今日要闻:ChatGPT登顶美区iOS免费榜;库克不满苹果首款MR设备;索尼正开发小尺寸折叠屏手机;万达辟谣大规模裁员;智能仿生手让截肢者重获手心的温度 ChatGPT登顶美区iOS免费榜 ChatGPT 在 iOS 美区免费 App 排行榜上位列…

【送书福利】终于有本书讲清了ChatGPT和AIGC

文末送书活动 AIGC的各大门派是谁?典型技术都有什么? AIGC为什么在绘画领域先破圈?ChatGPT的有哪些局限性? 为何科技企业争相推出大模型? 人类的创新能力会被AIGC取代吗…… 诸如此类的这些话题呈现爆发性增长&#xf…

【社区图书馆】人工智能新高度:生成式AI带来新的革命!

引言 很高兴能够参加CSDN & 机械工业出版社联合举办的深读计划活动,非常荣幸被选中获得纸质版的《你好,ChatGPT》这本书,在这里再次感谢CSDN、机械工业出版社给我的这个阅读机会,我个人也是非常珍惜这次深读计划,经…