【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合

【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合


目录

文章目录

  • 【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合
    • 目录
    • 0. 论文信息
    • 1. 摘要
    • 2. 研究背景
    • 3. 主要挑战
    • 4. 创新点
    • 5. 算法模型
      • 1. **标识符设计(Docid Design)**
      • 2. **多级约束对比训练(Multi-graded Constrained Contrastive Training)**
      • 3. **学习场景的探索**
      • 4. **优化过程**
    • 6. 实验效果
    • 7. 推荐阅读指数:
      • 推荐理由
    • 后记


0. 论文信息

@article{tang2024generative,title={Generative Retrieval Meets Multi-Graded Relevance},author={Tang, Yubao and Zhang, Ruqing and Guo, Jiafeng and de Rijke, Maarten and Chen, Wei and Cheng, Xueqi},journal={arXiv preprint arXiv:2409.18409},year={2024}
}

在这里插入图片描述
https://arxiv.org/pdf/2409.18409
生成型检索与多级相关性相结合

1. 摘要

本文提出了一种新颖的信息检索方法——生成型检索(Generative Retrieval, GR),它使用编码器-解码器架构直接为查询生成相关的文档标识符(docids)。现有的方法主要限于具有二元相关性数据的场景,忽略了文档可能具有多级相关性的可能性。为了解决这一问题,我们提出了一个名为GRaded Generative Retrieval(GR2)的框架,它关注两个关键部分:确保相关且独特的标识符,以及实施多级约束对比训练。我们通过组合docid生成和自编码器模型来共同优化docid的相关性和独立性。此外,我们利用关于相关性等级之间关系的信息来指导训练过程。通过一种约束对比训练策略,根据它们各自的相关性等级,将查询的表示和它们相关文档的标识符拉近。实验表明,GR2在具有多级和二元相关性的多个数据集上都表现出色。

2. 研究背景

这篇论文基于信息检索(Information Retrieval, IR)领域中存在的挑战和需求,具体来说:

  • 传统信息检索的局限性:传统的信息检索系统通常依赖于关键词匹配和统计方法(如TF-IDF和BM25)来检索文档。这些方法虽然在某些情况下效果不错,但它们往往缺乏对文档深层语义的理解。

  • 二元相关性假设的不足:在许多现有的研究中,文档与查询之间的相关性通常被简化为二元分类(即相关或不相关)。然而,在现实世界中,文档与查询之间的相关性往往是多级和细粒度的。

  • 深度学习在IR中的应用:随着深度学习技术的发展,研究人员开始探索使用神经网络模型来改进信息检索系统。这些模型能够学习文档和查询的深层语义表示,从而提高检索的准确性。

  • 生成型检索(Generative Retrieval)的兴起:生成型检索是一种新兴的范式,它使用序列到序列(Seq2Seq)的模型直接预测与查询相关的文档标识符(docids)。这种方法有潜力提供端到端的优化,并在推理时提高检索效率。

  • 多级相关性数据的可用性:随着多级相关性标注数据集的出现,研究人员有机会开发能够处理细粒度相关性信息的检索模型。这些数据集提供了比传统二元相关性数据更丰富的信息。

  • 挑战和需求:尽管生成型检索具有潜力,但现有的方法主要关注二元相关性场景,并且在处理多级相关性时面临挑战,包括如何合理地为不同长度的docid分配概率,以及如何处理具有相同标识符的多个相关文档。

3. 主要挑战

这篇论文面临的挑战主要包括:

  1. 多级相关性建模:传统的信息检索系统和一些现有的生成型检索模型大多处理二元相关性(即文档与查询完全相关或完全不相关)。将检索系统扩展到可以处理具有多个相关性级别的数据,需要新的方法来建模和利用这种细粒度的相关性信息。

  2. 标识符的生成:为每个文档生成一个既能够体现文档语义,又能在数据库中保持唯一性的标识符是一项挑战。特别是,需要确保相关文档的标识符在语义上是相关的,同时在实际应用中又要足够不同,以避免冲突。

  3. 训练策略的设计:如何设计有效的训练策略,以便模型能够理解和区分不同相关性级别的文档,是另一个挑战。这需要新类型的损失函数和训练技巧,以确保模型可以根据相关性级别对文档进行适当的排序。

  4. 处理标识符长度的变化:文档标识符的长度可能会变化,这可能会影响模型学习到的表示。长的标识符可能由于模型训练过程中的likelihood-based方法而获得较低的分数。

  5. 优化目标的复杂性:现有的基于Seq2Seq的生成型检索模型通常侧重于生成与查询最相关的单个docid。然而,在多级相关性场景中,需要优化目标来同时考虑多个具有不同相关性级别的docids。

  6. 效率和可扩展性:生成型检索模型需要在推理时快速生成docids,同时保持低内存占用和高吞吐量。设计一个既高效又可扩展的模型,能够处理大规模数据集,是实现实用化的一大挑战。

  7. 数据集的局限性:虽然存在一些具有多级相关性标注的数据集,但这些数据集的规模和多样性可能有限。如何利用有限的数据有效地训练模型,以及如何使模型泛化到未见过的文档和查询上,是研究中需要考虑的问题。

  8. 实际应用中的挑战:将研究成果转化为实际应用需要考虑模型的鲁棒性、可解释性以及与现有系统的兼容性。这些因素可能会影响模型在现实世界中的部署和效果。

论文通过提出GR2框架来应对这些挑战,该框架专注于生成相关且独特的标识符,并实施多级约束对比训练,以提高模型处理多级相关性的能力。

4. 创新点

  1. 多级相关性支持:GR2框架能够处理具有多级相关性的文档,而不仅仅是二元相关性。
  2. 相关且独特的标识符生成:通过结合docid生成和自编码器模型,确保生成的docid既相关又足够独特。
  3. 多级约束对比训练:引入了一种新的损失函数MGCC,用于捕获具有不同相关性等级的标签之间的关系。

5. 算法模型

GR2框架是这篇论文的核心贡献,它是为了解决多级相关性信息检索问题而设计的。具体来说,GR2框架包括以下几个关键步骤:

1. 标识符设计(Docid Design)

  • 目标:生成既与文档语义相关,又具有足够区分度的标识符(docids)。
  • 方法:采用正则化融合方法,结合了文档生成(docid generation)模块和自编码器(autoencoder)模块。
  • 实现
    • 文档生成模块:基于原始文档生成伪查询作为docids。
    • 自编码器模块:从对应的表示中重构目标docids。
    • 联合优化:通过docid生成和自编码器模型的组合,确保docid表示既接近其对应文档的表示,又远离其他docid的表示。

2. 多级约束对比训练(Multi-graded Constrained Contrastive Training)

  • 目标:通过考虑不同相关性等级之间的关系来指导训练过程。
  • 方法:使用约束对比训练策略,根据它们各自的相关性等级,拉近查询和其相关文档标识符的表示。
  • 实现
    • MGCC损失(Multi-graded Constrained Contrastive Loss):核心思想是将给定查询的表示在嵌入空间中向其相关docids的表示拉近,同时将其推离批次中不相关docids的表示。
    • 等级惩罚和约束:提出更具体的等级惩罚和约束来调节查询表示和不同等级docid表示之间的相对距离。

3. 学习场景的探索

  • 监督学习:直接使用MGCC损失来监督GR模型。
  • 预训练:使用大规模构造的多级相关性数据进行预训练,然后对下游检索任务进行微调。

4. 优化过程

  • 目标:通过最小化损失函数来优化模型参数,损失函数包括MGCC损失、查询-文档对的MLE损失以及文档-标识符对的MLE损失。
  • 实现
    • 监督学习版本(GR2S):直接在标注数据上使用MGCC损失进行训练。
    • 预训练版本(GR2P):先在构造的多级相关性数据上进行预训练,然后在具体任务上进行微调。
      在这里插入图片描述

6. 实验效果

  • 数据集:使用了包括Gov2、ClueWeb09-B、Robust04等具有多级相关性的中等规模数据集,以及MS MARCO Document Ranking和Natural Questions等二元相关性数据集。
  • 评估指标:多级相关性数据集上使用了nDCG、ERR和P@20等指标;二元相关性数据集上使用了MRR和Hits@{}指标。
  • 结果
    • 在Gov 500K数据集上,GR2P和GR2S在P@20指标上分别比当前最佳基线RIPOR高出约11%和14%。
    • 在MS 500K数据集上,GR2P在Hits@1指标上比RIPOR高出11.7%,GR2S在Hits@10指标上高出4.3%。
  • 结论:GR2在处理具有多级和二元相关性的检索任务时,均显示出优越的性能。

在这里插入图片描述
在这里插入图片描述

7. 推荐阅读指数:

★★★★☆

推荐理由

  • 创新性:提出了一种新的生成型检索框架,能够处理多级相关性,这是信息检索领域的一个重要进步。
  • 实用性:通过实验验证了GR2框架在不同类型数据集上的有效性,表明该方法具有很好的泛化能力。
  • 潜在影响:该研究可能推动信息检索领域向更细粒度的相关性评价发展,对搜索引擎和文档检索系统的设计有重要启示。

这篇论文在信息检索领域提出了一个创新的方法,能够有效处理多级相关性问题,对于研究人员和实践者来说都具有较高的参考价值。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/439184.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaSE——面向对象练习题

1.对象数组排序 定义一个Person类{name,age,job},初始化Person对象数组,有3个person对象,并按照age从小到大进行冒泡排序;再按照name的长度从小到大进行选择排序。 public class HomeWork01 {public static void main(String[] a…

字体文件压缩

技术点 npm、html、font-spider 实现原理 个人理解:先引入原先字体,然后重置字符为空,根据你自己填充文字、字符等重新生成字体文件,因此在引入的时候务必添加自己使用的文字、字符等!!! 实…

PY32F002B

墨水屏: 前景和背景 在屏幕和图像处理中,前景和背景是两个重要的概念: 前景(Foreground): 指的是图像或屏幕上最显著的部分,通常是用户关注的主要内容。例如,在一张照片中&#xf…

10.3学习

1.循环依赖 循环依赖其实就是循环引用,也就是两个或者两个以上的 Bean 互相持有对方,最终形成闭环。比如A 依赖于B,B又依赖于A Spring中循环依赖场景有: prototype 原型 bean循环依赖 构造器的循环依赖(构造器注入)…

PIKACHU | PIKACHU 靶场 XSS 后台配置

关注这个靶场的其他相关笔记:PIKACHU —— 靶场笔记合集-CSDN博客 PIKACHU 自带了一个 XSS 平台,可以辅助我们完成 XSS 攻击,但是该后台需要配置数据库以后才能使用。本教程,就是教大家如何配置 PIKACHU XSS 平台的。 PIKACHU XS…

资源《Arduino 扩展板4-单游戏摇杆》说明。

资源链接: Arduino 扩展板4-单游戏摇杆 1.文件明细: 2.文件内容说明 包含:AD工程、原理图、PCB。 3.内容展示 4.简述 该文件为PCB工程,采用AD做的。 该文件打板后配合Arduino使用,属于Arduino的扩展板。 该文件…

深度学习的应用综述

文章目录 引言深度学习的基本概念深度学习的主要应用领域计算机视觉自然语言处理语音识别强化学习医疗保健金融分析 深度学习应用案例公式1.损失函数(Loss Function) 结论 引言 深度学习是机器学习的一个子领域,通过模拟人脑的神经元结构来处理复杂的数据。近年来&…

k8s实战-2

k8s实战-2 一、Deployment1.多副本2.扩缩容3.自愈&故障转移4.滚动更新5.版本回退 二、Service1.ClusterIP2.NodePort 总结 一、Deployment Deployment 是 k8s 中的一个资源对象,用于管理应用的副本(Pods)。它的主要作用是确保集群中运行…

【Linux】进程替换、命令行参数及环境变量(超详解)

目录 进程替换 替换函数的含义 命令行参数 环境变量 PATH 进程替换 我们先看代码&#xff1a; 1 #include<stdio.h>2 #include<unistd.h>3 int main()4 {5 printf("process...begin!\n");6 7 execl("/usr/bin/ls","ls"…

论文翻译 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust

摘要 近年来&#xff0c;NLP从业者集中于以下实践:(i)导入现成的预训练(掩码)语言模型;(ii)在CLS令牌的隐藏表示(随机初始化权重)上附加多层感知器;(iii)在下游任务(MLP-FT)上微调整个模型。这一过程在标准的NLP基准上产生了巨大的收益&#xff0c;但这些模型仍然很脆弱&#x…

尝试从 http://pypi.doubanio.com/simple 这个索引源安装 webdriver 时出现了问题

问题如下&#xff1a; WARNING: The repository located at pypi.doubanio.com is not a trusted or secure host and is being ignored. If this repository is available via HTTPS we recommend you use HTTPS instead, otherwise you may silence this warning and allow …

从介质失效看互联网时代的信息过载

来读一篇文章&#xff1a;90年代的硬盘已大规模变砖&#xff0c;没啥好担心的&#xff0c;好事。 结合我两年前的粗浅认知 互联网时代无信息&#xff0c;按照 “动” 的观念看&#xff0c;当信息越来越多&#xff0c;信息密度越来越大时&#xff0c;信息的寿命就会越来越短&am…

离线安装docker

背景描述 项目需要在研发环境虚拟机上安装docker部署应用。 所在的服务器是一个内网&#xff0c;无法访问到外网环境。 服务器OS版本是 麒麟V10 linux 安装docker 安装包下载 获取所需版本的docker binary包&#xff0c;官方链接https://download.docker.com/linux/stati…

CoRL 2024 麻省理工学院提出T3触觉Transformer,打破触觉感知的壁垒,重塑未来机器人

在智能机器人领域&#xff0c;触觉感知的研究正逐渐成为关注的焦点。然而&#xff0c;如何让机器人通过触觉更智能地感知和操作&#xff0c;依然是一个未解决的挑战。基于相机的触觉感知是一种通过在软弹性体下嵌入相机来捕获与环境的细粒度交互的感知方法&#xff0c;是最流行…

[Python学习日记-39] 闭包是个什么东西?

[Python学习日记-39] 闭包是个什么东西&#xff1f; 简介 闭包现象 闭包意义与作用 简介 在前面讲函数和作用域的时候应该提到过&#xff0c;当函数运行结束后会由 Python 解释器自带的垃圾回收机制回收函数内作用域已经废弃掉的变量&#xff0c;但是在 Python 当中还有一种…

MySQL--数据库约束(详解)

目录 一、前言二、概念三、数据库约束3.1 约束类型3.1.1 NOT NULL 约束3.1.2 UNIQUE (唯一&#xff09;3.1.3 DEFAULT&#xff08;默认&#xff09;3.1.4 PRIMARY KEY&#xff08;主键&#xff09;3.1.5 FOREIGN KEY&#xff08;外键&#xff09;3.1.6 CHECK 四、总结 一、前言…

Golang | Leetcode Golang题解之第454题四数相加II

题目&#xff1a; 题解&#xff1a; func fourSumCount(a, b, c, d []int) (ans int) {countAB : map[int]int{}for _, v : range a {for _, w : range b {countAB[vw]}}for _, v : range c {for _, w : range d {ans countAB[-v-w]}}return }

STM32新建工程-基于库函数

目录 一、创建一个新工程 二、为工程添加文件和路径 三、创建一个main.c文件&#xff0c;并调试 四、修改一些配置 五、用库函数进行写程序 1、首先加入一些库函数和头文件 2、编写库函数程序 一、创建一个新工程 我这里选择STM32F103C8的型号&#xff0c;然后点击OK。 …

如何提取b站的视频字幕,下载视频

打开视频地址 按F12打开—开发者工具 在开发者工具打开Network 过滤器关键字&#xff1a; 自动生成字幕&#xff1a;ai_subtitle 自制&#xff1a;json 打开/关闭字幕 刷新页面 找到字幕 点选字幕的respond 将方框中的内容复制&#xff1b; 复制到&#xff1a;https://www.drea…

蓝桥杯【物联网】零基础到国奖之路:十五. 扩展模块之双路ADC

蓝桥杯【物联网】零基础到国奖之路:十五. 扩展模块之双路ADC 第一节 硬件解读第二节 CubeMX配置第三节 代码编写 第一节 硬件解读 STM32的ADC是12位&#xff0c;通过硬件过采样扩展到16位&#xff0c;模数转换器嵌入到STM32L071xx器件中。有16个外部通道和2个内部通道&#xf…