REPLUG:检索增强的黑盒语言模型

在这里插入图片描述

  论文题目:REPLUG: Retrieval-Augmented Black-Box Language Models
  论文日期:2023/05/24
  论文地址:https://arxiv.org/abs/2301.12652

文章目录

    • Abstract
    • 1. Introduction
    • 2. Background and Related Work
      • 2.1 Black-box Language Models
      • 2.2 Retrieval-augmented Models
    • 3. REPLUG
      • 3.1 Document Retrieval
      • 3.2 Input Reformulation
    • 4. REPLUG LSR: Training the Dense Retriever
      • 4.1 Computing Retrieval Likelihood
      • 4.2 Computing LM likelihood
      • 4.3 Loss Function
      • 4.4 Asynchronous Update of the Datastore Index
    • 5. Training Setup
      • 5.1 REPLUG
      • 5.2 REPLUG LSR
        • 5.2.1 Training data
        • 5.2.2 Training data

Abstract

  这篇论文提出REPLUG,一种检索增强的语言建模框架,将语言模型(LM)视为黑盒,并用可调的检索模型对其进行增强。与之前使用特殊交叉注意力机制训练语言模型以编码检索文本的检索增强语言模型不同,REPLUG只是将检索文档放在冻结(frozen)的黑盒语言模型的输入前面。这种简单的设计可以很容易地应用于任何现有的检索和语言模型。此外,语言模型可以用来监督检索模型,然后可以找到帮助语言模型做出更好预测的文档。
  作者的实验表明带有微调检索器的REPLUGGPT-3(175B)在语言建模上的性能提高了6.3%,将Codexfive-shot MMLU上的性能提高了5.1%

1. Introduction

  大型语言模型(LLM),如GPT-3Codex,在广泛的语言任务中表现出令人印象深刻的表现。这些模型通常在非常大的数据集上训练,并在其参数中隐式地存储了大量的世界或领域知识。然而,它们也容易产生幻觉,不能代表训练语料库中知识的完整长尾。相比之下,检索增强语言模型可以在需要时从外部数据存储中检索知识,可能会减少幻觉并增加覆盖率。以前的检索增强语言模型方法需要访问内部语言模型表示(例如,训练模型或索引数据存储),因此很难应用于非常大的语言模型。此外,许多同类中最好的LLM只能通过API访问。这些模型的内部表示没有暴露出来,也不支持微调。
  这篇论文提出REPLUG(Retrieve and Plug),一种新的检索增强的语言模型框架,其中语言模型被视为黑盒,检索组件被添加为可调的即插即用模块。给定一个输入上下文,REPLUG首先使用现成的检索模型从外部语料库检索相关文档。检索到的文档被添加到输入上下文并输入到黑盒LLM中以做出最终预测。由于语言模型上下文长度限制了可以前缀的文档数量,这里还引入了一个新的集成方案,该方案与相同的黑盒语言模型并行编码检索的文档,允许我们轻松地以计算换取准确性。REPLUG非常灵活,可以与任何现有的黑盒语言模型和检索模型一起使用,如下图所示:

在这里插入图片描述

  这篇论文还提出了REPLUG LSR(REPLUG with LM-Supervised Retrieval),一种训练方案,可以利用黑盒语言模型的监督信号进一步改进REPLUG中的初始检索模型,关键思想是使检索器适应LM,这与之前使语言模型适应检索器的工作形成了鲜明对比。作者使用了一个训练目标,该目标倾向于检索文档,以改善语言模型的困惑,同时将LM视为一个冻结的黑盒评分函数。
  实验表明,REPLUG可以提高不同黑盒语言模型在两种语言建模上的性能下游任务,包括MMLU和开放域QA。例如,REPLUG可以将Codex(175B)MMLU上的性能提高4.5%,实现了与指令微调的Flan-PaLM 540B相当的结果。此外,用论文中的训练方案(即REPLUG LSR)调整检索器会带来额外的提高,比如GPT-3 175B语言建模提高了6.3%。本文工作首次展示了检索大型语言模型(>100B模型参数)的好处,既减少了语言模型的困惑度,又提高了上下文学习性能。
  这篇论文的主要贡献如下:
  (1) 提出REPLUG,第一个检索增强语言建模框架,用于通过检索增强大型黑盒语言模型;
  (2) 提出一种训练方案REPLUG LSR,以进一步将现成的检索模型适应于语言模型,使用语言建模分数作为监督信号,从而提高检索质量;
  (3) 在语言建模、开放域QAMMLU上的评估表明,REPLUG可以提高各种语言模型(如GPTOPTBLOOM)的性能,包括高达175B参数规模的大型语言模型。

2. Background and Related Work

2.1 Black-box Language Models

  大型语言模型(>100B),如GPT-3Codex和Yuan1.0,由于商业考虑而不开源,仅作为黑盒API提供,用户可以通过它发送查询和接收响应。另一方面,即使是开源语言模型,如OPT-175BBLOOM-176B也需要大量的计算资源在本地运行和微调。例如微调BLOOM-176B需要72A100 GPU(80GB内存,每个1.5万美元),使得资源有限的研究人员和开发人员无法访问它们。传统上,检索增强模型框架侧重于白盒环境,其中语言模型被微调以合并检索文档。然而,大型语言模型的规模不断扩大和黑箱特性使得这种方法不可行。为解决大型语言模型带来的挑战,这篇论文研究了黑盒环境下的检索增强,其中用户只能访问模型预测,而不能访问或修改其参数。

2.2 Retrieval-augmented Models

  事实证明,用从各种知识库中检索到的相关信息来增强语言模型,可以有效地提高各种NLP任务的性能,包括语言建模和开放域问答。具体来说,使用输入作为查询,检索器首先从语料库中检索一组文档(即token序列),然后语言模型将检索到的文档作为附加信息进行最终预测。这种检索风格可以添加到encoder-decoderdecoder-only模型中。例如,Atlas通过将文档建模为潜在变量来与检索器联合共同对encoder-decoder模型进行微调,而RETRO则改变了decoder-only的架构,以合并检索到的文本,并从头开始预训练语言模型。这两种方法都需要通过梯度下降更新模型参数,不能应用于黑盒LM。另一条线路检索增强的语言模型,如kNN-LM检索一组tokens,并在LM的下一个token分布和推理时从检索的token计算出的kNN分布之间进行插值。虽然kNN-LM不需要额外的训练,但它需要访问内部的LM表示来计算kNN分布,这对于像GPT-3这样的大型语言模型并不总是可用的。
  本文研究了用检索来改进大型黑盒语言模型的方法。虽然相关工作已经证明了使用冻结检索器可以提高GPT-3在开放域问答上的性能,但作者在更通用的环境中处理这个问题,包括语言建模和理解任务。本文还提出了一种集成方法来合并更多的文档,以及一种训练方案来进一步使检索器适应大型语言模型。

3. REPLUG

  本文提出REPLUG(Retrieve and Plug),一种新的检索增强的语言模型范式,其中语言模型被视为黑盒,检索组件被添加为一个潜在的可调模块。
  如下图所示,给定一个输入上下文,REPLUG首先使用检索器从外部语料库中检索一小部分相关文档,然后通过LM并行传递每个检索文档与输入上下文的连接,并集成预测概率。

在这里插入图片描述

3.1 Document Retrieval

  给定输入上下文 x x x,检索器旨在从语料库 D = { d 1 , . . . , d m } \mathcal D = \{d_1, ..., d_m\} D={d1,...,dm} 中检索与 x x x 相关的一小部分文档。根据之前的工作,作者使用基于双塔编码器(dual encoder)架构的密集检索器,其中编码器用于编码输入上下文 x x x 和文档 d d d。具体来说,编码器通过对 d d d 中的tokens进行最后一个隐藏表示的均值池化,将每个文档 d ∈ D d \in \mathcal D dD 映射到嵌入 E ( d ) E(d) E(d)。在查询时,将相同的编码器应用于输入上下文 x x x 以获得查询嵌入 E ( x ) E(x) E(x)。查询嵌入和文档嵌入之间的相似度是通过它们的余弦相似度计算的: s ( d , x ) = c o s ( E ( d ) , E ( x ) ) s(d, x) = cos\big( E(d), E(x) \big) s(d,x)=cos(E(d),E(x))在此步骤中检索与输入 x x x 相比具有最高相似度分数的top-k个文档。为了高效检索,作者预先计算每个文档 d ∈ D d \in \mathcal D dDembedding,并在这些嵌入上构建FAISS索引。

3.2 Input Reformulation

  检索到的top-k个文档提供了关于原始输入上下文 x x x 的丰富信息,并可以潜在地帮助语言模型做出更好的预测。将检索到的文档作为LM输入的一部分的一种简单方法是在 x x x 前面加上所有 k k k 个文档。然而,考虑到语言模型的上下文窗口大小,这个简单的方案从根本上受到我们可以包括的文档数量(k)的限制。为了解决这个限制,作者采用了一种集成策略描述如下。根据上述相似度计算中的评分函数,假设 D ′ ⊂ D \mathcal D^ \prime \subset \mathcal D DD 包含 k k k 个与 x x x 最相关的文档,将每个文档 d ∈ D ′ d \in \mathcal D^ \prime dD 添加到 x x x,将这个拼接分别传递给LM,然后从所有 k k k 个传递中集成输出概率。形式上,给定输入上下文 x x x 及其 t o p − k top-k topk 个相关文档 D ′ \mathcal D^ \prime D,下一个token y y y 的输出概率可以通过加权平均计算得到: p ( y ∣ x , D ′ ) = ∑ d ∈ D ′ p ( y ∣ d ∘ x ) ⋅ λ ( d , x ) p\big(y | x, \mathcal D^ \prime\big) = \sum_{d\in \mathcal D^ \prime} p(y | d \circ x) \cdot \lambda(d, x) p(yx,D)=dDp(ydx)λ(d,x)其中 ∘ \circ 表示两个序列的拼接,权重 λ ( d , x ) \lambda(d, x) λ(d,x) 是基于文档 d d d 和输入上下文 x x x 之间的相似度得分: λ ( d , x ) = e s ( d , x ) ∑ d ∈ D ′ e s ( d , x ) \lambda(d, x) = \frac {e^{s(d, x)}} {\sum_{d \in \mathcal D^ \prime} e^{s(d, x)}} λ(d,x)=dDes(d,x)es(d,x)虽然这种集成方法需要运行LM k k k 次,但交叉注意力在每个检索文档和输入上下文之间执行。因此,与将所有检索到的文档放在前面的方法相比,该集成方法不会产生额外的计算开销。

4. REPLUG LSR: Training the Dense Retriever

  作者不再仅仅依赖于现有的神经密集检索模型,而是进一步提出了REPLUG LSR(REPLUG with LM Supervisored retrieval),它通过使用LM本身来调整REPLUG中的检索器,以提供关于应该检索哪些文档的监督信息。
  受"Questions are all you need to train a dense passage retriever"这篇论文的启发,该方法可以被视为调整检索文档的概率以匹配语言模型的输出序列困惑度的概率。换句话说,作者希望检索器找到困惑度分数较低的文档。如下图所示,训练算法包括四个步骤:
  (1) 检索文档并计算检索似然度;
  (2) 通过语言模型对检索文档进行评分;
  (3) 通过最小化检索似然度和语言模型的分数分布之间的KL散度来更新检索模型参数;
  (4) 异步更新数据存储索引。

在这里插入图片描述

  似然度,即可能性,likelihood

4.1 Computing Retrieval Likelihood

  从语料库 D \mathcal D D 中检索具有最高相似度分数的 k k k 个文档 D ′ ⊂ D \mathcal D^ \prime \subset \mathcal D DD,给定输入上下文 x x x,计算每个检索文档 d d d 的检索似然度: P R ( d ∣ x ) = e s ( d , x ) / γ ∑ d ∈ D ′ e s ( d , x ) / γ P_R (d | x) = \frac {e^{s(d, x) / \gamma}} {\sum_{d \in \mathcal D^ \prime} e^{s(d, x) / \gamma}} PR(dx)=dDes(d,x)/γes(d,x)/γ其中 γ \gamma γ 是控制softmax温度的超参数。理想情况下,检索似然度是通过边缘化语料库 D \mathcal D D 中的所有文档来计算的,这在实际中是难以实现的。因此,作者通过仅在检索文档 D ′ \mathcal D^ \prime D 上边缘化来近似检索似然度。

4.2 Computing LM likelihood

  使用LM作为评分函数来衡量每个文档对LM复杂度的改善程度。具体来说,给定输入上下文 x x x 和文档 d d d,首先计算 P L M ( y ∣ d , x ) P_{LM}(y|d,x) PLM(yd,x),即LM的真实值输出y的概率,概率越高,文档 d d d 在改善LM的困感度方面越好。然后,再计算每个文档 d d dLM似然度: Q ( d ∣ x , y ) = e P L M ( y ∣ d , x ) / β ∑ d ∈ D ′ e P L M ( y ∣ d , x ) / β Q (d | x, y) = \frac {e^{P_{LM}(y|d,x) / \beta}} {\sum_{d \in \mathcal D^ \prime} e^{P_{LM}(y|d,x) / \beta}} Q(dx,y)=dDePLM(yd,x)/βePLM(yd,x)/β其中 β \beta β 是另一个超参数。

4.3 Loss Function

  给定输入上下文 x x x 和相应的基本事实连续性 y y y,计算检索似然和语言模型似然。稠密检索器通过最小化这两个分布之间的KL散度来训练: L = 1 ∣ B ∣ ∑ x ∈ B K L ( P R ( d ∣ x ) ∣ ∣ Q L M ( d ∣ x , y ) ) \mathcal L = \frac {1} {|\mathcal B|} \sum _{x\in{\mathcal B}} KL\bigg(P_R\big(d|x\big) \ \big|\big|\ Q_{LM}\big(d|x, y\big)\bigg) L=B1xBKL(PR(dx)   QLM(dx,y))其中 B \mathcal B B 是一组输入上下文。在最小化损失时,只能更新检索模型参数。由于黑盒假设,LM的参数是固定的。

4.4 Asynchronous Update of the Datastore Index

  因为检索器中的参数在训练过程中被更新,所以之前计算的文档嵌入不再是最新的。因此,作者在每个T个训练步骤中重新计算文档嵌入并使用新的嵌入重建高效的搜索索引。然后使用新的文档嵌入和索引进行检索,并重复训练过程。

5. Training Setup

  训练时,首先在REPLUG中描述模型设置,然后在REPLUG LSR中描述训练检索器的程序。

5.1 REPLUG

  理论上,任何类型的检索器,无论是密集的还是稀疏的,都可以用于REPLUG。根据之前的工作,作者使用Contriever作为REPLUG的检索模型,因为它已经证明了强大的性能。

  Contriever是一个通过对比学习框架来预训练的信息检索模型。Unsupervised Dense Information Retrieval with Contrastive Learning

5.2 REPLUG LSR

  对于REPLUG LSR,作者使用Contriever模型初始化检索器,使用GPT-3 Curie作为监督LM来计算LM似然度。

5.2.1 Training data

  作者使用从Pile训练数据中采样800K条序列作为训练query,每条序列有256 tokens,每个query被分成两部分:前128 tokens用作输入上下文 x x x,后128 tokens用作真实值连续性 y y y。对于外部语料库 D \mathcal D D,从Pile训练数据中采样36M个文档,每个文档有128 tokens。为了避免繁琐的检索,确保外部语料库文档与训练查询的采样文档不重叠。

5.2.2 Training data

  为了使训练过程更高效,作者预先计算了外部语料库 D \mathcal D D 的文档嵌入,并创建FAISS索引用于快速相似性搜索。给定一个查询 x x x,从FAISS索引中检索前20个文档,并计算温度为0.1时的检索似然和LM似然。使用Adam优化器训练检索器,learning rate2e-5batch size64warmup ratio0.1。每3k steps重新计算文档嵌入,并对检索器进行微调,总共有25k steps

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/293111.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS 应用开发之FA模型绑定Stage模型ServiceExtensionAbility

本文介绍FA模型的三种应用组件如何绑定Stage模型的ServiceExtensionAbility组件。 PageAbility关联访问ServiceExtensionAbility PageAbility关联访问ServiceExtensionAbility和PageAbility关联访问ServiceAbility的方式完全相同。 import featureAbility from ohos.ability…

MySQL经验分享:Shell开发问题

背景 之前整理过Python连接使用MySQL的经验,链接如下: pymysql封装总结_pymysql封装类-CSDN博客 相比高级语言,Shell与MySQL开发使用相对会更麻烦一些;由于 shell是linux命令集的概称,是属于命令行的人机界面。Shel…

java计算机网络(一)-- url,tcp,udp,socket

网络编程: 计算机网络 计算机网络指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统、网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。 网络协议…

Git如何修改commit注释

1. 修改commit注释 1.1 修改最后一次注释 通过git log查看提交历史信息 输入命令: git commit --amend 进入修改注释界面 第一行是最后一次的注释信息。后续的操作步骤: 1. 按i键进行编辑状态,修改注释信息。 2. 按Esc,wq保…

Rabbit简单模式理解

简单模式 我们以最普通的方式去理解&#xff0c;并没有整合Springboot的那种 这是最简单的模式&#xff0c;一个生产者&#xff0c;一个消费者&#xff0c;一个队列 测试 1、 导包&#xff0c;没整合&#xff0c;不需要编写配置 2、需要生产者消费者 导包 <dependency…

使用Postman进行websocket接口测试

因为最近要搞关于基于AI的文本接口测试.需要用到websocket协议,于是看了一下发现postman也可以测而且很方便 位置 File->New->WebSocket 可以看到不止WebSocket还支持其他的各种协议 使用 首先先点击connect进行连接 连接成功之后可以选择多种文本格式添加请求参数 每…

EXCEL-VB编程实现自动抓取多工作簿多工作表中的单元格数据

一、VB编程基础 1、 EXCEL文件启动宏设置 文件-选项-信任中心-信任中心设置-宏设置-启用所有宏 汇总文件保存必须以宏启动工作簿格式类型进行保存 2、 VB编程界面与入门 参考收藏 https://blog.csdn.net/O_MMMM_O/article/details/107260402?spm1001.2014.3001.5506 二、…

鱼眼相机的测距流程及误差分析[像素坐标系到空间一点以及测距和误差分析]

由于最近在整理单目测距的内容&#xff0c;顺手也总结下鱼眼相机的测距流程和误差分析&#xff0c;如果有错误&#xff0c;还请不吝赐教。 参考链接: 鱼眼镜头的成像原理到畸变矫正&#xff08;完整版&#xff09; 相机模型总结&#xff08;针孔、鱼眼、全景&#xff09; 三维…

手机无线投屏到windows11电脑

1 安装无线投影组件 2 电脑端打开允许其他设备投影的开关 3 手机找到投屏选项 4 手机搜索可用设备连接即可 这里的官方文档给的不太好,给了一些让人眼花撩乱的信息,以下是经过整合的有效信息

Linux USB驱动(二)

1. Linux USB驱动软件框架 应用程序有两种访问硬件的途径&#xff1a;通过设备驱动程序来访问和跳过设备驱动程序&#xff08;直接使用host驱动程序&#xff09;来访问。 当直接使用Host驱动程序时&#xff0c;可以调用libusb库中已经封装好的函数接口。 2. USB电气信号 一个…

牛客NC92 最长公共子序列(二)【中等 动态规划 Java,Go,PHP】

题目 题目链接&#xff1a; https://www.nowcoder.com/practice/6d29638c85bb4ffd80c020fe244baf11 思路 https://blog.csdn.net/qq_36544411/article/details/120021203 思路 动态规划法&#xff0c; 我们以dp[i][j]表示在s1中以第i个元素结尾&#xff0c;s2中以第j个元素结…

网页布局案例 浮动

这里主要讲浮动 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><style>*{padding: 0;margin: 0;}.header{height: 40px;background-color: #333;}.nav{width: 1226px;heig…

(更新)中国农村经营管理统计年报 2015-2022

时间跨度&#xff1a;2015-2022年数据范围&#xff1a;全国各个省市自治区&#xff08;不含港澳台&#xff09;数据说明&#xff1a;《中国农村经营管理统计年报》根据农村经营管理情况统计报表调查数据和分析报告编写而成。系统收录了全国各省份当年农村经营管理各项数据&…

了解XSS和CSRF攻击与防御

什么是XSS攻击 XSS&#xff08;Cross-Site Scripting&#xff0c;跨站脚本攻击&#xff09;是一种常见的网络安全漏洞&#xff0c;它允许攻击者在受害者的浏览器上执行恶意脚本。这种攻击通常发生在 web 应用程序中&#xff0c;攻击者通过注入恶意脚本来利用用户对网站的信任&…

微信小程序如何进行npm导入组件

文章目录 目录 文章目录 前言 一、安装node 二、微信小程序通过npm安装组件&#xff08;以Vant-weapp为例&#xff09; 一、Vant-weapp下载 二 、修改 app.json 三 、修改 project.config.json 四 、 构建 npm 包 前言 微信小程序使用npm导入有很多的教程&#xff0c;我…

webGIS 之 智慧校园案例

1.引入资源创建地图 //index.html <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content&qu…

Java 中的单例模式

引言&#xff1a; 在 Java 编程中&#xff0c;单例模式是一种常见的设计模式&#xff0c;它保证一个类只能创建一个实例&#xff0c;并提供一个全局访问点。单例模式在很多场景下都非常有用&#xff0c;比如线程池、日志系统、数据库连接池等。本文将详细介绍 Java 中单例模式的…

百度资源平台链接提交

百度资源平台是百度搜索引擎提供的一个重要工具&#xff0c;用于帮助网站主将自己的网站链接提交给百度搜索引擎&#xff0c;以便更快地被收录和展示在搜索结果中。以下将就百度资源平台链接提交的概念、操作方法以及其对网站收录和曝光的影响进行探讨&#xff1a; 什么是百度资…

字符串(java)

字符串的特点&#xff1a; 1&#xff0e;String是java定义好的一个类&#xff0c;定义在java.lang包里面&#xff0c;所以使用的时候是不需要进行导包的 2.java程序中的所有字符串文字&#xff0c;都被实为此类的对象。也就是说当我们就算是进行赋值&#xff0c;这个也会创造…

【MATLAB源码-第173期】基于matlab的RS编码的2FSK通信系统误码率仿真,通过AWGN信道输出误码率曲线。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 通信系统的基本框架 在现代通信系统中&#xff0c;数据的传输通常涉及四个基本步骤&#xff1a;源编码、信道编码、调制和传输。源编码主要负责压缩数据&#xff0c;减少传输的数据量。信道编码则通过添加冗余信息来提高传输…