【论文阅读】Reliable, Adaptable, and Attributable Language Models with Retrieval

文章目录

  • Overview
  • Current Retrieval-Augmented LMs
    • Architecture
    • Training
  • Limitations & Future Work

Overview

在这里插入图片描述

Parametic language models的缺点:

  • 事实性错误的普遍存在
  • 验证的难度(可溯源性差)
  • 难以在有顾虑的情况下排除某些序列
  • 适应调整的计算成本高昂
  • 模型规模过大

Retrieval-augmented languague models更加Reliable, Adaptable, and Attributable

  • 大幅度减少事实性错误
    • 尤其是在long-tail知识上
  • 更好的可溯源性
  • 允许灵活的序列加入和退出(在检索的source里面增加和删除相应的sequence就可以)
  • 很容易adapt到新领域
  • 是更加参数高效的(不需要很大的参数量)

目前的Retrieval-augmented languague models面临的主要挑战

  • 现有的方法主要利用高语义相似度来检索外部信息,当知识库中没有相关信息或者不符合传统的相关性定义的时候,表现不好
    • 比如对非knowledge-intensive任务,增益就不高
  • 直接把检索到的文本拼接到输入中,导致语言模型和检索的交互不充分。这会引起:unsupported generations; susceptibility to irrelevant text; and challenges in handling information from multiple pieces of text
  • 缺乏对提升检索增强型语言模型在大规模训练和推理中的效率的研究

Retrieval-augmented languague models未来的方向

  • 重新审视相关性的概念,并深入理解有效数据存储的构成,尤其是探索应从各种数据存储中检索的信息类型,以提升在更广泛任务中的表现
  • 确保这两个组件之间更深入的交互,包括架构设计、预训练和后训练的调整,而不是仅关注对现有参数化语言模型的补充增强
  • 呼吁在硬件、系统和算法领域开展更多开源的跨学科合作,来构建支持训练和推理的基础设施(e.g., scaling datastore to trillion tokens)

Current Retrieval-Augmented LMs

Architecture

在这里插入图片描述

在这里插入图片描述

现有的Retrieval-augmented LMs按照结合检索文档的方式,可以分为三类:1) input augmentation, 2) intermediate fusion, and 3) output interpolation.

  • input augmentation:

    • 利用检索文档直接增强原始输入

    • 缺点:redundancy and inefficiency-直接拼接文档会导致超出上下文长度限制,以及增加inference开销

      • FID用于缓解这个问题,但是对每个输入,相同的文档还是可能会重复编码。decoder需要解码序列长度还是会增大

        在这里插入图片描述

  • intermediate fusion(以RETRO系列为代表):

    • takes many pre-encoded text chunks independent of query x and simultaneously incorporates them in intermediate spaces.
    • 缺点:需要大量的架构改动,并对语言模型的新编码模块进行预训练
  • output interpolation(以KNN LM为代表)

    • 将LM的token分布与检索到的token分布直接结合

Training

训练整个retrieval-augmented LMs可以分为两类:independent or sequential training and joint training

  • Independent or sequential training
    • Independent (以KNN LM和最近的一些开箱即用的方法为代表):Retriever和LM是独立训练的,训练过程中没有交互。大家利用现有的训练pipeline和训练目标来分别增强检索和LM
    • Sequential:先训练retriever或者LM,再利用训练好的这部分提供的信号,来训练另一部分
      • 先训retriever:以DPR为代表
      • 利用LM的信号来训retriever:以REPLUG为代表
  • Joint training:同时训练retriever和LM,以增强二者的交互和整个端到端的pipeline
    • 一个最主要的问题就是巨大的开销:因为更新检索器之后需要对文本重新编码,而文本数量往往巨大。在每次更新完检索器都对datastore中的文档重新编码是不现实的
    • 目前主要方法有两种
      • Asynchronous updating:在retriever更新n步之后再更新文档的编码,这样在训练的时候就可以像inference时一样,利用整个语料库
      • In-batch approximation:每次都对batch内的文本进行编码,仅在这个batch上进行优化,而不适应整个语料库
        • 这个我理解就是我们训练retriever时的,in-batch negative训练方法

Limitations & Future Work

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/458334.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

web pdf 图片拖动图片合成

web pdf 图片拖动图片合成 先看效果 前端 合成后 1.原理 以前写过相关的帖子,使用的是 canva 但是这次换了一个思路使用的是图片 1.先把pdf转成图片 2.把pdf图片和目标图片传到浏览器 3.原理就和图片合成一样了。见上一篇帖子 4.后端也一样只不过这次是将位置和pd…

LeetCode 107.二叉树的层次遍历 II

题目描述 给你二叉树的根节点 root ,返回其节点值 自底向上的层序遍历 。 (即按从叶子节点所在层到根节点所在的层,逐层从左向右遍历) 示例 1: 输入:root [3,9,20,null,null,15,7] 输出:[[1…

【力扣专题栏】两数相加,如何实现存储在链表中的整数相加?

题解目录 1、题目描述解释2、算法原理解析3、代码编写(原始版本)4、代码编写(优化版本) 1、题目描述解释 2、算法原理解析 3、代码编写(原始版本) /*** Definition for singly-linked list.* struct ListN…

快速上手机器学习-朴素贝叶斯

朴素贝叶斯 引言:本文通过介绍先验概率,后验概率,条件概率计算和贝叶斯定理等概率论内容引入朴素贝叶斯分类算法的基本思路,朴素贝叶斯的最终分类思想是将输入分类给概率最大的类,这也是概率模型算法的共有思想。本文专…

JVM(HotSpot):GC之G1垃圾回收器

文章目录 一、简介二、工作原理三、Young Collection 跨代引用四、大对象问题 一、简介 1、适用场景 同时注重吞吐量(Throughput)和低延迟(Low latency),默认的暂停目标是 200 ms超大堆内存,会将堆划分为…

第12次CCF CSP认证真题解

1、最小差值 题目链接&#xff1a;https://sim.csp.thusaac.com/contest/12/problem/0 100分代码&#xff1a; #include <iostream> #include <algorithm> using namespace std; int main(int argc, char *argv[]) {int n;cin >> n;int a[1010],b[1010];f…

【读书笔记·VLSI电路设计方法解密】问题28:什么是芯片可靠性

一块VLSI芯片不仅需要在前几天、几周或几个月内正常工作,还必须在整个使用寿命内可靠运行。任何用于商业目的的芯片的寿命通常定义为100,000小时或约11.4年。然而,在IC的设计、制造、组装和测试过程中,许多因素可能导致其早期失效。这一芯片开发方面被称为芯片可靠性。测试相…

LinkedList和链表之刷题课(下)

1. 给定x根据x把链表分割,大的结点放在x后面,小的结点放在x前面 题目解析: 注意此时的pHead就是head(头节点的意思) 基本上就是给定一个链表,我们根据x的值来把这个链表分成俩部分,大的那部分放在x后面,小的那部分放在x前面,并且我们不能改变链表本来的顺序,比如下面的链表,我…

【数据结构与算法】《Java 算法宝典:探秘从排序到回溯的奇妙世界》

目录 标题&#xff1a;《Java 算法宝典&#xff1a;探秘从排序到回溯的奇妙世界》一、排序算法1、冒泡排序2、选择排序3、插入排序4、快速排序5、归并排序 二、查找算法1、线性查找2、二分查找 三、递归算法四、动态规划五、图算法1. 深度优先搜索&#xff08;DFS&#xff09;2…

Ubuntu22.04环境搭建MQTT服务器

官网&#xff1a; https://mosquitto.org 1.引入库 sudo apt-add-repository ppa:mosquitto-dev/mosquitto-ppa2.升级安装工具 sudo apt-get update 3.安装 sudo apt-get install mosquitto 4.安装客户端 sudo apt-get install mosquitto-clients5.添加修改配置文件 进…

MySql数据库中数据类型

本篇将介绍在 MySql 中的所有数据类型&#xff0c;其中主要分为四类&#xff1a;数值类型、文本和二进制类型、时间日期、String 类型。如下&#xff08;图片来源&#xff1a;MySQL数据库&#xff09;&#xff1a; 目录如下&#xff1a; 目录 数值类型 1. 整数类型 2. …

Python | Leetcode Python题解之第516题最长回文子序列

题目&#xff1a; 题解&#xff1a; class Solution:def longestPalindromeSubseq(self, s: str) -> int:n len(s)dp [[0] * n for _ in range(n)]for i in range(n - 1, -1, -1):dp[i][i] 1for j in range(i 1, n):if s[i] s[j]:dp[i][j] dp[i 1][j - 1] 2else:dp…

【java】java的基本程序设计结构04-数值类型的转换

类型默认值 int, short, long, byte 的默认值是0。char 的默认值是 \u0000&#xff08;空字符&#xff09;。float 的默认值是 0.0f。double 的默认值是 0.0d。boolean 的默认值是 false。引用类型&#xff08;类、接口、数组&#xff09;的默认值是 null。 引用类型 在Java中…

Kafka如何控制消费的位置?

大家好&#xff0c;我是锋哥。今天分享关于【Kafka如何控制消费的位置?】面试题&#xff1f;希望对大家有帮助&#xff1b; Kafka如何控制消费的位置? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在 Kafka 中&#xff0c;控制消费位置主要通过以下几个机制来实…

C++-继承

目录 一、继承的概念和定义 1、继承概念 2、继承的语法格式 3、继承的方式 4、继承类模板 二、基类和派生类之间的转换 三、继承中的作用域 四、派生类的默认成员函数 一、默认成员函数介绍 1、派生类中基类成员的构造 2、派生类中基类成员拷贝构造 3、复制重载 4、…

帝佛卡干邑荣耀登陆泰国王权King Power

帝佛卡干邑与泰国王权免税集团&#xff08;King Power&#xff09;达成深度合作&#xff0c;共同将法国帝佛卡干邑品牌推向泰国旅游零售市场。此次合作不仅标志着帝佛卡干邑在国际市场的又一重要突破&#xff0c;也彰显了双方对高品质产品的共同追求。 帝佛卡干邑于2024年8月正…

[Python学习日记-53] Python 中的正则表达式模块 —— re

[Python学习日记-53] Python 中的正则表达式模块 —— re 简介 re 模块 练习 简介 我们在编程的时候经常会遇到想在一段文字当中找出电话号码、身份证号、身高、年龄之类的信息&#xff0c;就像下面的数据一样 # 文件名&#xff1a;美丽学姐联系方式.txt 姓名 地区 …

WinRAR技巧:如何独立压缩文件夹内的每个文件?

不知道大家是否会遇到这种情况&#xff0c;将文件夹内的多个文件或文件夹压缩成一个个压缩包文件&#xff0c;这种情况除了将文件夹中的文件一个个压缩&#xff0c;还有什么批量操作的方法呢&#xff1f;今天分享使用WinRAR批量压缩文件到每个单独的文件夹的方法。 方法如下&a…

pdf压缩如何操作?教你8招,轻松搞定文件压缩!

电脑上如果存有大量的pdf文件&#xff0c;那么一定会占用一定的空间&#xff0c;不仅不利于存储还影响传输速度。如果想要将pdf压缩变小&#xff0c;那么本文分享的内容可就要了解下了。 PDF文件怎么压缩变小&#xff1f;pdf压缩是一种常见的文件处理需求。无论是处理个人文档…

offset Explorer连接云服务上的kafka连接不上

以上配置后报连接错误时&#xff0c;可能是因为kafka的server.properties配置文件没配置好&#xff1a; 加上面两条配置&#xff0c;再次测试连接&#xff0c;成功 listeners和advertised.listeners