一文梳理RAG(检索增强生成)的现状与挑战

一 RAG简介

大模型相较于过去的语言模型具备更加强大的能力,但在实际应用中,例如在准确性、知识更新速度和答案透明度方面,仍存在不少问题,比如典型的幻觉现象。因此,检索增强生成 (Retrieval-Augmented Generation, RAG) 被当作于大模型应用开发的一种新范式。RAG是指在利用大语言模型回答问题之前,先从外部知识库检索相关信息,然后再让模型根据这些信息进行总结归纳,这样便能确保模型不会胡说八道,并且回答的内容是有所依据的。
尽管这几年大模型发展迅速,但至少还存在以下问题:
● 准确性: LLM是自回归模型,基于前一个词来推测下一个词,这种概率不可避免会产生错误的信息。
● 知识更新速度: LLM训练数据总是有限的,这可能导致模型的知识更新滞后,因此产生过时回答。
● 答案透明度: LLM 生成的内容往往缺乏明确的信息来源,影响内容的可信度。
● 领域专业知识能力欠缺: LLM在预训练阶段是由各种领域的数据训练得到,这些数据一般分布都比较均匀,没有哪个领域的数据占据了绝对优势,因此在处理特定领域的专业知识时,效果往往不会太好。

二 RAG与微调效果对比

性能对比RAG微调
知识更新速度直接更新知识库内容即可,无需重新训练,更新成本低需要重新训练来保持知识和数据的更新,更新成本高
专业性取决于知识库中的数据,无明显专业性倾向针对某一领域数据微调后,可以具备一定的专业性
可解释性可以追溯到具体的数据来源,有较好的可解释性可解释性相对较低,回答质量取决于预训练的数据质量
计算资源需要额外的资源来支持检索机制和数据库的维护,如向量化模型和向量知识库。对计算资源的要求较高,取决于微调的数据量
推理延迟增加了输入向量化和检索步骤的耗时普通 LLM 推理耗时
降低幻觉通过检索到的真实信息生成回答,降低了产生幻觉的概率模型学习特定领域的数据有助于减少幻觉,但面对未见过的输入时仍可能出现幻觉

三、RAG 的工作流程

不同学者对RAG的定义略有不同,但公认一般至少包含如下两个阶段。

检索阶段

根据用户的输入,使用向量模型将查询内容转换为向量,计算查询向量与知识库中文档块向量之间的相似性,并根据相似度水平选出最相关的前 K 个文档块作为当前问题的补充信息。

在这里插入图片描述

生成阶段

将给定的问题与检索到的补充信息合并,构造出一个新的Prompt,让大模型根据提供的信息来回答问题的任务。
在这里插入图片描述

四、RAG的局限性

检索过程

RAG的检索质量受到多个指标的影响。首要是低精确率(precision),即检索到的文档块中有些与查询并不直接相关,可能导致生成的回答包含不准确的信息。其次是召回率(recall)低的问题,即未能检索到所有相关的文档块,限制了生成模型获取足够的背景信息来构造完整的答案。此外,数据的过时性也是一个重要挑战,如何知识库更新频率非常高,那么知识库中可能会存在大量过时的信息,这些过时数据可能会误导模型,产生不准确的响应。

生成过程

RAG在生成过程同样面临多个问题。当检索到的信息不足时(即前面提到的召回不足),模型有可能虚构信息,根据已有的上下文生成不正确内容。另一个常见问题是不相关回答,即模型生成的答案未能准确回应用户的查询,这是因为模型无法理解检索到的知识内容与用户查询是否有关系导致。

构造prompt过程

假设已经检索到相关的知识内容,并且不存在低精确率和低召回情况,如何根据这些知识内容构造合适的prompt来引导模型回答又是另一个难点。有研究表明,根据知识内容的相关性进行间隔排序可能效果最好,即:chunk1,chunk3,chunk5,chunk4,chunk2。按照用户查询与知识内容的相关性排序为:chunk1>chunk2>chunk3>chunk4>chunk5。这种情况下只有5个知识内容,模型可能还能全部理解,当知识内容更多的时候,就无法保证召回的知识内容都能学习到。此外,当多个检索到的知识内容包含相似信息时,容易出现冗余和重复的问题,导致生成内容的重复和冗长,可能还会降低模型的回答效果。

知识库检索和维护

RAG在应用中涉及到多次检索和生成过程,通常对服务器计算资源和网络响应有较高要求,如果RAG涉及到多个智能体协同,可能还会进一步增加服务器的压力。此外,为了确保检索的准确性,知识库需要定期更新和清理。如果知识库不够完善或更新不及时,RAG生成的结果可能会基于过时或无关的信息。因此,在设计实际可用的RAG时,需要考虑如何简化知识库更新的操作。

五 RAG性能提升思路

提高检索质量

在建库阶段,可以通过调整块大小和补充额外的元信息来增加知识内容的信息丰富度,并且可以通过微调向量模型来提升模型对知识库的表示能力。在检索时,可以通过增加Rerank模型来对召回的知识内容进行筛选和排序,增强用户查询和知识内容的关联性。

提升生成质量

让模型对知识内容进行判断和筛选,过滤掉无关的知识内容,并且对相关性较高的知识内容进行排序,从而提升回答质量。

其他

减少实时的计算耗时可以采用模型蒸馏,训练更轻量级的模型来加快推理速度,减少计算资源消耗。同时可以采用离线检索或缓存机制,对于高频问题的答案进行预计算和缓存。对于知识库的日常维护,则可以引入自动化的数据更新流程,定期清理过时信息、更新领域知识库,使RAG能够处理最新的领域信息和数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/418610.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

哪种超声波清洗机效果好?较好的超声波眼镜清洗机品牌推荐

作为一名拥有20年戴镜经验的眼镜爱好者,我深深体会到眼镜清洁的挑战:微小缝隙里的污垢难以触及,频繁的脏污让我苦于找不到清洁时机,而用力不当的擦拭方法更是可能对眼镜特别是镜片造成伤害,这确实让人感到苦恼&#xf…

Java专栏介绍

专栏导读 在当今这个技术飞速发展的时代,Java作为一门成熟且广泛应用的编程语言,一直是软件开发领域的中坚力量。本“Java技术”专栏旨在帮助读者深入理解Java编程语言的精髓,掌握其核心概念与高级特性,并通过实战案例提升编程技…

字符编码转换

文章目录 1. 背景2. 解决方案3. 编码转换实现3.1 shell实现3.2 python实现3.3 开源工具实现 4. 常见中文字符编码介绍4.1 字符编码解决什么问题4.2 常见的中文字符编码4.3 常见中文字符编码关系4.4 unicide字符集与utf-8 1. 背景 在团队合作开发中,经常发现组员的代…

Redis安装步骤——离线安装与在线安装详解

Linux环境下Redis的离线安装与在线安装详细步骤 环境信息一、离线安装1、安装环境2、下载redis安装包3、上传到服务器并解压4、编译redis5、安装redis6、配置redis(基础配置)7、启动redis8、本机访问redis9、远程访问redis 二、在线安装1、更新yum源2、安…

k8s 高级调度

搞懂Kubernetes调度 K8S调度器Kube-schduler的主要作用是将新创建的Pod调度到集群中的合适节点上运行。kube-scheduler的调度算法非常灵活,可以根据不同的需求进行自定义配置,比如资源限制、亲和性和反亲和性等。 kube-scheduler的工作原理如下&#x…

基于SpringBoot+Vue+MySQL的宿舍维修管理系统

系统展示 前台界面 管理员界面 维修员界面 学生界面 系统背景 在当今高校后勤管理的日益精细化与智能化背景下,宿舍维修管理系统作为提升校园生活品质、优化资源配置的关键环节,其重要性日益凸显。随着学生规模的扩大及住宿条件的不断提升,宿…

Qt/C++ 个人开源项目#串口助手(源码与发布链接)

一、项目概述 该串口助手工具基于Qt/C开发,专为简化串口通信调试与开发而设计,适合新手快速上手。工具具有直观的用户界面和丰富的功能,旨在帮助用户与串口设备建立可靠通信,便于调试、数据传输和分析。 二、主要功能 波特率&a…

【Hadoop|MapReduce篇】MapReduce概述

1. MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 2. Map…

视频汇聚平台LntonAIServer视频质量诊断功能--偏色检测与噪声检测

随着视频监控技术的不断进步,视频质量成为了决定监控系统性能的关键因素之一。LntonAIServer新增的视频质量诊断功能,特别是偏色检测和噪声检测,进一步强化了视频监控系统的可靠性和实用性。下面我们将详细介绍这两项功能的技术细节、应用场景…

2158. 直播获奖(live)

代码 #include<bits/stdc.h> using namespace std; int main() {int n,w,a[100000],cnt[601]{0},i,j,s;cin>>n>>w;for(i0;i<n;i){scanf("%d",&a[i]);cnt[a[i]];int x(i1)*w/100;if(!x) x1;for(j600,s0;j>0;j--){scnt[j];if(s>x){cou…

linux编译器——gcc/g++

1.gcc linux上先要安装&#xff0c; sudo yum install gcc gcc --version 可以查看当前的版本 &#xff0c;我们默认安装的是4.8.5的版本&#xff0c;比较低&#xff0c; gcc test.c -stdc99 可以使他支持更高版本的c标准 -o 可以殖指明生成文件的名字&#xff0c;可以自己…

重启顺风车的背后,是高德难掩的“野心”

以史鉴今&#xff0c;我们往往可以从今天的事情中&#xff0c;看到古人的智慧&#xff0c;也看到时代的进步。就如西汉后期文学家恒宽曾说的&#xff0c;“明者因时而变&#xff0c;知者随事而制”。 图源来自高德官方 近日&#xff0c;高德就展现了这样的智慧。在网约车市场陷…

电子电气架构---私有总线通信和诊断规则

电子电气架构—私有总线通信和诊断规则 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自…

ROS 工具箱系统要求

ROS 工具箱系统要求 要为 ROS 或 ROS 2 生成自定义消息&#xff0c;或从 MATLAB 或 Simulink 软件中部署 ROS 或 ROS 2 节点&#xff0c;您必须构建必要的 ROS 或 ROS 2 软件包。要构建这些软件包&#xff0c;您必须具备 Python 软件、CMake 软件以及适用于您的平台的 C 编译器…

文件操作与隐写

一、文件类型的识别 1、文件头完好情况&#xff1a; &#xff08;1&#xff09;file命令 使用file命令识别&#xff1a;识别出file.doc为jpg类型 &#xff08;2&#xff09;winhex 通过winhex工具查看文件头类型&#xff0c;根据文件头部内容去判断文件的类型 eg:JPG类型 &a…

3DMax基础- 创建基础模型

目录 零.软件简介 一. 标准基本型 长方体 圆锥体 球体 圆柱体 管状体 圆环 四棱锥 茶壶 平面​编辑 加强型文本 二. 扩展基本体 三.复合对象 变形 散布 一致 连接 图形合并 布尔 并集 合并 交集 差集 四.门和窗 门 窗 植物,栏杆,墙 零.软件简介 3…

JdK版本介绍

JDK&#xff08;Java Development Kit&#xff09;是Java开发的核心工具包&#xff0c;它包含了Java运行时环境&#xff08;JRE&#xff09;以及Java开发工具&#xff08;如编译器、调试器等&#xff09;。JDK的版本更新不断&#xff0c;每个版本都带来了新特性、性能改进和安全…

FreeRTOS 优先级翻转以及互斥信号量

优先级翻转&#xff1a; 高优先级的任务反而慢执行&#xff0c;低优先级的任务反而优先执行 优先级翻转在抢占式内核中是非常常见的&#xff0c;但是在实时操作系统中是不允许出现优先级翻转的&#xff0c;因为优先级翻转会破坏任务的预期顺序&#xff0c;可能会导致未知的严重…

OPenCV结构分析与形状描述符(2)计算轮廓周长的函数arcLength()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 计算轮廓的周长或曲线的长度。 该函数计算曲线的长度或闭合轮廓的周长。 如果曲线是闭合的&#xff08;即首尾相连&#xff09;&#xff0c;则计…

【数据结构】单链表的应用

1.移除链表元素 给你一个链表的头节点 head 和一个整数 val &#xff0c;请你删除链表中所有满足 Node.val val 的节点&#xff0c;并返回 新的头节点 。 思路&#xff1a; 创建新链表&#xff0c;找值不为val的节点&#xff0c;尾插到新链表中 /*** Definition for singly-li…