翻译：Building Efficient RAG Systems: A Deep Dive into devv.ai

翻译：Building Efficient RAG Systems: A Deep Dive into devv.ai

news/2024/12/23 23:07:37/文章来源:https://blog.csdn.net/rkjava/article/details/135491725

RAG 的全称是：Retrieval Augmented Generation（检索增强生成）

最初来源于 2020 年 Facebook 的一篇论文：Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks（是的，你没有看错，2020 年就有这项技术了）。
在这里插入图片描述
这篇论文要解决的一个问题非常简单：如何让语言模型使用外部知识（external knowledge）进行生成。

通常，pre-train 模型的知识存储在参数中，这就导致了模型不知道训练集之外的知识（例如搜索数据、行业的 knowledge）。

之前的做法是有新的知识就再重新在 pre-train 的模型上 finetune。
这样的方式会有几个问题：

每次有新的知识后都需要进行 finetune
训练模型的成本是很高的

于是这篇论文提出了 RAG 的方法，pre-train 的模型是能够理解新的知识的，那么我们直接把要让模型理解的新知识通过 prompt 的方式给它即可。

所以一个最小的 RAG 系统就是由 3 个部分组成的：

语言模型
模型所需要的外部知识集合（以 vector 的形式存储）
当前场景下需要的外部知识
langchain, llama-index 本质上就是做的这套 RAG 系统（当然还包括构建在 RAG 上的 agent）。

如果理解了本质，其实是没有必要再额外增加一层抽象的，根据自己的业务情况来搭建这套系统即可。

例如，我们为了保持高性能，采用了 Go + Rust 的架构，能够支持高并发的 RAG 请求。
把问题简化，不管是搭建什么样的 RAG，优化这套系统就是分别优化这 3 个模块。

1）语言模型

为什么 2020 年的这篇论文直到今年才火起来？一个主要的原因就是之前的基座模型能力不够。

如果底层模型很笨，那么即使给到了丰富的外部知识，模型也不能基于这些知识进行推演。

从论文的一些 benchmark 上也可以看出效果有提升，但是并没有特别显著。
在这里插入图片描述

1.1）GPT-3 的出现第一次让 RAG 变得可用

第一波基于 RAG + GPT-3 的公司都获得了非常高的估值 & ARR（年经常性收入）：

Copy AI
Jasper

这两个都是构建营销领域 RAG 的产品，曾经一度成为明星 AI 独角兽，当然现在祛魅之后估值也大幅度缩水。

1.2）2023 年以来，出现了大量的开源 & 闭源的基座模型，基本上都能够在上面构建 RAG 系统

最常见的方式就是：

GPT-3.5/4 + RAG（闭源方案）
Llama 2 / Mistral + RAG（开源方案）

2）模型所需要的外部知识集合

现在应该大家都了解了 embedding 模型了，包括 embedding 数据的召回。

embedding 本质上就是把数据转化为向量，然后通过余弦相似度来找到最匹配的两个或多个向量。

knowledge -> chunks -> vector
user query -> vector

在这里插入图片描述

2.1）这个模块分成两个部分：

embedding 模型
存储 embedding vector 的数据库

前者基本上都使用 OpenAI 的 embedding 模型，后者可选方案非常多，包括 Pinecone，国内团队的 Zilliz，开源的 Chroma，在关系型数据库上构建的 pgvector 等。

2.2）这些做 embedding 数据库的公司也在这一波 AI Hype 中获得了非常高的融资额和估值。

但是从第一性原理思考，模块 2 个目的是为了存储外部的知识集合，并在需要的时候进行召回。

这一步并不一定需要 embedding 模型，传统的搜索匹配在某些场景下可能效果更好（Elasticsearch）。

2.3）devv.ai 采用的方式是 embedding + 传统的 relation db + Elasticsearch。

并在每个场景下都做了很多优化，一个思路是在 encoding knowledge 的时候做的工作越多，在 retrieve 的时候就能够更快 & 更准确（先做工 & 后做工的区别）。

2.4）我们使用 Rust 构建了整套 knowledge index

包括：

GitHub 代码数据
开发文档数据
搜索引擎数据

3）更好地召回当前场景下需要的外部知识

根据优先做工的法则，我们在 encoding 的时候对于原始的 knowledge 数据做了很多处理：

对代码进行程序分析
对开发文档进行逻辑级别的 chunk 分块
对网页信息的提取 & page ranking 优化

3.1）做完了上面的工作之后保证了我们在 retrieve 的时候获取到的数据本身就是结构化的了，不需要做太多的处理，而且可以提升召回的准确率。
现在再来看 a16z 的这张图，就是在每个步骤上扩展出了对应的组件，核心本质并没有变。
在这里插入图片描述

2022 年基于这套 RAG system 做的搜索引擎 Perplexity 每个月已经拥有了几千万的流量，LangChain 也获得了几亿美金的估值。

不管是通用的 RAG，还是专有的 RAG，这是一个做得马马虎虎很容易的领域，但是要做到 90 分很难。

每一步骤都没有最佳实践，例如 embedding chunk size，是否需要接搜索引擎，都需要根据实际的业务场景来多试。

相关的论文非常多，但是并不是每篇论文里面提到的方法都是有用的。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/234675.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

计算机网络-各层协议

计算机网络-各层协议

大家在搞嵌入式开发的时候基本都了解过七层网络协议、五层网络协议、四层网络协议，那么今天让我们更加的深入了解一下： 历史发展介绍 OSI七层模型由ISO国际标准化组织提出的通信标准。TCP/IP四层模型是OSI七层模型的简化版，OSI在它被官方完…

阅读更多...

网安入门13-文件上传（htaccess，其他绕过）

网安入门13-文件上传（htaccess，其他绕过）

空格绕过，点号绕过 Pass-07 直接上传肯定是失败的把文件名1.php改成1.php.或1.php_(下划线为空格)，这种命名方式在windows系统里是不被允许的，所以需要在burp之类里进行修改，然后绕过验证后，会被windows系统自动去掉…

阅读更多...

【小工具】pixi-live2d-display，直接可用的live2d的交互网页/桌面应用

【小工具】pixi-live2d-display，直接可用的live2d的交互网页/桌面应用

效果： <script src"https://cubism.live2d.com/sdk-web/cubismcore/live2dcubismcore.min.js"></script> <script src"https://cdn.jsdelivr.net/gh/dylanNew/live2d/webgl/Live2D/lib/live2d.min.js"></script> <…

阅读更多...

vue element plus Typography 排版

vue element plus Typography 排版

我们对字体进行统一规范，力求在各个操作系统下都有最佳展示效果。字体# 字号# LevelFont SizeDemoSupplementary text12px Extra SmallBuild with ElementBody (small)13px SmallBuild with ElementBody14px BaseBuild with ElementSmall Title16px MediumBuild w…

阅读更多...

java SSM问卷调查系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

java SSM问卷调查系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 java SSM问卷调查管理系统是一套完善的web设计系统（系统采用SSM框架进行设计开发，springspringMVCmybatis），对理解JSP java编程开发语言有帮助，系统具有完整的源代码和数据库，系统主要采…

阅读更多...

Eureka切换Nacos时发现两个注册中心的解决方法

Eureka切换Nacos时发现两个注册中心的解决方法

报错信息如下，意思是发现了两个注册中心 Field autoServiceRegistration in org.springframework.cloud.client.serviceregistry.AutoServiceRegistrationAutoConfiguration required a single bean, but 2 were found: - nacosAutoServiceRegistration: defined…

阅读更多...

系统性介绍MoE模型架构，以及在如今大模型方向的发展现状

系统性介绍MoE模型架构，以及在如今大模型方向的发展现状

知乎：Verlocksss编辑：马景锐链接：https://zhuanlan.zhihu.com/p/675216281 1 学习动机第一次了解到MoE（Mixture of experts），是在GPT-4模型架构泄漏事件，听说GPT-4的架构是8个GPT-3级别大小的模…

阅读更多...

＜HarmonyOS第一课＞1~10课后习题汇总

＜HarmonyOS第一课＞1~10课后习题汇总

HarmonyOS第一课 ＜HarmonyOS主题课＞1~3课后习题汇总 1运行Hello World 判断题 main_pages.json存放页面page路径配置信息。（正确）DevEco Studio是开发HarmonyOS应用的一站式集成开发环境。（正确） 单选题…

阅读更多...

python_selenium_安装基础学习

python_selenium_安装基础学习

目录 1.为什么使用selenium 2.安装selenium 2.1Chrome浏览器 2.2驱动 2.3下载selenium 2.4测试连接 3.selenium元素定位 3.1根据id来找到对象 3.2根据标签属性的属性值来获取对象 3.3根据xpath语句来获取对象 3.4根据标签的名字获取对象 3.5使用bs4的语法来获取对象…

阅读更多...

Xmind - win10安装破解Xmind2023

Xmind - win10安装破解Xmind2023

Xmind - win10安装破解Xmind2023 1、下载 Xmind下载提取码：we6i 2、安装 Step 1：双击运行 exe文件 Step 2：忽略最新版本最近更新选择继续升级至Pro选择取消Step 4：直接选择同意授权

阅读更多...

纯血鸿蒙「扩圈」100天，酝酿已久的突围

纯血鸿蒙「扩圈」100天，酝酿已久的突围

坦白讲，去年参加华为开发者大会看到HarmonyOS NEXT（仅运行鸿蒙原生应用，所以也称作「纯血鸿蒙」）的时候，小雷也没料想到鸿蒙原生应用生态的发展速度会如此之快。 9月25日，华为正式对外宣布启动HarmonyOS NE…

阅读更多...

解决使用localhost或127.0.01模拟CORS失效

解决使用localhost或127.0.01模拟CORS失效

解决使用localhost或127.0.01模拟CORS失效前言问题发现问题解决前言 CORS (Cross-Origin Resource Sharing) 指的是一种机制，它允许不同源的网页请求访问另一个源服务器上的某些资源。通常情况下，如果 JavaScript 代码在一个源中发起了 AJAX 请求&…

阅读更多...

算法通关村番外篇-LeetCode编程从0到1系列二

算法通关村番外篇-LeetCode编程从0到1系列二

大家好我是苏麟 , 今天来说LeetCode编程从0到1系列二 . 内置函数最后一个单词的长度描述 : 给你一个字符串 s，由若干单词组成，单词前后用一些空格字符隔开。返回字符串中最后一个单词的长度。单词是指仅由字母组成、不包含任何空格字符的最大子…

阅读更多...

FFmpeg获取音视频流信息

FFmpeg获取音视频流信息

文章目录前言一、需求二、源码三、运行结果前言本文记录用 FFmpeg 获取视频流音频流的信息（编码格式、分辨率、帧率、播放时长…），所用的工程基于上个博客编译成功的工程：使用FFmpeg4.3.1的SDK官方开发包编译ffmpeg.c 一、需求…

阅读更多...

如何在Android Glide中结合使用CenterCrop和自定义圆角变换（图片部分圆角矩形）

如何在Android Glide中结合使用CenterCrop和自定义圆角变换（图片部分圆角矩形）

如何在Android Glide中结合使用CenterCrop和自定义圆角变换（图片部分圆角矩形） 在Android开发中，使用Glide加载图片时，我们经常需要对图片进行特定的处理，比如裁剪和圆角变换，特别是一些设计稿，…

阅读更多...

【深度学习：数据增强】计算机视觉中数据增强的完整指南

【深度学习：数据增强】计算机视觉中数据增强的完整指南

【深度学习：数据增强】计算机视觉中数据增强的完整指南为什么要做数据增强？等等，什么是数据增强？数据增强技术数据增强的注意事项和潜在陷阱什么时候应该做数据增强？类不平衡的数据增强那么我应该选择哪些转换呢&…

阅读更多...

[足式机器人]Part3 机构运动学与动力学分析与建模 Ch00-2(4) 质量刚体的在坐标系下运动

[足式机器人]Part3 机构运动学与动力学分析与建模 Ch00-2(4) 质量刚体的在坐标系下运动

本文仅供学习使用，总结很多本现有讲述运动学或动力学书籍后的总结，从矢量的角度进行分析，方法比较传统，但更易理解，并且现有的看似抽象方法，两者本质上并无不同。 2024年底本人学位论文发表后方可摘抄若有…

阅读更多...

使用Matlab实现声音信号处理

使用Matlab实现声音信号处理

利用Matlab软件对声音信号进行读取、放音、存储先去下载一个声音文件；使用这个代码即可 clear; clc; [y, Fs] audioread(xxx.wav); plot(y); y y(:, 1); spectrogram(y); sound(y, Fs); % player audioplayer(y, Fs);y1 diff(y(:, 1)); subplot(2, 1, 1); pl…

阅读更多...

LVGL 主题

LVGL 主题

LVGL 主题修改样式的一点个人心得 lvgl的样式众多，本人是记不住的，用的时候可以快速查找即可查看官方例子查看官方例子可以快速了解组件的基础样式使用官方的 SquareLineStudio 软件，配置出想要的效果，再生成参考代码 Squ…

阅读更多...

【Windows】之微软输入法配置小鹤双拼

【Windows】之微软输入法配置小鹤双拼

前言 Windows 自带的输入法微软输入法本身就是个最简洁、最方便的输入法，不需要去安装多余的第三方输入法软件。同时，微软中文拼音输入法支持双拼输入法，但微软自带的双拼输入法不包含小鹤双拼方案的。所以，在这里将会讲解如何配置…

阅读更多...

最新文章

推荐文章