什么是RAG? LangChain的RAG实践!

1. 什么是RAG

RAG的概念最先在2020年由Facebook的研究人员在论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中提出来。在这篇论文中他们提出了两种记忆类型:

  • 基于预训练模型(当时LLM的概念不像现在这么如日中天,但LLM也可以被归类为预训练模型)的参数型记忆;
  • 基于向量的非参数型记忆。

RAG技术将这两种记忆类型进行了整合,最终,在知识密集型的NLP任务上,比如QA,比单独使用上述两种类型的记忆获得了更好的效果。接下来将具体介绍RAG如何来补充LLM的一些短板,以及在两种记忆的具体体现,并使用LangChain来实现基本RAG流程。

2. LLM面临的挑战和RAG带来的好处

目前来看,LLM是几乎是解决各个任务的最佳解决方案。在通用聊天这一领域,很多大模型都能够实现接近人类的水平表现。但它的表现也不是完美,也存在着诸多不足:

  • 在没有答案的情况下提供虚假的信息(幻觉);
  • 在专业领域表现不足,无法给出回答,这和大模型使用的训练数据息息相关,很多领域的数据是相对粉封闭的;
  • 对于同样的问题可能会产生不同的回答,这在对问题答案稳定性要求高的领域是不能接受的;
  • 无法感知不断变化的知识。

可以把大模型比做一个刚毕业找到工作的大学生,他具备了很多通识性的知识,但对组织内部的专业知识知之甚少,因此需要尽快掌握组织内部的领域知识,可以让资深员工手把手的传输知识,也可以通过阅读组织内的文档吸收知识。与此类似,RAG通过问题匹配知识,并将知识带给大模型,再利用大模型出色的生成能力来回答问题,这样大模型这个“新人”就能变得专业,也能感知到不断变化的外部信息。

3. LangChain的RAG实践

在本节,我们将重点利用LangChain框架来进行RAG实践

3.1 RAG架构

典型的RAG架构与搜索引擎的架构类型,分为离线和在线部分,其中离线部分是对数据进行索引,这里的索引和传统的搜索引擎的倒排索引不同,这里的索引是对数据的向量化,如图(来自LangChain官网)

image.png

从图中我们可以清晰的看到,在离线索引阶段,总共有4个主要的步骤:

  1. 加载内容,非结构化数据通常需要提取内容,比如从word文档、pdf文档中提取文本内容;
  2. 内容分块,将提取的内容进一步切分为小块(chunk),这样在匹配问题时可以将上下文缩减到很小;
  3. 对于每个分块的内容获取其向量(embedding),这个获取向量的过程可以借助大模型本身的能力来实现,例如,gpt就提供了embedding的接口;
  4. 存储向量,将获取的向量通过向量数据库存储起来,方便查询。

这里最终存储的结果就是论文中提出的基于向量的非参数化的记忆。 接下来我们再来看在线(检索和生成)的部分,如图(来自LangChain官网)

image.png

在Question到大模型这条链路中,增加了Retrieve这个步骤。用户的问题被embedding后,会在向量库中匹配出最佳的内容,并和用户的问题一起,构成Prompt交给大模型,大模型根据这个Prompt再生成对应的答案返回给用户。除了第二节中提到的RAG带来的好处,这里还有一个工程层面的优势,通过Retrieve找到与问题最相关的知识,从而减少了上下文,压缩了Prompt的token数量。

上面两部分构成了RAG的基本架构,下面我们将使用LangChain来完整的实现一个RAG原型。

3.2 基于LangChain的RAG实现

为了方便我们对比效果,我们首先先实现一个直接将问题抛给大模型的流程,代码如下:

ini
复制代码
from langchain_community.llms import LlamaCpp
# 加载本地模型文件地址,使用mixtral-8*7B的大模型
model_home = "~/models/mixtral-8x7b-instruct-v0.1.Q8_0.gguf"
# 使用llm_model作为加载框架
llm_model = LlamaCpp(model_path=model_home)
prompt = "孙悟空几打白骨精?"
print(llm_model.invoke(prompt))

这里,我使用的是本地的大模型mixtral-8X7B-instruct 8位量化的版本,通过LlamaCpp框架进行加载。模型输出的答案为

erlang
复制代码
孙悟空与白骨精的第一次较量是在《西游记》第六回中发生的,这是在孙悟空带着猪八戒、沙和尚前来拜访时,白骨精就偷偷地上前来欺诈孙悟空和他的同伴们。当时,白骨精就利用孙悟空和他的同伴们对于自己还不知道的身份感到的好奇心进行了诱饵计 stratagem.当时,孙悟空和他的同伴们都没有想到白骨精会是一个女妖的存在,所以他们都被白骨精诱饵计 seduction stratagem给骗了过来,而在此期间,孙悟空和他的同伴们都没有意识到到底是谁在利用他们的

可以看到,模型给出的答案,并不尽如人意。首先,“三打白骨精”这个故事并不是在原文第六回发生的,其次,给的答案并没有准确的回复“几打”这个问题。 即便是ChatGPT 3.5 也无法回答这样的问题。

image.png

我们尝试用RAG来解决这个问题。基于RAG的流程和架构,我们除了依赖大模型,还需要依赖一个用于向量存储和查询的引擎,为了方便,直接follow官方的样例,使用Chroma。

对于非参数化记忆,我先后选择了目录、《三打白骨精》这章内容和《三打白骨精》概要。

下面的代码实现了RAG的离线过程:

ini
复制代码
from langchain_community.document_loaders import DirectoryLoader
from langchain_community.embeddings import LlamaCppEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma# 使用DirectoryLoader 加载文件,作为外部知识
loader = DirectoryLoader('/Users/trent/dev/data/rag', glob="**/*.txt")
docs = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=256, chunk_overlap=200)
splits = text_splitter.split_documents(docs)
embeddings = LlamaCppEmbeddings(model_path=model_home)
vectorstore = Chroma.from_documents(documents=splits, embedding=embeddings)

下面的代码实现了RAG的在线过程:

python
复制代码
import os
from langchain import hub
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough# 可以在LangSimth生成一个API key用于整个RAG链路的追踪
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = "langSimth_api_key"# 将向量存储作为retriever
retriever = vectorstore.as_retriever()
# 从[LangSmith Hub](https://smith.langchain.com/hub)拉取promt的模版
prompt = hub.pull("rlm/rag-prompt")def format_docs(docs):return "\n\n".join(doc.page_content for doc in docs)rag_chain = ({"context": retriever | format_docs, "question": RunnablePassthrough()}| prompt| llm_model| StrOutputParser()
)

我们以RAG的形式再次进行提问:

arduino
复制代码
rag_chain.invoke("孙悟空几打白骨精?")

非参数化记忆的不同,得到的答案也不尽相同,对于这个问题,概要作为非参数化记忆,得到的答案最为准确。 下面是LangSmith中对利用三个外部文件进行试验的结果。

截屏2024-04-05 22.37.54.png

这里要推荐一下LangSmith这个可观测性组件,可以清晰的追踪到RAG的流程,以下图为例,既可以看到一次Q&A的全过程,又可以观测到Retriever的输入输出。

截屏2024-04-05 22.42.14.png

以上就是用LangChain实现的一个简单RAG流程。

Retriever这个组件的引入可以有效的增强LLM的能力,但也会带来新的挑战:

  1. 外部的知识如何选择,不同的外部知识会带来不一样的效果表现,这就要具体问题具体分析了;
  2. 外部的知识如何进行处理,chunk如何切分,chunk size如何设置等等;
  3. 提问的模板如何设置,好的提问模板可以充分利用LLM的能力,从工程上来讲,Context的长度也需要尽可能的精简。

这些问题,需要在具体的场景中进行具体的分析,同时也需要有合适的机制通过不断的反馈来积累最佳实践。

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

LLM大模型学习路线

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。

  • 内容

    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。

  • 内容

    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.3 流水线工程
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。

  • 内容

    • L3.1 Agent模型框架
    • L3.2 MetaGPT
    • L3.3 ChatGLM
    • L3.4 LLAMA
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。

  • 内容

    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/470319.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vite初始化Vue3+Typescrpt项目

初始化项目 安装 Vite 首先,确保你的 Node.js 版本 > 12.0.0。然后在命令行中运行以下命令来创建一个 Vite Vue 3 TypeScript 的项目模板: npm init vitelatest进入项目目录 创建完成后,进入项目目录: cd vue3-demo启动…

nginx部署H5端程序与PC端进行区分及代理多个项目及H5内页面刷新出现404问题。

在项目中会碰见需要在nginx代理多个项目,如果在加上uniapp开发的H5端的项目,你还要在nginx中区分PC端和手机H5端,这就会让人很头大!网上大部分的资料都是采用在nginx的conf配置文件中添加区分pc和手机端的变量例如:set…

软件测试项目实战

软件测试是使用人工或者自动的手段来运行或者测定某个软件系统的过程,其目的在于检验它是否满足规定的需求或弄清预期结果与实际结果之间的差别。 在软件投入使用前,要经过一系列的严格测试,才能保证交付质量。 一、引言 1.编写目的 本文档…

2024开发者浏览器必备扩展,不允许还有人不知道~

在开发过程中,优秀的扩展工具能够极大提升我们的工作效率,简化工作流程,并使得在浏览器中的开发和调试变得更加便捷。 根据市场占比,Chrome、Safari、Edge、Firefox、Opera 是前五大浏览器,其中Chrome浏览器占据了领先…

分享一个傻瓜式一键启动的加速器

主要发现开通一个号能电脑手机互通,原来电脑手机各一个加速器钱包在滴血。。。一个月也很便宜差不多二十多 链接放这了,有需要自提:首页-小熊加速器http://xxjsq.co/ytfa

TDesign了解及使用

文章目录 1、概述2、快速开始2.1使用 npm 安装2.2通过 浏览器引入 安装2.3、使用 3、简单案例3.1 路由创建3.2、 页面创建3.3、 Table组件3.4、序号展示3.5、 图片展示及预览3.6、 性别字段处理 1、概述 TDesign 是腾讯推出的设计系统,旨在提供一致的设计语言和视觉…

11Java面向对象高级(篇2,Java程序的核心套路!!!!)

更多java知识请点击上面专栏!!! 修道之始: 01Java基础入门(纯小白也能入门,速通Java,知识点归纳超级全面!!!2024版后端成仙起始篇!!!…

定时器(QTimer)与随机数生成器(QRandomGenerator)的应用实践——Qt(C++)

一、QTimer与QRandomGenerator (一)QTimer(定时器)[2] QTimer类为定时功能提供了一个高级编程接口。在使用QTimer时,实例化一个QTimer对象并将其timeout()发射信号与合适的信号槽相连接。通过调用QTimer的start()函数…

翼鸥教育:从OceanBase V3.1.4 到 V4.2.1,8套核心集群升级实践

引言:自2021年起,翼鸥教育便开始应用OceanBase社区版,两年间,先后部署了总计12套生产集群,其中核心集群占比超过四分之三,所承载的数据量已突破30TB。自2022年10月,OceanBase 社区发布了4.2.x 版…

AI绘画经验(stable-diffusion)

提示词理解 总的 AI绘画的优点是【想象力】,而不是自然语言的精确描述。 AI绘画只能控制【主体】和【风格】,姿势,表情,装饰,手指都太过于详细了。这也是【人类画师的魅力】 准确描述是徒劳的,只能通过【…

使用支付宝沙箱完成商品下单

使用支付宝沙箱完成商品下单 一:效果展示: 二:代码实现 1:准备工作: 申请支付宝沙箱账户: 登录 - 支付宝 然后要下载密钥密钥工具来生成密钥; 2:流程分析: 先是用户…

Linux设置socks代理

公司里绝大多数主机已经禁止外网访问,仅保留一台主机设置socks作为代理服务器。如下为对socks这一概念的学习整理 什么是socks 是OSI模型下会话层的协议,位于表示层与传输层之间,作用是: exchanges network packets between a c…

以往运维岗本人面试真题分享

以下是本人面试运维岗的一些面试经历,在此做个记录分享 目录 TCP/IP三次握手 IPtables IPtables四表五链都是什么? nat端口如何做? 开放本机的80端口该如何做? 如何在单用户模式下引导Centos? nginx轮询模式都有…

【Hadoop实训】Hive 数据操作①

目录 一、准备文件 1、创建表 2、 数据映射 二、HIVE的数据操作 1、基本查询 a、全表查询 b、选择特定字段查询 c、查询员工表总人数 d、查询员工表总工资额 e、查询5条员工表的信息 2、Where条件查询 a、查询工资等于5000的所有员工 b、查询工资在500到1000的员工信息 …

3.5【数据库系统】ER图

2、实体之间的关系 下面主要针对两个实体间的关系进行介绍 (a)一对一联系(1:1)如班级和班长,一个班级只有一个班长,一个班长只能在一个班级任职。 (b)一对多联系(1&#…

笔记 | image may have poor performance,or fail,if run via emulation

在Docker Desktop中现象如图: 当你运行 AMD64 平台代码时(Intel 和 AMD 芯),你的 Mac 必须模拟其CPU架构(因为你自身是ARM)。这通常会非常吃性能。 Docker Desktop 警告你在模拟 Intel/AMD x64 CPU 时性能可…

想租用显卡训练自己的网络?AutoDL保姆级使用教程(PyCharm版)

各位小伙伴们大家好~ 不知道各位同学在科研过程中是否有这样的苦恼 电脑无显卡。难不成我要用CPU跑实验吗?救救我吧电脑显卡算力太低。训练过程慢慢慢慢慢,等半天都出不来结果电脑显卡显存不够,batchsize稍微高一点点,就要爆显存…

Linux相关习题-gcc-gdb-冯诺依曼

1.将一个test.c文件仅仅进行汇编而不生成可执行程序的命令是? A.gcc -S test.c B.gcc -E test.c C.gcc -c test.c D.gcc test.c gcc常见选项: -c 汇编完成后停止,不进行链接 -E 预处理完成后停止,不进行编译 -S 编译完成后停止…

计算机毕业设计必看必学35755flask旅游景区热度可视化平台原创定制程序,java、PHP、python、小程序、文案全套、毕设成品等

flask旅游景点热度可视化平台 摘 要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对旅游景点热度…

Hadoop(环境搭建篇)

这里我用的是ubnatu22.4的系统,请大家严格按照这个系统来安装 一、网络设置 1、打开虚拟机的编辑,并选择虚拟网络编辑器 2、点击更改设置 3、更改IP 二、更改主机名 1、打开终端 2、输入以下命令 hostnamectl set-hostname master 3、然后关闭终端在…