“ RAG检索增强生成是为了解决大模型知识不足的问题 ”
大模型主要面临三个问题:
垂直领域内的知识不足
大模型知识有时间限制
大模型幻觉问题
第一个问题产生的原因是因为,没有经过垂直领域数据训练的大模型普遍表现不好;其次是目前的大模型采用的是预训练模式,也就是说需要先收集训练数据进行训练,但只能收集之前的数据,不能收集当前和以后的数据;最后就是大模型幻觉问题,幻觉问题产生的原因就是知识不足,导致在一些领域问题中一本正经的胡说八道。
因此,说到底大模型产生以上三个问题的主要原因就是知识不足,因此RAG——检索增强生成技术就出现了。
RAG技术配合知识库技术,就能够补充大模型知识不足的问题,知识库的作用就相当于给大模型配置一个资料室,遇到不懂的就去资料室里查。
今天,我们就来讨论一下本地知识库的实现步骤,以及代码。
知识库的实现步骤及代码
严格来说,解决大模型知识不足问题的技术是RAG——检索增强生成,而不是知识库技术。
知识库技术在大模型之前就已经出现了,简单来说就是公司内部的文档系统,里面记录了企业内部的资料,文档等,形式可以是一个web系统,甚至就是一个文件夹。
而我们今天说的大模型知识库是基于RAG技术,结合知识库技术产生的一个变种,主要区别就是数据格式问题。
RAG文档检索生成,就是通过把资料向量化,并为了提升查询效率需要把向量化的文档存入到向量数据库,然后每次在问大模型之前,先去向量数据库中查询与问题相关的内容,通过提示词的方式一并传入到大模型中,这样就可以解决大模型知识不足的问题。
之所以要把资料向量化的原因是,在传统的查询搜索过程中,使用的主要是基于字符匹配的方式进行查询,比如说你想查询西红柿炒蛋的做法,查询的内容中就必须包含西红柿和炒蛋这几个字。
而有了大模型技术,把资料向量化之后,就可以通过语义进行查询,大模型会根据语义分析,知道西红柿和番茄是一个东西。
大模型知识库的原理就是给大模型外挂一个资料库,但大模型毕竟不是人,需要把资料,文档等转化为大模型能够识别的格式,就是文档向量化。
搭建大模型知识库,需要经过以下几个步骤:
文档加载
在当今互联网时代,知识的形式多种多样,比如文本格式的就是txt,word,pdf等;还有其它格式如图片,结构化数据以及非结构化数据等。
因此,打造一个知识库需要支持多种文档,以及不同文档的加载路径,如本地加载,网络加载等;而这就是文档加载需要解决的问题。
文档分割
在大模型应用中,长文本处理是一个问题,并且大模型窗口都有上下文长度限制;并且,文档还需要处理成大模型能够识别的向量格式,因此对一些长文本文档需要进行文本分割,解决文档过长而导致的问题。
文档分割根据不同的任务场景,需要进行不同的处理,比如文档分割的长度,分割形式(比如,段落,标点符号等),重叠长度等。
词嵌入
在传统的知识库系统中,文档是以文本,图片,视频等格式存在的,使用者主要是人,因此只需要能够通过网络加载文档即可。
但在大模型应用中,大模型不认识字,它能够处理的格式只有向量。而且,还需要进行语义分析,因此需要通过词嵌入的方式,把文档转化为大模型能够处理的,且语义连贯的形式,也就是向量格式,而这个技术就叫做词嵌入。
词嵌入工具本质上也是一个大模型,只不过是专门训练用来完成语义理解和向量转化的模型。
Sentence-transformer 词嵌入python 库 可以支持多种嵌入模型 或者可以使用第三方提供的转化工具,比如openAI,通义千问等。
文档处理整体流程入下图所示:
文档存储
文档存储的功能就是需要把通过词嵌入转化的大模型能够识别的向量格式存储起来,一般使用的是向量数据库。
当大模型需要使用的时候,再通过检索的形式从向量数据库中获取。
文档存储的作用是为了解决查询效率的问题,但也并不是必须的;比如说,当你知识库的内容很少的时候,你也可以选择每次提问的时候,重新加载文档并向量化,这样之前向量化过的文档就存储在向量数据库中,下次使用的时候就可以直接从数据库中查询。
就类似于在web开发中,你也可以把用户数据通过|或某种符合间隔起来并保存到txt文件中,每次查询的时候需要读取文件并解析数据,这样就会非常的麻烦;而如果把用户信息存储到数据库中,就会方便的多。
文档检索
从向量数据库中,通过语义对数据进行检索,然后把检索结果带入到大模型中,供大模型使用。技术实现是通过数学计算,根据向量计算相对位置,位置越近语义相关度越高;比如欧式距离,cos值等。
RAG的难点和重点是数据的质量和检索质量,也就是说本地知识库的好坏和使用的模型(用来回答问题的模型,不是词嵌入的模型)没有什么关系,只是和你检索的效果有关。
简单来说就是,你的知识库数据质量和向量数据库的质量越好,RAG的效果才越好。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓