搭建大模型知识库流程,以及基于langchain实现大模型知识库案例

RAG检索增强生成是为了解决大模型知识不足的问题

大模型主要面临三个问题:

垂直领域内的知识不足‍‍‍‍‍

大模型知识有时间限制‍

大模型幻觉问题

第一个问题产生的原因是因为,没有经过垂直领域数据训练的大模型普遍表现不好;其次是目前的大模型采用的是预训练模式,也就是说需要先收集训练数据进行训练,但只能收集之前的数据,不能收集当前和以后的数据;最后就是大模型幻觉问题,幻觉问题产生的原因就是知识不足,导致在一些领域问题中一本正经的胡说八道。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

因此,说到底大模型产生以上三个问题的主要原因就是知识不足,因此RAG——检索增强生成技术就出现了。‍‍‍‍‍‍‍‍‍‍‍

RAG技术配合知识库技术,就能够补充大模型知识不足的问题,知识库的作用就相当于给大模型配置一个资料室,遇到不懂的就去资料室里查。

今天,我们就来讨论一下本地知识库的实现步骤,以及代码。‍‍‍‍‍‍‍‍‍‍‍

知识库的实现步骤及代码‍‍‍‍‍‍‍‍‍

严格来说,解决大模型知识不足问题的技术是RAG——检索增强生成,而不是知识库技术。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

知识库技术在大模型之前就已经出现了,简单来说就是公司内部的文档系统,里面记录了企业内部的资料,文档等,形式可以是一个web系统,甚至就是一个文件夹。‍‍

而我们今天说的大模型知识库是基于RAG技术,结合知识库技术产生的一个变种,主要区别就是数据格式问题。

RAG文档检索生成,就是通过把资料向量化,并为了提升查询效率需要把向量化的文档存入到向量数据库,然后每次在问大模型之前,先去向量数据库中查询与问题相关的内容,通过提示词的方式一并传入到大模型中,这样就可以解决大模型知识不足的问题。

之所以要把资料向量化的原因是,在传统的查询搜索过程中,使用的主要是基于字符匹配的方式进行查询,比如说你想查询西红柿炒蛋的做法,查询的内容中就必须包含西红柿和炒蛋这几个字。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

而有了大模型技术,把资料向量化之后,就可以通过语义进行查询,大模型会根据语义分析,知道西红柿和番茄是一个东西。‍‍‍

大模型知识库的原理就是给大模型外挂一个资料库,但大模型毕竟不是人,需要把资料,文档等转化为大模型能够识别的格式,就是文档向量化。

搭建大模型知识库,需要经过以下几个步骤:

文档加载

在当今互联网时代,知识的形式多种多样,比如文本格式的就是txt,word,pdf等;还有其它格式如图片,结构化数据以及非结构化数据等。‍‍‍‍‍‍‍‍‍‍‍

因此,打造一个知识库需要支持多种文档,以及不同文档的加载路径,如本地加载,网络加载等;而这就是文档加载需要解决的问题。‍

文档分割

在大模型应用中,长文本处理是一个问题,并且大模型窗口都有上下文长度限制;并且,文档还需要处理成大模型能够识别的向量格式,因此对一些长文本文档需要进行文本分割,解决文档过长而导致的问题。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档分割根据不同的任务场景,需要进行不同的处理,比如文档分割的长度,分割形式(比如,段落,标点符号等),重叠长度等。‍‍‍‍‍

词嵌入

在传统的知识库系统中,文档是以文本,图片,视频等格式存在的,使用者主要是人,因此只需要能够通过网络加载文档即可。

但在大模型应用中,大模型不认识字,它能够处理的格式只有向量。而且,还需要进行语义分析,因此需要通过词嵌入的方式,把文档转化为大模型能够处理的,且语义连贯的形式,也就是向量格式,而这个技术就叫做词嵌入。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

词嵌入工具本质上也是一个大模型,只不过是专门训练用来完成语义理解和向量转化的模型。‍

Sentence-transformer 词嵌入python 库 可以支持多种嵌入模型 或者可以使用第三方提供的转化工具,比如openAI,通义千问等。

文档处理整体流程入下图所示:‍‍‍‍‍

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档存储

文档存储的功能就是需要把通过词嵌入转化的大模型能够识别的向量格式存储起来,一般使用的是向量数据库。‍‍‍‍

当大模型需要使用的时候,再通过检索的形式从向量数据库中获取。‍‍‍‍‍‍‍

文档存储的作用是为了解决查询效率的问题,但也并不是必须的;比如说,当你知识库的内容很少的时候,你也可以选择每次提问的时候,重新加载文档并向量化,这样之前向量化过的文档就存储在向量数据库中,下次使用的时候就可以直接从数据库中查询。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

就类似于在web开发中,你也可以把用户数据通过|或某种符合间隔起来并保存到txt文件中,每次查询的时候需要读取文件并解析数据,这样就会非常的麻烦;而如果把用户信息存储到数据库中,就会方便的多。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档检索

从向量数据库中,通过语义对数据进行检索,然后把检索结果带入到大模型中,供大模型使用。技术实现是通过数学计算,根据向量计算相对位置,位置越近语义相关度越高;比如欧式距离,cos值等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

RAG的难点和重点是数据的质量和检索质量,也就是说本地知识库的好坏和使用的模型(用来回答问题的模型,不是词嵌入的模型)没有什么关系,只是和你检索的效果有关。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

简单来说就是,你的知识库数据质量和向量数据库的质量越好,RAG的效果才越好。‍‍‍‍‍‍

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/417557.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年全国大学生数学建模比赛思路、题目、代码

竞赛时间及参赛建议 竞赛开始时间:北京时间2024年9月5日18:00 竞赛结束时间:北京时间2024年9月8日20:00 关于今年每道题的思路,可以关注我gzh回复”国赛A/B/C/D/E题“获取 需要帮助的可以关注公众号,在功能栏点击联系我们&…

java发送邮箱如何实现?如何配置Java发信?

java发送邮箱功能怎么集成?Java发送邮件的几种方式? 无论是用于用户注册验证、密码重置,还是营销邮件的发送,"Java发送邮箱"都是一个不可忽视的技术点。那么,如何在Java应用中实现邮件发送呢?Ao…

2025入局自动驾驶的秋招人,应该瞄准哪些技术方向?

2024年已过大半,9月随着开学季的来临,2025届的毕业生也纷纷踏出了秋招的第一步。 无论是在学生期间就深耕许久智驾技术、还是从其他赛道转战至智驾,自2023年末一直到今年上半年来,都一直国内智驾行业层出不穷的各种破圈动态刷屏。…

极市开发平台yolov8训练无人机数据集样例数据流程

先进入vscode,进入src_repo文件夹。 第一步,克隆一个比较好的博主的库: GitHub - Incalos/YOLO-Datasets-And-Training-Methods: This project involves making custom datasets for the YOLO series and model training methods for YOLO.…

基于Qt设计的人脸课堂考勤机系统(219)

文章目录 一、前言1.1 项目介绍【1】开发背景【2】项目实现的功能1.2 设计思路【1】系统架构设计【2】流程设计【3】关键技术实现【2】整体构架1.3 项目开发背景【1】选题的意义【2】可行性分析【3】参考文献【4】摘要【5】项目背景1.4 开发工具的选择1.5 系统框架图1.6 系统功…

网站开发:HTML + CSS - CSS选择器

1. 前言 CSS(Cascading Style Sheets,层叠样式表)是一种用于控制 HTML 文档样式和布局的语言。它为 Web 页面提供了许多功能,使开发者能够创建美观且功能丰富的用户界面。 提供了丰富的功能来控制网页的外观和布局,增…

使用Python进行数据可视化:让你的数据“活”起来

哈喽,大家好,我是木头左! 安装与导入 要使用Matplotlib,首先需要安装。可以使用pip进行安装: pip install matplotlib安装完成后,可以在Python代码中导入Matplotlib库: import matplotlib.py…

ACL22--基于CLIP的非代表性新闻图像的多模态检测

摘要 这项研究调查了假新闻如何使用新闻文章的缩略图,重点关注新闻文章的缩略图是否正确代表了新闻内容。在社交媒体环境中,如果一篇新闻文章与一个不相关的缩略图一起分享,可能会误导读者对问题产生错误的印象,尤其是用户不太可…

027、架构_资源_GTM

系统级GTM:默认的GTM,当创建分片集群时,如果不创建实例级GTM,则会用系统级GTM 本章节主要介绍GTM 集群的新增、删除、配置、绑定等管理操作。 新增GTM集群 摘要新增GTM集群,与租户相绑定,可查看绑定租户与配置集群参数设置,租户可重绑定其他正常可用的GTM集群。 步骤1.…

62、Python之函数高级:装饰器导致函数元数据丢失?三种方法搞定

引言 前面我们通过几篇文章介绍了关于高阶函数中装饰器的内容,我们已经能够实现对函数的动态增强,在遵从开闭原则的基础上,动态提高代码的可复用性。如果对装饰器的基础不太了解,可以回看前面几篇文章。 装饰器的引入带了极大的…

打包macos应用到dmg文件

打包macos应用到dmg文件 由于macos自带的看图软件太麻烦了,还受到沙箱的限制,访问本地文件各种询问,最主要的是不能打开一个图片之后不能直接查看同文件夹下的其他图片,感觉还是挺麻烦的。想看其他图片的时候还要全选才行。 而且…

某云彩SRM2.0任意文件下载漏洞

文章目录 免责申明搜索语法漏洞描述漏洞复现修复建议 免责申明 本文章仅供学习与交流,请勿用于非法用途,均由使用者本人负责,文章作者不为此承担任何责任 搜索语法 fofa icon_hash"1665918155"漏洞描述 某云采 SRM2.0是一款先…

mysql的整理

插入数据: INSERT INTO 表名 (字段名1, 字段名2, ...) VALUES (值1, 值2, ...); insert into employee(id,workno,name,gender,age,idcard,entrydate) values(1,1,Itcast,男,-1,123456789012345678,2000-01-01); insert into employee values(3,3,韦一笑,男,38,1…

11 Java 方法引用、异常处理、Java接口之函数式编程(接口知识补充Function<T,R>、BiFunction<T, U, R>和自定义泛型接口)

文章目录 前言一、Java接口之函数式编程 --- 接口知识补充1 Function<T,R>泛型接口2 BiFunction<T, U, R>泛型接口3 自定义泛型函数式编程接口4 使用lambda表达式、方法引用进行函数式编程二、方法引用1 方法引用初体验(以Array.sort()方法为例)(1)什么是方法引…

打造温馨家居,全屋智能家居解决方案

智能家居全屋解决方案覆盖全屋照明、温度、娱乐影音等各种常见的日常生活需求、可通过一键设置联动场景来控制自己的家、也可通过语音对话来操控家中的照明、电器及各种场景模式任意切换&#xff0c;一键升级自己的智能家。 1.入户解决方案 通过智能指纹锁穿过玄关、进入大厅、…

Android Studio 加载多个FLutter项目

按顺序操作即可 选择工程 选择Modules, 导入 module 选中创建module 选择要导入的目录&#xff0c;只选择主目录&#xff0c;下面的文件不要选 添加完成&#xff0c;点击ok后&#xff0c;会进行导入 最终导入成功

Java数据结构之ArrayList(如果想知道Java中有关ArrayList的知识点,那么只看这一篇就足够了!)

前言&#xff1a;ArrayList是Java中最常用的动态数组实现之一&#xff0c;它提供了便捷的操作接口和灵活的扩展能力&#xff0c;使得在处理动态数据集合时非常方便。本文将深入探讨Java中ArrayList的实现原理、常用操作以及一些使用场景。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨…

专题一_双指针_算法专题详细总结

目录 双指针 对撞指针&#xff1a;⼀般⽤于顺序结构中&#xff0c;也称左右指针。 快慢指针&#xff1a;⼜称为⻳兔赛跑算法&#xff0c;其基本思想就是使⽤两个移动速度不同的指针在数组或链表等序列 结构上移动。 1. 移动零&#xff08;easy&#xff09; 「数组分两块」…

中间件解析漏洞

一、iis 1、IIS6.X 1.在iis的⽹站根⽬录新建⼀个名为x.asp的⽂件 2.在x.asp中新建⼀个jpg⽂件。内容为 asp代码 3.在外部浏览器中访问windows2003的iis⽹站中的2.jpg 发现asp代码被执⾏ 4.将2.jpg⽂件放到⽹站根⽬录下访问&#xff0c;发现其中的asp代码没有被解析。 由此可…

1.ASRPRO天问--开发板介绍及第一次使用--开发板挖掘系列

1. 前言 时光不问赶路人&#xff0c;一切尽在不言中&#xff0c;大家好&#xff0c;我是繁花&#xff0c;oh&#xff0c;不对&#xff0c;是繁华的地方不一定留下你的脚印。开学季的到来&#xff0c;也让我这个老人是思绪万千&#xff0c;不要问为啥是老人&#xff0c;因为中人…