高效学习与工作,从搭建DeepSeek个人知识库开始!
- 打工人和学习者必看!你为何急需一个个人知识库?
- 搭建个人知识库需要用到哪些技术呢?
- 一、模型微调与RAG技术简介
- 二、RAG技术原理剖析
- 揭秘Embedding:为何它是DeepSeek和RAGFlow之外的必备利器?
- 三、检索过程全解析
- 1、准备外部知识库
- 2、解析知识库文件
- 3、处理用户提问
- 4、匹配本地知识库
- 四、模型分类简介
- 五、如何进行个性化知识库的构建?
- 手把手教你用Docker本地部署RAGflow
- 1、下载RAGflow源代码
- 2、下载Docker
- 3、修改RAGflow中的配置
- 4、使用预构建的 Docker 镜像启动服务器
- 5、打开一个网页输入,成功看到如下界面说明启动成功了。注册登录即可
- 6、利用RAGflow搭建个人知识库并实现智能对话
打工人和学习者必看!你为何急需一个个人知识库?
在日常忙碌的工作与学习中,相信不少CSDN的小伙伴都和我一样,积累了海量的文档、代码片段、学习笔记等资料。但这些资料就像没有整理的仓库,一旦需要查找,往往在里面翻来覆去,浪费大量时间和精力。
别愁!今天给大家带来一个好方法,利用DeepSeek就能快速搭建个人专属的知识库。它能带来哪些惊喜呢?
集中管理:从此告别资料散落在各个角落的烦恼,将所有资料统一收纳,一个地方全搞定。
快速检索:智能搜索功能超强大,输入关键词,就能精准定位你需要的信息。
高效学习:结构化的存储方式,让知识体系一目了然,大大提升学习和工作的效率。快来一起探索DeepSeek搭建个人知识库的奇妙之旅吧!
搭建个人知识库需要用到哪些技术呢?
在大模型应用的过程中,“幻觉问题”一直是令人头疼的存在。简而言之“幻觉问题”就是大模型在回答他不知道的问题的时候他会
胡说八道,他会乱编。而模型微调与RAG技术,都在尝试为其提供解决方案,下面我们就来深入了解一下。
一、模型微调与RAG技术简介
- 模型微调:它就像是考前复习,基于已有的预训练模型,结合特定任务的数据集进一步训练,让模型在该领域的表现更加出色。
- RAG技术:全称为Retrieval-Augmented Generation(检索增强生成)。它就像是考试时带小抄,在生成回答前,通过信息检索从外部知识库中查找与问题相关的知识,增强生成过程中的信息来源,从而提升生成内容的质量和准确性 。
- 两者共同点:二者的核心目的都是为模型赋予特定领域的知识,有效解决大模型的“幻觉问题”。
二、RAG技术原理剖析
- 检索(Retrieval):当用户提出问题,系统会快速从外部的知识库中检索出相关内容。
- 增强(Embedding):将检索到的信息与用户输入进行结合,拓展模型的上下文信息,为后续的生成提供更丰富的素材。
- 生成(Generation):以Deepseek等生成模型为基础,基于增强后的输入生成最终回答。由于参考了外部知识库,答案的准确性和可信度更高。
对于在大模型开发与应用中探索的CSDN朋友们,理解RAG技术及其与模型微调的区别,有助于我们更好地优化模型表现。
揭秘Embedding:为何它是DeepSeek和RAGFlow之外的必备利器?
在AI技术的应用中,除了DeepSeek和RAGFlow,Embedding模型也扮演着关键角色。接下来,我们就来详细了解一下Embedding的奥秘。
三、检索过程全解析
1、准备外部知识库
外部知识库来源广泛,包括本地文件、搜索引擎结果、API等多种渠道。
2、解析知识库文件
借助Embedding(嵌入)模型,能够将自然语言转化为机器可理解的高维向量,同时捕获文本背后的语义信息,比如不同文本间的相似度关系。
3、处理用户提问
用户的输入同样会经过Embedding处理,生成一个高维向量。
4、匹配本地知识库
利用用户输入生成的高维向量,查询知识库中的相关文档片段,并通过余弦相似度等度量方式判断相似度。
四、模型分类简介
模型主要分为Chat模型和Embedding模型。Embedding模型的核心作用,就是对上传的附件进行解析,将文本数据转化为向量
数据,从而便于机器处理和分析。
五、如何进行个性化知识库的构建?
手把手教你用Docker本地部署RAGflow
在利用RAG技术搭建个性化知识库时,RAGflow是一个得力工具。下面为大家介绍如何通过Docker在本地部署RAGflow。
1、下载RAGflow源代码
首先,找到RAGflow的官方代码仓库,按照指引下载其源代码。这是后续部署的基础。
链接:RAGFlow
可以直接用git克隆下来
如果没有安装git也可以直接点Download ZIP,下载到本地。
2、下载Docker
Docker是一个强大的容器化平台,其镜像就像是一个精心封装好的“盒子”,里面包含了运行RAGflow所需的所有依赖项、库以及配置。
在下载安装Docker的过程中,如果遇到报错也别慌,可以通过搜索引擎查找相关报错信息,或者向GPT等AI工具寻求帮助。
要是出现镜像无法下载的情况,不妨尝试修改Docker的镜像源,换个“通道”,说不定就能顺利拉取镜像了。
按照这些步骤,你就能更轻松地在本地部署RAGflow,开启你的个性化知识库搭建之旅啦。
docker官网链接:docker
选择对应的去下载即可
下载完成后桌面会有一个docker图标,也可以win+R打开控制台输入docker,弹出如下说明也表示安装完成了。
3、修改RAGflow中的配置
原因:如果不修改配置RAGflow会默认给你下载轻量的版本,可以看到如下轻量的版本是没有Embedding模型的
在下载好的ragflow的源代码中打开.env的文件
把RAGFLOW轻量版注释掉
#RAGFLOW_IMAGE=infiniflow/ragflow:v0.16.0-slim
把RAGFLOW完整版取消注释
RAGFLOW_IMAGE=infiniflow/ragflow:v0.16.0
4、使用预构建的 Docker 镜像启动服务器
在下载ragflow路径下的docker中打开控制台输入:
docker compose -f docker-compose.yml up -d
5、打开一个网页输入,成功看到如下界面说明启动成功了。注册登录即可
localhost:80
6、利用RAGflow搭建个人知识库并实现智能对话
在通过Docker成功部署RAGflow后,就可以着手构建个人专属的知识库,并实现基于该知识库的对话问答啦。以下是详细步骤:
-
访问RAGflow:当Docker顺利启动,打开浏览器,在地址栏输入
localhost:80
,即可进入RAGflow界面。 -
添加模型提供商:在界面中找到“模型提供商”选项,添加本地部署的
deepseek-r1:1.5b
模型。
注意:若大家还没有本地部署deepseek大模型的话可以参考博客:一步一步搞定!DeepSeek本地环境搭建全攻略
本地部署好deepseek’模型后,控制台输入ollama list可以查看本地部署的模型
控制台输入ipconfig,查看自己电脑的ipv4的地址
基础的Url:http://+本地ipv4地址+:11434(ollama默认的端口号),如下图:
-
配置系统模型:进入“系统模型设置”,分别配置Chat模型为
deepseek-r1:1.5b
,Embedding模型使用RAGflow自带的即可。
-
创建并解析知识库:点击创建知识库,上传所需文件,让系统对文件进行解析处理。
-
创建聊天助理:着手创建聊天助手,过程中注意
prompt
(提示词)和tokens
(令牌)的合理配置。
-
开始对话:完成上述步骤,就可以开始和基于个人知识库的聊天助手愉快对话,就可以通过不断的喂数据来训练自己搭建的知识库啦。
-