【DeepSeek探索篇（四）】高效学习与工作，从搭建DeepSeek个人知识库开始！

高效学习与工作，从搭建DeepSeek个人知识库开始！

打工人和学习者必看！你为何急需一个个人知识库？
搭建个人知识库需要用到哪些技术呢？
- 一、模型微调与RAG技术简介
- 二、RAG技术原理剖析
揭秘Embedding：为何它是DeepSeek和RAGFlow之外的必备利器？
- 三、检索过程全解析
- - 1、准备外部知识库
  - 2、解析知识库文件
  - 3、处理用户提问
  - 4、匹配本地知识库
- 四、模型分类简介
- 五、如何进行个性化知识库的构建？
- - 手把手教你用Docker本地部署RAGflow
  - - 1、下载RAGflow源代码
    - 2、下载Docker
    - 3、修改RAGflow中的配置
    - 4、使用预构建的 Docker 镜像启动服务器
    - 5、打开一个网页输入，成功看到如下界面说明启动成功了。注册登录即可
    - 6、利用RAGflow搭建个人知识库并实现智能对话

打工人和学习者必看！你为何急需一个个人知识库？

在日常忙碌的工作与学习中，相信不少CSDN的小伙伴都和我一样，积累了海量的文档、代码片段、学习笔记等资料。但这些资料就像没有整理的仓库，一旦需要查找，往往在里面翻来覆去，浪费大量时间和精力。

别愁！今天给大家带来一个好方法，利用DeepSeek就能快速搭建个人专属的知识库。它能带来哪些惊喜呢？

集中管理：从此告别资料散落在各个角落的烦恼，将所有资料统一收纳，一个地方全搞定。
快速检索：智能搜索功能超强大，输入关键词，就能精准定位你需要的信息。
高效学习：结构化的存储方式，让知识体系一目了然，大大提升学习和工作的效率。

快来一起探索DeepSeek搭建个人知识库的奇妙之旅吧！

搭建个人知识库需要用到哪些技术呢？

在大模型应用的过程中，“幻觉问题”一直是令人头疼的存在。简而言之“幻觉问题”就是大模型在回答他不知道的问题的时候他会

胡说八道，他会乱编。而模型微调与RAG技术，都在尝试为其提供解决方案，下面我们就来深入了解一下。

一、模型微调与RAG技术简介

模型微调：它就像是考前复习，基于已有的预训练模型，结合特定任务的数据集进一步训练，让模型在该领域的表现更加出色。
RAG技术：全称为Retrieval-Augmented Generation（检索增强生成）。它就像是考试时带小抄，在生成回答前，通过信息检索从外部知识库中查找与问题相关的知识，增强生成过程中的信息来源，从而提升生成内容的质量和准确性。
两者共同点：二者的核心目的都是为模型赋予特定领域的知识，有效解决大模型的“幻觉问题”。

二、RAG技术原理剖析

检索（Retrieval）：当用户提出问题，系统会快速从外部的知识库中检索出相关内容。
增强（Embedding）：将检索到的信息与用户输入进行结合，拓展模型的上下文信息，为后续的生成提供更丰富的素材。
生成（Generation）：以Deepseek等生成模型为基础，基于增强后的输入生成最终回答。由于参考了外部知识库，答案的准确性和可信度更高。

对于在大模型开发与应用中探索的CSDN朋友们，理解RAG技术及其与模型微调的区别，有助于我们更好地优化模型表现。

揭秘Embedding：为何它是DeepSeek和RAGFlow之外的必备利器？

在AI技术的应用中，除了DeepSeek和RAGFlow，Embedding模型也扮演着关键角色。接下来，我们就来详细了解一下Embedding的奥秘。

三、检索过程全解析

1、准备外部知识库

外部知识库来源广泛，包括本地文件、搜索引擎结果、API等多种渠道。

2、解析知识库文件

借助Embedding（嵌入）模型，能够将自然语言转化为机器可理解的高维向量，同时捕获文本背后的语义信息，比如不同文本间的相似度关系。

3、处理用户提问

用户的输入同样会经过Embedding处理，生成一个高维向量。

4、匹配本地知识库

利用用户输入生成的高维向量，查询知识库中的相关文档片段，并通过余弦相似度等度量方式判断相似度。
在这里插入图片描述

四、模型分类简介

模型主要分为Chat模型和Embedding模型。Embedding模型的核心作用，就是对上传的附件进行解析，将文本数据转化为向量

数据，从而便于机器处理和分析。

五、如何进行个性化知识库的构建？

手把手教你用Docker本地部署RAGflow

在利用RAG技术搭建个性化知识库时，RAGflow是一个得力工具。下面为大家介绍如何通过Docker在本地部署RAGflow。

1、下载RAGflow源代码

首先，找到RAGflow的官方代码仓库，按照指引下载其源代码。这是后续部署的基础。
链接：RAGFlow
可以直接用git克隆下来
如果没有安装git也可以直接点Download ZIP，下载到本地。
在这里插入图片描述

2、下载Docker

Docker是一个强大的容器化平台，其镜像就像是一个精心封装好的“盒子”，里面包含了运行RAGflow所需的所有依赖项、库以及配置。

在下载安装Docker的过程中，如果遇到报错也别慌，可以通过搜索引擎查找相关报错信息，或者向GPT等AI工具寻求帮助。

要是出现镜像无法下载的情况，不妨尝试修改Docker的镜像源，换个“通道”，说不定就能顺利拉取镜像了。

按照这些步骤，你就能更轻松地在本地部署RAGflow，开启你的个性化知识库搭建之旅啦。
docker官网链接：docker
选择对应的去下载即可
在这里插入图片描述
下载完成后桌面会有一个docker图标，也可以win+R打开控制台输入docker，弹出如下说明也表示安装完成了。

3、修改RAGflow中的配置

原因：如果不修改配置RAGflow会默认给你下载轻量的版本，可以看到如下轻量的版本是没有Embedding模型的
在这里插入图片描述
在下载好的ragflow的源代码中打开.env的文件

把RAGFLOW轻量版注释掉

#RAGFLOW_IMAGE=infiniflow/ragflow:v0.16.0-slim

把RAGFLOW完整版取消注释

RAGFLOW_IMAGE=infiniflow/ragflow:v0.16.0

在这里插入图片描述

4、使用预构建的 Docker 镜像启动服务器

在下载ragflow路径下的docker中打开控制台输入：

docker compose -f docker-compose.yml up -d

在这里插入图片描述

5、打开一个网页输入，成功看到如下界面说明启动成功了。注册登录即可

localhost:80

在这里插入图片描述

6、利用RAGflow搭建个人知识库并实现智能对话

在通过Docker成功部署RAGflow后，就可以着手构建个人专属的知识库，并实现基于该知识库的对话问答啦。以下是详细步骤：

访问RAGflow：当Docker顺利启动，打开浏览器，在地址栏输入localhost:80，即可进入RAGflow界面。
添加模型提供商：在界面中找到“模型提供商”选项，添加本地部署的deepseek-r1:1.5b模型。
注意：若大家还没有本地部署deepseek大模型的话可以参考博客：一步一步搞定！DeepSeek本地环境搭建全攻略

本地部署好deepseek’模型后，控制台输入ollama list可以查看本地部署的模型

控制台输入ipconfig，查看自己电脑的ipv4的地址
基础的Url：http://+本地ipv4地址+:11434(ollama默认的端口号)，如下图：
配置系统模型：进入“系统模型设置”，分别配置Chat模型为deepseek-r1:1.5b，Embedding模型使用RAGflow自带的即可。
创建并解析知识库：点击创建知识库，上传所需文件，让系统对文件进行解析处理。
创建聊天助理：着手创建聊天助手，过程中注意prompt（提示词）和tokens（令牌）的合理配置。
开始对话：完成上述步骤，就可以开始和基于个人知识库的聊天助手愉快对话，就可以通过不断的喂数据来训练自己搭建的知识库啦。