Ragflow技术栈分析及二次开发指南

Ragflow是目前团队化部署大模型+RAG的优质方案,不过其仍不适合直接部署使用,本文将从实际使用的角度,对其进行二次开发。

1. Ragflow 存在问题

Ragflow 开源仓库地址:https://github.com/infiniflow/ragflow
Ragflow 当前版本: v0.17.0

Ragflow 目前主要存在以下问题:

  1. 登录页开放注册
    当前版本,在login页面,用户可直接进行注册,在小规模私有化部署中,开放注册接口,易对用户产生困扰,甚至存在被频繁调用攻击的风险。

  2. 知识库共享问题
    当前版本,团队成员进行知识库共享需要知识库的创建者邀请其它成员进团队,发出邀请时,需要其它成员点击接受才行,较为繁琐。

  3. 模型设置问题
    当前版本,所有团队成员的模型设置是独立的,如需共用同一套模型配置,需要每个用户单独进行设置,不利于团队化协作。

  4. 可视化管理
    当前版本,未存在超级管理员的后台界面,无法直观的对用户账户进行可视化管理。

本文将围绕以上四点问题,对Ragflow进行二次开发解决。

2. 开源协议

Ragflow采用的是较为宽松的Apache License 2.0 ,这意味着其允许进行二次开发和商用,且修改后可无需开源。

3. 技术栈分析

3.1 容器组件分析

通过docker启动该服务时,docker-compose-base.yml包含了部分基础配置参数,可以看到整个服务共包含5个容器组件:

services:es01:container_name: ragflow-es-01infinity:container_name: ragflow-infinitymysql:container_name: ragflow-mysqlminio:container_name: ragflow-minioredis:container_name: ragflow-redis

各组件功能如下:

  1. Elasticsearch
    主要用作文档引擎,负责存储和检索文本及向量数据,作为系统的知识库存储后端,用以支持向量存储和相似度搜索

  2. ragflow-infinity
    前端系统,包含基本的界面显示、数据交互、路由跳转等功能

  3. MySQL
    关系型数据库,存储系统的结构化数据,包括管理用户账户、权限等基础信息、
    存储知识库的元数据信息等

  4. MinIO
    对象存储服务,用于存储原始文档及文档切片图像信息

  5. Redis
    内存数据库, 采用Valkey版本,缓存大模型的响应结果,处理异步任务,临时保存对话上下文

3.2 前后端框架分析

该系统前端框架使用React+Typescript,代码统一在web文件夹。
后端框架使用Flask+Python,代码分好几部分,具体内容如下:

  • agent:对应前端agent相关模块功能
  • agentic_reasoning:对应前端搜索相关模块功能
  • api:核心后端程序,用来与前端进行数据对接,并提供后端服务和其它各组件连接及数据交互功能
  • deepdoc:提供文件ocr等解析相关功能
  • graphrag:知识图谱相关功能
  • rag:主要用以和大模型相关接口进行交互
  • sdk:拓展型功能,用来提供系统的外部调用,目前不太完善,可忽略。

3.3 前后端可视化分析

3.3.1 前端可视化分析

前端代码全部集成在web文件夹下,因此可直接在web路径下直接启动查看。

先安装依赖:

yarn instsall 

依赖安装完成,生成node_modules
再启动:

yarn start

访问http://localhost:9222 即可进入登录界面。

考虑到登录需要和后端交互,密码验证通过后,才能进入主界面。如需直接进入主界面预览,可修改web/src/utils/request.ts
这里的逻辑是:本来响应结果为504,弹出error,这里直接改成成功响应。

request.interceptors.response.use(async (response: Response, options) => {if (response?.status === 413 || response?.status === 504) {// 原代码// message.error(RetcodeMessage[response?.status as ResultCode]);// 修改return new Response(JSON.stringify({code: 0,message: 'Success',data: {}}));}

3.3.2 mysql可视化分析

下面再可视化查看其它组件信息,在docker/.env文件中,包含了各组件的密码。

启动docker服务,首先查看mysql数据库信息。

使用DBeaver进行连接,连接参数如下,默认用户名为root,密码为infini_rag_flow

在这里插入图片描述

可以看到,该数据库中包含多张数据表,后续在解决实际问题时,会进一步分析。

在这里插入图片描述

3.3.3 Elasticsearch可视化分析

Elasticsearch需要通过Kibana进行可视化分析。虽然.env文件中写了Kibana的初始用户名和密码,但实际服务中,并未启用Kibana。看到仓库中有人提出过该问题,具体可参考该pr:https://github.com/infiniflow/ragflow/pull/548/files

3.3.4 MinIO可视化分析

MinIO自带了可视化管理的控制台,访问http://localhost:9001/即可进入,默认用户名为rag_flow,默认密码为infini_rag_flow

进入可看见,里面的容器包含了原始上传的pdf文件和切块分页的图像数据。

在这里插入图片描述

3.3.5 Redis可视化分析

使用Rdis insight连接Redis数据库,默认地址为127.0.0.1:6379,默认用户名为default,默认密码为infini_rag_flow

在这里插入图片描述
进入可看见,里面存储了一些缓存数据。

在这里插入图片描述

4. 问题解决方法

分析完了,开始解决开头提到的一些具体问题。

4.1 关闭注册通道

关闭注册通道,可直接将前端界面上的注册元素注释掉。

在这里插入图片描述

具体方法是修改src\pages\login\index.tsx文件,注释掉以下内容:

{ <div>{title === 'login' && (<div>{t('signInTip')}<Button type="link" onClick={changeTitle}>{t('signUp')}</Button></div>)}{title === 'register' && (<div>{t('signUpTip')}<Button type="link" onClick={changeTitle}>{t('login')}</Button></div>)}
</div>}

这样修改,用户直接通过浏览器访问/register也是无法注册的,因为注册功能并不是一个单独界面,而是在login中,post到后端进行处理。

4.2 后台添加用户

阻止用户自己注册之后,管理员还需要为用户进行注册。可直接采用修改数据库内容的方式进行实现。

连接mysql数据库,用户信息存储在user表中。该表包含以下字段,核心字段是emailpassword

在这里插入图片描述

email比较容易理解,存储的就是登陆明文邮箱,但密码是哈希字符串,为了防止被人攻击泄露,不能存储明文密码,因此,要解决注册问题,首先需要理清楚密码的加密逻辑。

通过仔细阅读源代码,我理清楚了注册阶段,密码的加密存储过程:
首先,前端获取到用户原始输入密码后,先进行Base64编码,防止特殊字符造成解析失败,编码后利用公钥进行RSA加密;
后端接收到加密密码后,利用私钥进行RSA解密,最后通过Hash处理,存储到数据库。

A[原始密码] --> B[前端Base64编码] --> C[RSA加密] --> D[后端RSA解密] --> E[hash存储]

为了让这个过程更容易理解,我写了个python代码,模拟了该过程,其中,私钥数据可以在文件中找到,路径为 conf/private.pem

import base64
from Cryptodome.PublicKey import RSA
from Cryptodome.Cipher import PKCS1_v1_5
from werkzeug.security import generate_password_hash, check_password_hashdef rsa_decrypt(encrypted_password: str, private_key_path: str, passphrase: str) -> str:# 从文件中读取私钥with open(private_key_path, "r") as key_file:private_key = key_file.read()# 导入私钥rsa_key = RSA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32266.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【医院成本核算专题】8.大数据与医院成本核算的关联点:开启医疗成本管理新时代

医院成本核算、绩效管理、运营统计、内部控制、管理会计专题索引 一、引言 在当今数字化飞速发展的时代,大数据已成为各行业变革与发展的关键驱动力。自 2011 年麦肯锡公司提出 “大数据时代” 以来,数据量呈爆发式增长。据 IDC 统计,2011 年全世界创建和复制的数据总量达…

QT:串口上位机

创建工程 布局UI界面 设置名称 设置数据 设置波特率 波特率默认9600 设置数据位 数据位默认8 设置停止位 设置校验位 调整串口设置、接收设置、发送设置为Group Box 修改配置 QT core gui serialport 代码详解 mianwindow.h 首先在mianwindow.h当中定义一个串口指…

C# Enumerable类 之 集合操作

总目录 前言 在 C# 中&#xff0c;System.Linq.Enumerable 类是 LINQ&#xff08;Language Integrated Query&#xff09;的核心组成部分&#xff0c;它提供了一系列静态方法&#xff0c;用于操作实现了 IEnumerable 接口的集合。通过这些方法&#xff0c;我们可以轻松地对集合…

网络安全 api 网络安全 ast技术

随着应用或者API被攻击利用已经越来越多&#xff0c;虽然来自开源组件的漏洞加剧了这一现象的发生&#xff0c;但是&#xff0c;其实主要还是在于应用程序或者API本身没有做好防范&#xff0c;根源在于源代码本身的质量没有严格把控。AST是指Application Security Testing&…

【2025前端高频面试题——系列一之MVC和MVVM】

前端高频面试题——系列一之MVC和MVVM 前言一、MVC的基本逻辑二、MVVM的基本逻辑总结 提示&#xff1a;片尾总结了要点&#xff0c;硬背的话直接跳到最后 前言 相信持续关注我文章的小伙伴知道我之前就MVC和MVVM做过较为详细的讲解&#xff0c;但是我发现&#xff0c;他依旧是…

axure11安装教程包含下载、安装、汉化、授权(附安装包)图文详细教程

文章目录 前言一、axure11安装包下载二、axure11安装教程1.启动安装程序2.安装向导界面3.安装协议协议页面2.选择安装位置3.开始安装4.完成安装 三、axure11汉化教程1.axure11汉化包2.axure11汉化设置 四、axure11授权教程1.打开axure112.设置使用方式3.输入许可证号4.axure11安…

Ubuntu 22.04使用pigz多线程快速解压/压缩文件

最近搞项目&#xff0c;资料太大&#xff0c;解压时间太久&#xff0c;于是想办法解决。 开贴记录。 1.安装pigz sudo apt install pigz 2.解压资料 解压命令为 tar --use-compress-programpigz -xvpf ***.tar.gz 将最后的部分***.tar.gz换成你自己的文件即可 例如 ti…

版本控制器Git(3)

文章目录 前言一、分支管理策略二、Bug分支管理遇到Bug时的处理方法使用 git stash 暂存工作区内容创建并切换到Bug修复分支恢复之前的工作 三、临时分支的删除总结 前言 我们在上篇讲到了分支&#xff0c;现在我们就着这个继续来讲解&#xff01; 一、分支管理策略 master分支…

pytest+allure+jenkins

本地运行参考&#xff1a;pytestallure 入门-CSDN博客 jenkins运行如下&#xff1a; 安装插件&#xff1a;allure 配置allure安装目录 配置pytest、allure 环境变量 配置流水线 进行build,结果如下 ,点击allure report 查看结果

AI术语整理(持续更新)

在AI相关的学习和使用中&#xff0c;经常会被各种术语混淆&#xff0c;搞清楚术语本来的含义是关键&#xff0c;本文收集整理了部分AI相关术语&#xff0c;会持续更新。 基础概念 人工智能&#xff08;Artificial Intelligence&#xff0c;AI&#xff09;&#xff1a;一种模…

【蓝桥杯单片机】第十一届省赛

一、真题 二、创建工程 1.在C盘以外的盘新建文件夹&#xff0c;并在文件夹里面创建两个文件夹Driver 和Project 2.打开keil软件&#xff0c;在新建工程并选择刚刚建好的project文件夹&#xff0c;以准考证号命名 3.选择对应的芯片型号 4.选择否&#xff0c;即不创建启动文件 …

GMT绘图笔记:用深度作为表面高度(Z 值),用其他物理量(泊松比)给表面着色

之前用GMT绘制莫霍面的三维示意图是用的莫霍面的深度作为表面着色。 GMT绘图笔记&#xff1a;绘制堆叠三维图_gmt画图-CSDN博客 如果要换成其他的物理场&#xff0c;比如泊松比&#xff0c;则需要使用以下的代码 gmt begin BS_figures2 png,pdf E600 # 绘制底图 # Chistrong…

docker搭建elk

文章目录 1.拉取镜像2.ES配置3.logstash配置4.kibana配置5.创建自定义网络6.docker-compose.yml文件7.springboot对接Logstash1.创建一个springboot项目引入主要依赖2.application.yml配置3.resources目录中新增logback-spring.xml4.启动项目&#xff0c;搞点日志5.进入kibana控…

golang算法快慢指针

876. 链表的中间结点 给你单链表的头结点 head &#xff0c;请你找出并返回链表的中间结点。 如果有两个中间结点&#xff0c;则返回第二个中间结点。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5] 输出&#xff1a;[3,4,5] 解释&#xff1a;链表只有一个中间结…

瑞云渲染专访奥斯卡提名制片人兼女性动画人协会副主席Jinko Gotoh!

都说CG行业男多女少&#xff0c;女同胞都是珍稀资源&#xff0c;但艺术领域怎么可以没有女性视角呢&#xff1f;本期推文我们邀请到了动画行业资深大佬后藤纯子Jinko Gotoh&#xff0c;作为奥斯卡提名制片人兼女性动画人协会副主席&#xff0c;后藤纯子始终以多元文化倡导者与创…

道路运输安全员考试:备考中的心理调适与策略

备考道路运输安全员考试&#xff0c;心理调适同样重要。考试压力往往会影响考生的学习效率和考试发挥。​ 首先&#xff0c;要正确认识考试压力。适度的压力可以激发学习动力&#xff0c;但过度的压力则会适得其反。当感到压力过大时&#xff0c;要学会自我调节。可以通过运动…

卡尔曼滤波算法从理论到实践:在STM32中的嵌入式实现

摘要&#xff1a;卡尔曼滤波&#xff08;Kalman Filter&#xff09;是传感器数据融合领域的经典算法&#xff0c;在姿态解算、导航定位等嵌入式场景中广泛应用。本文将从公式推导、代码实现、参数调试三个维度深入解析卡尔曼滤波&#xff0c;并给出基于STM32硬件的完整工程案例…

【Linux】:线程池

朋友们、伙计们&#xff0c;我们又见面了&#xff0c;本期来给大家带来线程池相关的知识点&#xff0c;如果看完之后对你有一定的启发&#xff0c;那么请留下你的三连&#xff0c;祝大家心想事成&#xff01; C 语 言 专 栏&#xff1a;C语言&#xff1a;从入门到精通 数据结构…

SpringMVC (一)基础

目录 SpringMVC 一 简单使用 1 新建模块选择指定参数 2 创建实现类 3 将项目启动 4 运行结果&#xff1a;在浏览器当中响应执行 二 RequestMapping 三 请求限定 SpringMVC SpringMVC是Spring的web模块&#xff0c;用来开发Web应用&#xff0c;SpringMVC应用最终作为B/…

tomcat应用的作用以及安装,以及tomcat软件的开机自启动。

一.tomcat介绍 1.作用 tomcat是一款用来部署网站服务器的一款软件。 动态网站主流语言&#xff1a; PHP, lamp/lnmp平台 Java语言&#xff0c;运行在tomcat平台。【只要这个网站或者软件是Java语言写的&#xff0c;我们都可以在tomcat平台上去运行这个java程序。】 网站是…