环境信息
练习测试用,所以资源很低,8G显卡。大模型部署在Windows台式机上,MaxKB部署在CentOS虚拟机上。
台式机:
硬件:i7 13900+ NV GeForce RTX 3060 Ti 8G显存 + 32G内存
软件:Windows 11操作系统,安装CUDA 12.4+cuDNN 9.1 + Ollma
虚拟机:
硬件:4核 + 32G内存
软件:CentOS 7.9 + Docker20.10.0
问了DeepSeek,这个破显卡只能跑最低端的1.5b版本。
安装过程
CUDA环境
1、安装Visual Studio 2019。
CUDA工具包在Windows平台下需要调用MSVC(Microsoft Visual C++)编译器进行代码编译,而MSVC编译器是Visual Studio的组件。即使不直接使用Visual Studio进行开发,安装CUDA时也需要安装Visual Studio以获取MSVC编译器套件。
如果未安装Visual Studio,在CUDA安装过程中会提示错误(例如显示“Visual Studio Integration未找到”),并可能导致安装失败。
在CUDA安装选项中,默认会勾选“Visual Studio Integration”组件。若已安装VS,此组件可保留;若未安装VS,需手动取消勾选该选项,但此时仅能使用CUDA运行时库,无法进行本地代码编译。
(Linux系统:在Linux环境下,CUDA依赖GCC等开源编译器,无需Visual Studio。)
安装的时候,选择【使用C++的桌面开发】就可以了。
2、安装CUDA 12.4
首先要查看显卡能支持的CUDA版本,打开NVDIA控制面板,帮助->系统信息,第三行,这个显卡能支持12.6及以下的CUDA toolkit版本。
官网下载对应版本的安装包,我下载的12.4版。
CUDA Toolkit Archive | NVIDIA Developer
双击安装包,一路下一步,这儿选择的是自定义,按照默认的配置。
安装完成后,输入nvcc --version确认成功。
3、安装cuDNN
官网下载和12.4对应的cuDNN9.1版。
cuDNN Archive | NVIDIA Developer
安装,一路下一步,这儿只需要选择12.4,
完成后在系统环境变量path中加入四个路径,
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\include
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\lib
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\libnvvp
进入安装目录下的\extras\demo_suite路径,
运行bandwidthTest.exe
运行deviceQuery.exe
两个result都是pass,表示安装成功。
大模型环境
1、进入ollama网站:Ollama
下载安装包,双击运行,安装完成后,会在电脑右下角出现Ollama图标,可以不用先启动Ollama,先退出做一些必要路径的配置!
右键图标,会出现退出的按钮「Quit Ollama」,注意:一定要退出Ollama,否则下边的环境配置无法生效!
Ollama安装后添加了开机启动,可以通过电脑管家之类的关闭开机自启动。
Ollama 的默认模型存储路径如下:C:\Users%username%.ollama\models,无论 C 盘空间大小,需要安装多少模型,都建议换一个存放路径到其它盘,否则会影响电脑运行速度。
打开「系统环境变量」,新建一个系统变量OLLAMA_MODELS ,然后设置ollama模型的存储路径。
变量名:OLLAMA_MODELS
变量值(路径):D:\ollama\models
配置端口(可选):
Ollama API 的默认访问地址和侦听端口是http://localhost:11434,只能在装有 Ollama 的系统中直接调用。如果要在网络中提供服务,请修改 API 的侦听地址和端口(在系统环境变量里设置):
变量名:OLLAMA_HOST
变量值(端口)::8000
只填写端口号可以同时侦听(所有) IPv4 和 IPv6 的:8000 端口。(变量值的端口前号前有个冒号:)
注:要使用 IPv6,需要 Ollama 0.0.20 或更高版本。另外,可能需要在 Windows 防火墙中开放相应端口的远程访问。
允许浏览器跨域请求。Ollama 默认只允许来自127.0.0.1和0.0.0.0的跨域请求,如果你计划在其它前端中调用 Ollama API,比如Open WebUI,建议放开跨域限制:
变量名:OLLAMA_ORIGINS
变量值:*
再次启动ollama,在cmd窗口中验证启动成功。
也可以通过http://ip:8000访问,出现ollama is running。表示启动成功。
安装大模型deepseek,
ollama run deepseek-r1:1.5b
等待完成,接下来就可以愉快的问答了。
知识库部署
下载离线安装包,解压
tar -zxvf maxkb-v1.2.0-offline.tar.gz
修改解压后中的 install.conf 文件进行配置。
## 安装目录
MAXKB_BASE=/opt
## Service 端口
MAXKB_PORT=8080
## docker 网段设置
MAXKB_DOCKER_SUBNET=172.19.0.0/16
# 数据库配置
## 是否使用外部数据库
MAXKB_EXTERNAL_PGSQL=false
## 数据库地址
MAXKB_PGSQL_HOST=pgsql
## 数据库端口
MAXKB_PGSQL_PORT=5432
## 数据库库名
MAXKB_PGSQL_DB=maxkb
## 数据库用户名
MAXKB_PGSQL_USER=root
## 数据库密码
MAXKB_PGSQL_PASSWORD=Password123@postgres
运行安装
bash install.sh
待所有容器状态显示为
healthy
后,即可通过浏览器访问地址 http://目标服务器 IP 地址:8080
,并使用默认的管理员用户和密码登录 MaxKB。
用户名:admin
默认密码:MaxKB@123..
知识库配置
系统设置中添加大模型
点击【添加模型】,选择ollama类型
填写好信息。
转到知识库,创建
上传文档,
设置分段规则,
转到应用,添加应用,选择前面建立的大模型和知识库
参数设置
完成,下面就可以愉快的问答了。