Ollama 企业私有化部署大模型最佳解决方案

为什么要私有化部署大模型？

很多企业为了控制成本和减少核心数据外泄的风险，会通过私有化部署大模型，来控制成本和保障企业的数据安全。

说到本地化部署，这时就需要说到Ollama框架了。

Ollama 是什么？

Ollama 是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。它提供了一个简单的API来创建、运行和管理模型，以及一个预构建模型库，可以轻松部署和运行各种大语言模型。

而对于开源大模型，现在当属Meta公司开源的 Llama3 性能最好，Llama3 70b 性能直逼 ChatGpt-3.5 ，而Llama3 405b 的性能已超越了 ChatGpt-4o 。

说到大模型，肯定不能漏了向量模型了，它在搜索性能和效果方面，比 Elasticsearch 好太多了。而 nomic-embed-text 向量模型比 OpenAI 的 text-embedding-ada-002 和 text-embedding-3-small 更好，以下是官方的说明：

机器配置如何选择？

Llama 3 模型版本有几个，我们主要关注 80 亿参数（Llama 3 8B）和 700 亿参数（Llama 3 70B）这两个版本。它们对电脑系统配置有不同的要求，主要计算资源（即：CPU/GPU）和内存来存储和处理模型权重：

Llama 3 8B 版本：对于 80 亿参数的模型，建议至少 4 核 CPU，至少 16GB 内存（推荐 32GB 或更高），以确保模型加载和运行过程中的流畅性；模型文件大小 5 GB 左右，磁盘空间有 10GB 足够了；GPU 是可选的，它可以显著提高推理速度。
Llama 3 70B 版本：对于 700 亿参数的模型，CPU 要求显著提高（建议 16 核以上），至少需要 64GB 内存（推荐 128GB 或更高），模型在推理时会占用大量的内存资源；模型文件大小 40GB，远超 8B 版本；强烈推荐使用高端 GPU，以实现有效加速。

而服务器，我们选用 AutoDL算力云的机器。而下面我们直接部署700亿参数的 Llama 3，因为Llama 3 8b的回复准确率可能只有30%，而70b的准确率有 80% 以上。而700亿参数的 Llama3 可以直接用在企业里。

机器配置选用

登陆 AutoDL算力云官网

接着选择基础镜像

Pytorch版本： 2.1.0

Python版本：3.10

Cuda版本：12.1

具体配置如下：

服务器选完启动后，接下来，我们就需要先在服务器中安转 ollama。

Ollama 安装

官方文档提供了多种安装方式，命令行一键安装、手动安装、docker安装，但是教程比较复杂，我最推荐手动安装，可以进行一些自定义配置，并且速度非常快。

访问Ollama 官网

命令行一键安装（暂时不用，有点慢）

curl -fsSL https://ollama.com/install.sh | sh

手动安装（推荐）

本地先下载：

https://ollama.com/download/ollama-linux-amd64

然后上传ollama-linux-amd64文件

配置模型下载存储路径环境变量（默认会下载到系统盘，但我们系统盘才30G，部署Llama3 70b不够，需要改到数据盘，数据盘有50G）

vi /etc/profile

添加环境变量

export OLLAMA_MODELS=/root/autodl-tmp/ollama/models

具体如下：

然后执行以下命令

cp ollama-linux-amd64 /usr/bin/ollama
sudo chmod +x /usr/bin/ollama

启动ollama server：

ollama serve

ollama到此已经安转完毕，并且已经启动。接下来需要安转 Llama3。

Llama3 安转

在library 中搜索我们需要的大模型，此时我们选用 Llama3.1

执行以下命令下载启动 Llama3.1

ollama run llama3.1:70b

等待下载完即可，下载完后会自动进入聊天对话模式

可以按 Ctrl+d 退出，当退出后，想要再启动，则可以直接使用 ollama serve 进行启动大模型，你本地下载多少个大模型我们可以使用 ollama list 查看。而ollama serve 命令会把你下载的大模型全部都启动。

ollama 具体命令

LLama3.1 安转完毕后，接下来把 nomic-embed-text 向量大模型也一并安转完。

向量大模型安装

在library 中搜索 nomic-embed-text

然后执行以下命令，进行安装

ollama pull nomic-embed-text:v1.5

接着执行 ollama serve 启动，如果之前已经启动过了，则执行 ps -ef | grep ollama 搜索运行中的进程，然后 kill 进程id 杀死 ollama 后，重新执行 ollama serve 命令。

至此，大模型所属的环境都部署完，接下来，我们本地代码如何调用我们私有化部署的大模型。

如何调用私有化大模型？

AutoDL算力云要求，为配合监管要求该地区http/https服务仅对企业认证后的用户开放，您可以使用以下方式在本地访问服务。步骤如下：

点击自定义服务

我本地是Winows 系统，需要下载这个桌面工具，然后运行。

点击Linux/Mac，获取SSH命令和密码， ssh命令中的端口6006要改成ollama的11434

将获取到的SSH命令和密码，填入桌面工具中。

至此，代理完成，网络打通，此时，就可以调用私有化大模型。

对于Java 来说，有两个框架可以使用，LangChain4j 和 Spring Ai 。不了解这两个框架的同学，可以去我的主页学习系列文章。

LangChain4j 对接 Ollama 本地部署模型

引入 Maven 依赖

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>org.gorgor</groupId><artifactId>ollama</artifactId><version>1.0-SNAPSHOT</version><properties><maven.compiler.source>17</maven.compiler.source><maven.compiler.target>17</maven.compiler.target><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><langchain4j.version>0.31.0</langchain4j.version></properties><dependencies><dependency><groupId>dev.langchain4j</groupId><artifactId>langchain4j-ollama</artifactId><version>${langchain4j.version}</version></dependency></dependencies>
</project>

调用聊天模型

/*** @description:* @author: cyh* @create: 2024/8/20 17:15**/
public class OllamaTest {public static void main(String[] args) {LanguageModel model = OllamaLanguageModel.builder().baseUrl("http://localhost:11434").modelName("llama3:70b").build();String result = model.generate("你是谁").content();System.out.println(result);}
}

调用向量模型

/*** @description:* @author: cyh* @create: 2024/8/20 17:15**/
public class OllamaTest {public static void main(String[] args) {OllamaEmbeddingModel embeddingModel = OllamaEmbeddingModel.builder().baseUrl("http://localhost:11434").modelName("nomic-embed-text:v1.5").build();Embedding embedding = embeddingModel.embed("你是谁").content();System.out.println(embedding);}
}

Spring Ai 对接 Ollama 本地部署模型

引入 Maven 依赖

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>3.2.4</version></parent><modelVersion>4.0.0</modelVersion><groupId>org.gorgor</groupId><artifactId>ollama</artifactId><version>1.0-SNAPSHOT</version><properties><maven.compiler.source>17</maven.compiler.source><maven.compiler.target>17</maven.compiler.target><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><langchain4j.version>0.31.0</langchain4j.version></properties><dependencyManagement><dependencies><dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-bom</artifactId><version>1.0.0-M1</version><type>pom</type><scope>import</scope></dependency></dependencies></dependencyManagement><dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-ollama-spring-boot-starter</artifactId></dependency></dependencies><repositories><repository><id>spring-milestones</id><name>Spring Milestones</name><url>https://repo.spring.io/milestone</url><snapshots><enabled>false</enabled></snapshots></repository><repository><id>spring-snapshots</id><name>Spring Snapshots</name><url>https://repo.spring.io/snapshot</url><releases><enabled>false</enabled></releases></repository></repositories>
</project>

添加 application.properties 配置文件

spring.ai.ollama.base-url=http://localhost:11434
spring.ai.ollama.chat.model=llama3:70b
spring.ai.ollama.embedding.model=nomic-embed-text:v1.5

调用私有化大模型

/*** @description:* @author: cyh* @create: 2024/8/20 17:15**/
@RestController
public class OllamaTest {@AutowiredOllamaChatModel ollamaChatModel;@AutowiredOllamaEmbeddingModel ollamaEmbeddingModel;@GetMapping("/chat")public String chat(){String content = ollamaChatModel.call("你是谁");return content;}@GetMapping("/embedding")public List<Double> embedding(){List<Double> embed = ollamaEmbeddingModel.embed("你是谁");return embed;}}