Spring AI + Ollama 实现 DeepSeek-R1 API 服务和调用

随着大语言模型的快速发展，越来越多的开发者开始探索如何将这些强大的推理模型本地化运行。DeepSeek-R1，作为一款性能卓越的开源AI模型，以其低成本和出色的推理能力在技术圈内引起了广泛关注。本文将详细介绍如何使用Ollama部署DeepSeek-R1，并结合Spring Boot与Spring AI实现API服务调用，帮助开发者在本地化环境下实现高效的AI服务。

1. DeepSeek-R1 简介及亮点

DeepSeek-R1 是一款开源的AI语言模型，凭借其出色的推理能力和强大的性能，在科技界引起了广泛的关注。它的性能甚至在某些任务上超越了OpenAI的GPT-4等业内领先的语言模型。与其他大型语言模型不同，DeepSeek-R1的最大亮点是它支持本地部署。这意味着用户不仅可以在自己的计算环境中运行模型，还能更好地保护隐私，确保数据不被外部服务访问。

DeepSeek-R1的开源特性使得开发者能够对其进行定制和优化，以满足特定的应用需求。而且，DeepSeek-R1的低成本也使其成为了一个理想的选择，特别适合那些需要高效推理的开发者和小型企业。通过Ollama，DeepSeek-R1可以非常容易地在本地设备上运行，进一步降低了技术门槛。

2. Ollama：运行助手

对于许多用户来说，在普通笔记本电脑或其他本地硬件上运行强大的AI模型通常是一个难题。传统的大模型如GPT-4、BERT等需要强大的计算资源和复杂的部署步骤，这让很多开发者望而却步。Ollama的出现正是为了解决这一问题，它为本地部署大语言模型提供了一种简单、便捷的方法。

Ollama是专门为本地运行大语言模型设计的工具，操作简单且直观，即使是没有深厚技术背景的用户也能够轻松上手。Ollama支持多个平台，包括Windows、macOS和Linux，使得用户能够在不同的操作系统环境下都能方便地运行DeepSeek-R1等模型。通过Ollama，用户能够在个人电脑上实现高效的AI推理，无需依赖云服务，既节省了成本，又能更好地控制数据隐私。

3. 开始操作：环境设置

在实际操作之前，我们需要完成一些基本的环境设置。以下是详细的操作步骤。

步骤1：安装Ollama

首先，用户需要在本地机器上安装Ollama。安装过程非常简单，以下是详细的步骤：

访问Ollama官网，下载与你操作系统匹配的版本（支持Windows、macOS和Linux）。
下载完成后，运行安装程序并按照提示完成安装。

对于Linux系统用户，可以通过以下命令进行安装：

curl -fsSL https://ollama.com/install.sh | sh

步骤2：验证Ollama安装

在继续进行后续步骤之前，确保Ollama已成功安装。打开终端或命令提示符，输入以下命令：

ollama --version

如果成功安装，终端会返回Ollama的版本号。如果没有返回版本号，说明安装失败，请检查安装步骤并重试。

步骤3：下载DeepSeek-R1

一旦确认Ollama安装无误，就可以开始下载DeepSeek-R1了。在终端中运行以下命令：

ollama run deepseek-r1

根据你的网络速度，这个过程可能需要一些时间。请耐心等待，直到下载完成。

步骤4：运行DeepSeek-R1

下载完成后，我们可以使用以下命令来启动DeepSeek-R1模型：

ollama run deepseek-r1

此时，DeepSeek-R1就会在本地设备上成功启动，准备为你提供推理服务。

4. 使用 GPU 加速运行 DeepSeek-R1

对于希望在GPU上运行DeepSeek-R1的用户，Ollama提供了GPU加速选项。通过利用NVIDIA或AMD的GPU，用户可以大幅提高推理速度，特别是在使用大规模模型（如DeepSeek-R1的671B版本）时，GPU加速能够显著提升性能。

4.1 配置 NVIDIA GPU

如果你的机器配有NVIDIA显卡，可以通过以下命令来指定要使用的GPU。假设你有四张NVIDIA A10显卡，可以执行以下命令来使用所有的显卡：

export CUDA_VISIBLE_DEVICES=0,1,2,3

如果只有一张GPU，你可以指定为：

export CUDA_VISIBLE_DEVICES=0

4.2 配置 AMD GPU

如果你的设备使用AMD显卡，配置稍有不同。你需要设置HIP_VISIBLE_DEVICES环境变量来指定使用的GPU。例如：

export HIP_VISIBLE_DEVICES=0

通过这种方式，你可以确保Ollama使用GPU加速，从而提升模型的运行效率。

4.3 DeepSeek-R1的硬件要求

根据你选择的DeepSeek-R1模型版本，其硬件配置需求会有所不同。以下是DeepSeek-R1模型的各个版本及其对应的硬件要求：

5. 使用 Spring Boot + Spring AI 调用 DeepSeek-R1

在完成Ollama的安装和DeepSeek-R1的本地部署后，接下来我们可以通过Spring Boot与Spring AI来调用DeepSeek-R1模型，并实现API服务。Spring Boot提供了丰富的功能，能够轻松与Ollama结合，处理来自客户端的请求，并返回模型的推理结果。

5.1 构建 Spring Boot 项目

首先，使用Spring Initializr创建一个Spring Boot项目，并添加Spring AI依赖。确保在pom.xml中包含以下依赖项：

<dependency>
<groupId>org.springframework.ai</groupId>
<artifactId>spring-ai-ollama-spring-boot-starter</artifactId>
</dependency>

5.2 配置 Ollama

在Spring Boot的application.properties文件中，配置Ollama的服务地址和要调用的模型：

spring.ai.ollama.base-url=http://localhost:11434
spring.ai.ollama.chat.model=deepseek-r1:1.5b

5.3 编写代码调用模型

在Spring Boot项目中，我们可以编写代码来调用DeepSeek-R1模型。以下是一个简单的测试类，演示如何使用Ollama与DeepSeek-R1进行交互：

@SpringBootTest(classes = DemoApplication.class)
public class TestOllama {

@Autowired
private OllamaChatModel ollamaChatModel;

@Test
public void testChatModel() {
String prompt = "请将以下英文翻译成中文：";
String message = "Ollama now supports tool calling with popular models such as Llama 3.1.";

String result = ollamaChatModel.call(prompt + " " + message);
System.out.println(result);
}
}

5.4 测试与结果

运行以上代码，Spring Boot会向Ollama发送请求，并返回DeepSeek-R1生成的翻译结果。例如：

{
"response": "Ollama现在支持使用如Llama 3.1等流行模型进行工具调用。",
"error": null
}

总结

通过结合Ollama与Spring Boot，我们可以在本地环境中快速实现DeepSeek-R1模型的部署与API服务。Ollama简化了大语言模型的本地部署过程，而Spring Boot提供了灵活的API调用方式，让开发者能够方便地集成和使用这些强大的AI模型。希望本文的内容能够帮助你快速掌握DeepSeek-R1的本地部署与API调用，实现高效的AI推理服务。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/13305.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！