一文了解:部署 Deepseek 各版本的硬件要求

很多朋友在咨询关于 DeepSeek 模型部署所需硬件资源的需求,最近自己实践了一部分,部分信息是通过各渠道收集整理,so 仅供参考。

Image

言归正转,大家都知道,DeepSeek 模型的性能在很大程度上取决于它运行的硬件。我们先看一下 DeepSeek 的部分通用版本(如下图),然后再介绍一下最近火热的R1推理版本的各规格的硬件要求。最后,会给出 R1 的各主流版本的资源参考列表(文末)。

模型名

参数大小

文件格式

标签

公司

deepseek-coder-1.3b-base

1.3B

GGUF GPTQ

DeepSeek

deepseek-coder-1.3b-instruct

1.3B

GGUF GPTQ

DeepSeek

deepseek-coder-33B-base

33B

GGUF GPTQ

DeepSeek

deepseek-coder-33B-instruct

33B

EXL2 GGUF GPTQ

functions

DeepSeek

deepseek-coder-5.7bmqa-base

7B

GGUF GPTQ

DeepSeek

deepseek-coder-6.7B-base

7B

GGUF GPTQ

DeepSeek

deepseek-coder-6.7B-instruct

7B

GGUF GPTQ

DeepSeek

deepseek-llm-67b-base

67B

GGUF GPTQ

DeepSeek

deepseek-llm-67b-chat

67B

EXL2 GGUF GPTQ

DeepSeek

deepseek-llm-7B-base

7B

GGUF GPTQ

DeepSeek

deepseek-llm-7B-chat

7B

GGUF GPTQ

DeepSeek

deepseek-coder-6.7b-instruct

7B

EXL2

DeepSeek

以下是 4 位量化 DeepSeek 模型的硬件要求:

7B 参数模型

如果您追求的是 7B 模型,那么您需要从两个方面考虑硬件。首先,对于 GPTQ 版本,您需要一块至少有 6GB 显存的不错显卡。GTX 1660 或 2060、AMD 5700 XT 或 RTX 3050 或 3060 都可以很好地工作。但对于 GGML/GGUF 格式,更多的是需要足够的内存。您需要大约 4GB 的空闲内存才能顺利运行。

格式

RAM需求

VRAM需求

GPTQ(GPU推理)

6GB(加载时交换*)

6GB

GGML / GGUF(CPU推理)

4GB

300MB

GPTQ和GGML / GGUF的组合(卸载)

2GB

2GB

*加载模型初始所需的内存。推理时不需要。如果您的系统没有足够的内存来在启动时完全加载模型,您可以创建一个 swap 交换文件通过磁盘做为缓存来帮助加载。

30B、33B 和 34B 参数模型

如果您正在进入更大模型的领域,硬件要求会发生明显变化。GPTQ 模型受益于 RTX 3080 20GB、A4500、A5000 等显卡,大约需要 20GB 的显存。相反,GGML 格式的模型将需要您系统内存的很大一部分,接近 20GB。

格式

内存需求

显存需求

GPTQ(GPU推理)

32GB(加载时交换*)

20GB

GGML / GGUF(CPU推理)

20GB

500MB

GPTQ和GGML / GGUF的组合(卸载)

10GB

4GB

*加载模型初始所需的内存。推理时不需要。如果您的系统没有足够的内存来在启动时完全加载模型,您可以创建一个交换文件来帮助加载。

内存速度

在运行 DeepSeek AI 模型时,您需要关注内存带宽和模型大小对推理速度的影响。这些大型语言模型每次生成一个新标记(一段文本)时都需要完全加载到内存或显存中。例如,一个 4 位 7B 参数的 DeepSeek 模型大约占用 4.0GB 的内存。

假设您有 Ryzen 5 5600X 处理器和 DDR4-3200 内存,理论最大带宽为 50 GBps。在这种情况下,您可以期望每秒生成大约 9 个标记。通常,由于推理软件、延迟、系统开销和工作负载特性等几个限制因素,这种性能大约是您理论最大速度的 70%,这些因素阻止了达到峰值速度。为了达到更高的推理速度,比如每秒 16 个标记,您需要更多的带宽。例如,一个具有 DDR5-5600 的系统,大约提供 90 GBps 的带宽,就足够了。

相比之下,高端显卡如 Nvidia RTX 3090 的显存带宽接近 930 GBps。DDR5-6400 内存可以提供高达 100 GB/s 的带宽。因此,理解和优化带宽对于高效运行 DeepSeek 等模型至关重要。

CPU 要求

为了获得最佳性能,建议使用现代多核 CPU。从第 8 代起的 Intel Core i7 或从第 3 代起的 AMD Ryzen 5 都可以很好地工作。具有 6 核或 8 核的 CPU 是理想的。更高的时钟速度还可以提高提示处理速度,因此目标是 3.6GHz 或更高。

如果可用,具有 AVX、AVX2、AVX-512 等 CPU 指令集可以进一步提高性能。关键是拥有一台相对现代的消费级 CPU,具有不错的核数和时钟速度,以及通过 AVX2 进行基本向量处理(使用 llama.cpp 进行 CPU 推理所需的)。有了这些规格,CPU 应该能够处理 DeepSeek 模型的大小。

DeepSeek R1 小型、中型和大型模型配置需求

如果你正考虑在本地家用电脑或笔记本上运行新的 DeepSeek R1 AI 推理模型,你可能会想了解运行小型、中型和大型 AI DeepSeek 模型所需的硬件需求。DeepSeek R1 是一个可扩展的 AI 模型,旨在满足从轻量级任务到企业级操作的广泛应用需求。

根据你打算部署的模型大小,其硬件需求差异显著,从小型 15 亿参数版本到庞大的 6710 亿参数模型,了解这些需求对于实现最佳性能和资源效率至关重要。

关键要点:

  • DeepSeek R1 提供可扩展的 AI 模型,硬件需求根据模型大小差异显著,从 15 亿到 6710 亿参数。

  • 较小的模型(15 亿)非常易于使用,仅需 CPU、8GB 内存,无需专用 GPU,而稍大一些的模型(70 亿-80 亿)从至少 8GB 显存的 GPU 中受益,性能更快。

  • 中型模型(140 亿-320 亿)需要 12GB-24GB 显存的 GPU,以实现最佳性能,平衡资源需求和计算效率。

  • 较大的模型(700 亿-6710 亿)需要高端硬件,包括 48GB 显存的 GPU 或多 GPU 配置(例如 20 张 Nvidia RTX 3090 或 10 张 Nvidia RTX A6000),用于企业级应用。

  • 高效部署取决于将模型大小与可用资源对齐,确保可扩展性,并为大型设置规划电源、散热和硬件兼容性。

DeepSeek R1 在设计时考虑了可扩展性,提供了从轻量级任务到企业级操作的各种选项。但随着模型大小的增长,硬件需求也随之增加,了解你的系统在其中的位置是关键。

小型模型:易于使用且轻量级

DeepSeek R1 的 15 亿参数版本设计得非常易于使用,硬件需求 minimal。这使其成为拥有标准计算设置的用户的绝佳选择。要有效运行此模型,你需要:

  • 不超过 10 年的 CPU

  • 至少 8GB 内存

  • 无需专用 GPU 或显存

这种配置非常适合那些优先考虑简单性和成本效率而非处理速度的用户。然而,如果你计划使用稍大一些的模型,如 70 亿或 80 亿版本,需求会适度增加。虽然这些模型仍然可以在仅 CPU 的系统上运行,但性能可能会较慢。为了提高速度和效率,考虑使用至少 8GB 显存的 GPU。这允许模型使用并行处理,显著提高计算时间。

中型模型:寻求平衡

对于中型模型,如 140 亿和 320 亿版本,硬件需求变得更加 substantial,反映了它们增加的计算复杂性。这些模型在性能和资源需求之间取得了平衡,使其适合拥有中等 advanced 硬件设置的用户。以下是你需要的:

  • 140 亿模型: 需要至少 12GB 显存的 GPU,虽然 16GB 更推荐,以实现更平稳的运行并容纳额外的进程。

  • 320 亿模型: 至少需要 24GB 显存才能实现最佳的 GPU 性能。显存较少的系统仍然可以运行模型,但工作负载将分布在 GPU、CPU 和内存之间,导致处理速度较慢。

这些中型模型非常适合需要计算能力与资源可用性之间平衡的用户。然而,与小型模型相比,它们需要更 robust 的硬件,特别是如果你旨在保持高效的处理时间。

大规模模型:高级应用的高端硬件

随着你扩展到更大的模型,如 700 亿和 6710 亿版本,硬件需求显著增加。这些模型专为 advanced 应用而设计,通常在企业或研究环境中,高端硬件是必需的。以下是这些大规模模型的需求:

  • 700 亿模型: 需要 48GB 显存的 GPU 才能实现无缝运行。显存较少的系统将体验到较慢的性能,因为计算将卸载到 CPU 和内存。

  • 6710 亿模型: 这个模型代表了 DeepSeek R1 可扩展性的上限,需要大约 480GB 显存。多 GPU 配置是必需的,例如:

    • 20 张 Nvidia RTX 3090 GPU(每张 24GB)

    • 10 张 Nvidia RTX A6000 GPU(每张 48GB)

这些配置通常保留给拥有 substantial 计算资源的企业级应用或研究机构。

部署这些大规模模型不仅需要高端 GPU,还需要仔细规划电源供应、散热系统和硬件兼容性。确保你的基础设施能够处理增加的负载对于保持操作效率至关重要。

高效 AI 部署的关键因素

为 DeepSeek R1 选择合适的硬件涉及将模型大小与可用资源和未来目标对齐。以下是一些关键考虑因素:

  • 小型模型: 这些模型只需要标准硬件,使其能够被拥有 basic 设置的大多数用户使用。

  • 中型模型: 这些模型从具有适度显存容量的 GPU 中显著受益,提高了性能并减少了处理时间。

  • 大型模型: 这些模型需要高端 GPU 或多 GPU 配置,以及 robust 的电源和散热系统,以确保平稳运行。

  • 可扩展性: 如果你预计将来会升级到更大的模型,确保你的硬件设置是可扩展的,并且能够容纳增加的需求。

对于多 GPU 配置,验证 GPU 之间的兼容性并确保你的系统能够处理增加的计算负载是 essential 的。此外,在规划硬件投资时,考虑与电源消耗和散热相关的长期成本。

有效部署 DeepSeek R1

DeepSeek R1 的硬件需求反映了其可扩展性和适应性,满足了 diverse 的用例需求。小型模型对于拥有标准硬件的用户来说是易于使用的,提供了简单性和成本效率。中型模型在性能和资源需求之间提供了平衡,而大型模型需要为 enterprise 或研究级应用设计的 advanced 设置。通过理解这些需求并将其与你的特定需求对齐,你可以有效地部署 DeepSeek R1,确保最佳性能和资源利用。如果只想CPU本地部署,请参考《本地使用CPU快速体验DeepSeek R1》。

下面给出各主要模型的的参考部署配置(由GPUStack社区提供):

模型名称

上下文大小

显存需求

推荐的GPU配置

R1-Distill-Qwen-1.5B (Q4_K_M)

32K

2.86 GiB

RTX 4060 8GB x 1

R1-Distill-Qwen-1.5B (Q8_0)

32K

3.47 GiB

RTX 4060 8GB x 1

R1-Distill-Qwen-1.5B (FP16)

32K

4.82 GiB

RTX 4060 8GB x 1

R1-Distill-Qwen-7B (Q4_K_M)

32K

7.90 GiB

RTX 4070 12GB x 1

R1-Distill-Qwen-7B (Q8_0)

32K

10.83 GiB

RTX 4080 16GB x 1

R1-Distill-Qwen-7B (FP16)

32K

17.01 GiB

RTX 4090 24GB x 1

R1-Distill-Llama-8B (Q4_K_M)

32K

10.64 GiB

RTX 4080 16GB x 1

R1-Distill-Llama-8B (Q8_0)

32K

13.77 GiB

RTX 4080 16GB x 1

R1-Distill-Llama-8B (FP16)

32K

20.32 GiB

RTX 4090 24GB x 1

R1-Distill-Qwen-14B (Q4_K_M)

32K

16.80 GiB

RTX 4090 24GB x 1

R1-Distill-Qwen-14B (Q8_0)

32K

22.69 GiB

RTX 4090 24GB x 1

R1-Distill-Qwen-14B (FP16)

32K

34.91 GiB

RTX 4090 24GB x 2

R1-Distill-Qwen-32B (Q4_K_M)

32K

28.92 GiB

RTX 4080 16GB x 2

R1-Distill-Qwen-32B (Q8_0)

32K

42.50 GiB

RTX 4090 24GB x 3

R1-Distill-Qwen-32B (FP16)

32K

70.43 GiB

RTX 4090 24GB x 4

R1-Distill-Llama-70B (Q4_K_M)

32K

53.41 GiB

RTX 4090 24GB x 5

R1-Distill-Llama-70B (Q8_0)

32K

83.15 GiB

A100 80GB x 1

R1-Distill-Llama-70B (FP16)

32K

143.83 GiB

A100 80GB x 2

R1-671B (UD-Q1_S)

32K

225.27 GiB

A100 80GB x 4

R1-671B (UD-Q1_M)

32K

251.99 GiB

A100 80GB x 4

R1-671B (UD-Q2_XXS)

32K

277.36 GiB

A100 80GB x 5

R1-671B (UD-Q2_K_XL)

32K

305.71 GiB

A100 80GB x 5

R1-671B (Q2_K_XS)

32K

300.73 GiB

A100 80GB x 5

R1-671B (Q2_K / Q2_K_L)

32K

322.14 GiB

A100 80GB x 6

R1-671B (Q3_K_M)

32K

392.06 GiB

A100 80GB x 7

R1-671B (Q4_K_M)

32K

471.33 GiB

A100 80GB x 8

R1-671B (Q5_K_M)

32K

537.31 GiB

A100 80GB x 9

R1-671B (Q6_K)

32K

607.42 GiB

A100 80GB x 11

R1-671B (Q8_0)

32K

758.54 GiB

A100 80GB x 13

R1-671B (FP8)

32K

805.2 GB

H200 141GB x 8

建议:

  1. 对于最佳性能: 选择一台配备高端显卡(如 NVIDIA 最新的 RTX 3090 或 RTX 4090)或双显卡配置的机器,以适应最大的模型(65B 和 70B)。具有足够内存(最低 16GB,但 64GB 最好)的系统将是最佳选择。

  2. 对于预算限制: 如果您的预算有限,专注于适合系统内存的 Deepseek GGML/GGUF 模型。记住,虽然您可以将一些权重卸载到系统内存中,但这会带来性能成本。

当然,实际性能将取决于几个因素,包括具体任务、模型实现和其他系统进程。

参考资料:

1.https://github.com/deepseek-ai/DeepSeek-R1 

2.https://www.geeky-gadgets.com/hardware-requirements-for-deepseek-r1-ai-models/ 

3.https://www.hardware-corner.net/llm-database/Deepseek/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25541.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IP-----动态路由OSPF

这只是IP的其中一块内容,IP还有更多内容可以查看IP专栏,前一章内容为GRE和MGRE ,可通过以下路径查看IP-------GRE和MGRE-CSDN博客,欢迎指正 注意!!!本部分内容较多所以分成了两部分在下一章 5.动态路由OS…

ClkLog里程碑:荣获2024上海开源技术应用创新竞赛三等奖

2024年10月,ClkLog团队参加了由上海计算机软件技术开发中心、上海开源信息技术协会联合承办的2024上海数智融合“智慧工匠”选树、“领军先锋”评选活动——开源技术应用创新竞赛。我们不仅成功晋级决赛,还荣获了三等奖!这一成就不仅是对ClkL…

计算机毕业设计Python+DeepSeek-R1大模型考研院校推荐系统 考研分数线预测 考研推荐系统 考研(源码+文档+PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

NFC拉起微信小程序申请URL scheme 汇总

NFC拉起微信小程序,需要在微信小程序开发里边申请 URL scheme ,审核通过后才可以使用NFC标签碰一碰拉起微信小程序 有不少人被难住了,从微信小程序开发社区汇总了以下信息,供大家参考 第一,NFC标签打开小程序 https://…

DeepSeek推出DeepEP:首个开源EP通信库,让MoE模型训练与推理起飞!

今天,DeepSeek 在继 FlashMLA 之后,推出了第二个 OpenSourceWeek 开源项目——DeepEP。 作为首个专为MoE(Mixture-of-Experts)训练与推理设计的开源 EP 通信库,DeepEP 在EP(Expert Parallelism&#xff09…

【数据结构】 最大最小堆实现优先队列 python

堆的定义 堆(Heap)是一种特殊的完全二叉树结构,通常分为最大堆和最小堆两种类型。 在最大堆中,父节点的值总是大于或等于其子节点的值; 而在最小堆中,父节点的值总是小于或等于其子节点的值。 堆常用于实…

重新审视 ChatGPT 和 Elasticsearch:第 2 部分 - UI 保持不变

作者:来自 Elastic Jeff Vestal 本博客在第 1 部分的基础上进行了扩展,介绍了基于 RAG 的搜索系统的功能齐全的 Web UI。最后,你将拥有一个将检索、搜索和生成过程结合在一起的工作界面,同时使事情易于调整和探索。 不想读完整个内…

【开源】低代码 C++程序框架,Linux多线程程序

大家好,欢迎来到停止重构的频道。 本期介绍我们新的C低代码框架:Bees,用于编写Linux/Unix的多线程程序。 低代码框架一般是不会对C程序下手的,因为C程序一般是比较复杂的程序,光是多线程同步就够头疼的了。 但是我们…

数据库的sql语句

本篇文章主要用来收集项目开发中,遇到的各种sql语句的编写。 1、根据user表的role_id字段,查询role表。 sql语句:使用JOIN连接两个表 SELECT u.*,r.rolename FROM user u JOIN role r ON u.role_id r.id WHERE u.id 1; 查询结果&#xff1a…

从零开始用react + tailwindcs + express + mongodb实现一个聊天程序(二)

1.安装mogondb数据库 参考MongoDB安装配置教程(详细版)_mongodb安装详细步骤-CSDN博客 安装mondbcompass数据库连接工具 参考https://www.mongodb.com/zh-cn/docs/compass/current/connect/ 2.后端服务 1.创建src文件夹 并在src文件夹下创建 index…

opencv:距离变换 cv2.distanceTransform

函数 cv2.distanceTransform() 用于计算图像中每一个非零点像素与其最近的零点像素之间的距离(Distance Transform, DT算法),输出的是保存每一个非零点与最近零点的距离信息;图像上越亮的点,代表了离零点的距离越远。 …

单目摄像头物体深度计算基础原理

三维空间物体表面点位与其在图像中对应点之间的相互关系,必须建立相机成像的几何模型,这些几何模型参数就是相机参数,而相机参数的求解就是相机标定。 相机的参数矩阵包括内参和外参: 外参:决定现实坐标到摄像机坐标。…

RabbitMQ系列(一)架构解析

RabbitMQ 架构解析 RabbitMQ 是一个基于 AMQP 协议的开源消息中间件,其核心架构通过多组件协作实现高效、可靠的消息传递。以下是其核心组件与协作流程的详细说明: 一、核心组件与功能 Broker(消息代理服务器) RabbitMQ 服务端核…

Spring Cloud Alibaba与Spring Boot、Spring Cloud版本对应关系

一、前言 在搭建SpringCloud项目环境架构的时候,需要选择SpringBoot和SpringCloud进行兼容的版本号,因此对于选择SpringBoot版本与SpringCloud版本的对应关系很重要,如果版本关系不对应,常见的会遇见项目启动不起来,怪…

[Web 信息收集] Web 信息收集 — 手动收集域名信息

关注这个专栏的其他相关笔记:[Web 安全] Web 安全攻防 - 学习手册-CSDN博客 0x01:信息收集 —— 域名联系人信息 当我们知道目标的域名之后,我们要做的第一件事就是获取域名的注册信息,包括该域名的 DNS 服务器信息和注册人的联系…

基于Rook的Ceph云原生存储部署与实践指南(上)

#作者:任少近 文章目录 1 Ceph环境准备2 rook部署ceph群集2.1 Rook 帮助地址2.2 安装ceph2.3 获取csi镜像2.4 Master参加到osd2.5 设置默认存储 3 Rook部署云原生RBD块存储3.1 部署storageclass资源3.2 部署WordPress使用RBD3.3 WordPress访问 4 Rook部署云原生RGW…

使用Crawlee可破题js渲染采集数据

使用 Crawlee 实现自动化爬虫流程 1. Crawlee 简介 Crawlee 是一个强大的爬虫框架,用于快速构建和维护可靠的爬虫。它支持多种爬虫类型,包括基于 Cheerio 和 Playwright 的爬虫,能够高效处理静态和动态网页。 2. 项目目标 通过自动化脚本实…

二、IDE集成DeepSeek保姆级教学(使用篇)

各位看官老爷好,如果还没有安装DeepSeek请查阅前一篇 一、IDE集成DeepSeek保姆级教学(安装篇) 一、DeepSeek在CodeGPT中使用教学 1.1、Edit Code 编辑代码 选中代码片段 —> 右键 —> CodeGPT —> Edit Code, 输入自然语言可编辑代码,点击S…

threejs 安装教程

嗨,我是小路。今天主要和大家分享的主题是“threejs 安装教程”。 在当今的数字化时代,用户对视觉体验的要求越来越高。传统的2D网页已经无法满足所有需求,而三维(3D)图形技术则为前端开发者提供了新的方向。…