LLMs之DeepSeek:DeepSeek-V3/R1推理系统的架构设计和性能统计的简介、细节分析之详细攻略

LLMs之DeepSeek:DeepSeek-V3/R1推理系统的架构设计和性能统计的简介、细节分析之详细攻略

目录

DeepSeek-V3/R1推理系统的架构设计

1、大规模跨节点专家并行 (EP)

2、计算-通信重叠

3、负载均衡

4、在线推理系统图


DeepSeek-V3/R1推理系统的架构设计

2025年3月1日,DeepSeek-V3/R1推理系统的设计目标是实现高吞吐量低延迟。为了达到这2个目标,系统采用了跨节点专家并行(EP)策略:
>> 专家并行 (EP):通过将专家分配到不同的GPU上显著提高批量大小,从而提升GPU矩阵计算效率,提高吞吐量;同时,每个GPU只处理少量专家减少内存访问需求,降低延迟。
>> EP的挑战性:EP增加了系统复杂性,主要体现在跨节点通信负载均衡两个方面。 跨节点通信需要设计合适的计算流程来重叠计算和通信;多节点参与需要数据并行 (DP) 和不同DP实例之间的负载均衡。

DeepSeek-V3/R1推理系统通过巧妙地运用专家并行计算-通信重叠多层次负载均衡策略,在保证低延迟的同时实现了高吞吐量,并展现了良好的经济效益。

GitHub地址:open-infra-index/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md at main · deepseek-ai/open-infra-index · GitHub

1、大规模跨节点专家并行 (EP)

DeepSeek-V3/R1模型具有高稀疏性每层256 位专家中只有8个专家被激活),因此需要极大的批量大小来保证每个专家的足够批量,从而实现高吞吐量低延迟。 系统采用了预填充-解码解耦架构,在预填充解码阶段使用不同程度的并行化
>> 预填充阶段:使用路由专家EP32和MLA/共享专家DP32,每个部署单元包含4个节点和32个冗余路由专家,其中每个GPU处理9个路由专家和1个共享专家。
>> 解码阶段:使用路由专家EP144和MLA/共享专家DP144,每个部署单元包含18个节点和32个冗余路由专家,其中每个GPU处理2个路由专家和1个共享专家。

2、计算-通信重叠

大规模跨节点EP会带来显著的通信开销。为了缓解这个问题,系统采用了双批次重叠策略:将请求批次分成两个微批次交替执行,隐藏一个微批次的通信成本在另一个微批次的计算中。
>> 预填充阶段:预填充阶段采用这种双微批次交替执行策略;
>> 解码阶段:解码阶段由于不同阶段的执行时间不平衡,将注意力层细分为两步,并使用5级流水线来实现计算通信的无缝重叠

https://github.com/deepseek-ai/profile-data通信计算重叠机制的更多详细信息:https://github.com/deepseek-ai/profile-data

3、负载均衡

大规模并行(包括DP和EP)带来了负载不均衡的挑战,如果单个 GPU 的计算或通信负荷过重,它就会成为性能瓶颈,导致整个系统变慢,同时使其他 GPU 处于闲置状态。为了最大化资源利用率,系统在三个层次上进行了负载均衡:
>> 预填充负载均衡器:解决请求数量和序列长度在不同DP实例之间变化导致的核心注意力计算和调度发送负载不均衡问题。目标是平衡核心注意力计算和GPU的输入token数量。
>> 解码负载均衡器:解决请求数量和序列长度在不同DP实例之间变化导致的核心注意力计算(与KVCache使用相关)和调度发送负载不均衡问题。目标是平衡KVCache使用和GPU的请求数量。
>> 专家并行负载均衡器:解决高负载专家导致不同GPU之间专家计算工作负载不均衡的问题。目标是平衡每个GPU上的专家计算。

4、在线推理系统图

所有DeepSeek-V3/R1推理服务都在H800 GPU上运行,精度与训练一致(矩阵乘法和调度传输使用FP8,核心MLA计算和组合传输使用BF16)。 系统根据昼夜服务负载变化动态调整部署节点数量。

此外,由于白天服务负载高,夜间负载低,我们实施了在白天高峰时段在所有节点部署推理服务的机制。在夜间负载低的时段,我们减少推理节点并将资源分配给研究和训练。在过去24小时内(UTC+8 2025年2月27日下午12点到2025年2月28日下午12点):

● 峰值节点占用率:278个节点
● 平均节点占用率:226.75个节点(每个节点包含8个H800 GPU)
● 总输入token:6080亿,其中3420亿(56.3%)命中磁盘KV缓存
● 总输出token:1680亿,平均输出速度为每秒20-22个token
● 平均每个输出token的KV缓存长度:4989个token
● 每个H800节点的平均吞吐量:预填充阶段约73.7k tokens/s输入,解码阶段约14.8k tokens/s输出
● 日总成本:约87072美元
● 理论日总收入 (按DeepSeek-R1定价计算):约562027美元,利润率545% (实际收入由于定价策略和非货币化服务等原因远低于此)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26795.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开启AI短剧新纪元!SkyReels-V1/A1双剑合璧!昆仑万维开源首个面向AI短剧的视频生成模型

论文链接:https://arxiv.org/abs/2502.10841 项目链接:https://skyworkai.github.io/skyreels-a1.github.io/ Demo链接:https://www.skyreels.ai/ 开源地址:https://github.com/SkyworkAI/SkyReels-A1 https://github.com/Skywork…

苹果廉价机型 iPhone 16e 影像系统深度解析

【人像拍摄差异】 尽管iPhone 16e支持后期焦点调整功能,但用户无法像iPhone 16系列那样通过点击屏幕实时切换拍摄主体。前置摄像头同样缺失人像深度控制功能,不过TrueTone原彩闪光灯系统在前后摄均有保留。 很多人都高估了 iPhone 的安全性,查…

中科大计算机网络原理 1.5 Internt结构和ISP

一、互联网的层次化架构 ‌覆盖范围分层‌ ‌主干网(Tier-1级)‌ 国家级或行业级核心网络,承担跨区域数据传输和全球互联功能。例如中国的四大主干网(ChinaNET、CERNET等)以及跨国运营商(如AT&T、Deuts…

线程 -- 线程池

线程池 谈起线程池之前,我们可以联想到常量池,那什么是常量池呢? 常量池:字符串常量,在 Java 程序最初构建的时候,就已经准备好了。等程序运行的时候,这样的常量也就加载到内存中了。因此剩下…

uniapp-原生android插件开发摘要

uni-app在App侧的原生扩展插件,支持使用java、object-c等原生语言编写,从HBuilderX 3.6起,新增支持了使用uts来开发原生插件。 基础项目 UniPlugin-Hello-AS工程请在App离线SDK中查找 基础项目(App离线SDK)已经配置好了自定义插件所需要的…

Hive-05之查询 分组、排序、case when、 什么情况下Hive可以避免进行MapReduce

一、目标 掌握hive中select查询语句中的基本语法掌握hive中select查询语句的分组掌握hive中select查询语句中的join掌握hive中select查询语句中的排序 二、要点 1. 基本查询 注意 SQL 语言大小写不敏感SQL 可以写在一行或者多行关键字不能被缩写也不能分行各子句一般要分行…

MacDroid for Mac v2.3 安卓手机文件传输助手 支持M、Intel芯片 4.7K

MacDroid 是Mac毒搜集到的一款安卓手机文件传输助手,在Mac和Android设备之间传输文件。您只需要将安卓手机使用 USB 连接到 Mac 电脑上即可将安卓设备挂载为本地磁盘,就像编辑mac磁盘上的文件一样编辑安卓设备上的文件,MacDroid支持所有 Andr…

题解:洛谷 P2199 最后的迷宫

题目https://www.luogu.com.cn/problem/P2199 显然,数据最大 ,数组我们开不下,动态开数组。 对于每一个查询,从起点开始,走一步判断是否能看到火焰杯。 如果已经没法走了,直接拆墙,输出 Poor…

如何在Github上面上传本地文件夹

前言 直接在GitHub网址上面上传文件夹是不行的,需要一层一层创建然后上传,而且文件的大小也有限制,使用Git进行上传更加方便和实用 1.下载和安装Git Git - Downloads 傻瓜式安装即可 2.获取密钥对 打开自己的Github,创建SSH密钥&…

vscode接入ai插件(免费版)

一、安装插件 扩展程序搜索tongyilingma 点击install安装 二、登录阿里云 安装好之后左侧会出现通义的图标。 点击通义图标,右上角登录。 登陆成功后即可使用。 三、位置 在左边可能不太符合编码习惯,我们点击右侧位置图标,把通义图标拖…

【deepseek第二课】docker部署dify,配置私有化知识库,解决网络超时,成功安装

【deepseek第二课】docker部署dify,配置私有化知识库,解决网络超时,成功安装 1. dify安装1.1 官网安装文档介绍1.2 安装报错,网络连接问题使用镜像加速器处理1.3 dify后台启动很多docker进程2. 页面探索2.1 设置管理账号2.2 添加ollama支持的模型3. 创建知识库4. 创建一个聊…

如何利用SpringSecurity进行认证与授权

目录 一、SpringSecurity简介 1.1 入门Demo 二、认证 ?编辑 2.1 SpringSecurity完整流程 2.2 认证流程详解 ?2.3 自定义认证实现 2.3.1 数据库校验用户 2.3.2 密码加密存储 2.3.3 登录接口实现 2.3.4 认证过滤器 2.3.5 退出登录? 三、授权 3.1 权限系统作用 …

非平稳时间序列分析(二)——ARIMA(p, d, q)模型

此前篇章(平稳序列): 时间序列分析(一)——基础概念篇 时间序列分析(二)——平稳性检验 时间序列分析(三)——白噪声检验 时间序列分析(四)—…

【软考-架构】1.2、指令系统-存储系统-cache

GitHub地址:https://github.com/tyronczt/system_architect ✨资料&文章更新✨ 指令系统 计算机指令执行过程:取指令一一分析指令一一执行指令三个步骤,首先将程序计数器PC中的指令地址取出,送入地址总线,CPU依据…

家用可燃气体探测器——家庭燃气安全的坚实防线

随着社会的发展和变迁,天然气为我们的生活带来了诸多便利,无论是烹饪美食,还是温暖取暖,都离不开它的支持。然而,燃气安全隐患如影随形,一旦发生泄漏,可能引发爆炸、火灾等严重事故,…

鸿蒙 ArkUI 实现敲木鱼小游戏

敲木鱼是一款具有禅意的趣味小游戏,本文将通过鸿蒙 ArkUI 框架的实现代码,逐步解析其核心技术点,包括动画驱动、状态管理、音效震动反馈等。 一、架构设计与工程搭建 1.1 项目结构解析 完整项目包含以下核心模块: ├── entry…

分布式日志和责任链路

目录 日志问题 责任链问题 分布式日志 GrayLog简介 部署安装 收集日志 配置Inputs 集成微服务 日志回收策略 搜索语法 搜索语法 自定义展示字段 日志统计仪表盘 创建仪表盘 链路追踪 APM 什么是APM 原理 技术选型 Skywalking简介 部署安装 微服务探针 整合…

进程间通信(IPC)与匿名管道

目录 一、进程间通信(IPC)概述 1. 核心概念 2. 核心目的 3. IPC分类 二、匿名管道 1. 什么是管道 示例:Shell中的管道 2. 匿名管道的原理 3. 匿名管道的实现 3.1 创建管道:pipe()函数 3.2 使用 fork 共享管道 3.3 站在…

构建智能 SQL 查询代理agent,把整个查询过程模块化,既能自动判断使用哪些表,又能自动生成 SQL 语句,最终返回查询结果

示例代码: import os import getpass from dotenv import load_dotenv from pyprojroot import here from typing import List from pprint import pprint from pydantic import BaseModel from langchain_core.tools import tool from langchain_core.runnables i…

从矩阵乘法探秘Transformer

目录 前言1. transformer背景1.1 回顾线性代数的知识1.1.1 矩阵和行向量1.1.2 矩阵相乘和算子作用1.1.3 从分块矩阵的乘法来看 Q K T V QK^TV QKTV 1.2 encoder-decoder1.3 低阶到高阶语义向量的转换1.4 核心的问题 2. transformer网络结构2.1 基于KV查询的相似性计算2.2 在一个…