DeepSeek系列模型技术报告的阅读笔记

之前仔细阅读了DeepSeek系列模型的主要技术方面内容与发展脉络，以下是DeepSeek系列模型技术报告的笔记，有错误的地方欢迎指正！

文章目录

DeepSeek系列模型技术报告的阅读笔记
- GQA
- Deepseek MoE
- - Abstract
  - Introduction
  - Preliminaries: Mixture-of-Experts for Transformers
  - DeepSeekMoE Architecture
  - - Fine-Grained Expert Segementation
    - Shared Expert Isolation
    - Load Balance Consideration
  - Experiments
  - - Experimental Setup
    - Results
- DeepseekMath
- - PPO算法
  - GRPO算法
  - - Outcome Supervision RL with GRPO
    - Process Supervision RL with GRPO
    - Iterative RL with GRPO
- Deepseek V2
- - Abstract
  - Introduction
  - Architecture
  - - Basic Architecture
  - Multi-Head Latent Attention: Boosting Inference Efficiency
  - - Preliminaries: Standard Multi-Head Attention
    - Low-Rank Key-Value Joint Compression
    - Decoupled Rotary Position Embedding
  - Alignment
  - - Supervised Fine-Tuning
    - Reinforcement Learning
- Deepseek V3
- - Astract
  - Introduction
  - Architecture
  - Basic Architecture
  - - Multi-Head Latent Attention
    - DeepSeekMoE with Auxiliary-Loss-Free Load Balancing
    - Multi-Token Prediction
  - Infrastructures
  - - DualPipe and Computation-Communication Overlap
    - FP8 Mixed Precision Framework
- DeepSeek-R1
- - Abstract
  - Introduction
  - Approach
  - - DeepSeek-R1-Zero: Reinforcement Learning on the Base Model
    - DeepSeek-R1: Reinforcement Learning with Cold Start
    - Distillation: Empower Small Models with Reasoning Capability

GQA

论文：GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

Deepseek LLM中用到的注意力机制

在K部分的尺度变化为：

GQA overview

之后分组注意力：

GQA comparison

Deepseek MoE

论文：DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

单位：DeepSeek-AI

作者：Damai Dai et. al.

Abstract

问题：传统的 MoE 架构，如GShard，激活N个专家模型中的Top K个，面临专家模型专业性缺失的问题，例如：无法做到每个专家都获得了不重叠和集中的知识（换句话说，专家模型太泛化，不够像不同领域的专家）

方法：DeepSeekMoE，专业化专家模型

两种主要的策略：

精细地切分专家模型到 $m\cdot N$ 个规模，同时激活 $m\cdot K$ 个模型，以允许更灵活地组合已激活的专家
将 $K_s$ 个专家隔离并作为共享的路由专家模型，以捕获通用的知识、减少专家模型冗余

结果：

从2B参数的模型规模开始，比GShard 2.9B模型规模、计算开销更小；
DeepSeekMoE 2B 的性能几乎接近同类2B全连接层结构的模型性能
当使用DeepSeekMoE 145B模型时，效果远超GShard，在18.2-28.5%的计算量上表现出同Deepseek 67B相当的效果

Introduction

过去的MoE模型：Gshard, Switch Transformers

传统的MoE模型结构：传统的 MoE 架构用 MoE 层替换 Transformer 中的前馈网络（FFN）;每个 MoE 层由多个专家组成，每个专家在结构上与标准 FFN 相同，每个token都分配给一名或两名专家

因结构缺陷引发的问题：

知识混淆: 专家数量有限 -> 分配给特定专家的令牌可能会涵盖不同的知识，造成知识混淆；同时，不同类型的知识混合在一块也无法进行区分与分别利用
知识冗余: 分配给专家的token可能依赖常识 -> 不同专家收敛到相同的共享知识，导致模型规模与参数上的冗余

方法：DeepSeek-MoE

包括了两种主要的策略：

细粒度的专家细分 (Fine-Grained Expert Segmentation): 在保持参数不变的前提下通过切割FFN的中间隐含维度进一步细分专家，同时在相同计算开销时激活更多的细粒度专家以实现灵活且适应性强的已激活专家组合 -> 不同的细粒度专家更精细地分解、学习到多样化知识，并保持高度的专业性
共享专家隔离 (Share)：分离出某些专家作为共享专家，这些专家始终处于激活状态，旨在在不同环境中捕获和整合共同知识，将常识压缩到这些共享的专家中以令其他路由专家之间的冗余将得到缓解 -> 确保每个路由的 Expert 通过专注于独特的方面来保持专业化

Preliminaries: Mixture-of-Experts for Transformers

标准的Transformer堆叠L层Transformer块，T为序列长度，第 $l$ 层Transformer块的表示为：

$\bold{u}^l_{1:T}=SelfAttn(\bold{h}^{l-1}_{1:T})+\bold{h}^{l-1}_{1:T}$

$\bold{h}^l_t=FFN(\bold{u}^l_t)+\bold{u}^l_t$

经典的MoE结构：用MoE层替换FFN，描述为：

$\bold{h}^l_t=\sum^N_{i=1}(g_{i,t}FFN_i(\bold{u}^l_t))+\bold{u}^l_t$

$g_{i,t}=\begin{cases}s_{i,t}&s_{i,t}\in TopK(\{s_{j,t}|1\leq j\leq N\},K)\\ 0 & otherwise\end{cases}$

$s_{i,t}=Softmax_i(\bold{u}^{l\top}_t \bold{e}^l_i)$

$N$ 为专家数量， $g_{i,t}$ 表示为第 $i$ 个专家的阈值并且是稀疏的， $s_{i,t}$ 表示为token到专家的关联性， $TopK(\cdot)$ 表示为前 $K$ 个关联性最高的分数并代表了第 t 个标记和所有 N 个专家计算的分数， $\bold{e}^l_i$ 表示第 $l$ 层第 $i$ 个专家的中心

DeepSeekMoE Architecture

DeepSeekMoE-v1

Fine-Grained Expert Segementation

通过减少FFN的中间隐藏层为原来的 $\frac{1}{m}$ ，切片每个专家FFN到m个更小的专家，因此公式描述为：

$\bold{h}^l_t=\sum^{mN}_{i=1}(g_{i,t}FFN_i(\bold{u}^l_t))+\bold{u}^l_t$

$g_{i,t}=\begin{cases}s_{i,t}&s_{i,t}\in TopK(\{s_{j,t}|1\leq j\leq mN\},mK)\\ 0 & otherwise\end{cases}$

$s_{i,t}=Softmax_i(\bold{u}^{l\top}_t \bold{e}^l_i)$

Shared Expert Isolation

单独利用 $K_s$ 个专家实现共享专家隔离，公式描述为：

$\bold{h}^l_t=\sum^{K_s}_{i=1}FFN_i(\bold{u}^l_t)+\sum^{mN}_{i=1}(g_{i,t}FFN_i(\bold{u}^l_t))+\bold{u}^l_t$

$g_{i,t}=\begin{cases}s_{i,t}&s_{i,t}\in TopK(\{s_{j,t}|1\leq j\leq mN\},mK - K_s)\\ 0 & otherwise\end{cases}$

$s_{i,t}=Softmax_i(\bold{u}^{l\top}_t \bold{e}^l_i)$

Load Balance Consideration

Expert-Level Balance Loss: 其中 $\alpha_1$ 为专家级平衡超参数, $N^{'}$ 为 $mN-K_s)$ ， $K^{'}$ 为 $mK-K_s)$ ， $\mathbb{1}(\cdot)$ 为指示函数

$L_{ExpBal} = \alpha_1\sum^{N'}_{i=1}f_iP_i$

$f_i=\frac{N'}{K'T}\sum^T_{t=1}\mathbb{1}(\text{Token} \ t \ \text{selects Expert} \ i)$

$P_i=\frac{1}{T}\sum^T_{t=1}s_{i,t}$

Device-Level Balance Loss: 其中 $\alpha_2$ 为设备级平衡超参数,将所有路由到的专家分组为 $D$ 个,表示为 $\{\epsilon_1,\epsilon_2,\cdots,\epsilon_D\}$ ,则每组在一个设备上,则损失函数为:

$L_{DevBal}=\alpha_2\sum^D_{i=1}f'_iP'_i$

$f'_i=\frac{1}{|\epsilon_i|}\sum_{j\in \epsilon_i}f_j$

$P'_i=\sum_{j\in \epsilon_i}P_j$

Experiments

Experimental Setup

采样自Deepseek AI公司自建的多语言语料库, 100B个token,训练BPE

训练工具:HAI-LLM (幻方自家的训练平台),包含了张量并行、ZeRO数据并行、PipeDream管道并行

显卡：H800、A100集群节点（有NVLink、NVSwitch连接节点）

优化器：AdamW

对齐方式：SFT

下游任务验证：

语言建模 (Language Modeling)
语言理解与推理 (Language Understanding and Reasoning)
阅读理解 (Reading Comprehension)
代码生成 (Code Generation)
闭卷问答 (Close-Book Question Answering)

Results

DeepSeekMoE 与 MoE 模型的上限紧密结合
DeepSeekMoE 在路由专家中表现出较低的冗余
共享专家无法被路由专家取代
DeepSeekMoE 更准确地获取知识
在 2T 令牌上训练 DeepSeekMoE 16B，并展示其可与 DeepSeek 7B 和 LLaMA2 7B 相媲美的出色性能，计算量仅为 40% 左右
将 DeepSeekMoE 扩展到 145B 参数时，DeepSeekMoE 145B 仍然保持了与 GShard 架构相比的巨大优势，并表现出与 DeepSeek 67B 相当的性能

DeepseekMath

论文：DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
作者：Zhihong Shao et. al.
单位：Deep Seek AI et. al.

该论文中讲解了GRPO

PPO算法

PPO是一种演员-评论家算法

优化的替代目标：

$J_{PPO}(\theta)=\mathbb{E}[q\sim P(Q), o\sim \pi_{\theta_{old}}(O|q)]\frac{1}{|o|}\sum^{|o|}_{t=1}\min[\frac{\pi_\theta(o_t|q,o_{<t})}{\pi_{\theta_{old}}(o_t|q,o_{<t})}A_t,clip(\frac{\pi_\theta(o_t|q,o_{<t})}{\pi_{\theta_{old}}(o_t|q,o_{<t})},1-\epsilon, 1+\epsilon)A_t]$

其中 $\pi_{\theta}$ 和 $\pi_{\theta_{old}}$ 为当前与旧的策略模型， $q$ 和 $o$ 分别为从问题数据集与旧策略中采样得到的问题与输出， $\epsilon$ 为剪枝先骨干的超参数， $A_t$ 为优势函数

优势函数由GAE进行计算，基于奖励 $\{r_{\geq t}\}$ 和可学习的值函数 $V_{\phi}$ ，通过KL散度计算：

$r_t=r_{\phi}(q,o_{\leq t}) - \beta\log\frac{\pi_{\theta}(o_t|q, o_{<t})}{\pi_{ref}(o_t|q,o_{<t})}$

其中 $r_{\phi}$ 为奖励模型， $\pi_{ref}$ 为参考模型，用于初始化SFT模型， $\beta$ 为KL惩罚系数

问题：由于 PPO 中采用的价值函数通常是另一个与策略模型大小相当的模型，因此它带来了大量的内存和计算负担

GRPO算法

与PPO的区别：

GRPO vs PPO

优化目标：

$J_{GRPO}(\theta)=\mathbb{E}[q\sim P(Q), \{o_i\}^G_{i=1}\sim \pi_{\theta_{old}}(O|q)]\frac{1}{G}\sum^G_{i=1}\frac{1}{|o_i|}\sum^{|o_i|}_{t=1}\{\min[\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\theta_{old}}(o_{i,t}|q,o_{i,<t})}\hat{A}_{i,t},clip(\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\theta_{old}}(o_{i,t}|q,o_{i,<t})},1-\epsilon, 1+\epsilon)\hat{A}_{i,t}]-\beta\mathbb{D}_{KL}[\pi_{\theta}||\pi_{ref}]\}$

其中 $\epsilon$ 和 $\beta$ 为超参数， $\hat{A}_{i,t}$ 为相关输出奖励的优势， $\mathbb{D}_{KL}[\pi_\theta||\pi_{ref}]=\frac{\pi_{ref}(o_{i,t}|q,o_{i,<t})}{\pi_\theta(o_{i,t}|q,o_{i,<t})}-\log{\frac{\pi_{ref}(o_{i,t}|q,o_{i,<t})}{\pi_\theta(o_{i,t}|q,o_{i,<t})}}-1 > 0$

Outcome Supervision RL with GRPO

形式上，对于每个问题 $q$ ，一组输出 $\{o_1,o_2,\cdots,o_G\}$ 从旧策略模型 $\pi_{\theta_{old}}$ 中采样。然后使用奖励模型对输出进行评分，相应地产生 $G$ 奖励 $\bold{r}=\{r_1,r_2,\cdots,r_G\}$ 。随后，通过减去组平均值并除以组标准差来归一化这些奖励。结果监督在每个输出 $o_i$ 的末尾提供归一化奖励，并将输出中所有token的优势 $\hat{A}_{i,t}$ 设置为归一化奖励，即 $\hat{A}_{i,t}=\widetilde{r}_i=\frac{r_i-mean(\bold{r})}{std(\bold{r})}$ ，然后通过GRPO中定义的目标来优化策略

Process Supervision RL with GRPO

过程监督，在每个推理步骤结束时提供奖励。形式上，给定问题 $q$ 和 $G$ 采样输出 $\{o_1,o_2,\cdots,o_G\}$ ，使用过程奖励模型对输出的每一步进行评分，产生相应的奖励: $\bold{R}=\{\{r^{index(1)}_1,\cdots,r^{index(K_1)}_1\},\cdots,\{r^{index(1)}_G,\cdots,r^{index(K_G)}_G\}\}$ ，其中 $in d e x (j)$ 是第 $j$ 步的结束标记索引， Ki 是第 i 个输出中的总步数。用平均值和标准差对这些奖励进行归一化，即 $\hat{r}^{index(j)}_i=\frac{r^{index(j)}_i-mean(\bold{R})}{std(\bold{R})}$ 。随后，过程监督将每个token的优势计算为以下步骤的归一化奖励之和，即 $\hat{A}_{i,t}=\sum_{index(j)\geq t}\widetilde{r}^{index(j)}_{i}$ ，然后通过GRPO中定义的目标来优化策略。

Iterative RL with GRPO

随着强化学习训练过程的进行，旧的奖励模型可能不足以监督当前的策略模型。因此，进一步探索了 GRPO 的迭代 RL。如下所示，在迭代 GRPO 中，根据策略模型的采样结果为奖励模型生成新的训练集，并使用包含 10% 历史数据的重放机制持续训练旧的奖励模型。然后，将参考模型设置为策略模型，并使用新的奖励模型不断训练策略模型。

GRPO Algorithm

Deepseek V2

论文：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

单位：Deepseek AI

Abstract

Deepseek V2，基于MoE架构，总共236B，对于每个token激活21B，支持最大128K的上下文长度

结构的提升：Multi-head Latent Attention (MLA)，Key-Value缓存压缩

同Deepseek 67B比较：5.76倍生成速度、42.5%的训练成本节省、93.3%的kv cache节约

预训练语料量：8.7T个token

微调方式：SFT+RL

Introduction

问题：

过去的LLM改进是以更大的训练计算资源和推理吞吐量的潜在降低为代价，阻碍 LLM 的广泛适应与使用
Multi-Head Attention的Key-Value (KV) cache对 LLM 的推理效率构成重大障碍
已有的GQA、MQA都是在尝试减少 KV 缓存，这些方法通常会牺牲性能

方法：在Transformer架构上优化了attention机制与FFN，提出了Multi-head Latent Attention (MLA)和DeepSeekMoE

MLA是一种利用低秩key-value联合压缩 (low rank key-value joint compression) 的注意力机制
Transformer中的FFN替换为DeepseekMoE，包含fine-grained expert segmentation和shared expert isolation

数据集：8.1T个token的多源预训练语料库，1.5M个对话场景用于SFT

对齐方式：SFT + GRPO进行模型对齐

Architecture

基于Transformer架构，具体模块如下：

DeepSeek-V2 MoE & MLA

Basic Architecture

第 $t$ 个token的FFN输入为 $\bold{u}_t$ ，计算的输出 $\bold{h}'_t$ 为：

$\bold{h}'_t=\bold{u}_t+\sum^{N_s}_{i=1}FFN^{(s)}_i(\bold{u}_t)+\sum^{N_r}_{i=1}g_{i,t}FFN_i^{(r)}(\bold{u}_t)$

$g_{i,t}=\begin{cases}s_{i,t} & s_{i,t}\in TopK(\{s_{j,t}|1\leq j \leq N_r\},K_r)\\ 0 & otherwise\end{cases}$

$s_{i,t}=Softmax_i(\bold{u}^{\top}_t\bold{e}_i)$

Multi-Head Latent Attention: Boosting Inference Efficiency

Preliminaries: Standard Multi-Head Attention

embedding维度为 $d$ ，头数为 $n_h$ ，单头注意力维度为 $d_h$ ，在注意力层中第 $t$ 个token的注意力输入为 $\bold{h}_t\in \mathbb{R}^d$ ，首先分别乘以三个矩阵得到 $\bold{q}_t$ ， $\bold{k}_t$ ， $\bold{v}_t\in \mathbb{R}^{d_nn_h}$ ，通过三个矩阵 $W^Q$ , $W^K$ , $W^V\in\mathbb{R}^{d_hn_h\times d}$ ，有：

$\bold{q}_t=W^Q\bold{h}_t$

$\bold{k}_t=W^K\bold{h}_t$

$\bold{V}_t=W^V\bold{h}_t$

对于多头注意力，则为：

$[\bold{q}_{t,1};\bold{q}_{t,2};\cdots;\bold{q}_{t,n_h}]=\bold{q}_t$

$[\bold{k}_{t,1};\bold{k}_{t,2};\cdots;\bold{k}_{t,n_h}]=\bold{k}_t$

$[\bold{v}_{t,1};\bold{v}_{t,2};\cdots;\bold{v}_{t,n_h}]=\bold{v}_t$

$\bold{o}_{t,i}=\sum^t_{j=1}Softmax_j(\frac{\bold{q}^\top_{t,i}\bold{k}_{j,i}}{\sqrt{d_h}})\bold{v}_{j,i}$

$\bold{u}_t=W^O[\bold{o}_{t,1};\bold{o}_{t,2};\cdots;\bold{o}_{t,n_h}]$

其中 $\bold{q}_{t,i},\bold{k}_{t,i},\bold{v}_{t,i}\in \mathbb{R}^{d_n}$ ， $W^O\in \mathbb{R}^{d\times d_hn_h}$

Low-Rank Key-Value Joint Compression

$\bold{c}^{KV}_t=W^{DKV}\bold{h}_t$

$\bold{k}^C_t=W^{UK}\bold{c}^{KV}_t$

$\bold{v}^C_t=W^{UV}\bold{c}^{KV}_t$

$\bold{c}^{KV}_t\in\mathbb{R}^{d_c}$ , $W^{DKV}\in\mathbb{R}^{d_c\times d}$ 是一个向下投影矩阵, $W^{UK},W^{UV}\in \mathbb{R}^{d_hn_h\times d_c}$ 是向上投影K、V的矩阵， $d_c(<<d_hn_h)$ 表示KV压缩的维度

在推理过程中，MLA仅使用包含 $d_cl$ 个元素的KV Cache $c^{KV}_t$ ， $l$ 为层数。

进一步利用低秩压缩分解 $q$ ，有：

$\bold{c}^Q_t=W^{DQ}\bold{h}_t$

$\bold{q}^C_t=W^{UQ}\bold{c}^Q_t$

其中， $\bold{c}^Q_t\in\mathbb{R}^{d'_c}$ ， $d'_c (<<d_hn_h)$ 为 $q$ 压缩的维度， $W^{DQ}\in\mathbb{R}^{d'_c\times d}$ ， $W^{UQ}\in \mathbb{R}^{d_hn_h\times d'_c}$

MLA Comparison

Decoupled Rotary Position Embedding

RoPE紧耦合将导致 $W^{UK}$ 无法被 $W^Q$ 吸收，因为与当前生成的标记相关的 RoPE 矩阵将位于 $W^Q$ 和 $W^{UK}$ 之间，并且矩阵乘法不遵循交换定律

$[\bold{q}^R_{t,1};\bold{q}^R_{t,2};\cdots;\bold{q}^R_{t,n_h}]=\bold{q}^R_t=RoPE(W^{QR}\bold{c}^Q_t)$

$\bold{k}^R_t=RoPE(W^{KR}\bold{h}_t)$

$\bold{q}_{t,i}=[\bold{q}^C_{t,i};\bold{q}^R_{t,i}]$

$\bold{k}_{t,i}=[\bold{k}^C_{t,i};\bold{k}^R_t]$

$\bold{o}_{t,i}=\sum^t_{j=1}Softmax_j(\frac{\bold{q}^\top_{t,i}}{\sqrt{d_h+d^R_h}})\bold{v}^C_{j,i}$

$\bold{u}_t=W^O[\bold{o}_{t,1};\bold{o}_{t,2};\cdots;\bold{o}_{t,n_h}]$

$W^{QR}\in \mathbb{R}^{d^R_hn_h\times d'_c}$ ， $W^{KR}\in\mathbb{R}^{d^R_h}\times d$ ， $RoPE(\cdot)$ 表示应用RoPe矩阵， $[\cdot；\cdot]$ 表示拼接操作

因此，Deepseek-V2只要求 $(d_c+d^R_h)l$ 个元素的KV cache

Alignment

Supervised Fine-Tuning

数据集：共1.5M个样本作为指令调优数据集，1.2M 个用于有用的实例、0.3M个用于安全目的，并提高了数据质量

训练细节：2个epoch微调，学习率 $5\times 10^{-6}$

IFEval作为指令遵循评估

Reinforcement Learning

训练算法：GRPO

训练策略：

训练一个推理奖励模型 $RM_{reasoning}$ 用于代码与推理任务，优化策略模型： $r_i=RM_{reasoning}(o_i)$
人类偏好对齐：利用多奖励框架，包有用性奖励模型 $RM_{helpful}$ 、安全性奖励模型 $RM_{safety}$ 、规则约束的奖励模型 $RM_{rule}(O_i)$ ，有： $r_i=c_1 \cdot RM_{helpful(o_i)}+c_2\cdot RM_{safety}(o_i)+c_3\cdot RM_{rule}(o_i)$

Deepseek V3

论文：DeepSeek-V3 Technical Report

单位：DeepSeek AI

Astract

DeepSeek V3，规模671B，激活模型37B

技术点：

MLA
DeepSeek MoE
辅助无损策略：auxiliary-loss-free strategy
多令牌预测训练目标
DualPipe算法
GRPO + SFT对齐

训练时间：2.788M H800 GPU小时

Introduction

模型结构：DeepSeek-MoE + MLA

预训练策略：auxiliary-loss-free策略，FP8混合精度训练框架

并行算法：DualPipe算法

两阶段上下文预训练：

第一阶段：32K上下文拓展
第二阶段：128K上下文拓展
数据量：14.8T 高质量多样化Token

后训练：

从DeepSeek-R1系列模型中蒸馏推理能力
基本思想：SFT + RL （GRPO）

Architecture

Basic Architecture

沿用V2架构，MLA + DeepSeek MoE

DeepSeek V3

Multi-Head Latent Attention

基本不变。

$\bold{c}^{KV}_t=W^{DKV}\bold{h}_t$ (需要caching)

$[\bold{k}^C_{t,1};\bold{k}^C_{t,2};\cdots;\bold{k}^C_{t,n_h}]=\bold{k}^C_t=W^{UK}\bold{c}^{KV}_t$

$\bold{k}^R_t=RoPE(W^{KR}\bold{h}_t)$ (需要caching)

$\bold{k}_{t,i}=[\bold{k}^C_{t,i};\bold{k}^R_t]$

$\bold{v}^C_t=W^{UV}\bold{c}^{KV}_t$

对于Attention queries，使用低秩压缩：

$\bold{c}^Q_t=W^{DQ}\bold{h}_t$

$[\bold{q}^C_{t,1};\bold{q}^C_{t,2};\cdots;\bold{q}^C_{t,n_h}]=\bold{q}^C_t=W^{UQ}\bold{c}^Q_t$

$[\bold{q}^R_{t,1};\bold{q}^R_{t,2};\cdots;\bold{q}^R_{t,n_h}]=\bold{q}^R_t=RoPE(W^{QR}\bold{c}^Q_t)$

$\bold{q}_{t,i}=[\bold{q}^C_{t,i};\bold{q}^R_{t,i}]$

$\bold{o}_{t,i}=\sum^t_{j=1}Softmax_j(\frac{\bold{q}^\top_{t,i}}{\sqrt{d_h+d^R_h}})\bold{v}^C_{j,i}$

$\bold{u}_t=W^O[\bold{o}_{t,1};\bold{o}_{t,2};\cdots;\bold{o}_{t,n_h}]$

DeepSeekMoE with Auxiliary-Loss-Free Load Balancing

基本的DeepSeekMoE：跟v2有点区别，先sigmoid之后算分数

$\bold{h}'_t=\bold{u}_t+\sum^{N_s}_{i=1}FFN^{(s)}_i(\bold{u}_t)+\sum^{N_r}_{i=1}g_{i,t}FFN_i^{(r)}(\bold{u}_t)$

$g_{i,t}=\frac{g'_{i,t}}{\sum^{N_r}_{j=1}g'_{j,t}}$

$g'_{i,t}=\begin{cases}s_{i,t} & s_{i,t}\in TopK(\{s_{j,t}|1\leq j \leq N_r\},K_r)\\ 0 & otherwise\end{cases}$

$s_{i,t}=Sigmoid(\bold{u}^{\top}_t\bold{e}_i)$

辅助无损负载均衡（Auxiliary-Loss-Free Load Balancing）

效果：在负载均衡和模型性能之间实现更好的权衡

为每个专家引入bias $b_i$ ，添加到 $s_{i,t}$ ，以确定前 $K$ 个路由： $g^{'}_{i,t}=\begin{cases}s_{i,t} & s_{i,t} + b_i \in TopK(\{s_{j,t}+b_j|1\leq j\leq N_r\}，K_r)\\ 0 & otherwise\end{cases}$

其中 $b_i$ 仅用于路由，在每个步骤结束后，如果相应的专家超载了，将偏差衰减 $\gamma$ ，若负载不足，则增加 $\gamma$ ，为 $b_i$ 更新速度的超参数

互补序列辅助损失（Complementary Sequence-Wise Auxiliary Loss）

基于DeepSeek MoE的平衡损失推导而出。

$L_{Bal}=\alpha\sum^{N_r}_{i=1}f_iP_i$

$f_i=\frac{N_r}{K_rT}\sum^T_{t=1}\mathbb{1}(s_{i,t}\in TopK(\{s_{j,t}|1\leq j \leq N_r\}, K_r))$

$s^{'}_{i,t}=\frac{s_{i,t}}{\sum^{N_r}_{j=1}s_{j,t}}$ (不同于之前的专家级平衡损失之处，亲和力分数做了归一化)

$P_i=\frac{1}{T}\sum^T_{t=1}s^{'}_{i,t}$

更多的技巧：

节点有限路由：使用受限路由机制来限制训练期间的通信成本
无token丢失：DeepSeek-V3 在训练期间不会掉落任何标记

Multi-Token Prediction

设定了多token预测（MTP）目标，将预测范围扩展到每个位置的多个后续token。

MTP

作用：

提高数据效率，使训练信号更加稠密
MTP 可能使模型能够预先规划其表示形式，以便更好地预测后续的token

与传统的MTP不同：按顺序预测额外的 Token，并在每个预测深度保留完整的因果链

MTP模块：使用 $D$ 个序列模块预测 $D$ 个额外的token，第 $k$ 个MTP模块包含了共享的嵌入层 $Emb(\cdot)$ 、共享的输出头 $OutHead(\cdot)$ ，一个Transformer块 $TRM_k(\cdot)$ ，一个拼接矩阵 $M_k\in \mathbb{R}^{d\times 2d}$ 。

对于第 $i$ 个输入token为 $t_i$ ，在第 $k$ 个预测深度时，首先联合第 $i$ 个token在第 $(k - 1)$ 个深度的表示 $h^{k-1}_i\in \mathbb{R}^d$ 以及第 $(i + k)$ 个token的嵌入 $Emb(t_{i+k})\in \mathbb{R}^d$ ，用线性拼接：

$\bold{h}^{'k}_i=M_k[RMSNorm(\bold{h}^{k-1}_i);RMSNorm(Emb(t_{i+k}))]$

当 $k$ 为1时，为main model的表示

联合的 $\bold{h}^{'k}_i$ 作为第 $k$ 深度的Transofmrer块输入，输出当前深度的 $\bold{h}^k_i$ ： $\bold{h}^k_{1:T-k}=TRM_k(h^{'k}_{1:T-k})$

其中 $T$ 为输入的序列长度， $i : j$ 表示切片操作。最后将 $\bold{h}^k_i$ 作为输入，通过共享输出头计算第 $k$ 个额外预测的token的概率分布 $p^k_{i+1+k}\in \mathbb{R}^V$ ，其中 $V$ 为词表长度： $p^k_{i+k+1}=OutHead(h^k_i)$

输出头 $OutHead(\cdot)$ 线性地映射输出并应用 $Softmax(\cdot)$ 计算预测的第 $k$ 个token概率分布

维持预测因果链的原理与 EAGLE 相似，但通过MTP改善训练

MTP训练目标：交叉熵， $L^k_{MTP}=\text{CrossEntropy}(p^k_{2+k:T+1},t_{2+k:T+1})=-\frac{1}{T}\sum^{T+1}_{i=2+k}\log P^k_i[t_i]$

$T$ 表示为输入长度， $t_i$ 表示预测的第 $i$ 个位置的token， $p^k_{i}[t_i]$ 为 $t_i$ 对应的概率分布。最后，引入权重因子 $\lambda$ 计算MTP的额外训练目标： $L_{MTP}=\frac{\lambda}{D}\sum^D_{k=1}L^k_{MTP}$

MTP推理：可直接丢弃MTP模块，通过主模型推理

Infrastructures

对这块外行就没细看了，截了技术示意图跟示例。

DualPipe and Computation-Communication Overlap

这里涉及的并行计算算法，如图示所示：

DualPipe

例子：

Example 1

FP8 Mixed Precision Framework

FP8 Mixed Precision

Fine-Grained Quantization:

fine-grained quantization method

DeepSeek-R1

论文：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

单位：DeepSeek AI

Abstract

R1-Zero：纯强化学习训练的模型，展现了可观的推理能力

R1：在强化学习之前进行多阶段训练与引入冷启动数据

Introduction

问题：

有效测试时间扩展的挑战仍然是研究界的一个悬而未决的问题
已有方法都没有达到与 OpenAI 的 o1 系列模型相当的一般推理性能。

目标：探索 LLM 在没有任何监督数据的情况下发展推理能力的潜力，专注于它们通过纯 RL 过程的自我进化。

技术路线：DeepSeek-V3-Base作为基础模型，GRPO作为RL训练框架

DeepSeek-Zero出现的问题：低可读性、语言混淆

方法：DeepSeek-R1

数千条冷启动数据微调DeepSeek-V3-Base模型
应用基于推理的RL (DeepSeek-R1Zero)
在RL过程中接近收敛后，对RL的检查点进行拒绝采样创建新的SFT数据，结合来自DeepSeek-V3的监督数据（如写作、事实QA、自我认知等），重新训练DeepSeek-V3-Base模型
此后再次进行额外的RL过程，考虑所有场景的提示词

此后，探索了DeepSeek-R1以蒸馏更小的模型

Approach

DeepSeek-R1-Zero: Reinforcement Learning on the Base Model

强化学习

优化目标：

$J_{GRPO}(\theta)=\mathbb{E}[q\sim P(Q), \{o_i\}^G_{i=1}\sim \pi_{\theta_{old}}(O|q)]\frac{1}{G}\sum^G_{i=1}(\min[\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old}}(o_{i}|q)}A_{i},clip(\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old}}(o_{i}|q)},1-\epsilon, 1+\epsilon)A_{i}]-\beta\mathbb{D}_{KL}(\pi_{\theta}||\pi_{ref}))$

其中 $\epsilon$ 和 $\beta$ 为超参数， $\hat{A}_{i,t}$ 为相关输出奖励的优势， $\mathbb{D}_{KL}(\pi_\theta||\pi_{ref})=\frac{\pi_{ref}(o_{i}|q)}{\pi_\theta(o_{i}|q)}-\log{\frac{\pi_{ref}(o_{i}|q)}{\pi_\theta(o_{i}|q)}}-1 > 0$

对于每组奖励 $\{r_1,r_2,\cdots, r_G\}$ ，有： $A_i=\frac{r_i-mean(\{r_1,r_2,\cdots,r_G\})}{std(\{r_1,r_2,\cdots,r_G\})}$

奖励建模

基于规则的两种奖励，没有应用process neural reward model或outcome neural reward model

准确奖励：准确率奖励模型评估响应是否正确
格式奖励：将它的思考过程放在 <think> 和 </think>标签之间

训练模板

A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>.
User: prompt.
Assistant:

顿悟时刻

aha moment

缺陷：糟糕的可读性，语言混淆

DeepSeek-R1: Reinforcement Learning with Cold Start

两个问题：

通过纳入少量高质量数据作为冷启动，是否可以进一步提高推理性能或加速收敛？
我们如何训练一个用户友好的模型，该模型不仅产生清晰连贯的思维链（CoT），而且还展示了强大的通用能力？

来源：X

冷启动数据微调：

数据获取：以长 CoT 的 few-shot prompting 为例，直接提示模型通过反射和验证生成详细的答案，以可读格式收集 DeepSeek-R1-Zero 输出，并通过人工标注者进行后处理来提炼结果
冷启动特点：
- 高可读性：在为 DeepSeek-R1 创建冷启动数据时，我们设计了一个可读的模式，在每个响应的末尾包含一个摘要，并过滤掉对读者不友好的响应。在这里，我们将输出格式定义为 |special_token|<reasoning_process>|special_token|<summary>，其中推理过程是查询的 CoT，摘要用于总结推理结果
- 可能性：通过使用人类先验仔细设计冷启动数据的模式，我们观察到与 DeepSeek-R1-Zero 相比性能更好

面向推理的强化学习：

目的：增强在推理密集型任务上的推理能力
CoT中混淆不同语言 -> 引入语言一致性奖励，计算目标语言词在 CoT 中的比例 -> 可能损失推理性能，但显著提升了可读性

拒绝采样与有监督微调：

目的：整合来自其他域的数据，以增强模型在编写、角色扮演和其他通用任务方面的能力
推理数据：600k，通过RL训练的拒绝采样获取，将RL多次生成的答案投喂到DeepSeek-V3进行判断
非推理数据：200K，Deepseek pipeline，复用Deepseek-v3 SFT部分数据。对于特定的非推理任务，调用DeepSeek-V3在回答问题之前生成CoT。

适用于所有场景的强化学习：