DeepSeek模型架构及优化内容

DeepSeek

v1版本

模型结构

DeepSeek LLM基本上遵循LLaMA的设计：

采⽤Pre-Norm结构，并使⽤RMSNorm函数.

利⽤SwiGLU作为Feed-Forward Network（FFN）的激活函数，中间层维度为8/3. 去除绝对位置编码，采⽤了RoPE旋转位置编码。

为了优化推理成本. 67B模型使⽤分组查询注意⼒（GQA）⽽不是传统的多头注意⼒（MHA）.

超参数设置

优化器：采⽤adamW优化器， β1=0.9, β2=0.95 ,weight_decay为0.1。

学习率策略：与Llama使⽤余弦学习率调度器不同，其采⽤的是多阶段学习率调度器。该策略通过 “预热-稳态-分阶衰减” 的耦合设计，兼顾训练稳定性、收敛效率与泛化性能。

预热阶段（0～2000步）： 学习率从较⼩初始值线性增⻓⾄峰值（如3e-4），通过渐进式升温避免训练初期因梯度剧烈波动导致的权重震荡，为模型提供稳定的初始化环境。

稳定收敛阶段（2000步后⾄总训练token的80%）： 学习率保持峰值恒定，使模型在核⼼训练周期内充分利⽤⾼学习率的快速收敛能⼒，同时配合梯度截断（clip=1.0）约束梯度幅值，防⽌梯度爆炸并提升训练稳定性。

分步退⽕阶段（总训练token的80%～100%）：

第⼀阶段退⽕（80%～90% token）：学习率从峰值线性降⾄31.6%（如3e-4 → 9.48e-5），开始细化模型权重；

第⼆阶段退⽕（90%～100% token）：学习率进⼀步降⾄峰值的10%（如9.48e 5 → 3e-5），通过低速微调抑制过拟合⻛险，促使模型收敛⾄更平坦的极⼩值区域。

其他

作者还对DeepSeek LLM基础模型进⾏了SFT和直接偏好优化（DPO），从⽽创建了DeepSeek Chat模型。与GPT-3.5相⽐，DeepSeek LLM 67B Chat表现出更优越的性能。

DeepSeek Math

DeepSeekMath可以被看作是使⽤与DeepSeek LLM相同的模型架构，通过两阶段训练逐步优化⽽来的模型，是专注于数学推理任务的模型。

第⼀阶段：在特定的数据集上使⽤DeepSeek LLM相同的模型架构进⾏预训练，得到专注于代码⽣成与理解的DeepSeek-Coder-Base-v1.5；

第⼆阶段：在DeepSeek-Coder-Base-v1.5基础上，进⼀步对与数学相关的任务和数据进⾏专⻔的预训练和微调（例如，⾼等数学、数学证明、符号计算等）。这个过程中，模型可能会结合代码与数学推理能⼒，使其在处理数学公式、复杂计算和逻辑推理任务上表现更优。DeepSeekMath的创新在于强化学习阶段引⼊了Group Relative Policy Optimization (GRPO) 算法，进⼀步提升了多任务处理和推理能⼒。

PPO

SFT

在有标注的数据上进行模型的微调，使得模型适应特定的任务，即：构建SFT模型

①数据收集: 选择一个问题列表, 标注人员按要求写下预期的输出. 可用于调优预训练的语言模型.

②模型选择: 基线模型是最新版的 text-davinci-003（通过对程序代码调优的 GPT-3 模型）

由于此步骤的数据量有限, 该过程获得的 SFT 模型可能会输出仍然并非用户关注的文本, 并且通常会出现不一致问题.

为了克服这个问题, 使用的策略是让人工标注者对 SFT 模型的不同输出进行排序，我们关注哪个输出是最好的，进而提出 RM 模型, 而不是让人工标注者创建一个更大的精选数据集.

构建判断SFT模型的输出是否满足人类预期的奖励模型

选择问题列表, SFT 模型为每个问题生成多个输出（4 到 9 之间的任意值）

标注者将输出从最佳到最差排序. 结果是一个新的标签数据集, 该数据集的大小大约是用于 SFT 模型的精确数据集的 10 倍；

此新数据用于训练 RM 模型 . 该模型将 SFT 模型输出作为输入, 并按优先顺序对它们进行排序.

模型选择: RM模型是GPT-3的蒸馏版本（参数量为6亿）, 目的是通过该训练模型得到一个预测值（得分）, 模型损失函数为下图表示:

PPO

用SFT模型初始化参考模型（防止模型训歪），和Action模型（最后需要的模型，用于生成符合人类预期内容的模型），用RM模型初始化奖励模型（当前状态下做出动作后的奖励）和Critic模型（做出当前动作后下一步可能获得的奖励），并切在奖励中增加优势，包含当前优势和下一步优势（中路走野区支援上路，原本可以收割一个人头，但实际收割了两个，多出的人头就是优势）

在训练过程中冻结参考模型和奖励模型的参数，只更新Action模型和Critic模型的参数

GRPO

对比PPO，GRPO去除了Critic模型，对于同⼀个 prompt 采 G 个答案，平均 G 个答案的得分当作 baseline

GRPO⽅法主要包含以下五个步骤：

采样：对于每个问题，GRPO从旧策略模型中采样⼀组输出。

奖励计算：使⽤奖励模型为每个采样输出打分，得到⼀组奖励。

基线估计：将这些奖励进⾏归⼀化处理（减去组平均值，除以组标准差），然后使⽤归⼀化的奖励作为基线。

优化⽬标：GRPO通过最⼤化⼀个包含相对优势的优化⽬标函数来更新策略模型。相对优势是指在同⼀组中，各个输出相对于基线的优势。

迭代训练：GRPO可以进⾏迭代训练，其中奖励模型会根据策略模型的新采样结果不断更新，以提供更准确的训练信号。

DeepSeekV2

在 DeepSeek 67B的基础上，DeepSeek-V2 对模型进⾏了进⼀步优化，在注意⼒机制模块和FFN上，设计并采⽤了创新的架构。

注意⼒模块采⽤MLA，减少了推理过程中的KV Cache，提⾼了推理效率。可以容纳更⼤的batch和更⻓的句⼦。
采⽤了sparse MOE结构，模型的训练效率更⾼。

MLA

GQA和MQA的实现⽅式，在于直接减少需要存储的Key和Value，Key和Value都不再是【多头】。 GQA通过Group的⽅式，多个Query组成⼀个Group对应⼀个Key和Value；MQA直接由多个head 的Key和Value，变为单个Key和Value，即多头的维度只保留在Query中。

MLA采⽤了另外⼀种思路，类似于LORA的低秩转换的思路，不再直接减少Cache的Key和Value的数量，⽽是通过【低秩】转换为⼀个压缩的KV，存储的KV的维度显著减⼩。同时在计算注意⼒时，通过projection的⽅式获取多头的Key和Value，保留了多头的注意⼒计算⽅式。

MLA相⽐MQA和GQA（在明显降低缓存的同时，效果相⽐MHA还更好。MQA和GQA相⽐MHA，虽然降低了KV Cache，但效果不如MHA。

MOE

细粒度专家分割（Fine-Grained Expert Segmentation）：通过将每个FFN专家进⼀步细分，这允许模型在保持参数总数不变的情况下，激活更多的、更细粒度的专家。这种策略使得各个专家能够专注于更细致的知识领域，提⾼了专家的专业化程度。（通过将FFN中间隐藏维度减少到原来⼤⼩的1/m，将每个专家FFN分割为m个更⼩的专家。）
共享专家隔离（Shared Expert Isolation）：设置⼀部分专家作为“共享专家”，这些专家总是被激活，⽤于捕捉和整合常⻅的跨上下⽂知识。这样可以减少路由专家之间的知识冗余，每个路由专家可以更专注于独特的知识领域。

改进传统的MOE存在的知识杂糅和知识冗余的问题

知识杂糅（Knowledge Hybridity）：传统的MoE模型中，每个专家往往需要处理多种类型的知识，这使得专家难以形成专⻔化的知识结构。
知识冗余（Knowledge Redundancy）：不同的专家在处理不同的输⼊时可能需要相同的知识，导致多个专家中存在重复的知识，浪费了模型参数。

DeepSeekV3

无辅助损失的负载均衡策略

⽆辅助损失的负载均衡策略，相对⽐较简单，就是进⾏TopK运算的时候添加了⼀个额外的偏置项来调节路由专家被选择到的概率

Multi-Token Prediction

举例：

一个序列有10个token，主模型由前3个token（1,2,3）预测第4个token(2,3,4)，在预测时，将经过解码器层后的输出和第一个MTP的输入(2,3,4)经过embedding后的结果拼接送入，预测(3, 4, 5)，以此类推，直到预测到最后一个token

这⾥的训练损失就是预测的token序列和真实token序列的[交叉熵]损失;以上策略是⽤来提升主模型的性能的，也就是说所有的MTP块是不参与推理的，所以在推理时，⼤模型做的仍然是⼀个 Next-token Prediction的⼯作，且只有主模型在⼯作。

DeepSeekR1

冷启动：与DeepSeek - R1 - Zero不同，DeepSeek - R1构建并收集少量⻓思维链（CoT）数据对 DeepSeek - V3 - Base模型进⾏微调，作为RL的初始阶段。这些冷启动数据格式更具可读性，包含推理过程总结，基于⼈类先验知识设计模式，相⽐DeepSeek - R1 - Zero表现更优。

推理导向的强化学习：在冷启动微调后的模型上，采⽤与DeepSeek - R1 - Zero相同的⼤规模RL训练过程。针对语⾔混合问题，引⼊语⾔⼀致性奖励，将推理任务准确性和语⾔⼀致性奖励结合，优化模型表现，使其更符合⼈类偏好。

拒绝采样和监督微调：推理导向的RL收敛后，利⽤模型检查点收集监督微调（SFT）数据。推理数据通过拒绝采样⽣成，扩⼤数据集并纳⼊⽣成式奖励模型评估的数据，同时过滤掉混乱和不可读的输出。⾮推理数据复⽤DeepSeek - V3的部分SFT数据集，涵盖写作、事实问答等领域。⽤约800k 样本对模型进⾏两个epoch的微调。