DeepSeek-R1：开源Top推理模型的实现细节、使用与复现

核心观点

● 直接用强化学习就可以让模型获得显著的推理能力，说明并不一定需要SFT才行。
● 强化学习并不一定需要复杂的奖励模型，使用简单的规则反而取得意想不到的效果。
● 通过知识蒸馏让小模型一定程度上也有推理能力，甚至在某些场景下的表现超过了Top模型，比直接在小模型上进行强化学习更好。

DeepSeek-R1-Zero:纯强化学习的推理能力

在这里插入图片描述

训练模版

DeepSeek团队设计了如下的训练模型，要求模型按照如下格式进行输出：首先进行推理过程，然后给出最终答案。通过限制输出的结构格式，避免内容偏见，并且可以观察模型在强化学习过程中的推理进展。
在这里插入图片描述

奖励模型

DeepSeek-R1-Zero的训练信号来源于奖励系统，主要包括两种奖励类型：
● 准确性奖励：评估模型回答的正确性，适用于数学问题和LeetCode问题，通过规则验证答案。
● 格式奖励：要求模型将思考过程放在特定标签之间（<think>和</think>）。
不使用神经奖励模型，这是因为可能导致奖励黑客问题，且重训练需要额外资源，复杂化训练流程。

顿悟时刻

论文中展示了一个 R1-Zero 在解决一道数学题时的中间版本输出，被称为模型的「顿悟时刻」。在这个例子中，模型在推理过程中突然意识到可以“重新评估”之前的步骤，并尝试用一种新的方法来解题，这种思维与人类似，说明模型初步掌握了人类思维的推理能力（红色字体部分）。

在这里插入图片描述

性能表现

在这里插入图片描述

DeepSeek-R1-Zero的自我进化过程显示出其在强化学习下的推理能力提升，能够处理复杂推理任务。此外，模型在训练过程中思考时间持续改善，能够生成数百到数千个推理标记，促进深度思考，从而实现更加强大和正确的推理能力。

DeepSeek-R1:多阶段训练推理能力

在这里插入图片描述

从Zero的训练过程中很容易得到启发：如果在训练初期先进行一部分高质量COT数据的微调，能否显著增强模型的推理能力，又或者加速收敛？

冷启动阶段

针对Zero模型不稳定的情况，尝试先通过收集数千条长CoT数据对模型进行微调。增加这一阶段有两个好处：

赠加模型的可读性，在SFT阶段可以设计易读的输出格式，包含推理过程和总结，从而过滤不友好的响应格式。
增加模型的推理能力，通过人类先验设计的模式，可以观察到DeepSeek-R1表现优于DeepSeek-R1-Zero，这是因为迭代训练更适合推理模型。

基于推理性能的强化学习优化

在对DeepSeek-V3-Base进行冷启动数据微调后，采用与DeepSeek-R1-Zero相同的大规模强化学习训练，重点提升模型在编码、数学、科学和逻辑推理等推理密集型任务中的能力。训练过程中发现CoT在多语言提示中常出现语言混合，为此还需要引入语言一致性奖励，需要计算CoT中目标语言单词的比例。尽管这个训练目标会在一定程度上降低模型的推理能力，但其实一致的语言表达会更加符合我们的使用需求。最终奖励通过将推理任务的准确性与语言一致性奖励直接相加形成，随后对微调后的模型进行训练，直至在推理任务上收敛。

第二次微调

在推理导向的强化学习收敛后，利用检查点收集监督微调（SFT）数据，增强模型在写作、角色扮演等任务的能力。使用以下方法收集到的约80万条样本对DeepSeek-V3-Base进行第两轮的微调。

推理数据：通过拒绝采样从强化学习训练的检查点生成推理轨迹，扩展数据集，包含使用生成奖励模型的数据，过滤混合语言、长段落和代码块，最终收集约60万条推理相关训练样本。
非推理数据：采用DeepSeek-V3的Pipeline，重用部分SFT数据，针对某些任务生成潜在的思维链，最终收集约20万条非推理训练样本。

第二次强化学习

这阶段论文中没有给出具体的实现步骤，仅提供了一段文字概述。在第二次微调后，同样需要再进行一轮强化学习，这一阶段主要是为了提升模型的有用性和无害性，同时改善推理能力。推理数据遵循DeepSeek-R1-Zero方法，利用基于规则的奖励指导数学、代码和逻辑推理，一般数据使用奖励模型捕捉复杂场景中的人类偏好。整合奖励信号和多样数据分布，训练出在推理上表现优异的模型，同时优先考虑有用性和无害性。有用性评估集中在最终摘要，强调响应的实用性和相关性。无害性评估涵盖整个响应，识别和减轻潜在风险、偏见或有害内容。