deepseek-r1 训练流程
- 技术创新
- deepseek-v3 && deepseek-r1
- deepseek-r1-zero
- 训练过程
- aha moment
- 准确度提升
- 思考时间增加
- deepseek-r1
- 冷启动
- 推理场景强化学习
- 数据采样&&SFT
- 全场景强化学习
- 结果
- 参考文献
技术创新
极致的成本控制,媲美openAI的性能,开发出强化学习的新路线。
- 极致的成本控制:deepseek-v3-671B模型的训练,花费了 278.8万 H800 GPU小时,而同为开源模型Meta的LLaMA 3.1-405B则花费了3084万 H100 GPU小时,LLaMA 3.1-70B花费了700万 H100 GPU小时。训练成本相差约10倍。推理API价格,deepseek-v3模型/GPT-4o和deepseek-r1/GPT-o1的推理价格相差近30倍。
- 媲美openAI的性能:deepseek-r1的推理性能,接近openAI的o1模型,o1模型是闭源且昂贵的,而deepseek-r1是开源且免费的。
- 引入纯强化学习的新路子:deepseek-r1是首个证明纯强化学习的路线,不需要准备推理数据,仅靠模型自主进化,就能够大幅度提升模型推理能力的模型。给大家指了一条新道路,从GPT-4升级为GPT-o1的新道路。
deepseek-v3 && deepseek-r1
-
deepseek-v3:对标openAI的GPT-4o模型,是一个通用的大模型。其主要贡献是大幅降低了模型的训练和推理成本。
-
deepseek-r1:对标openAI的GPT-o1模型,是在deepseek-v3的基础上,通过强化学习,将思维链(CoT)内置到模型中。
说人话就是强制模型在回复前,先生成一段思考内容,再给出答案,增强了模型的推理能力。不过deepseek-r1并不是deepseek-v3直接经过强化学习得到的。
deepseek-r1-zero
该模型不是最终的deepseek-r1模型,是实验中的一个半成品,验证了强化学习对模型推理能力提升的有效性。
其训练过程选取具有确定性结果的问题,避免使用奖励模型,而是采用简单而准确的规则作为强化学习的奖励。通过两条规则,对模型每次的结果进行反馈。
- 规则1 准确性奖励:评估响应是否正确。例如,在具有确定性结果的数学问题中,要求模型以指定格式提供最终答案,以实现可靠的基于规则的验证正确性。同样,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
- 规则2 格式奖励:强制模型输出思考过程,并将其放在
<think></think>
标签中。
训练过程
aha moment
模型在训练过程中,发现了其像人类一样,出现了aha moment
。
准确度提升
随着训练步数的增加,模型在AIME数据集上的准确度,逐步逼近openAI的o1模型。
思考时间增加
随着训练步数的增加,模型的思考时间不断提升。思考时间和准确度的提升,代表了模型真正的自主学会了思考。因为复杂的问题需要更多的时间才能得出答案,这是符合常规认知的。
deepseek-r1
deepseek-r1模型并不是直接由deepseek-v3通过强化学习得到的,而是在deepseek-v3的基础上,经过两轮的监督微调(SFT,Supervised Fine-Tuning)后,再通过强化学习得到的。
流程分为4个阶段,冷启动、推理场景的强化学习、数据采样&&SFT、全场景强化学习。
冷启动
冷启动的训练数据,采用包含思考过程(CoT)的数据,目的是初步教会模型如何思考,如何“符合人类口味习惯”的思考。加速第二阶段推理场景强化学习的收敛速度。
推理场景强化学习
这个的强化学习方法和deepseek-r1-zero的方法保持一致,仅新增了一条规则——语言一致性规则,减轻多语言混杂的情况。这一步的目的是增强模型的推理能力。
数据采样&&SFT
阶段 2 强化学习后得到的模型,暂且称为deepseek-v3-sft-rl。阶段 3 的采样分为两种数据,一种是推理数据,一种是非推理数据。
推理数据:对deepseek-v3-sft-rl进行拒绝采样。采样的过程中,除了数学/代码等具有确定性结果的问题,也扩充了一些非确定性结果的数据,由deepseek-v3作为奖励模型进行判断。最终收集了60w个与推理相关的数据样本。
**非推理数据:**从deepseek-v3提取了20w个非推理的数据样本。包含写作、事实问答、自我认知、翻译等任务。
收集到两部分数据后,重新对deepseek-v3进行微调。该步骤保留了模型的通用能力的同时,增强了模型的推理能力。
全场景强化学习
第四个步骤,旨在提升模型的有用性和无害性,消除模型的歧视偏见等风险。同时,也精炼其推理能力。具体来说,对于推理数据,沿用阶段2的规则。对于非推理数据,采用奖励模型进行反馈。奖励模型同样基于deepseek-v3进行构建,评估模型输出是否符合人类的偏好。经过强化学习后,得到最终的deepseek-r1模型。
结果
参考文献
- DeepSeek-V3技术报告 https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
- LLaMA 3.1模型报告 https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md
- DeepSeek-R1技术报告 https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
- 一文读懂|DeepSeek新模型大揭秘,为何它能震动全球AI圈 https://mp.weixin.qq.com/s/cp4rQx09wygE9uHBadI7RA
- DeepSeek-R1 API文档 https://api-docs.deepseek.com/zh-cn/news/news250120