deepseek-r1 训练流程

技术创新
deepseek-v3 && deepseek-r1
deepseek-r1-zero
- 训练过程
- - aha moment
  - 准确度提升
  - 思考时间增加
deepseek-r1
- 冷启动
- 推理场景强化学习
- 数据采样&&SFT
- 全场景强化学习
- 结果
参考文献

技术创新

极致的成本控制，媲美openAI的性能，开发出强化学习的新路线。

在这里插入图片描述

极致的成本控制：deepseek-v3-671B模型的训练，花费了 278.8万 H800 GPU小时，而同为开源模型Meta的LLaMA 3.1-405B则花费了3084万 H100 GPU小时，LLaMA 3.1-70B花费了700万 H100 GPU小时。训练成本相差约10倍。推理API价格，deepseek-v3模型/GPT-4o和deepseek-r1/GPT-o1的推理价格相差近30倍。
媲美openAI的性能：deepseek-r1的推理性能，接近openAI的o1模型，o1模型是闭源且昂贵的，而deepseek-r1是开源且免费的。
引入纯强化学习的新路子：deepseek-r1是首个证明纯强化学习的路线，不需要准备推理数据，仅靠模型自主进化，就能够大幅度提升模型推理能力的模型。给大家指了一条新道路，从GPT-4升级为GPT-o1的新道路。

deepseek-v3 && deepseek-r1

deepseek-v3：对标openAI的GPT-4o模型，是一个通用的大模型。其主要贡献是大幅降低了模型的训练和推理成本。
deepseek-r1：对标openAI的GPT-o1模型，是在deepseek-v3的基础上，通过强化学习，将思维链（CoT）内置到模型中。

说人话就是强制模型在回复前，先生成一段思考内容，再给出答案，增强了模型的推理能力。不过deepseek-r1并不是deepseek-v3直接经过强化学习得到的。

deepseek-r1-zero

该模型不是最终的deepseek-r1模型，是实验中的一个半成品，验证了强化学习对模型推理能力提升的有效性。

在这里插入图片描述

其训练过程选取具有确定性结果的问题，避免使用奖励模型，而是采用简单而准确的规则作为强化学习的奖励。通过两条规则，对模型每次的结果进行反馈。

规则1 准确性奖励：评估响应是否正确。例如，在具有确定性结果的数学问题中，要求模型以指定格式提供最终答案，以实现可靠的基于规则的验证正确性。同样，对于LeetCode问题，可以使用编译器根据预定义的测试用例生成反馈。
规则2 格式奖励：强制模型输出思考过程，并将其放在<think></think>标签中。

训练过程

aha moment

模型在训练过程中，发现了其像人类一样，出现了aha moment。

在这里插入图片描述

准确度提升

随着训练步数的增加，模型在AIME数据集上的准确度，逐步逼近openAI的o1模型。

在这里插入图片描述

思考时间增加

随着训练步数的增加，模型的思考时间不断提升。思考时间和准确度的提升，代表了模型真正的自主学会了思考。因为复杂的问题需要更多的时间才能得出答案，这是符合常规认知的。

在这里插入图片描述

deepseek-r1

deepseek-r1模型并不是直接由deepseek-v3通过强化学习得到的，而是在deepseek-v3的基础上，经过两轮的监督微调(SFT,Supervised Fine-Tuning)后，再通过强化学习得到的。

在这里插入图片描述

流程分为4个阶段，冷启动、推理场景的强化学习、数据采样&&SFT、全场景强化学习。

在这里插入图片描述

冷启动

冷启动的训练数据，采用包含思考过程（CoT）的数据，目的是初步教会模型如何思考，如何“符合人类口味习惯”的思考。加速第二阶段推理场景强化学习的收敛速度。

推理场景强化学习

这个的强化学习方法和deepseek-r1-zero的方法保持一致，仅新增了一条规则——语言一致性规则，减轻多语言混杂的情况。这一步的目的是增强模型的推理能力。

数据采样&&SFT

阶段 2 强化学习后得到的模型，暂且称为deepseek-v3-sft-rl。阶段 3 的采样分为两种数据，一种是推理数据，一种是非推理数据。

推理数据：对deepseek-v3-sft-rl进行拒绝采样。采样的过程中，除了数学/代码等具有确定性结果的问题，也扩充了一些非确定性结果的数据，由deepseek-v3作为奖励模型进行判断。最终收集了60w个与推理相关的数据样本。

**非推理数据：**从deepseek-v3提取了20w个非推理的数据样本。包含写作、事实问答、自我认知、翻译等任务。

收集到两部分数据后，重新对deepseek-v3进行微调。该步骤保留了模型的通用能力的同时，增强了模型的推理能力。

全场景强化学习

第四个步骤，旨在提升模型的有用性和无害性，消除模型的歧视偏见等风险。同时，也精炼其推理能力。具体来说，对于推理数据，沿用阶段2的规则。对于非推理数据，采用奖励模型进行反馈。奖励模型同样基于deepseek-v3进行构建，评估模型输出是否符合人类的偏好。经过强化学习后，得到最终的deepseek-r1模型。

结果

在这里插入图片描述

参考文献

DeepSeek-V3技术报告 https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
LLaMA 3.1模型报告 https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md
DeepSeek-R1技术报告 https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
一文读懂｜DeepSeek新模型大揭秘，为何它能震动全球AI圈 https://mp.weixin.qq.com/s/cp4rQx09wygE9uHBadI7RA
DeepSeek-R1 API文档 https://api-docs.deepseek.com/zh-cn/news/news250120

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/17192.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！