DeepSeek-R1-Zero展示了在没有监督数据的情况下,通过RL可以发展出强大的推理能力。DeepSeek-R1通过引入冷启动数据和多阶段训练,进一步提升了推理性能,达到了与OpenAI-o1-1217相当的水平。此外,通过蒸馏技术,将DeepSeek-R1的推理能力转移到更小的密集模型上,显著提高了这些模型的推理能力。
一、模型介绍
维度 | DeepSeek-V3 | R1-Zero | DeepSeek-R1 |
---|---|---|---|
定位 | 通用基座模型 | 纯 RL 训练的推理实验模型 | 多阶段优化的商用推理模型 |
训练方法 | 预训练 + SFT | 纯强化学习(GRPO 算法) | SFT → RL → SFT → RL与SFT混合训练 |
数据依赖 | 通用语料 + 标注数据 | 数学/代码数据(无需标注) | RL 生成数据 + 人类偏好数据 |
推理能力 | 基础问答 | 强推理但语言混杂 | 强推理 + 语言规范 |
可用性 | 通用场景 | 实验性(不可直接商用) | 全场景适配(工作助手、编程等) |
(一)DeepSeek-R1-Zero
- 训练算法:采用Group Relative Policy Optimization(GRPO)算法,避免使用与策略模型同样大小的批评模型,从组分数估计基线,降低训练成本。
- 奖励建模:使用基于规则的奖励系统,包括准确性奖励和格式奖励,避免使用可能导致奖励作弊的神经奖励模型。
- 训练模板:设计引导模型按特定格式输出的模板,要求先产生推理过程,再给出答案,便于观察模型在RL过程中的自然发展。
- 性能表现:在AIME 2024基准测试中,pass@1分数从15.6%提升到71.0%,经多数投票可提升至86.7%,与OpenAI-o1-0912相当,展现出强大的推理能力。同时,模型在训练过程中自发出现反思、探索替代方法等复杂推理行为。
(二)DeepSeek-R1
-
冷启动:收集数千个长思维链(CoT)数据对DeepSeek-V3-Base模型进行微调,解决DeepSeek-R1-Zero可读性差和语言混合问题,为后续RL训练提供更好起点。
-
推理导向的强化学习:应用与DeepSeek-R1-Zero相同的大规模RL训练过程,引入语言一致性奖励缓解语言混合问题,结合推理任务准确性和语言一致性奖励形成最终奖励,训练模型直至推理任务收敛。
-
拒绝采样和监督微调:在推理导向的RL收敛后,通过拒绝采样从RL检查点收集推理数据,结合其他领域数据(如写作、事实性问答等)对模型进行监督微调,扩展模型能力。
-
全场景强化学习:进行二次RL训练,使用奖励信号和多样的提示分布,使模型在推理能力提升的同时,更符合人类偏好,优先考虑对用户的帮助性和无害性。
(三)模型蒸馏
使用DeepSeek-R1生成的800k样本对Qwen和Llama系列开源模型进行微调,将大模型的推理模式转移到小模型。实验表明,蒸馏后的小模型在推理任务上表现出色,如DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的成绩超越QwQ-32B-Preview。
二、实验与结果
(一)实验设置
- 基准测试:使用MMLU、AIME 2024、LiveCodeBench等多种基准测试,涵盖推理、知识、编码等多个领域,全面评估模型性能。
- 评估提示:针对不同基准测试采用相应的提示设置,如MMLU使用simpleevals框架提示,MMLU-Redux采用Zero-Eval提示格式等。
- 基线模型:与DeepSeek-V3、Claude-Sonnet-3.5-1022等多个强大的基线模型进行对比。
- 评估方法:设置最大生成长度为32,768令牌,采用pass@k评估方法,使用非零温度(如采样温度0.6和top-P值0.95)生成多个响应计算pass@1分数,对AIME 2024还报告共识(多数投票)结果。
(二)实验结果
- DeepSeek-R1评估:在教育知识基准测试(如MMLU、MMLU-Pro)、编码任务(如LiveCodeBench、Codeforces)和数学任务(如AIME 2024、MATH-500)中,DeepSeek-R1表现优异,与OpenAI-o1-1217相当甚至在部分任务上超越。在处理事实性查询和遵循格式指令方面也优于DeepSeek-V3,但在某些中文基准测试中因安全RL导致表现稍逊。
- 蒸馏模型评估:蒸馏后的小模型在推理任务上性能突出,DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中超越GPT-4o和Claude-3.5-Sonnet,DeepSeek-R1-Distill-Qwen-14B在所有评估指标上超越QwQ-32B-Preview。
三、技术对比与反思
(一)蒸馏与强化学习对比
实验表明,蒸馏更强大的模型到小模型能取得优异结果,而小模型直接进行大规模RL训练需要巨大计算资源,且性能不如蒸馏模型。但要突破智能边界,仍需更强大的基础模型和大规模RL训练。
(二)不成功的尝试
- 过程奖励模型(PRM):PRM虽能指导模型解决推理任务,但在定义推理步骤、判断中间步骤正确性和避免奖励作弊方面存在困难,在大规模RL训练中计算成本过高。
- 蒙特卡洛树搜索(MCTS):受AlphaGo启发尝试使用MCTS提升测试时间计算可扩展性,但在训练中遇到搜索空间过大、模型易陷入局部最优和价值模型训练困难等问题。
论文评价
优点与创新
- 纯强化学习的突破:DeepSeek-R1-Zero是第一个通过纯强化学习(RL)而不依赖监督微调(SFT)来提升语言模型推理能力的模型,标志着在这一领域迈出了重要一步。
- 多阶段训练管道:DeepSeek-R1引入了一个包含两个RL阶段和两个SFT阶段的多阶段训练管道,旨在发现改进的推理模式并符合人类偏好。
- 冷启动数据的利用:通过引入冷启动数据,DeepSeek-R1在接近RL收敛时,通过拒绝采样生成SFT数据,并结合DeepSeek-V3的监督数据进行再训练,显著提升了推理性能。
- 知识蒸馏:展示了从DeepSeek-R1向更小模型的知识蒸馏过程,证明了较大模型的推理模式对小模型的性能提升至关重要。
- 广泛的任务评估:在多个基准测试上进行了广泛的评估,包括MMLU、DROP、GPQA Diamond、SimpleQA等,展示了DeepSeek-R1在不同任务上的强大能力。
- 自演化过程的可视化:通过图表展示了DeepSeek-R1-Zero在AIME 2024基准上的性能轨迹,揭示了其自我演化和“顿悟”时刻。
不足与反思
- 可读性问题:DeepSeek-R1-Zero在可读性方面存在挑战,响应内容可能混合多种语言或缺乏Markdown格式。
- 语言混合问题:在处理非英语或非中文查询时,DeepSeek-R1可能会使用英语进行推理和响应,导致语言混合问题。
- 提示工程敏感性:DeepSeek-R1对提示非常敏感,少量提示会显著降低其性能,建议用户直接描述问题并使用零样本设置指定输出格式。
- 软件工程任务的挑战:由于评估时间长,影响了RL过程的效率,DeepSeek-R1在软件工程任务上未能显著超越DeepSeek-V3。未来版本将通过在软件工程数据上实施拒绝采样或在RL过程中引入异步评估来提高效率。
参考:
图片来自:https://zhuanlan.zhihu.com/p/22095237738