deepseek-r1 训练流程

deepseek-r1 训练流程

  • 技术创新
  • deepseek-v3 && deepseek-r1
  • deepseek-r1-zero
    • 训练过程
      • aha moment
      • 准确度提升
      • 思考时间增加
  • deepseek-r1
    • 冷启动
    • 推理场景强化学习
    • 数据采样&&SFT
    • 全场景强化学习
    • 结果
  • 参考文献

技术创新

极致的成本控制,媲美openAI的性能,开发出强化学习的新路线。

在这里插入图片描述

  1. 极致的成本控制:deepseek-v3-671B模型的训练,花费了 278.8万 H800 GPU小时,而同为开源模型Meta的LLaMA 3.1-405B则花费了3084万 H100 GPU小时,LLaMA 3.1-70B花费了700万 H100 GPU小时。训练成本相差约10倍。推理API价格,deepseek-v3模型/GPT-4o和deepseek-r1/GPT-o1的推理价格相差近30倍
  2. 媲美openAI的性能:deepseek-r1的推理性能,接近openAI的o1模型,o1模型是闭源且昂贵的,而deepseek-r1是开源且免费的。
  3. 引入纯强化学习的新路子:deepseek-r1是首个证明纯强化学习的路线,不需要准备推理数据,仅靠模型自主进化,就能够大幅度提升模型推理能力的模型。给大家指了一条新道路,从GPT-4升级为GPT-o1的新道路。

deepseek-v3 && deepseek-r1

  1. deepseek-v3:对标openAI的GPT-4o模型,是一个通用的大模型。其主要贡献是大幅降低了模型的训练和推理成本。

  2. deepseek-r1:对标openAI的GPT-o1模型,是在deepseek-v3的基础上,通过强化学习,将思维链(CoT)内置到模型中。

    说人话就是强制模型在回复前,先生成一段思考内容,再给出答案,增强了模型的推理能力。不过deepseek-r1并不是deepseek-v3直接经过强化学习得到的。

deepseek-r1-zero

该模型不是最终的deepseek-r1模型,是实验中的一个半成品,验证了强化学习对模型推理能力提升的有效性。

在这里插入图片描述

其训练过程选取具有确定性结果的问题,避免使用奖励模型,而是采用简单而准确的规则作为强化学习的奖励。通过两条规则,对模型每次的结果进行反馈。

  1. 规则1 准确性奖励:评估响应是否正确。例如,在具有确定性结果的数学问题中,要求模型以指定格式提供最终答案,以实现可靠的基于规则的验证正确性。同样,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
  2. 规则2 格式奖励:强制模型输出思考过程,并将其放在<think></think>标签中。

训练过程

aha moment

模型在训练过程中,发现了其像人类一样,出现了aha moment

在这里插入图片描述

准确度提升

随着训练步数的增加,模型在AIME数据集上的准确度,逐步逼近openAI的o1模型。

在这里插入图片描述

思考时间增加

随着训练步数的增加,模型的思考时间不断提升。思考时间和准确度的提升,代表了模型真正的自主学会了思考。因为复杂的问题需要更多的时间才能得出答案,这是符合常规认知的。

在这里插入图片描述

deepseek-r1

deepseek-r1模型并不是直接由deepseek-v3通过强化学习得到的,而是在deepseek-v3的基础上,经过两轮的监督微调(SFT,Supervised Fine-Tuning)后,再通过强化学习得到的。

在这里插入图片描述

流程分为4个阶段,冷启动、推理场景的强化学习、数据采样&&SFT、全场景强化学习。

在这里插入图片描述

冷启动

冷启动的训练数据,采用包含思考过程(CoT)的数据,目的是初步教会模型如何思考,如何“符合人类口味习惯”的思考。加速第二阶段推理场景强化学习的收敛速度。

推理场景强化学习

这个的强化学习方法和deepseek-r1-zero的方法保持一致,仅新增了一条规则——语言一致性规则,减轻多语言混杂的情况。这一步的目的是增强模型的推理能力。

数据采样&&SFT

阶段 2 强化学习后得到的模型,暂且称为deepseek-v3-sft-rl。阶段 3 的采样分为两种数据,一种是推理数据,一种是非推理数据。

推理数据:对deepseek-v3-sft-rl进行拒绝采样。采样的过程中,除了数学/代码等具有确定性结果的问题,也扩充了一些非确定性结果的数据,由deepseek-v3作为奖励模型进行判断。最终收集了60w个与推理相关的数据样本。

**非推理数据:**从deepseek-v3提取了20w个非推理的数据样本。包含写作、事实问答、自我认知、翻译等任务。

收集到两部分数据后,重新对deepseek-v3进行微调。该步骤保留了模型的通用能力的同时,增强了模型的推理能力。

全场景强化学习

第四个步骤,旨在提升模型的有用性和无害性,消除模型的歧视偏见等风险。同时,也精炼其推理能力。具体来说,对于推理数据,沿用阶段2的规则。对于非推理数据,采用奖励模型进行反馈。奖励模型同样基于deepseek-v3进行构建,评估模型输出是否符合人类的偏好。经过强化学习后,得到最终的deepseek-r1模型。

结果

在这里插入图片描述

参考文献

  1. DeepSeek-V3技术报告 https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
  2. LLaMA 3.1模型报告 https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md
  3. DeepSeek-R1技术报告 https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
  4. 一文读懂|DeepSeek新模型大揭秘,为何它能震动全球AI圈 https://mp.weixin.qq.com/s/cp4rQx09wygE9uHBadI7RA
  5. DeepSeek-R1 API文档 https://api-docs.deepseek.com/zh-cn/news/news250120

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17192.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络工程师 (35)以太网通道

一、概念与原理 以太网通道&#xff0c;也称为以太端口捆绑、端口聚集或以太链路聚集&#xff0c;是一种将多个物理以太网端口组合成一个逻辑通道的技术。这一技术使得多个端口能够并行工作&#xff0c;共同承担数据传输任务&#xff0c;从而提高了网络的传输能力和可靠性。 二…

win11电脑其他WiFi可以连,只有一个WiFi连不上

这个问题卡了一小会&#xff0c;查了一些资料 后面发现 点击“诊断网络问题” 显示没有响应 第一步 重启wlan网络适配器 解决&#xff01;&#xff01;&#xff01; 重新连接那个有问题的wifi&#xff0c;丝滑连接&#xff01;

【网络通信】传输层之UDP协议

【网络通信】传输层之UDP协议 传输层端对端通信实现端到端通信的关键技术 UDP协议再谈端口号端口号划分关于端口号的两个问题 UDP协议基本格式UDP通信的特点UDP的缓冲区UDP数据报的最大长度基于UDP的应用层协议如何封装UDP报文以及如何交付UDP报文进一步理解封装和解包 传输层 …

时间盲注、boolen盲注

获取当前数据库名 获取数据库表 获取表的列

2025_2_13 二叉搜索树(一)

1.完全二叉树和满二叉树的概念 满二叉树&#xff1a;每一层都达到最大值 完全二叉树&#xff1a;只能右下角空&#xff0c;其他位置满&#xff0c;即最后一排从左到右的中间不能由缺 2.二叉搜索树 左子树中所有结点的 key 值都比根结点的 key 值小&#xff0c;并且左子树也…

DeepSeek 突然来袭,AI 大模型变革的危机与转机藏在哪?

随着人工智能技术的飞速发展&#xff0c;大模型领域不断涌现出具有创新性的成果。DeepSeek 的横空出世&#xff0c;为 AI 大模型领域带来了新的变革浪潮。本文将深入探讨 DeepSeek 出现后 AI 大模型面临的危机与转机。 冲冲冲&#xff01;&#xff01;&#xff01; 目录 一、…

高速差分总线比较--RS422, LVDS,PECL

1. RS422A&#xff0c; 如RS422 & RS485总先&#xff0c; 0/5V的差分电平&#xff0c;匹配电阻120ohm. S2D&#xff0c; Transmitter D2S, Receiver LVDS 如SN65LVDS1&#xff0c;驱动器&#xff1a;DS90LV031&#xff08;支持预加重&#xff09;&#xff0c;接收器&…

idea 错误: 找不到或无法加载主类 @C:\Users\admin\AppData\Local\Temp\idea_arg_file1549212448

idea 错误: 找不到或无法加载主类 C:\Users\admin\AppData\Local\Temp\idea_arg_file1549212448 该错误往往和左下角爱弹出的如下提示是一个意思 Error running ‘PayV3Test1.testTransferBatchesBatchId’ Error running PayV3Test1.testTransferBatchesBatchId. Command lin…

Java中如何高效地合并多个对象的List数据:方法与案例解析!

哈喽&#xff0c;各位小伙伴们&#xff0c;你们好呀&#xff0c;我是喵手。运营社区&#xff1a;C站/掘金/腾讯云/阿里云/华为云/51CTO&#xff1b;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点&#xff0c;并以文字的形式跟大家一起交流&#xff0c;互…

23、深度学习-自学之路-激活函数relu、tanh、sigmoid、softmax函数的正向传播和反向梯度。

在使用这个非线性激活函数的时候&#xff0c;其实我们重点还是学习的是他们的正向怎么传播&#xff0c;以及反向怎么传递的。 如下图所示&#xff1a; 第一&#xff1a;relu函数的正向传播函数是&#xff1a;当输入值&#xff08;隐藏层&#xff09;值大于了&#xff0c;就输出…

React源码揭秘 | scheduler 并发更新原理

React 18增加了并发更新特性&#xff0c;开发者可以通过useTransition等hooks延迟执行优先级较低的更新任务&#xff0c;以达到页面平滑切换&#xff0c;不阻塞用户时间的目的。其实现正是依靠scheduler库。 scheduler是一个依赖时间片分片的任务调度器&#xff0c;React团队将…

腿足机器人之二- 运动控制概览

腿足机器人之二运动控制概览 高层运动规划MPCRL 中层逆运动学和逆动力学底层执行器控制传感器校正 上一篇博客是腿足机器人的骨架和关节的机械和电气组件&#xff0c;关节不仅需要通过机械设计实现复杂的运动能力&#xff0c;还必须通过电子组件和控制系统来精确控制这些运动。…

企业级高可用 Kubernetes 实践:基于青云 LB 搭建容灾与负载均衡集群全攻略

一、前言 在企业生产环境,k8s高可用是一个必不可少的特性,其中最通用的场景就是如何在 k8s 集群宕机一个节点的情况下保障服务依旧可用。部署高可用k8s集群对于企业级云平台来说是一个根本性的原则,容错、服务可用和数据安全是高可用基础设施的关键。本文是在青云上利用青云…

软件项目估算偏差的5 大源头及解决方案

软件项目成本估算偏差往往导致资金紧张&#xff0c;资源投入受限&#xff0c;进度延误无法按时交付&#xff0c;为控制成本还可能牺牲质量&#xff0c;引发团队士气低落、客户不满&#xff0c;严重时项目直接失败 。 因此&#xff0c;及时解决或降低项目偏差就非常重要&#xf…

树莓派学习

树莓派4B 基础操作 开机 开机要主要先接好线再通电 关机 先在系统里面关机再断电 可以在界面里面点击关机&#xff0c;或者使用命令行 使用网线连接到树莓派 用笔记本的以太网口接线到树莓派 在网络连接里面打开WLAN的网络共享&#xff0c;共享选择以太网口 在cmd里面输…

Jenkins 新建配置 Freestyle project 任务 六

Jenkins 新建配置 Freestyle project 任务 六 一、新建任务 在 Jenkins 界面 点击 New Item 点击 Apply 点击 Save 回到任务主界面 二、General 点击左侧 Configure Description&#xff1a;任务描述 勾选 Discard old builds Discard old builds&#xff1a;控制何时…

一场始于 Selector Error 的拯救行动:企查查数据采集故障排查记

时间轴呈现事故进程 17:00&#xff1a;开发人员小李正在尝试利用 Python 爬虫从企查查&#xff08;https://www.qcc.com&#xff09;抓取公司工商信息。原本一切正常&#xff0c;但突然发现信息采集失败&#xff0c;程序抛出大量选择器错误。17:15&#xff1a;小李发现&#x…

HCIA项目实践---OSPF的基本配置

9.5.12 OSPF的基本配置 &#xff08;所搭环境如上图所示&#xff09; A 先配置IP地址 (先进入路由器R1的0/0/0接口配置IP地址&#xff0c;再进入环回接口配置IP地址) &#xff08;配置R2路由器的0/0/0和0/0/1以及环回接口的IP地址&#xff09; &#xff08;置R3路由器的0/0/0接…

Java练习(20)

ps:练习来自力扣 给你一个 非空 整数数组 nums &#xff0c;除了某个元素只出现一次以外&#xff0c;其余每个元素均出现两次。找出那个只出现了一次的元素。 你必须设计并实现线性时间复杂度的算法来解决此问题&#xff0c;且该算法只使用常量额外空间。 class Solution {pu…

在ArcGIS JS API中使用WebGL实现波纹扩散特效

在现代WebGIS开发中&#xff0c;ArcGIS JS API 是一个非常强大的工具&#xff0c;它允许开发者创建丰富的地理信息应用。结合WebGL技术&#xff0c;我们可以实现更加复杂和炫酷的可视化效果。本文将介绍如何使用ArcGIS JS API结合WebGL实现一个波纹扩散特效。 波纹扩散效果 1 概…