【大模型理论篇】DeepSeek-R1:引入冷启动的强化学习

1. 背景   

        首先给出DeepSeek-V3、DeepSeek-R1-Zero、DeepSeek-R1的关系图【1】。

        虽然DeepSeek-R1-Zero推理能力很强,但它也面临一些问题。例如,DeepSeek-R1-Zero存在可读性差和语言混杂等问题。为了使推理过程更具可读性,进而推出了DeepSeek-R1,利用强化学习和人类友好的冷启动数据的方法。

2. DeepSeek-R1:使用冷启动的强化学习

        受DeepSeek-R1-Zero启发,自然而然提出两个问题:

        1) 通过引入少量高质量数据作为冷启动,推理性能是否能进一步提高或收敛加速?

        2) 如何训练一个用户友好的模型,使其不仅生成清晰连贯的思维链(CoT),还展示出强大的通用能力?

        为了解决这些问题,设计一个训练DeepSeek-R1的流程,该流程包括四个阶段,如下所述。

2.1 冷启动

        与DeepSeek-R1-Zero不同,为了防止RL训练的早期阶段由于基础模型的不稳定而导致冷启动问题,因此需要为DeepSeek-R1构建并收集少量长的思维链数据,作为初始RL演员对模型进行微调。为了收集这些数据,探索了几种方法:使用少量提示并以长的思维链作为示例,直接提示模型生成详细的答案并进行反思和验证,收集DeepSeek-R1-Zero的输出并将其转化为可读格式,然后通过人工注释者进行后处理以优化结果。

        在这项工作中,DeepSeek收集了大量的冷启动数据,用于微调DeepSeek-V3-Base,作为RL的起始点。与DeepSeek-R1-Zero相比,冷启动数据的优势包括:

  • 可读性:DeepSeek-R1-Zero的一个关键限制是其内容通常不适合阅读。回答可能会混杂多种语言,或者缺乏用于突出答案的markdown格式。相比之下,在为DeepSeek-R1创建冷启动数据时,设计一种可读的模式,在每个回答的末尾包括总结,并过滤掉不适合阅读的回答。定义的输出格式是 |special_token|<reasoning_process>|special_token|<summary>,其中reasoning_process是该查询的CoT,而summary用于总结推理结果。
  • 潜力:通过精心设计冷启动数据的模式并结合人类先验,DeepSeek-R1在性能上优于DeepSeek-R1-Zero。迭代训练也许是推理模型更好的发展模式。

2.2 面向推理的强化学习

        在基于冷启动数据对DeepSeek-V3-Base进行微调后,应用与DeepSeek-R1-Zero中相同的大规模强化学习训练过程。此阶段的重点是增强模型的推理能力,尤其是在编码、数学、科学和逻辑推理等推理密集型任务中,这些任务涉及具有明确解决方案的定义良好的问题,这一点其实在强化学习中很重要在训练过程中,CoT常常表现出语言混合的现象,特别是当RL提示涉及多种语言时。为了解决语言混合的问题,在RL训练过程中引入了语言一致性奖励,该奖励是通过计算CoT中目标语言单词的比例来计算的。虽然消融实验表明,这种对齐可能会导致模型性能轻微下降,但该奖励与人类偏好一致,使其更加易读。最后,将推理任务的准确性和语言一致性的奖励相结合,直接相加形成最终奖励。然后,对微调后的模型应用RL训练,直到其在推理任务上达到收敛。

2.3 拒绝采样和监督微调

        当面向推理的强化学习收敛时,利用得到的检查点来收集SFT(监督微调)数据,以进行下一轮训练。与最初的冷启动数据主要专注于推理不同,这一阶段包含了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。具体来说,生成数据并对模型进行微调,如下所述。

  • 推理数据:策划推理提示并通过拒绝采样从上面RL训练的检查点中生成推理轨迹。在之前的阶段,仅包含了可以通过基于规则的奖励评估的数据。在这个阶段,通过引入额外的数据扩展了数据集,其中一些数据使用生成奖励模型,通过将真实标签和模型预测输入DeepSeek-V3进行判断。此外,由于模型输出有时较为混乱且难以阅读,需要过滤掉包含混杂语言、长段落和代码块的思维链。对于每个提示,采样多个回应,并仅保留正确的回应。最终,收集约60万条与推理相关的训练样本。
  • 非推理数据:对于非推理数据,例如写作、事实问答、自我认知和翻译,采用DeepSeek-V3的pipeline,并重复使用DeepSeek-V3的部分SFT数据集。对于某些非推理任务,调用DeepSeek-V3生成潜在的思维链后再进行回答提示。对于简单的查询,例如“hello”,则不会提供思维链。最终收集大约20万条与推理无关的训练样本。

        使用上述得到的数据集(约80万条样本)对DeepSeek-V3-Base进行两轮微调。

2.4 面向所有场景的强化学习

        为了进一步使模型与人类偏好对齐,需要实施第二阶段的强化学习,提高模型的有用性和无害性,同时进一步完善其推理能力。具体来说,使用奖励信号和多样化提示分布训练模型。对于推理数据,遵循DeepSeek-R1-Zero中提到的方法,利用基于规则的奖励引导学习过程,涉及数学、代码和逻辑推理领域。对于一般数据,则采用奖励模型来捕捉复杂和细微场景中的人类偏好。最后在DeepSeek-V3 pipeline的基础上,采用类似的偏好对和训练提示分布。对于有用性则专注于最终总结,确保评估重点放在响应对用户的实用性和相关性上,同时最小化对推理过程的干扰。对于无害性,评估模型的整个响应,包括推理过程和总结,以识别并减轻生成过程中可能出现的风险、偏见或有害内容。最终,通过整合奖励信号和多样化的数据分布,能够训练出一个在推理任务中表现较好,同时优先考虑有用性和无害性的模型。

3. 参考材料

【1】The Layman’s Introduction to DeepSeek-R1 Training

【2】DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12491.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【BUUCTF杂项题】荷兰宽带数据泄露、九连环

一.荷兰宽带数据泄露 打开发现是一个.bin为后缀的二进制文件&#xff0c;因为提示宽带数据泄露&#xff0c;考虑是宽带路由器方向的隐写 补充&#xff1a;大多数现代路由器都可以让您备份一个文件路由器的配置文件&#xff0c;软件RouterPassView可以读取这个路由配置文件。 用…

院校联合以项目驱动联合培养医工计算机AI人才路径探析

一、引言 1.1 研究背景与意义 在科技飞速发展的当下&#xff0c;医疗人工智能作为一个极具潜力的新兴领域&#xff0c;正深刻地改变着传统医疗模式。从疾病的早期诊断、个性化治疗方案的制定&#xff0c;到药物研发的加速&#xff0c;人工智能技术的应用极大地提升了医疗服务…

解读“大语言模型(LLM)安全性测评基准”

1. 引入 OWASP&#xff0c;全称为Open Web Application Security Project&#xff0c;即开放式Web应用程序安全项目&#xff0c;是一个致力于提高软件安全性的非营利国际组织。 由于庞大的规模和复杂的结构&#xff0c;大语言模型也存在多种安全风险&#xff0c;如prompt误导…

【大数据技术】教程03:本机PyCharm远程连接虚拟机Python

本机PyCharm远程连接虚拟机Python 注意:本文需要使用PyCharm专业版。 pycharm-professional-2024.1.4VMware Workstation Pro 16CentOS-Stream-10-latest-x86_64-dvd1.iso写在前面 本文主要介绍如何使用本地PyCharm远程连接虚拟机,运行Python脚本,提高编程效率。 注意: …

Notepad++消除生成bak文件

设置(T) ⇒ 首选项... ⇒ 备份 ⇒ 勾选 "禁用" 勾选禁用 就不会再生成bak文件了 notepad怎么修改字符集编码格式为gbk 如图所示

CSS布局(一)flex一篇搞定

目录 一、flex布局 1.1. 认识flex布局 1.2. flex布局重要的概念 二、flex container中的属性 2.1.flex-direction 2.2.flex-wrap、flex-flow 2.3.justify-content 2.4.align-items 2.5.align-content 三、 flex item中的属性 3.1.order 3.2.align-self 3.3.flex-gr…

e2studio开发RA2E1(5)----GPIO输入检测

e2studio开发RA2E1.5--GPIO输入检测 概述视频教学样品申请硬件准备参考程序源码下载新建工程工程模板保存工程路径芯片配置工程模板选择时钟设置GPIO口配置按键口配置按键口&Led配置R_IOPORT_PortRead()函数原型R_IOPORT_PinRead()函数原型代码 概述 本篇文章主要介绍如何…

[吾爱出品]CursorWorkshop V6.33 专业鼠标光标制作工具-简体中文汉化绿色版

CursorWorkshop V6.33 专业鼠标光标制作工具 链接&#xff1a;https://pan.xunlei.com/s/VOIFeq5DFB9FS56Al_mT2EfdA1?pwd7ij4# 产品概述 Axialis CursorWorkshop 是一个专业光标创作工具它在 Windows 下运行&#xff0c;让您轻松创建高质量的静态和动态光标适用于 Windows …

STM32单片机学习记录(2.2)

一、STM32 13.1 - PWR简介 1. PWR&#xff08;Power Control&#xff09;电源控制 &#xff08;1&#xff09;PWR负责管理STM32内部的电源供电部分&#xff0c;可以实现可编程电压监测器和低功耗模式的功能&#xff1b; &#xff08;2&#xff09;可编程电压监测器&#xff08;…

【物联网】ARM核常用指令(详解):数据传送、计算、位运算、比较、跳转、内存访问、CPSR/SPSR

文章目录 指令格式&#xff08;重点&#xff09;1. 立即数2. 寄存器位移 一、数据传送指令1. MOV指令2. MVN指令3. LDR指令 二、数据计算指令1. ADD指令1. SUB指令1. MUL指令 三、位运算指令1. AND指令2. ORR指令3. EOR指令4. BIC指令 四、比较指令五、跳转指令1. B/BL指令2. l…

Nacos 的介绍和使用

1. Nacos 的介绍和安装 与 Eureka 一样&#xff0c;Nacos 也提供服务注册和服务发现的功能&#xff0c;Nacos 还支持更多元数据的管理&#xff0c; 同时具备配置管理功能&#xff0c;功能更丰富。 1.1. windows 下的安装和启动方式 下载地址&#xff1a;Release 2.2.3 (May …

【零基础到精通】小白如何自学网络安全

小白人群想学网安但是不知道从哪入手&#xff1f;一篇文章告诉你如何在4个月内吃透网安课程&#xff0c;掌握网安技术 一、基础阶段 1.了解网安相关基础知识 了解中华人民共和国网络安全法、熟知网络安全的相关概念&#xff1a;包括信息安全、风险管理、网络攻防原理、认证与…

架构规划之任务边界划分过程中承接分配

架构师在边界划分的过程中需要做什么事情呢&#xff1f;接下来&#xff0c;我们会讨论一些关于任务分配的 基础假设&#xff0c;以及由这些基础假设而带来的决策路径。 所谓任务边界划分&#xff0c;就是判定某个任务在多个承接方中&#xff0c;应该归属到哪个承接方的过程。…

如可安装部署haproxy+keeyalived高可用集群

第一步&#xff0c;环境准备 服务 IP 描述 Keepalived vip Haproxy 负载均衡 主服务器 Rip&#xff1a;192..168.244.101 Vip&#xff1a;192.168.244.100 Keepalive主节点 Keepalive作为高可用 Haproxy作为4 或7层负载均衡 Keepalived vip Haproxy 负载均衡 备用服务…

MySQL常用数据类型和表的操作

文章目录 (一)常用数据类型1.数值类2.字符串类型3.二进制类型4.日期类型 (二)表的操作1查看指定库中所有表2.创建表3.查看表结构和查看表的创建语句4.修改表5.删除表 (三)总代码 (一)常用数据类型 1.数值类 BIT([M]) 大小:bit M表示每个数的位数&#xff0c;取值范围为1~64,若…

DeepSeekMoE:迈向混合专家语言模型的终极专业化

一、结论写在前面 论文提出了MoE语言模型的DeepSeekMoE架构&#xff0c;目的是实现终极的专家专业化(expert specialization)。通过细粒度的专家分割和共享专家隔离&#xff0c;DeepSeekMoE相比主流的MoE架构实现了显著更高的专家专业化和性能。从较小的2B参数规模开始&#x…

寻迹传感器模块使用说明

产品用途&#xff1a; 1、电度表脉冲数据采样 2、传真机碎纸机纸张检测 3、障碍检测 4、黑白线检测 产品介绍: 1、采用 TCRT5000 红外反射传感器 2、检测反射距离&#xff1a;1mm~25mm 适用 3、比较器输出&#xff0c;信号干净&#xff0c;波形好&#xff0c;驱…

java项目验证码登录

1.依赖 导入hutool工具包用于创建验证码 <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.5.2</version></dependency> 2.测试 生成一个验证码图片&#xff08;生成的图片浏览器可…

Baklib探讨如何通过内容中台提升组织敏捷性与市场竞争力

内容概要 在数字化转型的浪潮中&#xff0c;内容中台已经成为企业提升市场响应速度和竞争力的关键所在。内容中台不仅是信息处理的集结地&#xff0c;更是促进资源高效整合和灵活应用的重要平台。通过构建一个高效的内容中台架构&#xff0c;企业能够更好地应对不断变化的市场…

Java基础——分层解耦——IOC和DI入门

目录 三层架构 Controller Service Dao ​编辑 调用过程 面向接口编程 分层解耦 耦合 内聚 软件设计原则 控制反转 依赖注入 Bean对象 如何将类产生的对象交给IOC容器管理&#xff1f; 容器怎样才能提供依赖的bean对象呢&#xff1f; 三层架构 Controller 控制…