DeepSeek-R1 论文解析——人工智能领域的 RL LLM 新时代?

简介

最近几年,AI领域真是突飞猛进,尤其是大型语言模型(LLM),它们为通用人工智能(AGI)的发展打下了基础。OpenAI的o1模型就是个很好的例子,它用了一种创新的推理时间扩展技术,大大提升了推理能力。不过呢,这个模型还是闭源的,有点遗憾。

今天咱们来聊聊DeepSeek发布的一篇超有料的研究论文——DeepSeek-R1。这篇论文的标题是《DeepSeek-R1:通过强化学习激励大型语言模型中的推理能力》,里面介绍了一个超牛的开源推理模型,还详细讲解了怎么用大规模的强化学习技术来训练这种模型。

论文题目:《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

论文链接:https://arxiv.org/abs/2501.12948

大模型训练流程回顾

在咱们深入探讨那篇论文之前,先简单回顾一下大型语言模型(LLM)是怎么训练出来的。一般来说,LLM的训练可以分为三个主要阶段:

  1. 预训练:这个阶段,模型会“啃”大量的文本和代码,学习一些通用的知识。这个阶段的目标是让模型学会预测接下来该说什么。比如,给你一个句子“写一个就寝时间 _”,模型可能会填上“故事”这样的词。不过,这时候的模型还不太懂怎么按照人的指示来做事。

  2. 监督微调:接下来,模型会在一些指令数据集上进行微调。这些数据集里都是一些“指令-响应”对,响应用来作为标签。经过这个阶段,模型就能更好地理解和执行人类的指令了。

  3. 强化学习:最后,模型可以通过反馈来进一步提升。常见的方法有两种:一种是从人类反馈中学习(RLHF),另一种是从AI反馈中学习(RLAIF)。RLHF需要大量高质量的人类反馈,尤其是对于复杂任务,这挺有挑战的。所以,RLAIF就派上用场了,它让AI模型自己提供反馈。不过,这种方法得有个强大的模型来确保反馈的准确性。

DeepSeek-R1-Zero模型介绍


这篇论文有点特别,它直接跳过了或者部分跳过了监督微调这个阶段。具体来说,论文里提到的第一个模型——DeepSeek-R1-Zero,是从一个叫DeepSeek-V3-Base的预训练模型开始的,这个模型有6710亿个参数。有意思的是,它完全跳过了监督微调这一步。

为了大规模进行强化学习,论文里用了一种基于规则的强化学习方法,而不是传统的依赖人类或AI反馈的强化学习。这样一来,训练过程就简化了不少,效率也提高了。

基于规则的强化学习

GRPO 对给定输出进行多个输出采样,并指示模型选择最佳输出,对每个输出使用奖励

GRPO 是怎么干的?

  1. 输入问题,采样输出
    首先,给模型一个输入问题,然后让它生成一堆输出。每个输出都包含一个推理过程和答案。

  2. 用规则打分
    GRPO 会根据一些预定义的规则,给每个输出打分,也就是计算奖励。这些规则主要看两点:

    • 准确度:比如数学题,答案对不对可以直接检查;编程题的话,可以用测试用例来验证。
    • 格式:模型得按照规定的格式输出。比如论文里要求推理过程放在 <think> 标签里,答案放在 <answer> 标签里,格式奖励就是确保模型不乱来。

为啥用规则而不是神经模型?

  • 简单又省钱:用规则打分不需要额外的神经模型,训练过程更简单,成本也更低,适合大规模搞。
  • 避免奖励黑客:用神经模型打分的话,模型可能会钻空子,找到一些奇怪的方式来刷高分,但实际效果并不好。规则打分就没这个问题。

该模型被指示遵循一定的格式,在思考标签内生成推理过程,并在答案标签内回答

DeepSeek-R1-Zero 性能洞察

现在让我们探索 DeepSeek-R1-Zero 模型的一些性能见解。

DeepSeek-R1-Zero 与 OpenAI o1 的性能比较

在论文的上表中,我们看到了 DeepSeek-R1-Zero 和 OpenAI 的 o1 在推理相关基准上的比较。令人印象深刻的是,DeepSeek-R1-Zero 与 o1 相当,甚至在某些情况下超越了它。下面这张引人入胜的论文图表显示了在 AIME 数据集上测量的训练过程中的改进进展。值得注意的是,AIME 上的平均 pass@1 分数显著提高,从最初的 15.6% 跃升至令人印象深刻的 71.0%,达到与 OpenAI 的 o1 相当的水平!

DeepSeek-R1-Zero 训练过程中的改进进展

DeepSeek-R1-Zero 的自我进化过程


论文中的一个关键见解是模型的自我进化过程,如上图所示。x 轴表示训练步骤数,y 轴表示随着训练的进行,模型的响应长度增加。通过强化学习,模型自然学会在解决推理任务时分配更多的思考时间。令人惊讶的是,这无需任何外部调整即可实现。

“顿悟时刻”现象

论文中还提到了另一个有趣的现象,即 DeepSeek-R1-Zero 的“顿悟时刻”。论文中的以下示例演示了这一现象。给定一个数学问题,模型开始推理过程。然而,在某个时刻,模型开始重新评估其解决方案。模型学会重新评估其初始方法并在必要时自我纠正。这种非凡的能力在强化学习训练过程中自然出现。

模型学会重新评估其推理的顿悟时刻

DeepSeek-R1 模型的训练过程

现在让我们讨论一下第二个模型DeepSeek-R1的训练过程。但首先,既然我们刚刚看到了Zero如此出色的能力,为什么还需要第二个模型呢?

为什么还需要第二个模型 DeepSeek-R1?

虽然 DeepSeek-R1-Zero 表现得很厉害,但它有两个小问题:

  1. 可读性差:它的输出有时候读起来不太顺,有点难懂。
  2. 语言混乱:它经常在同一个回答里混用多种语言,比如一会儿中文一会儿英文。

这两个问题让 DeepSeek-R1-Zero 用起来没那么顺手。有意思的是,研究发现,如果强行让模型只用一种语言,它的表现反而会稍微变差。看来模型是学会了用多种语言来表达自己,虽然我们人类通常只用一种语言。

DeepSeek-R1 的训练流程

DeepSeek-R1 训练流程

DeepSeek-R1 采用四个阶段的流程进行训练:

冷启动(第 1 阶段)

  • 从预训练模型 DeepSeek-V3-Base 开始,该模型在从 DeepSeek-R1-Zero 收集的小型结果数据集上进行监督微调
  • 这些结果经过验证,确保高质量和可读性。
  • 该数据集包含数千个样本,规模相对较小。
  • 在这个小型高质量数据集上进行监督微调,有助于 DeepSeek-R1 缓解在初始模型中观察到的可读性问题

推理强化学习(第 2 阶段)

  • 采用大规模强化学习来增强模型的推理能力。
  • 重点提升编码、数学、科学和逻辑推理等任务的能力。
  • 这些任务的明确解决方案可用于定义强化学习过程中的奖励规则。

拒绝采样和监督微调(第 3 阶段)

  • 该阶段使用第 2 阶段的模型检查点来生成大量样本。
  • 采用拒绝采样,仅保留正确且可读的样本
  • 训练奖励模型 DeepSeek-V3,用于决定应保留哪些样本。
  • 此阶段还包括 DeepSeek-V3 的部分训练数据。
  • 监督微调用于训练模型,使其在推理导向问题之外,增强在更多领域的能力。

多样化强化学习阶段(第 4 阶段)

  • 该阶段包含多样化的任务
    • 对于允许的任务(例如数学),使用基于规则的奖励
    • 对于其他任务,LLM 提供反馈,使模型与人类偏好保持一致。
      使用第 3 阶段的数据集提炼了各种较小的开源模型,提供了具有高推理能力的较小替代方案

DeepSeek-R1 的出色效果


免费提供的DeepSeek-R1与 OpenAI 的 o1 模型相比的出色结果。论文中的上图显示了 DeepSeek-R1 不仅在某些基准上与 o1 相当,而且超越了 o1。

此外,320 亿参数蒸馏模型也表现出了令人印象深刻的性能,使其成为具有高推理能力的可行小型替代方案

原文:https://aipapersacademy.com/deepseek-r1/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14972.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第七节 文件与流

基本的输入输出&#xff08;iostream&#xff09; C标准库提供了一组丰富的输入/输出功能&#xff0c;C的I/O发生在流中&#xff0c;流是字节序列。如果字节流是从设备&#xff08;键盘、磁盘驱动器、网络连接等&#xff09;流向内存&#xff0c;叫做输入操作。如果字节流是从…

算法篇——动态规划

核心思想&#xff1a; 将问题分解为重叠的子问题&#xff0c;并储存子问题的解&#xff08;使用字典、数组或哈希表&#xff09;&#xff0c;避免重复计算&#xff0c;从而提高效率。 题目特点&#xff1a;重叠子问题&#xff08;特殊地&#xff0c;是最优子结构&#xff09; …

redis高级数据结构Stream

文章目录 背景stream概述消息 ID消息内容常见操作独立消费创建消费组消费 Stream弊端Stream 消息太多怎么办?消息如果忘记 ACK 会怎样?PEL 如何避免消息丢失?分区 Partition Stream 的高可用总结 背景 为了解决list作为消息队列是无法支持消息多播问题&#xff0c;Redis5.0…

ASP.NET Core WebSocket、SignalR

目录 WebSocket SignalR SignalR的基本使用 WebSocket WebSocket基于TCP协议&#xff0c;支持二进制通信&#xff0c;双工通信。性能和并发能力更强。WebSocket独立于HTTP协议&#xff0c;不过我们一般仍然把WebSocket服务器端部署到Web服务器上&#xff0c;因为可以借助HT…

多路文件IO

一、思维导图

在CT107D单片机综合训练平台上,8个数码管分别单独依次显示0~9的值,然后所有数码管一起同时显示0~F的值,如此往复。

题目&#xff1a;在CT107D单片机综合训练平台上&#xff0c;8个数码管分别单独依次显示0~9的值&#xff0c;然后所有数码管一起同时显示0~F的值&#xff0c;如此往复。 延时函数分析LED首先实现8个数码管单独依次显示0~9的数字所有数码管一起同时显示0~F的值&#xff0c;如此往…

小红书提出新面部视频交换方法DynamicFace,可生成高质量且一致的视频面部图像。

DynamicFace是一种新颖的面部视频交换方法&#xff0c;旨在生成高质量且一致的视频面部图像。该方法结合了扩散模型的强大能力和可插拔的时间层&#xff0c;以解决传统面部交换技术面临的两个主要挑战&#xff1a;在保持源面部身份的同时&#xff0c;准确传递目标面部的运动信息…

2025.2.9机器学习笔记:PINN文献阅读

2025.2.9周报 文献阅读题目信息摘要Abstract创新点网络架构实验结论缺点以及后续展望 文献阅读 题目信息 题目&#xff1a; GPT-PINN:Generative Pre-Trained Physics-Informed Neural Networks toward non-intrusive Meta-learning of parametric PDEs期刊&#xff1a; Fini…

天津三石峰科技——汽车生产厂的设备振动检测项目案例

汽车产线有很多传动设备需要长期在线运行&#xff0c;会出现老化、疲劳、磨损等 问题&#xff0c;为了避免意外停机造成损失&#xff0c;需要加装一些健康监测设备&#xff0c;监测设备运 行状态。天津三石峰科技采用 12 通道振动信号采集卡&#xff08;下图 1&#xff09;对…

CSGHub高效管理|解锁DeepSeek R1蒸馏模型 :高效推理的新选择

在大模型的新时代&#xff0c;如何在保持高推理能力的同时降低计算成本&#xff0c;已经成为企业和开发者们关注的核心问题。 你是否也在寻找一个既强大又高效的AI模型&#xff1f; DeepSeek R1&#xff0c;作为目前领先的AI模型之一&#xff0c;不仅推出了强大的671B参数旗舰模…

来自国外的实用软件 ,已接触所有限制!

今天我给大家带来了一款超棒的全自动抠图软件&#xff0c;真的是一个来自国外的宝藏工具&#xff01;而且好消息是&#xff0c;它现在完全解除了限制&#xff0c;可以无限畅快地使用了。 Teorex PhotoScissors 抠图软件 这款软件特别贴心&#xff0c;根本不需要安装&#xff0…

win32汇编环境,结构体的使用示例一

;运行效果 ;win32汇编环境,结构体的使用示例一 ;举例说明结构体的定义&#xff0c;如何访问其中的成员&#xff0c;使用assume指令指向某个结构体&#xff0c;利用偏移得到成员值等 ;直接抄进RadAsm可编译运行。重要部分加备注。 ;下面为asm文件 ;>>>>>>>…

Ai无限免费生成高质量ppt教程(deepseek+kimi)

第一步&#xff1a;打开deepseek官网&#xff08;DeepSeek) 1.如果deepseek官网网络繁忙&#xff0c;解决方案如下&#xff1a; (1)使用easychat官网&#xff08;EasyChat&#xff09;使用deepseek模型&#xff0c;如图所示&#xff1a; &#xff08;2&#xff09;本地部署&…

C#常用集合优缺点对比

先上结论&#xff1a; 在C#中&#xff0c;链表、一维数组、字典、List<T>和ArrayList是常见的数据集合类型&#xff0c;它们各有优缺点&#xff0c;适用于不同的场景。以下是它们的比较&#xff1a; 1. 一维数组 (T[]) 优点&#xff1a; 性能高&#xff1a;数组在内存中…

大数据项目2a:基于spark的电影推荐和分析系统设计与实现

1、项目目的 本项目的目的是设计并实现一个基于Spark的电影推荐系统&#xff0c;以应对大数据环境下电影推荐服务的挑战。通过整合电影、评分和用户数据集&#xff0c;并利用SparkSql框架进行高效处理&#xff0c;系统能够为用户提供个性化的电影推荐。项目采用多种先进技术&…

CANoe工具使用技巧 --- 如何使用 “on ethernetPacket “事件处理程序

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 简单,单纯,喜欢独处,独来独往,不易合同频过着接地气的生活,除了生存温饱问题之外,没有什么过多的欲望,表面看起来很高冷,内心热情,如果你身…

数据库5(MySQL版)

作业要求 触发器 mysql> create trigger after_order_insert -> after insert on orders -> for each row -> update goods set num num - new.onum where gid new.gid; mysql> create trigger after_order_delete -> after delete on or…

【异常解决】在idea中提示 hutool 提示 HttpResponse used withoud try-with-resources statement

博主介绍&#xff1a;✌全网粉丝22W&#xff0c;CSDN博客专家、Java领域优质创作者&#xff0c;掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围&#xff1a;SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物…

浅析Ruby类污染及其在Sinatra框架下的利用

和JavaScript中的原型链污染类似&#xff0c;Ruby中也存在类似的概念——类污染&#xff0c;两者都是对象进行不安全的递归合并导致的。 网上也没有相关的分析文章&#xff0c;只有下面这篇文章应该是第一次谈到这个问题 Class Pollution in Ruby: A Deep Dive into Exploiti…

SamWaf开源轻量级的网站应用防火墙(安装包),私有化部署,加密本地存储的数据,易于启动,并支持 Linux 和 Windows 64 位和 Arm64

一、SamWaf轻量级开源防火墙介绍 &#xff08;文末提供下载&#xff09; SamWaf网站防火墙是一款适用于小公司、工作室和个人网站的开源轻量级网站防火墙&#xff0c;完全私有化部署&#xff0c;数据加密且仅保存本地&#xff0c;一键启动&#xff0c;支持Linux&#xff0c;Wi…