【再读】2501.12948/DeepSeek-R1通过强化学习提升大型语言模型(LLMs)的推理能力

在这里插入图片描述
DeepSeek-R1-Zero展示了在没有监督数据的情况下,通过RL可以发展出强大的推理能力。DeepSeek-R1通过引入冷启动数据和多阶段训练,进一步提升了推理性能,达到了与OpenAI-o1-1217相当的水平。此外,通过蒸馏技术,将DeepSeek-R1的推理能力转移到更小的密集模型上,显著提高了这些模型的推理能力。

一、模型介绍

维度DeepSeek-V3R1-ZeroDeepSeek-R1
定位通用基座模型纯 RL 训练的推理实验模型多阶段优化的商用推理模型
训练方法预训练 + SFT纯强化学习(GRPO 算法)SFT → RL → SFT → RL与SFT混合训练
数据依赖通用语料 + 标注数据数学/代码数据(无需标注)RL 生成数据 + 人类偏好数据
推理能力基础问答强推理但语言混杂强推理 + 语言规范
可用性通用场景实验性(不可直接商用)全场景适配(工作助手、编程等)

(一)DeepSeek-R1-Zero

在这里插入图片描述

  1. 训练算法:采用Group Relative Policy Optimization(GRPO)算法,避免使用与策略模型同样大小的批评模型,从组分数估计基线,降低训练成本。
  2. 奖励建模:使用基于规则的奖励系统,包括准确性奖励和格式奖励,避免使用可能导致奖励作弊的神经奖励模型。
  3. 训练模板:设计引导模型按特定格式输出的模板,要求先产生推理过程,再给出答案,便于观察模型在RL过程中的自然发展。
  4. 性能表现:在AIME 2024基准测试中,pass@1分数从15.6%提升到71.0%,经多数投票可提升至86.7%,与OpenAI-o1-0912相当,展现出强大的推理能力。同时,模型在训练过程中自发出现反思、探索替代方法等复杂推理行为。

(二)DeepSeek-R1

在这里插入图片描述

  1. 冷启动:收集数千个长思维链(CoT)数据对DeepSeek-V3-Base模型进行微调,解决DeepSeek-R1-Zero可读性差和语言混合问题,为后续RL训练提供更好起点。

  2. 推理导向的强化学习:应用与DeepSeek-R1-Zero相同的大规模RL训练过程,引入语言一致性奖励缓解语言混合问题,结合推理任务准确性和语言一致性奖励形成最终奖励,训练模型直至推理任务收敛。

  3. 拒绝采样和监督微调:在推理导向的RL收敛后,通过拒绝采样从RL检查点收集推理数据,结合其他领域数据(如写作、事实性问答等)对模型进行监督微调,扩展模型能力。在这里插入图片描述

  4. 全场景强化学习:进行二次RL训练,使用奖励信号和多样的提示分布,使模型在推理能力提升的同时,更符合人类偏好,优先考虑对用户的帮助性和无害性。
    在这里插入图片描述

(三)模型蒸馏

使用DeepSeek-R1生成的800k样本对Qwen和Llama系列开源模型进行微调,将大模型的推理模式转移到小模型。实验表明,蒸馏后的小模型在推理任务上表现出色,如DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的成绩超越QwQ-32B-Preview。

二、实验与结果

(一)实验设置

  1. 基准测试:使用MMLU、AIME 2024、LiveCodeBench等多种基准测试,涵盖推理、知识、编码等多个领域,全面评估模型性能。
  2. 评估提示:针对不同基准测试采用相应的提示设置,如MMLU使用simpleevals框架提示,MMLU-Redux采用Zero-Eval提示格式等。
  3. 基线模型:与DeepSeek-V3、Claude-Sonnet-3.5-1022等多个强大的基线模型进行对比。
  4. 评估方法:设置最大生成长度为32,768令牌,采用pass@k评估方法,使用非零温度(如采样温度0.6和top-P值0.95)生成多个响应计算pass@1分数,对AIME 2024还报告共识(多数投票)结果。

(二)实验结果

  1. DeepSeek-R1评估:在教育知识基准测试(如MMLU、MMLU-Pro)、编码任务(如LiveCodeBench、Codeforces)和数学任务(如AIME 2024、MATH-500)中,DeepSeek-R1表现优异,与OpenAI-o1-1217相当甚至在部分任务上超越。在处理事实性查询和遵循格式指令方面也优于DeepSeek-V3,但在某些中文基准测试中因安全RL导致表现稍逊。
  2. 蒸馏模型评估:蒸馏后的小模型在推理任务上性能突出,DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中超越GPT-4o和Claude-3.5-Sonnet,DeepSeek-R1-Distill-Qwen-14B在所有评估指标上超越QwQ-32B-Preview。

三、技术对比与反思

(一)蒸馏与强化学习对比

实验表明,蒸馏更强大的模型到小模型能取得优异结果,而小模型直接进行大规模RL训练需要巨大计算资源,且性能不如蒸馏模型。但要突破智能边界,仍需更强大的基础模型和大规模RL训练。

(二)不成功的尝试

  1. 过程奖励模型(PRM):PRM虽能指导模型解决推理任务,但在定义推理步骤、判断中间步骤正确性和避免奖励作弊方面存在困难,在大规模RL训练中计算成本过高。
  2. 蒙特卡洛树搜索(MCTS):受AlphaGo启发尝试使用MCTS提升测试时间计算可扩展性,但在训练中遇到搜索空间过大、模型易陷入局部最优和价值模型训练困难等问题。

论文评价

优点与创新

  1. 纯强化学习的突破:DeepSeek-R1-Zero是第一个通过纯强化学习(RL)而不依赖监督微调(SFT)来提升语言模型推理能力的模型,标志着在这一领域迈出了重要一步。
  2. 多阶段训练管道:DeepSeek-R1引入了一个包含两个RL阶段和两个SFT阶段的多阶段训练管道,旨在发现改进的推理模式并符合人类偏好。
  3. 冷启动数据的利用:通过引入冷启动数据,DeepSeek-R1在接近RL收敛时,通过拒绝采样生成SFT数据,并结合DeepSeek-V3的监督数据进行再训练,显著提升了推理性能。
  4. 知识蒸馏:展示了从DeepSeek-R1向更小模型的知识蒸馏过程,证明了较大模型的推理模式对小模型的性能提升至关重要。
  5. 广泛的任务评估:在多个基准测试上进行了广泛的评估,包括MMLU、DROP、GPQA Diamond、SimpleQA等,展示了DeepSeek-R1在不同任务上的强大能力。
  6. 自演化过程的可视化:通过图表展示了DeepSeek-R1-Zero在AIME 2024基准上的性能轨迹,揭示了其自我演化和“顿悟”时刻。

不足与反思

  1. 可读性问题:DeepSeek-R1-Zero在可读性方面存在挑战,响应内容可能混合多种语言或缺乏Markdown格式。
  2. 语言混合问题:在处理非英语或非中文查询时,DeepSeek-R1可能会使用英语进行推理和响应,导致语言混合问题。
  3. 提示工程敏感性:DeepSeek-R1对提示非常敏感,少量提示会显著降低其性能,建议用户直接描述问题并使用零样本设置指定输出格式。
  4. 软件工程任务的挑战:由于评估时间长,影响了RL过程的效率,DeepSeek-R1在软件工程任务上未能显著超越DeepSeek-V3。未来版本将通过在软件工程数据上实施拒绝采样或在RL过程中引入异步评估来提高效率。

参考:
图片来自:https://zhuanlan.zhihu.com/p/22095237738

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21117.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

校园网架构设计与部署实战

一、学习目标 掌握校园网分层架构设计原则 理解多业务VLAN规划方法 学会部署认证计费系统 实现基础网络安全防护 二、典型校园网场景 需求分析:某中学需建设新型校园网络 覆盖教学楼/宿舍/图书馆三区域 区分教师/学生/访客网络权限 满足2000终端并发接入 …

leetcode:942. 增减字符串匹配(python3解法)

难度&#xff1a;简单 由范围 [0,n] 内所有整数组成的 n 1 个整数的排列序列可以表示为长度为 n 的字符串 s &#xff0c;其中: 如果 perm[i] < perm[i 1] &#xff0c;那么 s[i] I 如果 perm[i] > perm[i 1] &#xff0c;那么 s[i] D 给定一个字符串 s &#xff0…

数仓搭建(hive):DWS层(服务数据层)

DWS层示例: 搭建日主题宽表 需求 维度 步骤 在hive中建数据库dws >>建表 CREATE DATABASE if NOT EXISTS DWS; 建表sql CREATE TABLE yp_dws.dws_sale_daycount( --维度 city_id string COMMENT 城市id, city_name string COMMENT 城市name, trade_area_id string COMME…

网工项目实践2.8 IPv6设计及网络优化需求分析及方案制定

本专栏持续更新&#xff0c;整一个专栏为一个大型复杂网络工程项目。阅读本文章之前务必先看《本专栏必读》。 全网拓扑展示 一.IPV6部署规划 在北京总部&#xff0c;为了迎接未来网络的发展&#xff0c;规划在BJ_G2、BJ_G3、BJ_C1、BJ_C2之间运行IPv6协议&#xff0c;以建立I…

50页PDF|数字化转型成熟度模型与评估(附下载)

一、前言 这份报告依据GBT 43439-2023标准&#xff0c;详细介绍了数字化转型的成熟度模型和评估方法。报告将成熟度分为五个等级&#xff0c;从一级的基础转型意识&#xff0c;到五级的基于数据的生态价值构建与创新&#xff0c;涵盖了组织、技术、数据、资源、数字化运营等多…

DeepSeek 接入PyCharm实现AI编程!(支持本地部署DeepSeek及官方DeepSeek接入)

前言 在当今数字化时代&#xff0c;AI编程助手已成为提升开发效率的利器。DeepSeek作为一款强大的AI模型&#xff0c;凭借其出色的性能和开源免费的优势&#xff0c;成为许多开发者的首选。今天&#xff0c;就让我们一起探索如何将DeepSeek接入PyCharm&#xff0c;实现高效、智…

阐解WiFi信号强度

WiFi信号强度是指无线网络信号的强度&#xff0c;通常以负数dB&#xff08;分贝&#xff09;来表示。信号越强&#xff0c;dB值越接近零。WiFi信号强度直接影响你的网络速度、稳定性和连接的可靠性。简单来说&#xff0c;WiFi信号越强&#xff0c;你的设备与路由器之间的数据传…

MySQL数据类型

目录 1、数据类型分类 2、数值类型 2.1.tinyint类型 2.2.bit类型 2.3.小数类型 2.3.1.float 2.3.2.decimal 3.字符串类型 3.1.char 3.2.varchar 3.3 char和varchar比较 4.日期和时间类型 5.enum和set 语法&#xff1a; 案例&#xff1a; 1、数据类型分类 2、数值…

【Spring+MyBatis】_图书管理系统(下篇)

图书管理系统上篇、中篇如下&#xff1a; 【SpringMyBatis】_图书管理系统&#xff08;上篇&#xff09;-CSDN博客 【SpringMyBatis】_图书管理系统&#xff08;中篇&#xff09;-CSDN博客 目录 功能5&#xff1a;删除图书 6.1 约定前后端交互接口 6.2 后端接口 6.3 前端…

两个实用且热门的 Python 爬虫案例,结合动态/静态网页抓取和反爬策略,附带详细代码和实现说明

在这个瞬息万变的世界里&#xff0c;保持一颗探索的心&#xff0c;永远怀揣梦想前行。即使有时会迷失方向&#xff0c;也不要忘记内心深处那盏指引你前进的明灯。它代表着你的希望、你的信念以及对未来的无限憧憬。每一个不曾起舞的日子&#xff0c;都是对生命的辜负&#xff1…

鸿蒙NEXT开发-网络管理

注意&#xff1a;博主有个鸿蒙专栏&#xff0c;里面从上到下有关于鸿蒙next的教学文档&#xff0c;大家感兴趣可以学习下 如果大家觉得博主文章写的好的话&#xff0c;可以点下关注&#xff0c;博主会一直更新鸿蒙next相关知识 目录 1. 网络管理-应用权限 1.1 概述 1.2 配…

基于springboot 的旧物置换网站

研究背景 近年来&#xff0c;随着网络技术的不断发展&#xff0c;越来越多人喜欢在网络上查找信息&#xff0c;将自己喜欢的信息收藏&#xff0c;方便自己进行查看。旧物置换网站对用户、卖家和管理员都有很大帮助&#xff0c;旧物置换网站通过和数据库管理系软件协作来实现用…

机器学习实战(1): 入门——什么是机器学习

机器学习入门——什么是机器学习&#xff1f; 欢迎来到“机器学习实战”系列的第一篇博文&#xff01;在这一集中&#xff0c;我们将带你了解机器学习的基本概念、主要类型以及它在现实生活中的应用。无论你是初学者还是有一定经验的开发者&#xff0c;这篇文章都会为你打下坚…

华为IPD简介

创作灵感 现在“熟悉华为IPD”经常出现在高级招聘岗位能力要求上&#xff0c;于是作者写下此文章以此巩固相关知识储备 名词解释 华为IPD&#xff08;Integrated Product Development&#xff0c;集成产品开发&#xff09;是华为引入并优化的一套产品开发管理体系&#xff0…

Git备忘录(三)

设置用户信息: git config --global user.name “itcast” git config --global user.email “ helloitcast.cn” 查看配置信息 git config --global user.name git config --global user.email $ git init $ git remote add origin gitgitee.com:XXX/avas.git $ git pull or…

智能体(AI Agent、Deepseek、硅基流动)落地实践Demo——借助大模型生成报表,推动AI赋能企业决策

文章目录 一、 引言二、 系统设计与技术细节2.1 系统架构2.2 核心组件说明 三、 Demo 代码推荐博客&#xff1a; 四、输出年度营销报告1. 总销售额 根据提供的数据&#xff0c;年度总销售额为&#xff1a;740.0。2. 各产品销售额3. 各地区销售额4. 各产品在各地区的销售情况 分…

半遮挡检测算法 Detecting Binocular Half-Occlusions

【1. 背景】&#xff1a; 本文分析【Detecting Binocular Half-Occlusions&#xff1a;Empirical Comparisons of Five Approaches】Geoffrey Egnal和Richard P. Wildes于2002年发表在IEEE Transactions on Pattern Analysis and Machine Intelligence上&#xff0c;这是1篇中…

检测网络安全漏洞 工具

实验一的名称为信息收集和漏洞扫描 实验环境&#xff1a;VMware下的kali linux2021和Windows7 32&#xff0c;网络设置均为NAT&#xff0c;这样子两台机器就在一个网络下。攻击的机器为kali,被攻击的机器为Windows 7。 理论知识记录&#xff1a; 1.信息收集的步骤 2.ping命令…

PostgreSQL的学习心得和知识总结(一百六十九)|深入理解PostgreSQL数据库之 Group By 键值消除 的使用和实现

目录结构 注&#xff1a;提前言明 本文借鉴了以下博主、书籍或网站的内容&#xff0c;其列表如下&#xff1a; 1、参考书籍&#xff1a;《PostgreSQL数据库内核分析》 2、参考书籍&#xff1a;《数据库事务处理的艺术&#xff1a;事务管理与并发控制》 3、PostgreSQL数据库仓库…

Nacos学习(一)——基本介绍、安装与负载均衡策略

目录 一、Nacos基本介绍 二、安装与使用 (一)Nacos安装 1.上传到linux上解压 2.按需修改配置文件 3.单机启动 4.查看Nacos启动日志 5.浏览器访问Nacos服务 6.关闭Nacos服务 (二)Nacos使用 1.新建一个项目 2.最外部依赖如下 3.provider-service包的依赖 4.配置文件…