深入剖析推理模型:从DeepSeek R1看LLM推理能力构建与优化

著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。原文地址:https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html。这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是如何通过推理能力来增强 LLM。Sebastian Raschka 表示:「我希望这能提供有价值的见解,并帮助你了解围绕这一主题的快速演变的文献和话题炒作。」

阅读笔记如下:

在人工智能领域不断演进的当下,大语言模型(LLM)已成为研究和应用的焦点。2024年,LLM领域专业化趋势愈发明显,除了预训练和微调等基础操作,从检索增强生成(RAG)到代码助手等专业应用也不断涌现。这一趋势在2025年持续加速,第 1-3 阶段是开发 LLM 的常见步骤。第 4 阶段是针对具体用例对 LLM 进行专门化。
特定领域和应用的优化受到更多重视。推理模型作为LLM专业化的重要方向,能够处理复杂任务,展现出独特的价值,著名AI研究者Sebastian Raschka对其进行了深入探讨。

推理模型:定义与应用场景

“推理模型”这一术语在AI领域的定义存在模糊性。在本文中,推理被定义为回答需要复杂、多步骤生成和中间步骤的问题的过程。像“法国首都是哪里?”这类事实性问答,无需推理即可解答;而“如果一列火车以60英里/小时的速度行驶3小时,它会行驶多远?”这样的问题,则需要通过识别距离、速度和时间的关系进行推理求解。在这里插入图片描述
图释:常规的 LLM 可能只提供简短的答案(如左图所示),而推理模型通常包括揭示部分思维过程的中间步骤。(请注意,许多没有专门为推理任务开发的 LLM 也能在其答案中提供中间推理步骤。)大多数现代 LLM 都具有基本的推理能力,可以回答诸如「如果一列火车以 60 英里 / 小时的速度行驶 3 小时,它会行驶多远?」这样的问题。因此,今天当我们提到推理模型时,我们通常指的是擅长更复杂推理任务的 LLM,例如解决谜题、谜语和数学证明。
推理模型中的中间步骤可以两种方式出现。第一种,中间步骤可能显式地出现在响应中,如上图所示。第二种,一些推理 LLM(例如 OpenAI o1)则会运行多个迭代,中间步骤对用户来说是不可见的。
在这里插入图片描述

使用「推理」的两个不同层级:1)通过多个中间步骤处理输入和生成结果,2)将某种形式的推理放在响应中提供给用户。

推理模型擅长处理复杂任务,如谜题、高级数学和编程难题等。在这些场景中,模型通过演绎或归纳推理、思维链推理,分解多步骤问题,做出复杂决策,并且能更好地泛化到新问题。不过,推理模型也存在局限性,在这里插入图片描述
在处理简单任务时,可能会因“过度思考”导致效率低下、成本增加,还可能在基于知识的任务中出现“幻觉”现象。

DeepSeek R1:训练流程与模型变体

DeepSeek发布的R1系列推理模型包含三个变体:DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill。这些模型的开发过程基于DeepSeek - V3(671B)基础模型,每个变体都经历了不同的训练阶段。
根据其技术报告中的描述的模型的开发过程。
在这里插入图片描述

  • DeepSeek - R1 - Zero:基于2024年12月发布的671B预训练版DeepSeek - V3,采用“冷启动”训练方式,仅使用强化学习(RL),跳过监督微调(SFT)步骤。训练过程中设置了准确度奖励和格式奖励,准确度奖励通过LeetCode编译器验证编码答案、确定性系统评估数学响应;格式奖励依靠LLM评判员确保响应格式正确。这种训练方式使模型涌现出基本的推理技能。
  • DeepSeek - R1:以DeepSeek - R1 - Zero为基础,增加额外的SFT阶段和进一步的RL训练。使用DeepSeek - R1 - Zero生成的“冷启动”SFT数据进行指令微调,后续的RL阶段除保留准确度和格式奖励外,还添加一致性奖励防止语言混合。经过多轮SFT数据收集和RL训练,DeepSeek - R1的性能在DeepSeek - R1 - Zero基础上显著提升。
  • DeepSeek - R1 - Distill:利用训练DeepSeek - R1过程中生成的SFT数据,对Qwen和Llama模型进行微调。这种在LLM语境下的“蒸馏”,虽不同于传统深度学习中的知识蒸馏,但能提升小模型的推理能力。小模型效率更高,可在低端硬件上运行,同时也为纯监督微调(SFT)的研究提供了案例。
为什么他们开发了这些蒸馏模型?

有两个关键原因:

  1. 小型模型更高效。这意味着它们运行成本更低,但它们也可以在低端硬件上运行,这使得它们对许多像我这样的研究人员和爱好者来说特别有趣。
  2. 纯 SFT 案例研究。这些提炼出的模型作为一个有趣的基准,展示了纯监督微调(SFT)在不使用强化学习的情况下可以将模型带到多远。
    在这里插入图片描述
    蒸馏后的模型明显弱于 DeepSeek-R1,但与 DeepSeek-R1-Zero 相比,它们却出奇地强大,尽管规模小了几个数量级。值得注意的是,这些模型与 o1 mini 相比,表现非常好

DeepSeek 团队测试了 DeepSeek-R1-Zero 中出现的涌现推理行为是否也会出现在较小的模型中。为了研究这一点,他们将 DeepSeek-R1-Zero 中相同的纯 RL 方法直接应用于 Qwen-32B。

下表展示了实验的结果,其中 QwQ-32B-Preview 是千问团队基于 Qwen 2.5 32B 开发的参考推理模型(我认为训练细节从未披露过)。此比较提供了一些额外的洞察,即纯 RL 是否可以在比 DeepSeek-R1-Zero 小得多的模型中引导推理能力。
在这里插入图片描述

在较小的 32B 模型上对蒸馏和 RL 进行基准比较。注释图来自 DeepSeek-R1 技术报告。

有趣的是,结果表明,对于较小的模型,蒸馏比纯 RL 更有效。这与以下观点一致:单靠 RL 可能不足以在这种规模的模型中产生强大的推理能力,而使用高质量推理数据进行 SFT 在使用小模型时可能是一种更有效的策略。

  1. Qwen-32B 使用 SFT + RL 进行训练,类似于 DeepSeek-R1 的开发方式。这将有助于确定当 RL 与 SFT 结合时,与纯 RL 和纯 SFT 相比可以取得多大的改进。
  2. DeepSeek-V3 使用纯 SFT 进行训练,与创建蒸馏模型的方式类似。这样可以直接比较,看看 RL + SFT 相对于纯 SFT 的效果如何。

构建推理模型的四大方法

当前,增强LLM推理能力、构建推理模型的方法主要有以下四种:

  1. 推理时间扩展:在推理过程中增加计算资源提升输出质量。思维链(CoT)提示方法是典型应用,在提示词中加入“think step by step”等短语,鼓励模型生成中间推理步骤,提高复杂问题的解答准确率。此外,投票和搜索策略也属于推理时间扩展,如多数投票让模型生成多个答案,通过投票选择正确结果;集束搜索等算法同样可优化响应。虽然DeepSeek R1技术报告表明其模型未使用该方法,但它常在LLM应用层实现,OpenAI的o1和o3模型可能运用了此技术,这也解释了其成本较高的原因。
  2. 纯RL:DeepSeek R1 - Zero的训练方式证明了推理可作为纯RL涌现出的行为。与传统RL流程不同,它跳过SFT阶段,仅依靠RL训练,并设置准确度和格式奖励。尽管R1 - Zero并非性能最佳的推理模型,但它展现出推理能力,证实了纯RL开发推理模型的可行性。
  3. 监督微调加强化学习(SFT + RL):这是构建高性能推理模型的关键方法,DeepSeek - R1的开发就是典型案例。在这里插入图片描述
    在RL之前进行SFT,利用DeepSeek - R1 - Zero生成的“冷启动”SFT数据训练模型,后续的RL阶段添加一致性奖励,再经过多轮SFT数据收集和RL训练,有效提升了模型性能。OpenAI o1很可能也采用了类似方法。
  4. 纯监督微调(SFT)和蒸馏:DeepSeek通过在较大LLM生成的SFT数据集上对较小LLM进行指令微调,开发出蒸馏模型。这些小模型效率更高,可作为纯SFT的研究基准。实验表明,对于较小模型,蒸馏比纯RL更有效,高质量推理数据的SFT在小模型应用中是更优策略。

对DeepSeek R1的综合评价

DeepSeek R1系列模型是AI领域的重要成果,其详细的技术报告为研究人员提供了宝贵的方法论参考。推理可基于纯RL涌现的发现令人瞩目,并且模型遵循宽松的MIT开源许可证开源,具有积极的推动意义。

与OpenAI的o1相比,DeepSeek - R1在推理时间上更高效,但由于OpenAI未充分披露o1的信息,如是否为混合专家(MoE)模型、模型规模大小以及训练方式细节等,两者难以直接比较。

关于DeepSeek - R1的训练成本,虽有600万美元的估算,但这可能将DeepSeek - V3和DeepSeek - R1的成本混淆,DeepSeek团队并未透露R1的具体成本,目前的估算均为猜测。

启示性的工作:有限预算下的推理模型开发

开发如DeepSeek - R1级别的推理模型成本高昂,不过,模型蒸馏和一些创新方法为预算有限的研究人员提供了可能。

DeepSeek的蒸馏模型证明了小模型也能具备强大的推理性能,尽管蒸馏过程也需要大量计算资源。

Sky - T1项目:

仅用17K的SFT样本、450美元的GPU成本,训练出表现与OpenAI o1大致相当的32B模型,展示了小样本、低成本微调的潜力。在这里插入图片描述
图源:《Sky-T1:在 450 美元以内训练你自己的 O1 预览模型》一文。https://novasky-ai.github.io/posts/sky-t1/

纯 RL 的:TinyZero

在纯RL领域,TinyZero项目以不到30美元的成本训练出3B参数模型,该模型展现出自我验证能力,支持了小模型通过纯RL涌现推理能力的观点。在这里插入图片描述

超越传统 SFT:旅程学习

此外,“旅程学习”方法为推理模型开发提供了新思路。它用错误的解决路径训练模型,让模型从错误中学习,增强自我修正能力,有望提升推理模型的可靠性,尤其适用于低预算的推理模型开发场景。
在这里插入图片描述

推理模型领域正处于快速发展阶段,各种创新方法不断涌现。无论是大模型的优化,还是小模型在有限预算下的突破,都为AI技术的进步注入了活力。在未来,我们有望看到更多令人惊喜的研究成果和应用突破。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17763.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何保持 mysql 和 redis 中数据的一致性?PegaDB 给出答案

MySQL 与 Redis 数据保持一致性是一个常见且复杂的问题,一般来说需要结合多种策略来平衡性能与一致性。 传统的解决策略是先读缓存,未命中则读数据库并回填缓存,但方式这种维护成本较高。 随着云数据库技术的发展,目前国内云厂商…

Vue 入门到实战 十

第10章 Vue Router​​​​​​​ 目录 10.1 什么是路由 10.2 Vue Router的安装 10.2.1 本地独立版本方法 10.2.2 CDN方法 10.2.3 NPM方法 10.2.4 命令行工具(Vue CLI)方法 10.3 Vue Router的基本用法 10.3.1 跳转与传参 10.3.2 配置路由 10.…

Java并发中的CAS机制:原理、应用与挑战(通俗易懂版)

上一期文章内容:Java并发中的乐观锁与悲观锁, 本期文章我们来讲一下Java并发中的CAS机制 一、从银行账户案例理解CAS CAS 是一种乐观锁机制,用于在不使用锁的情况下实现多线程对共享资源的并发访问。 它包含三个操作数:内存位置&a…

SpringBoot自动配置-以Mybatis配置为例

SpringBoot自动配置 无基础的直接看链接内容,有基础就直接顺着往下看就可以 Spring底层(自动配置) 自动配置就是EnableXXX封装Improt(ImportSelector的实现类)对应方法selectImoprt返回字符串数组为类名会注册为bean…

2025 docker可视化管理面板DPanel的安装

1.什么是 DPanel ? DPanel 是一款 Docker 可视化管理面板,旨在简化 Docker 容器、镜像和文件的管理。它提供了一系列功能,使用户能够更轻松地管理和部署 Docker 环境。 软件特点: 可视化管理:提供直观的用户界面&#…

DeepSeek从入门到精通(清华大学)

​ DeepSeek是一款融合自然语言处理与深度学习技术的全能型AI助手,具备知识问答、数据分析、编程辅助、创意生成等多项核心能力。作为多模态智能系统,它不仅支持文本交互,还可处理文件、图像、代码等多种格式输入,其知识库更新至2…

Word 里面嵌入DeepSeek

目录 一、问题描述 二、解决方法 三、代码 四、注意事项 五、总结 一、问题描述 如何在Word里面嵌入DeepSeek? 二、解决方法 1、新建文档,按 AltF11,进入VB界面。 2、选中文档,右键->插入->模块。 3、进入模块,粘入…

java面试题-集合篇

Collection 1.Collection有哪些类? Java集合框架中的Collection接口是所有集合类的基础接口,定义了一些基本的集合操作,如添加元素、删除元素、判断是否包含某个元素等。常见的集合类包括List、Set和Queue。 List List接口定义了按照索引…

国内 网络安全沙箱

CSRF攻击 CSRF攻击概述: CSRF(Cross Site Request Forgery, 跨站域请求伪造)是一种网络的攻击方式,它在 2007 年曾被列为互联网 20 大安全隐患之一。其他安全隐患,比如 SQL 脚本注入,跨站域脚本攻击等在近…

Web3 的虚实融合之路:从虚拟交互到元宇宙构建

在这个数字技术日新月异的时代,我们正站在 Web3 的门槛上,见证着互联网的又一次革命。Web3 不仅仅是技术的迭代,它代表了一种全新的交互方式和价值创造模式。本文将探讨 Web3 如何推动虚拟交互的发展,并最终实现元宇宙的构建&…

项目中菜单按照层级展示sql

效果如图: 直接上脚本 查四级菜单 select EFT_FLAG,MENU_ID, CASE LEN(MENU_LVL)WHEN 4THEN MENU_NAME ELSE - END AS MENU_NAME1, CASE LEN(MENU_LVL)WHEN 8THEN MENU_NAME ELSE - END AS MENU_NAME2, CASE LEN(MENU_LVL)WHEN 12THEN MENU_NAME ELSE - END …

Reasoning in High Gear 推理加速发展

Reasoning in High Gear 推理加速发展 关键信息:OpenAI推出GPT - 3 - mini,它是GPT - 1模型后续版本,在速度、成本及特定领域能力上有显著优势。 模型特性 推理强度可选:提供低、中、高三个推理 “强度” 级别,不同级别…

Linux驱动层学习:LED 驱动开发

前置知识: 1、地址映射 MMU 全称叫做 Memory Manage Unit,也就是内存管理单元。 MMU 主要完成的功能如下: ①、完成虚拟空间到物理空间的映射。 ②、内存保护,设置存储器的访问权限,设置虚拟存储空间的缓冲特性。 第…

数据挖掘智能Agent

🤗 CodeGenie - 智能编程助手 数据处理和分析对于数据分析工作人员来说,往往既复杂又令人头疼,需要耗费大量精力进行重复性工作。为了解决这一问题,我们开发了一款集成了自然语言处理和代码生成功能的智能编程助手——CodeGenie。…

【C++】Vector容器

为什么要学习vector? 1. 上一章分享了string,而string实际上是一个管理字符的顺序表。 2. 而除了字符以外,我们经常用到整形数组,所以我们需要针对其他类型数据的顺序表。 3. vector实际上也是一个顺序表,而且主要用来…

国内 ChatGPT Plus/Pro 订阅教程

1. 登录 chat.openai.com 依次点击 Login ,输入邮箱和密码 2. 点击升级 Upgrade 登录自己的 OpenAI 帐户后,点击左下角的 Upgrade to Plus,在弹窗中选择 Upgrade plan。 如果升级入口无法点击,那就访问这个网址,htt…

Winform禁止高分辨下缩放布局成功方法

Windows自动缩放布局会导致窗体上的按钮和文本挤在一起根本看不清楚。 那么该如何解决呢? 具体操作步骤如下: 1、在项目属性上切换到【安全性】菜单,勾选【启用ClickOnce安全设置】,然后立刻取消勾选; 为了生成app.…

数据结构——Makefile、算法、排序(2025.2.13)

目录 一、Makefile 1.功能 2.基本语法和相关操作 (1)创建Makefile文件 (2)编译规则 (3)编译 (4)变量 ①系统变量 ②自定义变量 二、 算法 1.定义 2.算法的设计 &#xff…

Xcode证书密钥导入

证书干嘛用 渠道定期会给xcode证书,用来给ios打包用,证书里面有记录哪些设备可以打包进去。 怎么换证书 先更新密钥 在钥匙串访问中,选择系统。(选登录也行,反正两个都要导入就是了)。 mac中双击所有 .p12 后缀的密钥&#xff…

span标签 鼠标移入提示框 el-tooltip element-ui

<el-tooltip :content"item.value" placement"top"><span>{{ item.valueHidden }}</span></el-tooltip>