OpenAI o1团队突破性论文:『过程推理』中数学推理能力大幅提升,从正确中学习的新方法

原创 超

近年来,大型语言模型(LLMs)在复杂的多步推理任务中取得了令人瞩目的进展。这些模型能够生成逐步的思维链,解决从小学数学到高等微积分的各种问题。然而,即使是最先进的模型也常常陷入逻辑陷阱,产生看似合理但实际错误的推理步骤。这种"幻觉"现象在需要精确推理的数学领域尤其成问题,因为单一的逻辑错误就可能导致整个解答偏离正轨。

为了应对这一挑战,OpenAI的研究团队提出了一种创新方法,从"正确"中学习,而不是传统上关注错误。这种方法被称为"过程监督",重点关注推理过程中的每一个正确步骤,而不仅仅是最终结果。通过这种方式,AI模型能够更好地理解和复制人类认可的推理过程,从而显著提高其数学问题解决能力。

这项突破性研究不仅大幅提升了AI在数学推理方面的表现,还为解决更广泛的AI对齐问题提供了新的思路。研究团队发现,相比传统的仅关注结果的方法,这种新方法能够产生更可靠、更易解释的AI推理过程,同时在效率和准确性方面都取得了显著进展。

图片

论文链接:https://arxiv.org/abs/2305.20050

01 核心方法

结果监督 vs 过程监督:革新AI训练方法

研究团队提出了两种截然不同的AI训练方法:结果监督(ORM)和过程监督(PRM)。结果监督仅关注最终答案的正确性,而过程监督则评估解题过程中的每一步。


其中,过程监督的训练目标是通过最大化每个步骤的概率来预测每个步骤的正确性:

图片

其中,x是输入序列,y是输出序列。


在结果监督中,模型只能从最终结果中学习。相比之下,过程监督为AI提供了更精确、更丰富的反馈,使其能够理解问题解决的整个过程。这种方法不仅提高了模型的准确性,还增强了其推理能力的可解释性。

PRM800K:构建大规模数据集的里程碑

为了支持这项研究,团队构建了一个名为PRM800K的庞大数据集。这个数据集包含了80万个人工标注的推理步骤,涵盖了75,000个解决方案和12,000个数学问题。这是迄今为止最大规模的数学推理过程监督数据集之一。

PRM800K的构建过程极为严谨。人类标注者对每个推理步骤进行评估,标记其是否正确、合理或存在模糊性。

实验设置:大规模vs小规模

研究团队采用了两种实验设置来全面评估他们的方法:

1. 大规模实验:使用基于GPT-4的模型,旨在推动最先进技术的发展。这些实验展示了在拥有丰富计算资源时,过程监督能够达到的极限性能。

2. 小规模实验:使用计算能力较小的模型(比GPT-4小约200倍),目的是进行更直接的比较和消融研究。这些实验帮助研究人员isolate不同因素的影响,如数据集大小和监督类型。

这种双管齐下的方法不仅发挥了技术的极限潜力,还提供了在资源受限情况下的实用洞察。

主动学习策略:提高数据效率的关键

为了最大化人工标注的价值,研究团队实施了创新的主动学习策略。他们训练了一个较小的选择器模型(PRMselector),用于识别最有价值的样本进行标注。

具体来说,对于每个问题,他们生成1000个样本解决方案,然后选择:

  • 80%最具欺骗性的错误答案样本

  • 20%最具说服力的样本(无论正确与否)

具体来说,主动学习策略在过程监督中的应用主要是通过一个大模型(PRMlarge)来选择最有价值的模型生成样本进行人工标注。具体步骤如下:首先,使用PRMlarge对每个问题生成多个样本,并选择最有说服力的错误答案样本;然后,对这些样本进行人工标注。

这种策略确保了数据集既包含了具有挑战性的错误案例,又保持了一定的多样性。结果表明,这种主动学习方法将数据效率提高了约2.6倍,大大减少了获取高质量训练数据所需的人力成本。

通过这些创新方法,研究团队不仅提出了一种新的AI训练范式,还为未来的大规模语言模型研究铺平了道路。这些方法的组合为提高AI系统的推理能力和可靠性开辟了新的可能性。

02 实验结果

过程监督显著优于结果监督

研究表明,过程监督训练的奖励模型(PRM)在各方面都优于结果监督训练的模型(ORM)。在大规模实验中,PRM在所有测试规模下都实现了更高的性能,而且随着搜索范围的扩大,优势愈发明显。

具体来说,当从 1860 个候选解决方案中进行选择时:

  • PRM 正确率达到了令人瞩目的 78.2%

  • ORM 正确率约为 72.4%

  • 多数投票基线正确率约为 69.6%

图片

这些数据清楚地表明,过程监督方法能够更有效地识别和奖励正确的推理步骤,从而产生更可靠的 AI 系统。

主动学习大幅提升数据效率

研究团队发现,通过巧妙运用主动学习策略,可以显著提高数据收集的效率。他们的方法主要包括:
1. 使用初步训练的选择器模型(PRMselector)挑选最具挑战性的样本
2. 重点关注"令人信服的错误答案",即看似正确但实际包含错误的解决方案

这种方法使得数据效率提高了约 2.6 倍。换句话说,使用主动学习策略,只需要不到一半的标注数据就能达到相同的模型性能。这一发现对于降低高质量数据收集的成本和难度具有重要意义。

在 MATH 数据集上的出色表现

研究团队在极具挑战性的 MATH 数据集上评估了他们的模型。这个数据集包含了从高中到大学水平的数学问题,涵盖了代数、几何、微积分等多个领域。
在 MATH 测试集的代表性子集上,基于过程监督的 PRM 模型惊人地解决了 78.2% 的问题。这一成绩不仅大幅超越了基于结果监督的模型,也远远超过了此前的最佳记录。

对未见过的 STEM 问题展现出色的泛化能力

为了测试模型的真实世界应用能力,研究团队还在一系列最新的STEM(科学、技术、工程和数学)考试问题上进行了评估。这些问题来自AP微积分、AP 化学、AP 物理和 AMC10/12 等考试,都是模型在训练过程中从未接触过的。

结果令人振奋:

  • 在 AP 微积分问题上,PRM 正确率高达 86.7%在 AP 化学问题上,PRM 正确率达到 80.0%

  • 在 AP 物理问题上,PRM 正确率为 86.7%

  • 在较为困难的 AMC10/12 问题上,PRM 仍然实现了 53.2% 的正确率

这些结果不仅显著优于结果监督模型和多数投票基线,更重要的是,它们证明了基于过程监督训练的AI系统具有强大的泛化能力,能够有效应对全新的、未经训练的问题类型。
这些实验结果清楚地表明,过程监督方法在提升AI系统的数学推理能力方面具有巨大潜力。它不仅能够提高模型在已知问题上的表现,更能够帮助AI系统更好地应对现实世界中的各种挑战。这一突破性进展为 AI 在教育、科研等领域的应用开辟了新的可能性。


03 结论和未来展望

本研究不仅在技术上取得了突破性进展,更为AI安全和对齐问题提供了新的思路。总结一下这项研究的主要贡献及其潜在影响:


过程监督的显著优势


研究团队通过大规模实验证明,过程监督方法在训练AI数学推理能力方面显著优于传统的结果监督方法。具体来说:

1.性能提升:使用过程监督训练的模型在MATH测试集上的表现远超基于结果监督的模型和多数投票基线。
2.数据效率:通过主动学习策略,过程监督方法的数据效率提高了约2.6倍,大大降低了人类标注的成本。
3.泛化能力:在未曾见过的STEM考试问题上,过程监督模型同样表现出色,证明了其良好的泛化能力。

对AI对齐的潜在影响

这项研究不仅仅是技术上的进步,更为AI安全和对齐问题带来了新的启示:

1.可解释性提升:过程监督鼓励模型遵循人类认可的推理过程,提高了AI决策的可解释性。
2.安全性增强:通过直接奖励对齐的思维链,而非仅依赖结果,过程监督本质上更安全。
3."负"对齐税:有趣的是,过程监督不仅没有降低模型性能,反而带来了性能提升,这可能会促进更安全的AI方法在实践中的广泛采用。

这项研究不仅推动了AI数学能力的进步,更为构建安全、可靠的AI系统提供了新的思路。随着研究的深入和技术的完善,我们有理由期待AI系统在复杂推理任务中发挥越来越重要的作用,同时保持与人类价值观的紧密对齐。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/431405.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

统信服务器操作系统【刻录镜像制作U盘启动盘的工具】

统信服务器操作系统各版本上刻录镜像制作U盘启动盘的工具方案 文章目录 应用场景一、问题现象二、问题分析解决方案应用场景 硬件/整机信息:全平台 CPU架构:全架构 OS版本信息:服务器a版,e版,d版(其中d版遇到的刻录类问题较少) 软件信息:dd工具、Fedora Media Writer工…

【Linux实践】实验三:LINUX系统的文件操作命令

【Linux实践】实验三:LINUX系统的文件操作命令 实验目的实验内容实验步骤及结果1. 切换和查看目录2. 显示目录下的文件3. 创建和删除目录① mkdir② rm③ rmdir 4. 输出和重定向① 输出② 重定向 > 和 >> 5. 查看文件内容① cat② head 6. 权限7. 复制8. 排…

Gnu Radio抓取WiFi信号,流程图中模块功能

模块流程如图所示: GNURadio中抓取WiFi信号的流程图中各个模块的功能: UHD: USRP Source: 使用此模块配置USRP硬件进行信号采集。设置频率、增益、采样率等参数。Complex to Mag^2: 将复数IQ数据转换为幅度的平方。Delay&#xf…

【计网】从零开始掌握序列化 --- 实现网络计算器项目

​​​请各位保持头脑清醒, ​​​读些好书,做点有用的事, ​​​快快乐乐地生活。 ​​​ --- 斯蒂芬金 《肖申克的救赎》--- 从零开始掌握序列化 1 知识回顾2 服务器框架3 客户端框架4 运行测试 1 知识回顾 前面两篇文章学习中基础知识…

微服务学习笔记之Docker

目录 认识Docker 安装Docker 安装yum工具 配置Docker的yum源 更新yum,建立缓存 安装Docker 启动并校验 配置镜像加速 Docker常见命令 命令 演示 给命令起别名 Docker数据卷 认识数据卷 数据卷常见命令 nginx的html目录挂载演示 数据卷挂载本地目录或…

Redis: 特点,优势,与其他产品的区别以及高并发原理

入门Redis概述 1 )选择Redis是因为其高性能 因为 Redis 它数据存储的机制是存在内存中的,减少了传统关系数据库的磁盘IO它是单线程的保证了原子性,它还提供了事务,锁等相关的机制 2 )Redis 环境安装配置 linux 或 d…

企业网盘能作为FTP替代产品吗?

在数字化办公日益普及的今天,企业对于文件存储、传输和协作的需求不断增长。传统的FTP协议虽然在文件传输领域有着不可替代的地位,但其在用户体验、安全性、协作功能等方面逐渐显得力不从心。企业网盘作为一种新兴的数据管理解决方案,正逐渐成…

LeetCode234. 回文链表(2024秋季每日一题 26)

给你一个单链表的头节点 head ,请你判断该链表是否为回文链表。如果是,返回 true ;否则,返回 false 。 示例 1: 输入:head [1,2,2,1] 输出:true 示例 2: 输入:hea…

建立分支提交代码

git分支 git branch 产看当前分支 git branch -a 查看所有分支 git checkout 分支名 切换分支 git checkout -b 分支名 建立分支(仅仅是在本地建立了,并没有关联线上) git push --set-upstream origin 分支名 把本地分支推到先线上 gti add …

【计算机视觉】YoloV8-训练与测试教程

✨ Blog’s 主页: 白乐天_ξ( ✿>◡❛) 🌈 个人Motto:他强任他强,清风拂山冈! 💫 欢迎来到我的学习笔记! 制作数据集 Labelme 数据集 数据集选用自己标注的,可参考以下&#xff1a…

Paper 0 | Visual Instruction Tuning

使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调整已被证明可以提高新任务的零样本能力,但这个想法在多模态领域的探索较少。我们首次尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,我们引入了 L…

多智能体笔记本专家系统:集成CrewAI、Ollama和自定义Text-to-SQL工具

在这个项目中,我们的目标是创建一个由多智能体架构和本地大语言模型(LLM)驱动的个人笔记本电脑专家系统。该系统将使用一个SQL数据库,包含有关笔记本电脑的全面信息,包括价格、重量和规格。用户可以根据自己的特定需求…

unix中如何查询和修改进程的资源限制

一、前言 一个进程在运行时,会用到各种资源,比如cpu的使用时间、内存空间、文件等等。那么,一个进程能够占用多少资源呢?cpu使用的时间有多长?进程空间有多大?能够创建多少个文件?这个就是本文…

2024.9.24 数据分析

资料 111个Python数据分析实战项目,代码已跑通,数据可下载_python数据分析项目案例-CSDN博客 【数据挖掘六大项目实战】敢说这是全B站讲的最详细最通俗易懂的数据挖掘教程!整整60集!学不会来找我!-数据挖掘、数据挖掘…

校园自助打印系统小程序的设计

管理员账户功能包括:系统首页,个人中心,用户管理,店长管理,打印店管理,打印服务管理,服务类型管理,预约打印管理,系统管理 微信端账号功能包括:系统首页&…

用 Pygame 实现一个乒乓球游戏

用 Pygame 实现一个乒乓球游戏 伸手需要一瞬间,牵手却要很多年,无论你遇见谁,他都是你生命该出现的人,绝非偶然。若无相欠,怎会相见。 引言 在这篇文章中,我将带领大家使用 Pygame 库开发一个简单的乒乓球…

SPSS26统计分析笔记——3 假设检验

1 假设检验原理 假设检验的基本原理源于“小概率事件”原理,是一种基于概率性质的反证法。其核心思想是小概率事件在一次试验中几乎不会发生。检验的过程首先假设原假设 H 0 {H_0} H0​成立,然后通过统计方法分析样本数据。如果样本数据引发了“小概率事…

Krita连接comfyui报错缺少节点如何解决

介绍一下我用的版本: krita5.2.3 ComfyUI-aki-v1.3 首先:文件夹必须严格按照ComfyUI进行命名,我不知道这个是不是必须得,但是看官方的文档以及我解决这个问题的过程时,是这样的。 报错信息如下图(这个报错图…

航拍工程车辆识别检测数据集 yolo数据集 共650张

航拍工程车识别检测数据集 yolo数据集 共650张 2 工程车辆识别数据集(Engineering Vehicle Recognition Dataset, EVRD) 摘要 EVRD 是一个专门针对航拍视角下的工程车辆识别而设计的数据集,旨在提供一种标准的训练和评估平台,用…

玩手机数据集 8201张玩手机的照片,有对应的xml和txt文件,可以用于yolo训练

玩手机数据集 8201张玩手机的照片,有对应的xml和txt文件,可以用于yolo训练 玩手机数据集(Phone Usage Detection Dataset) 数据集概述 该数据集专为检测人们使用手机的行为设计,旨在帮助研究人员和工程师开发高效的…