Open AI 新论文:通过“过程监督”来改进数学推理

650ca1bf8a531cf746ecbe149a5c3f6b.gif

本文经授权转载自「图灵社区公众号(ID:ituring_book)」

英文原文链接:https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

我们训练了一个模型,通过对每个正确的推理步骤进行奖励(“过程监督”)来提高解决数学问题的水平,而不是像之前一样只是简单地奖励最终的正确答案(“结果监督”)。

除了提高与结果监督相关的性能外,过程监督在对齐上也有一个非常重要的好处:它能直接训练模型产生被人类认可的思维链。

ba4651954fed78e7008b33a0d38aeac7.png

介绍

近年来,大型语言模型在执行复杂的多步推理的能力方面有了很大的提高。然而,即使是最先进的模型仍然会产生逻辑错误,我们通常称为幻觉(hallucinations)。减轻幻觉是构建与人类价值观和道德标准对齐的通用人工智能 AGI (aligned AGI)的关键一步。

其中的 aligned 指的是人工智能的目标与人类价值观和道德准则保持一致或对齐。

如果超级智能的目标不一致或不被对齐,可能会有损人类利益,甚至有造成灾难的风险。

所以,研究人工智能安全性的专家们提出,在开发高级人工智能和通用人工智能时,需要解决"对齐问题"(aligned problem),确保其目标与人类价值观一致,避免智能系统由于目标不一致而产生的潜在危害。

我们可以通过“结果监督”或“过程监督”的方式训练奖励模型来检测幻觉。“结果监督”根据最终结果提供反馈,“过程监督”为思维链中的每一步提供反馈。在之前的工作[1]的基础上,我们使用MATH数据集[2]作为我们的测试平台,详细地比较了这两种方法。我们发现,即使从结果来判断,过程监督也可以显著提高性能。为鼓励相关研究,我们发布了完整的过程监督数据集。

cbdaee13aab5dd3a9ecbe061f9b3922e.png

对齐影响

过程监督比结果监督有几个对齐优势。因为过程中的每个步骤都受到精确的监督,它可以直接奖励模型遵循与人类一致的思维链。过程监督也更有可能产生可解释的推理,因为它鼓励模型遵循人类批准的过程。相比之下,结果监督可能会奖励非对齐的过程,而且通常难以审查。

在某些情况下,更安全的人工智能系统方法可能会导致性能下降,这种代价被称为“对齐税”。一般来说,任何对齐税都可能妨碍对齐方法的采用,这是使用最高性能模型所带来的压力。我们下面的结果表明,过程监督实际上会产生负对齐税,至少在数学领域是这样。这可能会让我们考虑更多使用过程监督,我们认为这会产生更积极积极的对齐副作用。

"负对齐税"这个说法的意思是,采用某种方法并没有产生预期的性能损失,反而导致了性能提高。

本节的主要观点是:
1) 过程监督相比结果监督有多个对齐优势。
2) 过程监督可以直接奖励模型遵循与人类一致的思维链,并且更易产生可解释的推理。
3) 结果监督可能奖励非对齐的过程,且难以审查。
4) 更安全的人工智能系统方法可能会导致性能下降,这被称为“对齐税”。
5) “对齐税”可能阻碍对齐方法的采用,但我们的结果显示过程监督实际产生负对齐税。
6) 这可能增加过程监督的采用,并产生积极的对齐副作用。

1d5d6d0ee2474bd3d43d7abe2cb697db.png

解决数学问题

f1c4db025d83140815ee65921c9bacaf.png

我们使用MATH测试集里面的问题来评估我们的“过程监督”和“结果监督”奖励模型。我们为每个问题生成了许多解答方案,然后选择每个奖励模型排名最高的解答方案。

该图展示了一个函数,即每个奖励模型选择的解答方案数量(number of samples)与选择的解答方案最终能够达到正确结果的百分比(% Problems Solved (Best-of-N))之间的关系。

横轴是选择的解答方案数量,纵轴是正确答案百分比。

过程监督奖励模型不仅在所有方面表现更好,而且随着每个问题解决答案的增多,性能差距会扩大。这表明过程监督奖励模型更可靠。

探索3个类别中的示例:

1、真正例子(true positives)

2、真负例子(true negatives)

3、假正例子(false positives)

这三个概念都是机器学习和统计学中的重要指标。

真正例子和真负例子都表示判断或检测的准确性,因为两者的判断结果都是正确的。假正例子表示判断的错误,将负例判断为正例,会产生误报。。

这三者经常一起使用来评估模型或判断方法的性能,主要指标有:
精确率(Precision):真正例子数/(真正例子数+假正例子数),表示正例判断的准确度。
召回率(Recall):真正例子数/真实的正例总数,表示找到真实的正例的比例。
F1值:2*(精确率*召回率)/(精确率+召回率),综合考虑精确率和召回率。

Open AI 展示了10个数学问题和对应的解决方案,还附上了奖励模型的优缺点评价。这10个数学问题包括化简三角函数、多项式分解、十进制转换、概率问题、平均值计算、数列求值等。

如化简 tan⁡100∘+4sin⁡100∘。

这个困难的三角函数问题需要连续应用几个不太明显的恒等式。大多数解决方案尝试都会失败,因为很难选择哪些恒等式实际上是有用的。虽然GPT-4通常无法解决这个问题(只有0.1%的解决方案尝试能得到正确答案),但奖励模型正确地认识到这个解决方案是有效的。

08c1b7670ec885504e1ccf2556326229.png

7b4916e85e667833ae54c39560a04642.png

如多项式分解。

在这里,GPT-4成功执行了一系列复杂的多项式因式分解。第5步中使用Sophie-Germain恒等式是一个重要的步骤,非常富有洞察力。

42e354ccce0146c2db67c59f751b115d.png

以及该问题:找到唯一的奇数整数 t,满足0 < t < 23且t + 2 在 modulo 23 意义下为 t 的反元素。

在第7步和第8步中,GPT-4开始进行猜测和检查。这是一个模型可能出现错误判断的常见场景,即断言某个猜测十分成功,而实际上并非如此。但在此例中,奖励模型验证了每一步,并判断这条思维链是正确的。

157cb500af769d9c5230744b81b6339e.png

更多问题可见 OpenAI 论文。

总而言之,

1)结果监督模型容易在复杂的问题上产生错误判断和“幻觉”,它们难以理解问题解决的完整过程。而过程监督模型可以验证每一步思维,确保最终得到正确的解决方案,防止产生错误判断。
 
2) 在猜测和检查不确定的推理方法中,结果监督模型很难判断某个猜测是否真的“成功”,容易产生判断失误。而过程监督模型可以评估每一步推理的有效性,判断思维链的正确性,避免产生错误判断。
 
3) 过程监督模型可以鼓励模型学习明确、可解释的推理步骤,而不仅仅是最终结果。这可以使模型得出的解决方案更加可依赖和可信任。   

4) 随着问题难度的增加,结果监督模型的判断误差也在增加,其优势减小。而过程监督模型不会出现这一问题,其判断精度更加稳定可靠。   
 
5) 过程监督模型可以发现和纠正结果监督模型难以发现的错误,使模型有效学习到解决复杂问题所需的知识和推理技能。

综上,过程监督模型相比结果监督模型在判断复杂问题上更加准确可靠,可以指导模型学习到解决问题所需的完整知识,而不仅是只有最终的结果,其优势也随问题难度增加而增强。它通过评估每一步推理来发现并纠正错误判断,避免模型产生“幻觉”。

目前尚不清楚这些结果将在多大程度上推广到数学之外的其他领域,我们认为探索过程监督在其他领域的影响对于未来的工作很重要。如果这些结果具有普遍性,我们可能会发现过程监督为我们提供了两全其美的方法——一种比结果监督更高效、更一致的方法。

参考

  1. Uesato, J., Kushman N., Kumar R., Song F., Siegel N., Wang L., Creswell A., Irving G. and Higgins, I., 2022. Solving math word problems with process- and outcome-based feedback. arXiv preprint arXiv:2211.14275.↩︎

  2. Hendrycks D., Burns C., Kadavath S., Arora A., Basart S., Tang E., Song D. and Steinhardt J., 2021. Measuring Mathematical Problem Solving With the MATH Dataset. arXiv preprint arXiv:2103.03874.↩︎

  3. Ouyang L., Wu J., Jiang X., Almedia D., Wainwright C.L., Mishkin P., Zhang C., Agarwal S., Slama K., Ray A., Schulman J., Hilton J., Kelton F., Miller L., Simens M., Askell A., Welinder P., Christiano P., Leike J. and Lowe R., 2022. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.↩︎

作者

Karl Cobbe;Hunter Lightman;Vineet Kosaraju;Yura Burda;Harri Edwards;Jan Leike;Ilya Sutskever;

致谢

贡献者们:Bowen Baker, Teddy Lee, John Schulman, Greg Brockman, Kendra Rimbach, Hannah Wong, Thomas Degry

本文经授权转载「图灵社区」,如需转载,请联系他们的工作人员。

推荐阅读:

▶百度网盘回应在 APP Store 下架;阿里云发布 AI 助手「通义听悟」;SQL:2023 正式发布|极客头条

▶如何最大限度地利用ChatGPT、Bard和其他聊天机器人

▶资料下载丨一图看懂Serverless架构的资源平衡管理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33062.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

下周,GPT-4就要来了!

来源&#xff1a;机器之心 我们知道&#xff0c;引爆如今科技界军备竞赛的 ChatGPT 是在 GPT-3.5 上改进得来的&#xff0c;OpenAI 很早就预告 GPT-4 将会在今年发布。最近各家大厂争相入局的行动似乎加快了这个进程。 最新消息是&#xff0c;万众期待的 GPT-4 下周就要推出了&…

从用户的角度谈GPT时代技术突破的两大关键逻辑

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

发送短信功能模块

由于项目在注册、登录、找回密码 时需要发送短信验证的功能&#xff0c;我们使用腾讯云短信做。 为什么要用腾讯云短信呢&#xff1f; 因为注册就送 100条免费短信 的额度。哈哈哈哈&#xff0c;发短信的功能你就不用花钱了。 1.注册腾讯云 & 开通云短信 注册一个腾讯云…

怎么用106短信平台来发送营销短信?手把手教你轻松掌握

现如今&#xff0c;很多商家和企业都有短信发送的需求&#xff0c;因为很许多的企业和商家都需要106短信平台类推广自己最新的产品&#xff0c;以及促销活动等。要知道&#xff0c;短信平台&#xff0c;不仅价格便宜&#xff0c;而且精准获客&#xff0c;那么&#xff0c; 怎么…

个人用户实现发送短信功能

准备工作 因为国家政策 &#xff0c;阿里云和其他的大型短信调用网站审核严格所以我们用比较普通的榛子云来练习短信验证 了解阿里云短信码 登录阿里云&#xff0c;选择短信服务 首先要了解发送短信的四个步骤 进入申请签名&#xff0c;查看大致内容&#xff0c;可以看到这边…

ChatGPT文本自动生成有哪些应用

ChatGPT具有强大的文本生成能力&#xff0c;能够模拟人类的语言和情感表达&#xff0c;对文字工作产生了重要影响。对于我们从事文字工作的小伙伴而言&#xff0c;ChatGPT的出现对我们的影响是首当其冲的&#xff0c;今天跟大家分享ChatGPT在文字创作方面有哪些影响。 自动化文…

简单的小程序聊天对话窗口界面

一个简单的微信小程序聊天对话窗口界面,包括发送文本功能 直接上代码,js代码: // 简单版 Page({data: {content: ,// 当前登录者信息login: {id: 2023,user: 大猪蹄子,avatar: https://img2.baidu.com/it/u1581320883,910100018&fm253&app53&sizew500&n0&…

聊天记录怎么录视频 微信聊天记录屏幕录制

互联网的发展&#xff0c;手机交流代替了面对面交流&#xff0c;手机交流更加方便快捷&#xff0c;也带来了一些便利&#xff0c;拉近了人与人之间的距离&#xff0c;现在大家都习惯在网上聊天了&#xff0c;聊天如果不删掉的话&#xff0c;就会有记录的。有的小伙伴想要录制成…

摆地摊又被城管赶了

文|洪生鹏 下班回家路过驿站顺便取了个快递&#xff0c;突然一阵阵砰砰的声音传来&#xff0c;好刺耳。 原来是城管来了&#xff0c;摆地摊的人纷纷推着车子往这边赶来&#xff0c;有卖水果的&#xff0c;有做小吃的&#xff0c;也有卖衣服。 摊主们得知城管来了&#xff0c;推…

程序员摆地摊能接到活吗?码农地摊卖什么能挣到外快钱?

现在全民摆地摊&#xff0c;做为一个码农&#xff0c;也是蠢蠢欲动&#xff0c;思来想去不知道卖什么好&#xff1f;看到好多同事下了班都着急回家出摊&#xff0c;挣外快&#xff0c; 同事们闲暇时间说来话去的也都是地摊经济&#xff0c;做一个有出息的程序员&#xff0c;我们…

摆摊吗?我卖锅,你修手机。

由于疫情的影响 国家开始鼓励地摊经济。 我们来看看&#xff0c;搞工程和搞电子的人摆摊能什么。 先看&#xff0c;搞工程的人是这样摆摊的&#xff01; 而搞电子的人是这样摆摊的&#xff01; PCB工程师 测试工程师 射频工程师 单片机工程师 器件工程师 EMC工程师 芯片工程师 …

在微信上怎么开店卖东西?

在微信上怎么开店卖东西&#xff1f;在微信上开店卖东西主要需要小程序&#xff0c;而小程序也是我们常说的小程序店铺&#xff0c;有了小程序才能在微信上开店卖东西。那么我们怎么制作小程序在微信上开店卖东西呢&#xff1f;下面给大家讲解一下。 1、小程序账号 在做小程序…

摆摊吧,程序员!

谁都没想到&#xff0c;在2020年 "摆摊"成功接棒"口罩"、"头盔"&#xff0c;成了又一个热门话题 一觉醒来&#xff0c;整个朋友圈都在讨论摆摊的事情 以至于还没明白什么是"网红经济"的我 要开始思考"地摊经济"了 那么&…

内向的程序员如何改变自己,试试摆地摊吧

文章目录 程序员为什么要去摆地摊我的真实摆摊经历租摊位采购商品正式开业 为什么看了很多书却没有什么改变彩蛋送个大家一个励志&#xff08;打鸡血&#xff09;的故事克服恐惧的演讲 最近地摊经济风生水起&#xff0c;今天聊聊程序员摆地摊的好处&#xff0c;以及我10年前摆地…

企业摆摊新姿势

企业摆摊新姿势 既然是全民摆摊&#xff0c;怎么能少了腾讯等知名大公司的身影。从员工到董事局主席&#xff0c;所有人纷纷拥抱地摊经济&#xff0c;投身到一线战壕。 这位腾讯招聘的小哥&#xff0c;喇叭、军用水壶、黄色安全帽、纸箱&#xff0c;石头&#xff0c;这个可能…

你信了摆摊经济,推着小车出门以后..

来源&#xff1a;接地气学堂 作者&#xff1a;接地气的陈老师 互联网人&#xff0c;来摆摊了&#xff01;摆摊经济一词大火以后&#xff0c;很多自媒体又开始算起摆摊的账。特别喜欢算出诸如“卖煎饼大妈月入3万”之类的账目&#xff0c;再加个“互联网人”的点缀&#xff0c;刺…

地摊经济火了!手把手教程序员摆地摊如何月入9万

说到摆地摊&#xff0c;很多人觉得没面子&#xff0c;认为“走投无路”才会摆地摊&#xff0c;这其实是大众的误解&#xff0c;你知道这群人一天能赚多少钱吗&#xff1f; 不夸张的说&#xff0c;一小时能赚800元以上&#xff0c;一天至少赚3000元&#xff0c;一个月就是9万元…

程序员如何优雅地摆地摊

我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版&#xff0c;欢迎购买。点击进入详情 当下摆地摊如火如荼地在全国上下展开&#xff0c;这里怎么少得了程序员呢&#xff1f;这年头没摆过摊&#xff0c;都对不起国家给的政策。 程序员该如何在这一风口…

经营烧烤店最火的方法

经营烧烤店最火的方法因地区、文化和市场需求而异&#xff0c;以下是传递宝APP&#xff08;扫码点餐&#xff09;一些普遍的建议&#xff1a; 1.选择好的地点&#xff1a;选择一个繁华的区域或经常有人流量的地方&#xff0c;比如购物中心、商业区或者人口密集的社区。这样可以…

摆摊吧,互联网人!

2020&#xff0c;重锤出击&#xff01; 摆地摊&#xff0c;最新风口&#xff01; 互联网人转行后都适合摆什么样的地摊&#xff1f; 让我们一探究竟&#xff1a; 1 程序员 2 运营 3 HR 4 设计师 5 前台 6 电商运营 7 公关 8 产品经理 9 广告人 10 自媒体 11 养猫的互联网人 12 …