OpenAI新作,直指DeepMind格局小了!大模型复杂推理应逐步验证

作者 | Python、Zenmoore

谷歌旗下的DeepMind,因AlphaGo而名声大振;而推出ChatGPT的OpenAI,近日更是如日中天。

然而,OpenAI公开了一篇论文[1],结论同DeepMind去年11月的工作[2]完全相反。在对比差异时,论文指出DeepMind格局小了,相比之下,OpenAI用了更强力的基础模型(use a more capable model),调研了更有挑战的数据(dataset is significantly more challenging),并基于更大的监督数据规模(much larger quantity of process supervision data)。

那究竟是什么样的结论,使两家公司得到如此分歧呢?让我们来仔细看看这篇文章吧。

论文题目:
Let’s Verify Step by Step.

论文链接:
https://arxiv.org/pdf/2305.20050.pdf


大模型研究测试传送门

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
https://gpt4test.com

背景

对于ChatGPT等大语言模型,有一个魔法词叫做“let's think step by step”。如下图左所示,在解题等需要复杂推理的场景下,通过这个魔法词,让模型输出答案之前,输出推理过程,有助于提高答案的准确性与可解释性。该方法被称为思维链(CoT,Chain of Thought)。

alt

所以,一个自然的问题是:在训练大模型时,有没有可以利用思维链的地方呢?

我们知道,训练ChatGPT这种大模型包括两步:语言模型训练与指令精调。在指令精调中,会根须人类反馈数据(考虑认知、价值观等)训练一个奖励模型(Reward Model),并通过强化学习方式,来反馈调整语言模型。

基于人类反馈的强化学习示意图
▲基于人类反馈的强化学习示意图

利用思维链的方式也聚焦在这一强化学习过程。具体而言,可以分为两种:只针对结果的ORMs(outcome-supervised reward models),与基于每一步推理过程的PRMs(process-supervised reward models)。前者只根据模型解题的最终结果给予强化学习监督,而后者关注每一个推理步骤。

分歧点与差异分析

OpenAI和DeepMind的分歧点在于,在解决需要复杂推理的数学题的背景下,对于奖励模型(Reward Model),OpenAI认为针对过程的PRMs更好,而DeepMind认为两者相差不大。

OpenAI指出,之所以产生这一分歧,是DeepMind的实验格局不够:

  • OpenAI基于GPT-4展开实验,而DeepMind只用了700亿参数的基础模型。
  • OpenAI针对MATH数据集,该数据集取自美国中学数学竞赛试题(AIME),而DeepMind之研究了GSM8K数据集,都是些小学数学题。
  • OpenAI基于了更大的数据规模:800K过程标注标签。而DeepMind只对530道训练集数据取了1560个模型生成样本,得到9.8K的过程标注标签。

这次OpenAI非常慷慨地开源了他们的数据:

https://github.com/openai/prm800k

下图为针对过程的PRMs数据样本,绿色的行代表正确的步骤,红色的代表错误的。

alt

实验结果与实验结论

即使公开了论文和数据集,这篇文章和OpenAI之前的几篇文章一样,对技术细节隐藏很深,只公开了很少的实验结论。

主要结论:针对过程的PRMs更好。 alt

对上图解释一下,这里用到Best-of-N作为评价指标,即让语言模型生成N个解之后,让奖励模型选取其中分数最高的一个作为答案,用以评价奖励模型。Majority Voting是一个多数投票的方法。

可以通过主动学习,加速学习过程。下图横轴代表每道题的标注数据规模,等价于训练数据规模。主动学习的方式为,使用较小的PRM模型,对每道题保留部分分值最高的负样本。该方法可以提高2.6倍的收敛速度。 alt

针对过程的PRMs可以较好地泛化到领域外的数据上。可以看到,在各学科的AP数据上,PRMs都取得了较好的表现。 alt

除此之外,文章最后还探讨了包括测试集污染在内的一些问题,在此就不过多展开了。

额外的结论

因为OpenAI写得论文都比较隐晦,有时需要一些专业的背景才能够从字里行间看出一些端倪。爱丁堡大学的博士生fuyao在Twitter上也给出了这篇文章的一些参考结论:

  • 奖励建模非常重要。单纯有监督微调只能提供模型的格式,而无法提升能力(capability)。
  • 使用逐步奖励而不仅仅依赖于最终奖励对模型进行训练,这个原则也适用于编程任务。
  • 如果数据集像GSM8k那样简单,或者奖励数据不足够大,可能会得出错误结论,认为两种类型的奖励是相似的。这是之前DeepMind的结论。
  • 在进行奖励建模之前,应该对Latex和SFT(结构化文本)进行持续训练。持续训练可以提升能力,而SFT可以提供格式。这个做法来自Google Brain的Minerva论文。
  • 推理任务的奖励模型与对话任务的奖励模型不同。不应该假设底层只有一个单一的奖励模型。原始的Claude论文也讨论了这种做法。
  • 应扩大奖励模型规模。不应该假设大模型可有效从小型奖励模型中学习。这在OpenAI最初的InstructGPT论文中也有讨论。
  • 在单一数据集(MATH)上训练的奖励模型可推广到领域外数据集。可能归因于模型规模。

总结

这篇文章告诉我们,要辩证地看待世界,真理也是有一定适用范围的。得到错误的结论,可能不是方法思路有问题,而是没有打开格局。

这篇文章对科研的价值,一个是可以像fuyao那样,除了主要结论之外,通过一些隐约的表示,探究OpenAI隐藏的细节。另一方面,也可以从开源的数据集入手,仔细分析GPT4在数学推理的表现与人类标注的特点,探究GPT4的能力的同时,思考是否有必要,以及能不能将之推广到其它需要推理的大模型应用场景中。

参考资料

[1] Let’s Verify Step by Step. arXiv preprint arXiv:2305.20050, 2023.
[2] Solving math word problems with process-and outcome-based feedback. arXiv preprint arXiv:2211.14275, 2022.

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20408.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【直播回放】毕导:大学生毕业信息资源分享和就业方向指导

直播回放 “毕导”:大学生毕业信息资源分享和就业方向引导 “毕导”网站的一些更新 目录 1是什么 2为什么 3怎么做 3.1内容版块 3.2功能介绍 3.2.1注册登录(新增QQ互联登录) 3.2.2 个人中心(可以修改个人资料) 3.2.3 添加网址到我的导航&…

最新!中国内地大学ESI​排名出炉:347所高校上榜!

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 来源:最佳大学 转载自:双一流高校 9月9日晚,科睿唯安公布了ESI从2011年1月1日到2021年6月30日的统计数据。ESI每2个月公布一次,均为上一次数据…

百度网盘, 用官方的方法提速 6MB 每秒

牙叔教程 简单易懂 之前发了一篇教程 百度网盘5MB每秒-你本来就很快 浏览量还可以, 所以写个续集, 不懂原理的可以看之前的教程, 上一篇教程中采用的方法是扫描二维码授权, 今天我们用另外一种方法授权; 我们封装一下方法, 使用的语言是 Node.js 其他语言可以使用 ChatGPT4 …

谷歌泄密文件曝光:AI大战,谁将是赢家?

[机器翻译]谷歌的一位高级软件工程师撰写了一篇评论文章,断言互联网搜索领导者正在失去其在人工智能方面的优势,让位于开源社区,许多独立研究人员使用人工智能技术取得快速和意想不到的进步。 工程师 Luke Sernau 于 4 月初在 Google 的内部系…

20道常考Python面试题大总结

20道常考Python面试题大总结 关于Python的面试经验 一般来说,**面试官会根据求职者在简历中填写的技术及相关细节来出面试题。**一位拿了大厂技术岗Special Offer的网友分享了他总结的面试经验。当时,面试官根据他在简历中所写的技术,面试题…

微软又赢麻了!联合 Meta 发布免费商业应用的开源 AI 模型 Llama 2

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 昔日的竞争对手,今日的合作盟友;忽如一夜春风来,开源大模型迎来新局面;今天是 OSS AI 胜利的一天; 随着 Meta 最新发布一个新的开源 AI 模型—…

什么是 Auto-GPT?如何使用、部署 Auto-GPT?

从去年下半年开始,Ai 相关领域爆炸式的发展,令人眼花缭乱。一天不学习,感觉就跟落后了几个世纪似的。这不,ChatGPT 很多人还没来得及体验,又一个重磅产品诞生了 - Auto-GTP。 有人说 Auto-GPT 的发布,让人…

【图神经网络】图神经网络(GNN)学习笔记:Graph Embedding

图神经网络(GNN)学习笔记:Graph Embedding 为什么要进行图嵌入Graph embedding?Graph Embedding使用图嵌入的优势有哪些?图嵌入的方法有哪些?节点嵌入方法(Node Embeddings)1. DeepWalk2. LINE…

格局打开,Meta 发布免费商业应用的开源 AI 模型 Llama 2,网友:微软又赢麻了!...

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 昔日的竞争对手,今日的合作盟友;忽如一夜春风来,开源大模型迎来新局面;今天是 OSS AI 胜利的一天; 随着 Meta 最新发布一个新的开源 AI 模型—…

利用CHATGPT:单击即可创建 POWERPOINT 演示文稿PTT

​您是否经常花大量时间制作 PowerPoint 演示文稿?如果你这样做,你并不孤单。创建演示文稿可能会占用大量时间,而且可能非常无聊。但如果有一种简单快速的方法来制作 PowerPoint 演示文稿呢?使用ChatGPT,您只需点击一下按钮即可创建精美的PPT! 在本文中,我们将解释如何…

国外问卷调查回答问题有什么技巧?

大家好,我是小飞匠,今天来聊聊国外问卷调查回答问题有什么技巧? 一、刷问卷的时间很重要 1、找对赚钱时间。调查公司也是上5天班的,一般工作日问卷新而且多,比较容易通过。周末调查问卷少,有也可能是剩查…

仿造问卷星--开发一套调查问卷设计工具(3/3)--完整流程

1,定义一个结果的对象: let resultObj {id: 0,name: "",questions: [], };id,name和questions分别对应问卷id,问卷名称和问卷题目。 2,结果赋值 用户点击生成问卷按钮时, 分别从id和name文本…

【问卷调查发布系统的设计与实现】

系列文章目录 在当前社会,随着信息化的高速发展,收集数据的传统方法——问卷调查法也在发生改变。此问卷调查系统,可以帮助用户在短时间内创建收集数据的问卷,目的是突出高效性、绿色性以及便捷性。在设计过程中,分析…

海外调查问卷渠道平台

大家好,我是跨境搬砖领路人!我会在这里,每天给大家分享各种国外问卷的知识和技巧! 在如今这个社会,对目前的年轻人,特别是男生来说,他们面临的压力是极其大的。大多数人,一毕业就出…

大学生社交网络问卷调查,社交情况问卷调查报告

问卷调查怎么做? 用问卷网做问卷调查十分简便,基本流程如下:第一步:搜索问卷网,找到官方网站,登录网站。第二步:点击页面中心的创建第一份问卷按钮,开始创建您的问卷。 第三步&…

你还在用问卷星?微信制作调查问卷他来了。

问卷星,金数据之类的调查问卷工具用到最后发现都是要收费了,但是大部分人根本不想付费去制作问卷调查。 免费的问卷调查工具:使用直接再微信小程序搜索“创建问卷” 今天要说的是这个问卷调查工具,它是微信的小程序,满…

市场调查与分析|设计问卷|修改问卷|发放问卷

目录 1.调查问卷设计初衷 2.对用户选择宠物食品看重因素量表的信度检验 3.对用户选择宠物食品看重因素量表的效度检验 4.问卷修改 1.调查问卷设计初衷 在问卷设计完成后进行预调查预试样本主要用来对问卷中的量表进行信、效度检验,根据检验结果对量表做出必要…

调查问卷表单

石家庄邮电职业技术学院专属活动第2期:【校园前端学习笔记】主题征文石家庄邮电职业技术学院社区 学号后四位:0233(必填) 邀请人ID:(非必填) 调查问卷 最终效果 实现计划 设置问卷样本轮廓为…

表单:调查问卷

石家庄邮电职业技术学院专属活动第2期:【校园前端学习笔记】主题征文石家庄邮电职业技术学院社区 学号后四位:0222 在日常生活中,我们经常会做一些调查问卷。当我们学习了Web前端开发技术与应用,我们也可以尝试做一个调查问卷。 …

移动开发——问卷调查

设计思路 首先问卷调查需要两个页面,一个是用户进行问题选项选择的问卷界面,一个是用户问卷调查结果的反馈页面。问卷界面有题目,单选,有多选,还有文本编辑框,以及两个按钮,一个提交&#xff0…