【NLP】让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯,GPT-4一骑绝尘!

e9fdc7ec269719c14899650d335d687f.jpeg夕小瑶科技说 原创
作者 | python
一个烙饼煎一面一分钟,两个烙饼煎两面几分钟?

让你来回答,是不是一不小心就掉到沟里了?如果让大语言模型来做这种脑筋急转弯会怎样呢?研究发现,模型越大,回答就越可能掉到沟里,即使是拥有千亿参数的大模型也不能幸免。但是ChatGPT却能很好回答这些问题。让我们一起来看看吧。

论文题目:
Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models—and Disappeared in GPT-4

论文链接:
https://arxiv.org/pdf/2306.07622.pdf


脑筋急转弯

作者采用了CRT(Cognitive Reflection Test)数据作为脑筋急转弯的测试数据。该数据在心理学领域,广泛地被用于衡量人类的思维习惯,判断是否习惯于直觉思维。

ae6673b4da133be8a0ebfbe4d46a858a.png
▲脑筋急转弯数据示例

如上图所示,作者探索了3种CRT数据,和1种语言逻辑陷阱。例如:

  • CRT-1:苹果和梨花了1块1,苹果比梨贵1块,问梨花了多少钱?直觉答案:0.1块 = 1.1-1,正确答案:0.05块。

  • CRT-2:5个人种5棵树花5分钟,10个人种10棵树花多少分钟?直觉答案:10分钟,正确答案:5分钟。

  • CRT-3:培养皿中的细菌每分钟扩增一倍面积,48分钟可以填满,问填满一半要多久?直觉答案:24分钟,正确答案:47分钟。

  • 语言逻辑陷阱:刚上小学的小红去参加高考,她会考几科?直觉答案6科,正确答案:小学生不参加高考。

模型表现

模型表现如下图所示,可以看到模型较小时(从117M GPT-1 到2.7B GPT-Neo),随着模型增大,模型回答正确答案(绿色)和直觉答案(红色)的比例在提高,回答无关答案(黄色)的比例在下降。但随着模型进一步增大(从2.7B GPT-Neo 到 175B GPT-3),无关答案比例进一步下降,直觉答案比例进一步上升,正确答案比例却不升反降。包括BLOOM、LLAMA、GPT-3在内的大语言模型明显掉入脑筋急转弯的陷阱。即使是经过指令调整与RLHF的text davinci-002/003也未能幸免。

91eadff084f05d2cb1ae077f1d794d9c.png
▲不同模型表现对比

而在上图中,经过指令调整的ChatGPT与GPT-4,一下子正确答案的比例就高了许多。究竟是什么魔法使得ChatGPT的脑筋会转弯呢?我们不得而知。

下图具体对比了GPT-3(text davinci-003,左)、ChatGPT(中),GPT-4(右)在几类不同的脑筋急转弯的表现,可以更加凸显上述现象。

2acd113ee858aa655b5fae2b86714b60.png
▲不同脑筋急转弯类型上的模型表现对比

如果改换输入形式会怎样?下图上为问答的形式,和上面的实验相同。下图中、下分别为多选、续写的形式。可以看到,修改提问形式之后,正确率略有上升,但整体差别不大。

408465c012edd29c9e80ba38e776d7b4.pngdf4fcd3780158c3514554bf9361ccbb9.png

下图显示,通过少监督展示学习,GPT-3的正确率会有所上升。但即使展示到40个左右的样本,准确率和无监督的ChatGPT比仍有差距,更不用说GPT-4了。

c2f141cee4bd86aefbac64e56c49961d.png

结论

这篇论文针对很有意思的一类问题(脑筋急转弯),发现了大语言模型的一个很有意思的现象。作者也尝试了多种方法,但无论是改变提问形式还是增加监督数据,GPT-3(text davinci-003)在脑筋急转弯上的表现仍然难以达到ChatGPT的水平。究竟ChatGPT使用了怎样的魔法让模型的脑筋会转弯呢?

491091b7ddf3fd1afde36a8ebc5b31eb.png

d06254a89d1d118716cac68fc178354d.jpeg

 
 
 
 
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/67181.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

江瀚新材登陆上交所主板:募资约24亿元,甘书官父子为实际控制人

1月31日,湖北江瀚新材料股份有限公司(下称“江瀚新材”,SH:603281)在上海证券交易所主板上市。本次上市,江瀚新材公开发行股票66,666,667股,发行价格为35.59元/股,发行市盈率为14.80倍。 按发行…

聚威新材在科创板被暂缓审议:毛利率高于同行,张天荣为董事长

2023年1月10日,上海证券交易所披露的信息显示,上海聚威新材料股份有限公司(下称“聚威新材”)被科创板上市委员会暂缓审议。据贝多财经了解,聚威新材仍有多个问题需进一步落实事项。 上市委要求聚威新材落实&#xff1…

坤泰股份在深交所上市:预计全年营收超4亿元,张明夫妇为实控人

2月16日,山东坤泰新材料科技股份有限公司(下称“坤泰股份”,SZ:001260)在深交所主板上市。本次上市,坤泰股份的发行数量为2875万股,发行价为14.27元/股,募资4.10亿元。 据贝多财经了解&#xf…

聚观早报 | 马斯克称星舰1-2个月内准备再发射;推特撤下官媒标签

今日要闻:马斯克称星舰1-2个月内准备再发射;推特撤下「官媒」标签;Pixel Fold 折叠机型首次被泄露;蔚来员工曝半年加班500小时;苹果Mac Pro和Mac Studio无缘WWDC 马斯克称星舰1-2个月内准备再发射 美国当地时间 4 月 …

科大讯飞刘聪:如何持续保持语音识别技术的领先

2020科大讯飞全球1024开发者节今天正式拉开帷幕,伴随着AI的发展,我们得以更全面和细致地洞察人们的生活习惯,并为人们提供更加智能和便捷的服务。在人工智能的应用场景中,最重要的一个就是语音交互。针对这一点,科大讯…

科大讯飞2位董事同日辞职,联合创始人胡郁发力造芯

明敏 发自 凹非寺量子位 报道 | 公众号 QbitAI 科大讯飞高层发生重大人事变动。 昨晚讯飞官方披露:董事、副总裁胡郁和陈涛二人分别递交《辞职报告》,申请辞去相关职务。 同时宣布拟补选副总裁、董事会秘书江涛和副总裁兼CFO段大为任非独立董事候选人。 …

文心一言 VS 讯飞星火 VS chatgpt (60)-- 算法导论6.4 4题

文心一言 VS 讯飞星火 VS chatgpt (60)-- 算法导论6.4 4题 四、证明:在最坏情况下,HEAPSORT 的时间复杂度是Ω (nlgn)。 文心一言: 要证明在最坏情况下,HEAPSORT 的时间复杂度是 Ω(n log n)&#xff0c…

Openpcdet训练自己的数据集

一. Openpcdet的安装以及使用 * Openpcdet详细内容请看以下链接: GitHub - open-mmlab/OpenPCDet: OpenPCDet Toolbox for LiDAR-based 3D Object Detection. 1.首先gitclone原文代码 2. 这里我建议自己按照作者github上的docs/install文件夹下指示一步步安装&a…

无代码资讯|微软将GPT-4集成在Power Apps等产品中;谷歌推出无代码开发平台Gen App Builder;第一新声发布《2022年中国高成长企业级SaaS行业研究报告》

栏目导读:无代码资讯栏目从全球视角出发,带您了解无代码相关最新资讯。 Top3大事件 1、微软将GPT-4集成在Power Apps等产品中,通过自然语言对话就能开发应用 北美时间3月16日,微软召开了“The Future of Work With AI”大会。微…

ShardingSphere 社区出品|LGTM :数据圈内的周度「热点精选」

📢「LGTM」的意思是指:在我看来不错 (Looks Good to Me),这是代码审阅者在批准 CL 时说的常用语。本周,ShardingSphere 社区正式开辟一个全新的内容专栏——「LGTM 专栏」。致力为您带来业界最佳新闻,让您在 5 分钟内了…

2023年网络安全趋势【网安人必看】

数据安全越来越重要。 我国《数据安全法》提出“建立健全数据安全治理体系”,各地区部门均在探索和简历数据分类分级、重要数据识别与重点保护制度。 数据安全治理不仅是一系列技术应用或产品,更是包括组织构建、规范制定、技术支撑等要素共同完成数据…

2023年网络安全发展前景

数据安全越来越重要。 我国《数据安全法》提出“建立健全数据安全治理体系”,各地区部门均在探索和简历数据分类分级、重要数据识别与重点保护制度。 数据安全治理不仅是一系列技术应用或产品,更是包括组织构建、规范制定、技术支撑等要素共同完成数据…

通用智能面临巨大掣肘,国产AIGC还在寻找光明

无论技术有多先进,符合商业规律才能笑到最后。 数科星球 原创 作者丨苑晶 编辑丨十里香 AIGC背后充满了故事,在一家家企业手握巨额融资之时,人们耳边再次响起了警钟。诚然,在新的浪潮之下,符合商业规律的企业才能笑…

擎创动态 | 来自华为的深度认可,擎创再获华为鲲鹏技术认证

在数字中国的信息技术应用国产化进程中,擎创科技除持续投入自主产品研发外,还深度适配了涵盖芯片、服务器、操作系统、数据库、中间件、云服务、应用等领域的国产化产品,与华为的合作适配便是其中重要的一环。近期,擎创夏洛克智能…

Python请求错误“ check_hostname requires server_hostname”?

进行request请求时,有时必须开VPN才能访问,而开着会遇到如下问题: 原因是urllib3升级后增加了 HTTPS的支持,就尝试用https连接代理服务器,但是代理服务器其实只支持 http,因此出现了错误。 简单解决办法&…

flask部署钉钉机器人和企业微信机器人

引言 创建机器人,目的是通过机器人的方式,提出用户的问题,得到想要的回答 钉钉机器人 首先我们需要获取钉钉的企业内部开发者权限然后我们进入钉钉开放平台,登陆后,选择应用开发->机器人->创建应用,我创建了一…

视觉大模型调研(Survey of Visual Foundation Model)

目录 A.写在前面 B.论文支撑与基础理论 1.大模型基本概念的诞生 2.大模型产业化落地的理论支撑 3.视觉模型架构的形成-Transformer到ViT再到MAE C.产业落地化现状 1.百度文心 UFO 2.0 整体概述 原理介绍 模型效果 应用场景与方案 2.华为 盘古CV视觉大模型 模型预训…

30亿参数,华为云发布全球最大预训练模型,开启工业化AI开发新模式

本文分享自华为云社区《HDC.Cloud 2021 | 华为云发布全球最大预训练模型,开启工业化AI开发新模式》,原文作者:技术火炬手 。 4月25日,华为云发布盘古系列超大规模预训练模型,包括30亿参数的全球最大视觉(C…

AI大模型未来将走向何方?广泛应用成首要挑战

导读:如何让AI大模型被广泛应用起来? 目前在AI行业,大模型火到破圈。 今年11月初,华为云盘古大模型的机场广告在首都机场和深圳宝安机场亮相,主打“行业AI开发应用优选”的定位。11月18日,权威时政媒体中国…

千亿参数的盘古大模型

盘古系列AI大模型包括NLP大模型、CV大模型、多模态大模型、和科学计算大模型。具备超大神经网络,实际参数量超千亿;具备强大网络架构,实际综合性能比定制化模型提升10%;具备优秀泛化能力,全场景覆盖率提升10倍。 传统…