让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯,GPT-4一骑绝尘!

作者 | python

一个烙饼煎一面一分钟,两个烙饼煎两面几分钟?

让你来回答,是不是一不小心就掉到沟里了?如果让大语言模型来做这种脑筋急转弯会怎样呢?研究发现,模型越大,回答就越可能掉到沟里,即使是拥有千亿参数的大模型也不能幸免。但是ChatGPT却能很好回答这些问题。让我们一起来看看吧。

行业首份AI全栈手册开放下载啦!!

长达3000页,涵盖大语言模型技术发展、AIGC技术最新动向和应用、深度学习技术等AI方向。微信公众号关注“夕小瑶科技说”,回复“789”下载资料
[图片]

 

论文题目:
Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models—and Disappeared in GPT-4

论文链接:
https://arxiv.org/pdf/2306.07622.pdf

大模型研究测试传送门

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
Hello, GPT4!


脑筋急转弯

作者采用了CRT(Cognitive Reflection Test)数据作为脑筋急转弯的测试数据。该数据在心理学领域,广泛地被用于衡量人类的思维习惯,判断是否习惯于直觉思维。

▲脑筋急转弯数据示例

如上图所示,作者探索了3种CRT数据,和1种语言逻辑陷阱。例如:

  • CRT-1:苹果和梨花了1块1,苹果比梨贵1块,问梨花了多少钱?直觉答案:0.1块 = 1.1-1,正确答案:0.05块。

  • CRT-2:5个人种5棵树花5分钟,10个人种10棵树花多少分钟?直觉答案:10分钟,正确答案:5分钟。

  • CRT-3:培养皿中的细菌每分钟扩增一倍面积,48分钟可以填满,问填满一半要多久?直觉答案:24分钟,正确答案:47分钟。

  • 语言逻辑陷阱:刚上小学的小红去参加高考,她会考几科?直觉答案6科,正确答案:小学生不参加高考。

模型表现

模型表现如下图所示,可以看到模型较小时(从117M GPT-1 到2.7B GPT-Neo),随着模型增大,模型回答正确答案(绿色)和直觉答案(红色)的比例在提高,回答无关答案(黄色)的比例在下降。但随着模型进一步增大(从2.7B GPT-Neo 到 175B GPT-3),无关答案比例进一步下降,直觉答案比例进一步上升,正确答案比例却不升反降。包括BLOOM、LLAMA、GPT-3在内的大语言模型明显掉入脑筋急转弯的陷阱。即使是经过指令调整与RLHF的text davinci-002/003也未能幸免。

▲不同模型表现对比

而在上图中,经过指令调整的ChatGPT与GPT-4,一下子正确答案的比例就高了许多。究竟是什么魔法使得ChatGPT的脑筋会转弯呢?我们不得而知。

下图具体对比了GPT-3(text davinci-003,左)、ChatGPT(中),GPT-4(右)在几类不同的脑筋急转弯的表现,可以更加凸显上述现象。

▲不同脑筋急转弯类型上的模型表现对比

如果改换输入形式会怎样?下图上为问答的形式,和上面的实验相同。下图中、下分别为多选、续写的形式。可以看到,修改提问形式之后,正确率略有上升,但整体差别不大。

下图显示,通过少监督展示学习,GPT-3的正确率会有所上升。但即使展示到40个左右的样本,准确率和无监督的ChatGPT比仍有差距,更不用说GPT-4了。

结论

这篇论文针对很有意思的一类问题(脑筋急转弯),发现了大语言模型的一个很有意思的现象。作者也尝试了多种方法,但无论是改变提问形式还是增加监督数据,GPT-3(text davinci-003)在脑筋急转弯上的表现仍然难以达到ChatGPT的水平。究竟ChatGPT使用了怎样的魔法让模型的脑筋会转弯呢?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24564.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用ChatGPT学习多传感器融合中的基础知识

该列表会不定期更新… 文章目录 困惑与解答:问题:匈牙利算法中的增广矩阵路径是什么意思解答:个人理解概述: 问题:扩展卡尔曼滤波是非线性方程求解问题,是将非线性方程拟合为线性方程吗解答:个…

Edge 开发者日 · New Bing New Edge

在开始应用开发前,我们往往会面临着“Web 应用 or 原生应用”的选择。在通过 Microsoft Edge 进行 Web 开发时,WebView2 能够带给开发者兼具 Web 和本机平台的混合应用开发体验;而与此同时,随着 PWA(Progressive Web A…

「图文教程」Windows系统Microsoft Edge浏览器设置搜索框搜索引擎为百度

相信使用过Microsoft Edge浏览器的朋友都有一个困扰,就是自带的Microsoft Edge浏览器不好用,但是想更换搜索引擎又不知道从哪里更换,下面小编就给大家带来Microsoft Edge浏览器更换搜索引擎为百度的教程。 1、打开Microsoft Edge浏览器&…

Microsoft Edge有哪些你不知道却超级好用的插件?(Microsoft Edge功能测评)

🎈个人主页:🎈 :✨✨✨初阶牛✨✨✨ 🐻推荐专栏: 🍔🍟🌯C语言进阶 🔑个人信条: 🌵知行合一 🍉本篇简介:>:对Edge浏览器的简单测评,分享一些自己在使用好用的插件. 目录…

微软 Edge 配置百科 1.6 新版发布 让你可以随心所欲的配置、得心应手的使用Edge的小工具

EdgeTools 更新日志: 2023.05.27 EdgeTools 1.6 发布: 1、支持 113.0.1774.50 版Edge的新增配置。 2、部分功能和性能的优化。 2023.03.28 EdgeTools 1.5 发布: 1、新增文件菜单,支持导入、导出配置文件和…

微软 Edge 被指将用户访问的站点发送给Bing

聚焦源代码安全,网罗国内外最新资讯! 编译:代码卫士 微软 Edge 浏览器似乎将用户访问的 URL 发送至 Bing API 网站。 上周,Reddit 用户率先发现 Edge 存在这些隐私问题,注意到最新的 Edge 版本将请求发送至 bingapis.c…

一款既有颜值又有实力的Edge浏览器插件——WeTab

目录 前言 推荐理由: 1.方便快捷的ChatGPT 2.适合摸鱼的小游戏 3.网站的快速访问 4.精美的壁纸切换 插件安装方法 总结 前言 我们知道,许多浏览器都可以安装扩展插件,有些插件的功能是非常不错的。下面我想推荐一款Edge浏览器的插件&…

屏蔽Edge浏览器的新闻推送,高效办公!

一、问题描述 每次打开浏览器想查询一些专业相关的知识时,总会被浏览器主页的一些“没营养的”新闻所牵绊,如下图所示。虽然我对这些新闻根本不感兴趣,但也做不到看了毫无感觉。因此,屏蔽这些新闻真的很有必要。我们需要获取什么…

拦截Edge的“根据热门内容向您推荐”

相信不少小伙伴因为广告、界面清洁度等原因,一直都使用谷歌浏览器Chrome 其实近年来,微软自带的浏览器Edge更新之后,使用体验感也非常不错。集锦、垂直标签页等辅助功能,登录微软账户随时可同步书签、设置,需要同时登录…

chatgpt赋能python:Python主网站的SEO优化

Python主网站的SEO优化 作为一名有10年Python编程经验的工程师,我一直非常关注Python官方网站的SEO优化,因为官方网站对于传播Python语言的影响至关重要。在这篇文章中,我将介绍一些Python主网站的SEO优化策略,并总结一些结论&am…

126页PPT干货分享:ChatGPT与数字化转型的业财融合(附下载链接)

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年5月份全网热门报告合集 无需翻墙,无需注册,ChatGPT4直接使用 ChatGPT提词手册,学完工作效率提升百倍 马斯克谈AI:中美差…

当人工智能ChatGPT参与创作 图书出版业应该如何应对?

ChatGPT引发全社会各行各业对人工智能持续保持高度关注。它已经改变了很多行业,接下来还将改变哪些领域,或者它一定不会改变什么,都是人们思考的热点。 人工智能的快速发展,给图书出版业也带来诸多影响。从积极的角度来说&#x…

chatgpt赋能python:Python如何画图:介绍与示例

Python如何画图:介绍与示例 Python是一种高级编程语言,它支持多种图形库,可以用来创建各种不同种类的图像和可视化。在本篇文章中,我们将会介绍一些用于Python程序中绘制图形和可视化数据的绘图库。我们将会探讨如何使用这些库来…

windows-中科院学术ChatGPT优化安装记录

搭建中科院学术专业版 ChatGPT记录 1、git仓库获取 > git clone https://github.com/binary-husky/chatgpt_academic.git(在git bash 中打开输入就行) 打开后输入命令即可 然后你便得到了它,进入该文件夹 打开命令终端,为他配…

融资租赁业务系统(财务中台)

融资租赁业务系统 财务中台 产品白皮书 版本号:V1.1 李雷 微信号:yanan122914 平台概述 融资租赁财务中台产品是一套专门针对融资租赁行业设计的融资租赁财务统一解决方案。对租赁公司传统的大单回租、直租、资产转让等业务模式,渠道零售小…

java 汽车租赁系统

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、汽车租赁系统1.汽车类 抽象父类2.客车类 子类3.轿车类 子类4.业务类5.功能测试类(运行) 总结 前言 使用数组,面向对象的…

信用租赁系统搭建-“信用”+“租赁”模式,租赁方式更灵活

一、系统介绍 信用租赁系统(又名:回租贷款系统)是互融云针对租赁市场需求而研发出来的信用租赁金融服务系统,目前主要应用于高信用可免减押金的租赁需求。系统是“信用”“租赁”的模式,租赁方式包含长期租赁方式和短期…

汽车租赁系统(2)-完成登录功能

文章目录 完成汽车租赁系统的登录功能分析登录功能:创建数据库的表用户表(sys_users)创建首页index.jsp创建实体类创建UserVo创建Mapper创建Mapper.xml创建UserService和UserServiceImpl创建LoginController创建system/main/index.jsp 这篇博客主要讲解登录功能的实现,工作台的…

公寓租赁管理系统

公寓租赁管理系统是深圳合众致达科技有限公司旗下一款面向长短租公寓的管理利器,包含租约管理、账单管理、房源数据、租客管理、水电费计算、收租提醒、远程抄表、智能用水用电的公寓管理系统。轻轻松松做房东,明明白白管账本。专业的智慧公寓管理系统&a…

基于Android的房屋租赁系统

需求信息: 房东客户端: 1:注册登录:使用分配的账号进行登录; 2:发布房源:房主可以发布自己的房源信息; 3:预约信息:查看租客的预约看房信息; 4&am…