强到在IQ测试中“碾压”人类的ChatGPT,可能解不出这几个数学脑筋急转弯

f0a2dd530ce8d4fcd93fc9896da7cc5a.jpeg来源:AI前线 

作者:Meghan Bartels

译者:王强

策划:刘燕

ChatGPT 可以在 IQ 测试中拿到高分,但它没法在传奇数学谜题大师 Martin Gardner 设计的题目中击败人类高手

事实证明,如果你想解答一个脑筋急转弯问题,那你最好还是有一个人类的大脑。

3ac6233e48b968a3cfb80752310ef55c.jpeg

ChatGPT 等人工智能系统取得了一系列成就,包括做出医疗诊断、在智商测试中取得优异成绩和概述科学论文等,也因此赢得了众多赞誉。但《科学美国人》杂志想看看这个机器人与传奇谜题作者 Martin Gardner 的遗产正面交锋的结果。Martin Gardner 是我们杂志的数学游戏专栏的长期作者,他于 2010 年去世。我用一些 Gardner 编写的脑筋急转弯文本,还有 2014 年数学家 Colm Mulcahy 和计算机科学家 Dana Richards 在《科学美国人》中对他工作的致敬题目测试了 ChatGPT。

测试结果有的令人满意,还有些非常尴尬——但这在某种程度上提供了一些宝贵的见解,让我们对 ChatGPT 与类似的人工智能系统的工作机制有了更深的理解。

ChatGPT 由 OpenAI 公司创建,其基础是所谓的大型语言模型。这是一个深度学习系统,被输入了大量的文本——这个 AI 的创造者把他们能获取的任何书籍、网站和其他信息都输进去了。然后 ChatGPT 开始学习,统计识别哪个词最有可能跟在前一个词之后,以构建响应输出。之后由人类训练系统,教它学习对用户可能提出的各种问题(尤其是关于敏感话题)的最佳回答类型。

仅此而已。

人工智能“没有推理能力;它不理解上下文;它没有任何独立于其系统中内置内容的东西,”密歇根大学的数据科学伦理学家 Merve Hickok 这样评价。“听起来它像是在推理;但它受其数据集的约束。”

下面我们就用一些相对简单的谜题来说明硅芯片和碳基人脑灰质处理信息的方式之间有哪些关键区别。

谜题 1

首先我们来探讨一个真正的逻辑问题。前文提到的 2014 年的致敬题目中是这样描述的:“建筑物的底层有三个开闭开关。只有一个开关控制三楼的一个灯泡。另外两个开关没有连接任何东西。你可以把这些开关设置为你喜欢的任意组合。然后去三楼检查灯泡。不走出三楼,你能判断出哪个开关是有效的吗?你只能尝试一次。”

我把问题描述输入 AI 后,它立刻给出建议,说应该将第一个开关打开一会儿,然后将其关闭,然后打开第二个开关并上楼。如果灯泡亮着,则第二个开关是有效的。如果灯泡熄灭但很热,则第一个开关是有效的。如果灯泡熄灭且不热,则第三个开关是有效的。这与我们在 2014 年给出的推理结果完全相同。

但根据密歇根大学计算机科学家 Kentaro Toyama 的说法,ChatGPT 在这种情况下轻松获胜,可能只是意味着它已经知道答案了——没法说它是自己研究出答案的。

“当它失败时,给出的结果看起来非常奇怪。但实际上我想到了它跑出正确逻辑的那些例子——这只是证明训练数据中有很多这样的逻辑,”Toyama 说。

谜题 2

换一个数学成分更多的题目?Gardner 在他 1958 年 8 月的专栏中是这样出题的:“两枚导弹直接朝对方飞去,一枚的速度是每小时 9,000 英里,另一枚是每小时 21,000 英里。它们相距 1,317 英里。不使用铅笔和纸,计算出它们相撞前一分钟的距离。”

ChatGPT 在这道题上下了很大功夫。它展示了解决该难题关键部分——计算两枚导弹在一分钟内飞行的总距离——的两种不同解法。在两种解法中,它都给出了 500 英里这个正确结果,这本来也是谜题的最终答案。但 AI 不能忽略导弹一开始相距 1,317 英里这一事实,它一直试图从该距离中减去 500 英里,结果提供了错误的答案:导弹在坠毁前一分钟相距 817 英里。

我尝试在接下来的交流中鼓励 ChatGPT 找到正确答案。例如,我建议它以数学教授的方式回答问题,并明确地告诉它,刚才的答案是错误的。这些干预未能阻止 ChatGPT 提供错误的解决方案。但是,当被告知导弹之间的起始距离是一条红鲱鱼时,它确实对此调整了响应并找到了正确结果。

尽管如此,我还是怀疑人工智能是否真的学会了这里面的逻辑。我给了它同样的谜题,但把导弹变成了船并改变了数字——唉,ChatGPT 又一次被愚弄了。这给 Toyama 所说的问题提供了佐证,这个问题也是目前人工智能领域的一大争议:这些系统是否能够自己搞清楚逻辑。

“一个观点是,如果你给它提供这么多逻辑思维的例子,最终神经网络将自己学会理解逻辑思维,然后就能够在正确的实例中应用它,”Toyama 说。“还有些人认为,‘不,逻辑与神经网络目前的学习方式有着根本差异,因此你需要专门构建能理解逻辑的人工智能。’”

谜题 3

我尝试的第三个谜题来自 1964 年 3 月 Gardner 的质数题目:“给定 1 到 9 这九个数字,每一个都只使用一次,形成一组三个质数,让它们的总和最小。例如,集合 941、827 和 653 的和为 2,421,但这远非最小值。”

判断较小的数字(例如 3、5、7 和 11)是否是质数相对容易。但数字越大,判断它是质数还是合数就越困难。

Gardner 在那年的下个月提出了一个特别优雅的解决方案:“我们首先尝试三个数字都是三位数的情况。这些数字的结尾必须是 1、3、7 或 9(这一规律适用于所有大于 5 的质数)。我们把 1 拿出来放到某个数字的百位,这样三个数字的个位就是 3、7、9。每个数字的百位最小选项是 1、2 和 4,这样剩下的十位数字就是 5、6 和 8。在符合这些规范的 11 个三位数质数中,不可能找到三个没有重复数字的质数组合。我们接下来尝试在百位使用 1、2 和 5 的组合,这样就能产生唯一的答案:149+263+587=999。

AI 的第一个答案给我留下了深刻的印象:257、683 和 941。它们都是质数,总和为 1,881。这是一个相当小的结果,但还是大于 Gardner 的方案。但不幸的是,当我要求 ChatGPT 解释它的推理过程时,它提供的冗长过程通向另一个结果:数字 109、1,031 和 683。三个数字都是质数,但不符合题设要求。

然后我提醒它回想起一开始的答案,结果 ChatGPT 提供了一个愚蠢的解释,包括声称“我们不能使用 1、4 或 6 作为三位数素数的第一位,因为所得数字可以被 3 整除。”这显然是错误的:能被 3 整除的数字应该是各个位的数字总和可以被 3 整除才对。

我尝试给它打气,指出有更好的解决方案,并建议 ChatGPT 想象它自己是一位数学教授,但它接下来提供的结果是 2、3 和 749。然后它偶然发现了 359、467 和 821——另一个有效的组合,总计 1,647——比第一个解更好,但仍不如 Gardner 的解优雅。

很遗憾,这是我能得到的最好结果。另外六个答案充满了非质数和缺失或多余的数字。然后 ChatGPT 再次提供了 257、683 和 941 这个结果。

所有这些失败都反映了 Toyama 提到的这类人工智能系统的一个关键特性。“ChatGPT 擅长拟人化,”他说。“它掌握了人类的语言风格,但它没有被输入明确的程序来做那些计算机一直非常擅长的事情,也就是很像食谱的演绎逻辑。”它并没有解决问题,甚至不一定要尝试解决问题——它只是大致展示了解决方案的样子。

在整个尝试过程中,令我震惊的是,似乎没有任何事情能让 AI 感到慌张。但 Toyama 表示,这也反映了 ChatGPT 的打造过程及过程中给它输入的材料的样子。“你可以想象一下,用来训练它的绝大多数文本的平均语气应该是什么样的,——可能那个平均语气是相当自信的,”他说。

谜题 4

2014 年致敬题目的最后一道:“每个字母对应一个数字……如果算式成立,你能算出每个字母代表哪个数字吗?”

267b20ad8cfa6cc093cf8c8334673387.jpeg

这看起来既优雅又有趣!那么 AI 的答案到底能有多糟糕?唉,ChatGPT 的第一反应是“11111+11111+11111+11111+11111+11111+11111=FORTY9”。

AI 的下一个尝试承认了这个谜题需要把字母换成数字,但我花了好几轮说服这个聊天机器人不要在每个 SEVEN 中删除第二个 E。ChatGPT 似乎偶然发现了一个组合,其中包括 N=7——这是正确的。简直就是奇迹,因为这是正确解决方案的第一步。

我向它确认 N=7 是正确的,但 AI 显然是在随机猜测。(如果它要尝试特定的数字,它应该从测试 E 的不同解决方案开始。最简单的起始步骤——剧透警报——是测试 E=0 是否成立,ChatGPT 完全没有考虑到这一点。)它承诺给出系统的解决方案,然后假设 S=1,又开始随机猜测了。虽然我想分享它尝试过程的剩余部分,但它实在太荒谬了,最后的结尾告诉我“再次更新方程式:116”,简直是在梦游。

ChatGPT 接下来的表现更糟了。它假设 S=9,这是我让它尝试的。它假定因为 N+N+N+N+N+N+N=9,所以 N=1。它说七个 E 的总和必须等于 2,所以 E=2。它甚至提出 S=4⁄7,不过下面就很有礼貌地否定了自己。我最后丧失了信心,所以我决定给它更多帮助。我给 ChatGPT 提供了一个线索:S=3。我也提醒机器人 N=7,但这些提示只是让它给出了四个越发混乱的答案。

这团乱麻和刚才一样很能说明问题,因为它展示了人工智能是如何处理它接收到的各种事实集合的。在这个例子中,虽然聊天机器人似乎忘记了我说的 N=7 这个提示,但 Toyama 认为它实际上是在纠结逻辑。“在那之后它给你的反应听起来都很合理,”他说,“但它们可能会,也可能不会考虑到事实的正确组合,或以正确的方式将它们组合在一起。”

Toyama 说,事实上,你不需要这么复杂的谜题,就能看到 ChatGPT 是如何与逻辑斗争的。只需让它将两个大数相乘即可。“这可以说是你能问它的最简单的逻辑问题之一;这是一道简单的算术题,”他说。“它不仅错了一次,还错了很多次,而且错误的方式五花八门。”那是因为即使 ChatGPT 可能已经分析了大量的数学教科书,但没有人教给它一个无限大的乘法表。

尽管遇到了困难,但 AI 聊天机器人在脑筋急转弯中取得了一项关键的逻辑突破。“看来我目前无法准确解决给定的脑筋急转弯,”当我告诉它,它在解决最后一个问题时似乎已经黔驴技穷时,ChatGPT 这样回答我。“对于我给你带来的困惑,我深表歉意。最好以全新的视角来处理问题,或咨询其他资源以找到正确的解决方案。”

原文链接:

https://www.scientificamerican.com/article/you-can-probably-beat-chatgpt-at-these-math-brainteasers-heres-why/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

e4f41614703aa337971190e51cbc7d5c.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20061.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我们拆了一款将ChatGPT“落地”的AI语音交互机器人,八核A7全志R58主控

视频版本拆机:【60块钱,垃圾佬的第一台机器人,国产8核CPU全志R58】 https://www.bilibili.com/video/BV1Qk4y177ja/?share_sourcecopy_web&vd_source6ec797f0de1d275e996fb7de54dea06b 公子小白是一对由狗尾草智能科技推出的人工智能机…

万字长文:Stable Diffusion 保姆级教程

万字长文:Stable Diffusion 保姆级教程 2022年绝对是人工智能爆发的元年,前有 stability.ai 开源 Stable Diffusion 模型,后有 Open AI 发布 ChatGPT,二者都是里程碑式的节点事件,其重要性不亚于当年苹果发布iPhone&a…

Claude注册保姆级教程,含添加slack失败等问题处理方式

ChatGPT最强平替Claude 1. 搜索claude官网 网址:https://www.anthropic.com/product2、添加到slack 进入官网后下拉,滚动到页面底部,点击Product News,“Claude in Slack”。3、进入slack应用市场 https://w1685857018-gkt521992…

外汇天眼:Apple与MetaQuotes之争!谁是下一个Apple?谁会成下一个MT4/5?

手机巨头Apple 从其应用商店App Store中下架领先的交易软件MetaTrader4(MT4)和 MetaTrader5(MT5)引发了外汇市场热议。 虽然截止发稿,Apple以及交易软件MT4/5供应商MetaQuotes均未对此次事件发表任何评论,…

yfinance 国内使用,下载雅虎财经数据

本文基于2021年发布的FinRL框架,在第一步下载数据便遇到了问题 要么时区获取不到:No timezone found, symbol may be delisted 要么数据没有:No data found for this date range, symbol may be delisted 其实都是代理问题 FinRL: Deep Re…

ChatGPT想干掉测试人员,做梦去吧

很多人都发现ChatGPT可以做一些代码相关的工作,不仅可以写一些测试用例和自动化脚本,还可以做一定量的调优,于是就开始担忧起来,到哪天我的测试工作会不会被ChatGPT这个工具给取代了? 1. ChatGPT目前对哪些东西会有冲…

《Steam平台上的VR虚拟现实》(Yanlz+Unity+XR+VR+AR+MR+Steam+SteamVR+Vive+Oculus+Valve+立钻哥哥+==)

《Steam平台上的VR虚拟现实》 《Steam平台上的VR虚拟现实》 版本 作者 参与者 完成日期 备注 YanlzVR_Steam_V01_1.0 严立钻 2019.04.01 ##《Steam平台上的VR虚拟现实》发布说明: “Steam平台上的VR虚拟现实”:是对“Ste…

HTC VIVE VR眼镜的介绍以及初始化设置

硬件设备介绍 使用的硬件设备:HTC VIVE 或 HTC VIVE Pro 1.认识一下HTC VIVE VR头盔上的主要部件: A 是基站(定位器) x 2(发射激光定位头显与手柄控制器) B 是同步线 C 是基站电源适配器 x2(任何电子设备都需要能源支持) E 是联接器(把头显和电脑连起…

2018VR排行手机VR眼镜哪个好?VR眼镜多少钱,哪个VR眼镜性价比高?评测推荐

摘要:虚拟现实(VR)头戴设备目前已成为市面一类比较火热的产品,它有哪些分类呢?一般可分为头戴类、非头戴类和手套类。怎样选购vr眼镜?不妨先来看看目前比较火的vr眼镜产品评测。

Type-C接口AR/VR眼镜转接器方案,同时支持边传输数据边充电

近几年,人们对电子数码设备的需求也不断提升,VR眼镜作为终端显示产品也不断更新迭代。目前VR眼镜开始配备USB -C接口,现在苹果、华为、三星、华硕、小米等品牌的笔记本都支持通过USB C接口来进行视频数据传输。 USB-C接口除了能够用来传输文…

在你眨眼时,VR这样欺骗你的视觉

VR的沉浸感,可以让人仿佛置身于现实之外,还可以利用各种生物传感特性,来模拟一种具有存在感的虚拟空间。实际上,VR可以很好的欺骗人的感官,比如尽管你身处空间有限的房间中,但在VR中你仿佛已来到开阔的户外…

VR眼镜转接器方案,支持同时给电脑手机设备及VR供电。

近几年,人们对电子数码设备的需求也不断提升,VR眼镜作为终端显示产品也不断更新迭代。目前VR眼镜开始配备USB -C接口,现在苹果、华为、三星、华硕、小米等品牌的笔记本都支持通过USB C接口来进行音视频数据传输。 USB-C接口除了能够用来传输…

【2018VR眼镜评测】UGP VR和千幻魔镜哪个好?暴风魔镜和小宅VR有什么区别?哪个牌子VR眼镜好?2017

按照目前VR的硬件形态来划分,VR头戴设备主要分为三种: 1、移动端头显(又叫手机VR) 2、一体机VR 3、PC端VR 【三种VR的的区别】 移动端VR:其实这类产品又称为VR盒子,方便小巧且便宜,相当于纸盒vr的进阶,价格…

ps4虚拟现实VR眼镜入手体验

随着近几年越来越多的资本注入VR行业,市面上VR眼镜的款式和品牌也越来越多,不管是价格高低可以说VR眼镜已经覆盖了中高低端市场,今天小九主要为大家来讲一下ps4虚拟现实VR眼镜的入手体验,为什么要挑选这一款呢?因为市面上很多游戏…

秀儿ChatGPT-4震撼发布,AR眼镜的用武之地在哪?

距离老版本 ChatGPT-3展现它惊人的实力、颠覆我们的认知,才仅仅过去四个多月,OpenAI又扔下了一颗核弹:GPT-4发布了。 GPT-4 主要实现了以下几个方面的飞跃式提升: 强大的识图能力; 文字输入限制提升至 2.5 万字&…

近视了怎么玩转VR眼镜?

随着近几年更多资本注入VR行业,加上人们对于这个行业的认知和喜爱,越来越多的VR眼镜进入人们的娱乐生活,VR眼镜的种类和功能也越来越多,但是对于近视的人群怎么才能玩VR眼镜呢?今天小九来带大家看一下都有哪些方法能够在近视的情…

体用UGP VR眼镜一体机下载体验玩2018《VR女友》游戏后感:太真实了!

前言:这不科学啊:“你知道自己像个变态吗?你竟然悲惨到了需要用这种东西来麻痹自己吗?你真的空虚到了这种地步了吗?” 我已经十多年没玩过H-game了。这次玩这个游戏——我不是想让自己看起来像一个正人君子&#xff0c…

HTC VIVE 虚拟现实眼镜VR游戏体验

HTC的VIVE入手一段时间了,体验了几个免费的VR游戏,效果还不错,分享一下。 1. VIVE主要部件 VIVE的主要部件有3个,分别是头盔,两个无线控制手柄和两个定位器。 1.1 头盔 头盔整体照: 正面面板上有定位器&a…

2018VR眼镜,今天做了一个测评!

Vr眼镜是什么?近几年炒的非常火热的vr虚拟现实备受大家关注,各大科技公司也开始投产研发,推出新一代的vr眼镜,它到底是个什么东西?对我们的现实生活影响大不大?虚拟现实技术是一种可以创建和体验虚拟世界的…

教程详解|如何在PICO眼镜中接入VR全景?

伴随着《万人狂欢泼水节》首场VR直播开启,PICO视频正式推出《跟着PICO去旅行》系列VR文旅直播节目,通过PICO眼镜结合VR技术向众多观众展现更多祖国的大好山河,通过PICO眼镜身临其境地感受云游世界的美妙。 经历了十余年的发展,VR…