世界上最好的人工智能(AI)系统可以通过艰难的考试,写出令人信服的人类论文,流利地聊天,以至于许多人发现它们的输出与人类无异。他们不能做什么?解决简单的视觉逻辑谜题。
在一个由一系列排列在屏幕上的颜色鲜艳的方块组成的测试中,大多数人都能找出连接的模式。但GPT-4是聊天机器人ChatGPT和搜索引擎必应背后的最先进的人工智能系统,在一类模式中,它的正确率仅为三分之一,在另一类模式中,它的正确率仅为3%。据一份 今年5月由研究人员 1 .
逻辑谜题背后的团队旨在为测试人工智能系统的能力提供一个更好的基准,并帮助解决关于大型语言模型(LLM)(如GPT-4)的难题。通过一种方式的测试,它们轻而易举地完成了一度被认为是机器智能里程碑式的壮举。从另一个角度进行测试,他们似乎没那么令人印象深刻,表现出明显的盲点和无法对抽象概念进行推理。
新墨西哥州圣菲研究所的计算机科学家梅勒妮·米切尔(Melanie Mitchell)说:“人工智能领域的人们正在努力评估这些系统。”她的团队创造了这些逻辑谜题(见“打败机器的抽象思维测试”)。
在过去的两到三年里,LLM在跨多个任务的能力方面已经把以前的人工智能系统打得落花流水。它们的工作原理很简单,当输入文本时,根据数十亿个在线句子中单词之间的统计相关性,生成看似合理的下一个单词。对于基于LLM的聊天机器人来说,还有一个额外的元素:人类训练师提供了大量的反馈,以调整机器人的反应。
令人吃惊的是,这种类似自动补全的算法在人类语言的大量存储上进行了训练,从而产生了如此广泛的能力。其他人工智能系统可能会在任何一个任务上击败LLM,但它们必须在与特定问题相关的数据上进行训练,并且不能从一个任务推广到另一个任务。
ChatGPT是一个黑匣子:人工智能研究如何打破它
马萨诸塞州剑桥的哈佛大学(Harvard University)认知科学家托默·尤尔曼(Tomer Ullman)表示,广义上讲,两大阵营的研究人员对LLMS下的情况持相反的看法。他说,有些人将这些算法的成就归因于推理或理解的微光。其他人(包括他自己和米切尔这样的研究人员)则更加谨慎。
厄尔曼说:“在这场辩论的各个方面都有非常聪明的人。”他说,分歧的原因是缺乏支持这两种观点的决定性证据。“没有盖革计数器,我们可以指着什么东西说‘哔哔哔——是的,智能’,”厄尔曼补充道。
来自辩论双方的研究人员都表示,逻辑谜题等测试揭示了人类和人工智能系统之间的能力差异,这是朝着正确方向迈出的一步。纽约大学的认知计算科学家布伦登·莱克(Brenden Lake)说,这样的基准还可以帮助显示当今机器学习系统中缺少的东西,并解开人类智能的组成部分。
关于如何最好地测试LLMs以及这些测试所显示的内容的研究也具有实际意义。米切尔说,如果LL M要应用于现实世界的领域——从医学到法律——那么了解其能力的局限性是很重要的。“我们必须了解它们能做什么,它们在哪里失败,这样我们才能知道如何安全地使用它们。”
图灵测试死了吗?
机器智能最著名的测试一直是图灵测试,由英国数学家、计算大师阿兰·图灵在1950年提出,当时计算机还处于起步阶段。图灵提出了一个他称之为模仿游戏的评估 2 .在这个场景中,人类法官与一台隐藏的电脑和一个看不见的人进行简短的、基于文本的对话。法官能可靠地判断出哪一台是计算机吗?图灵认为,这个问题相当于“机器能思考吗?”
米切尔指出,图灵没有详细说明这个场景,所以没有确切的内容可遵循。总部位于华盛顿西雅图的谷歌(Google)软件工程师弗朗索瓦·乔莱特(Fran Ois Chollet)表示:“这并不意味着你真的会在机器上运行--它更像是一个思维实验。”
贷项:地质块/阿拉米
但是,利用语言来检测机器是否有思考能力的想法仍然存在。几十年来,商人兼慈善家休·罗布纳(Hugh Loebner)资助了一年一度的图灵测试活动,即罗布纳奖(Loebner Prize)。人类法官参与了基于文本的对话,机器和人类,并试图猜测谁是谁。但计算机科学家Rob Wortham说,2019年后,这些年度聚会停止了,因为罗布纳去世了,资金也花光了。他是英国人工智能与行为模拟研究学会的联合主任,该学会从2014年开始代表罗布纳主办比赛。他说,在这样的竞赛中,LLM现在有很好的机会骗过人类;巧合的是,在LLM真正起飞前不久,这些竞赛就结束了。
其他研究人员同意GPT-4和其他LLM现在可能会通过图灵测试的流行概念,因为它们可以愚弄很多人,至少在简短的对话中。今年5月,以色列特拉维夫AI21实验室的研究人员报告称,超过150万人玩过基于图灵测试的网络游戏。玩家被分配与另一个玩家或一个由LLM驱动的机器人进行两分钟的聊天,研究人员让机器人表现得像人一样。玩家识别机器人的正确率只有60%,研究人员指出,这并不比靠运气好多少 3 .
ChatGPT和生成式人工智能对科学意味着什么
然而,熟悉LLM的研究人员很可能仍然会在这种游戏中获胜。Chollet说他会发现很容易检测LLM-通过利用系统已知的弱点。“如果你问我,‘我现在是在和一个法学硕士聊天吗?’我肯定能告诉你,”Chollet说。
他说,关键是要让LLM走出舒适区。他建议用与llm在其训练数据中经常看到的场景不同的场景来展示它。在很多情况下,LLM的回答是吐出其训练数据中最有可能与原问题相关联的单词,而不是给出新场景的正确答案。
然而,Chollet和其他人对使用一个以欺骗为中心的测试作为计算机科学的目标持怀疑态度。“这一切都是为了欺骗陪审团,”Chollet说。该测试鼓励聊天机器人开发人员让人工智能执行技巧,而不是开发有用或有趣的功能。
基准测试的危险
与图灵测试不同,研究人员通常使用旨在评估特定能力(如语言能力、常识推理和数学能力)表现的基准来评估人工智能系统。越来越多的团队也开始转向为人们设计的学术和专业考试。
当GPT-4在今年3月发布时,其背后的公司——加利福尼亚州旧金山的OpenAI——在一系列为机器设计的基准测试中测试了它的性能,包括阅读理解、数学和编程。OpenAI报道称,GPT-4在大多数情况下都表现出色 4 .该公司还设置了大约30门GPT-4考试,包括:为美国高中生设计的各种特定科目考试,即所谓的大学先修课程(Advanced Placement);评估美国医生临床知识现状的考试;以及美国研究生入学选拔过程中使用的标准考试,即GRE。OpenAI报告称,在美国许多州律师资格认证过程中,GPT-4取得了前10%的成绩(见“AI系统性能-精选结果”)。
AI系统性能-选定结果
测试 | GPT-4 | 全球方案3.5 | 专门训练的人工智能 |
律师资格统一考试 | 298/400 (~第90百分位数*) | 213/400 (~第10百分位数) | 不适用 |
医学知识自我评估项目 | 75% | 53% | 不适用 |
研究生入学考试:定量 | 163/170 (~80百分位数) | 147/170 (~第25百分位数) | 不适用 |
HellaSwag:常识推理(为机器设计的测试) | 95.3% | 85.5% | 85.6% |
放下阅读理解基准(机器) | 80.9% | 64.1% | 88.4% |
GSM-8K:8 000个小学数学应用题数据集(机器) | 92% | 57.1% | 87.3% |
资料来源:OpenAI/参考文献4。
*百分位值是为达到这个分数的人类考生。
Mitchell说:“许多这样的语言模型在这些基准测试中可以做得很好。”“但通常情况下,结论并不是它们在这些一般能力上超越了人类,而是基准是有限的。”研究人员提到的一个挑战是,模型是在如此多的文本上训练的,以至于它们可能已经在训练数据中看到了类似的问题,因此实际上可能正在查找答案。这个问题被称为污染。
OpenAI表示,它通过在问题和训练数据中寻找类似的单词串来检查这一点。当它在移除类似字符串之前和之后测试LLM时,性能几乎没有差别,这表明成功不能主要归因于污染。然而,一些研究人员质疑这一测试是否足够严格。
纽约大学语言技术科学家山姆·鲍曼(Sam Bowman)也在旧金山的人工智能公司Anthropic工作,他警告说,不要把GPT-4的考试成绩仅仅看作是记忆的结果,从而抹杀它的能力。污染“使索赔有点复杂,但我不认为它真的改变了大图片,”他说。
研究人员还指出,LLM在考试题上的成功可能是脆弱的,可能无法转化为在现实世界中正确解题所需的强大能力。Mitchell说,可以稍微改变考试题目,让它们不及格。她 把一个考试的问题 例如,他告诉工商管理硕士研究生,ChatGPT已经通过了,并稍作修改。一个人谁可以回答这个问题,将能够回答重新措辞的版本。但是ChatGPT失败了。
在解释基准的含义时,还有一个更深层次的问题。对一个人来说,在这些考试中取得高分可以可靠地表明他具有一般智力——这是一个模糊的概念,但是,根据一个定义,它指的是在一系列任务中表现出色并适应不同环境的能力。也就是说,能够在考试中取得好成绩的人通常可以被认为在其他认知测试中也会取得好成绩,并且已经掌握了某些抽象的概念。米切尔说,但LLMs的情况却完全不是这样,它们的工作方式与人类截然不同。“我们对人类的推断方式并不总是适用于人工智能系统,”她说。
这可能是因为LLM只从语言中学习;没有体现在物理世界中,他们不像人那样体验语言与物体、属性和感觉的联系。莱克说:“很明显,他们理解文字的方式和人类不一样。”在他看来,LLM目前证明了“你可以拥有非常流利的语言,而没有真正的理解。”
另一方面,LLM也拥有人类所不具备的能力——比如能够知道人类曾经写过的几乎每一个单词之间的联系。Mitchell说,这可能会让这些模型依靠语言或其他指示符的怪癖来解决问题,而不一定要推广到更广泛的表现。
OpenAI的研究员Nick Ryder也认为,在一项测试中的表现可能无法像在获得相同分数的人身上那样一概而论。“我不认为一个人应该看一个人类和一个大的语言模型的评估,并得出任何数量的等价性,”他说。OpenAI得分是“并不意味着是一个类似人类的能力或类似人类的推理的声明。它意味着模型如何执行该任务的声明。”
在人工智能中,越大越好吗?
研究人员也比通过传统的机器基准测试和人体测试更广泛地探索了LLM。今年3月,位于华盛顿州雷德蒙德的微软研究院的塞巴斯蒂安·布贝克和他的同事们用一个预印本创造了波 5 题目是《人工通用智能的火花:GPT-4的早期实验利用GPT-4的早期版本,他们记录了一系列令人惊讶的能力——其中许多与语言没有直接或明显的联系。一个显著的成就是,它可以通过心理学家用来评估心理理论的测试,心理理论是人类的核心能力,允许人们预测和推理他人的精神状态。“鉴于GPT-4能力的广度和深度,我们相信它可以合理地被视为人工通用智能(Alamos Gold)系统的早期(但仍不完整)版本,”他们写道。
但是,正如布贝克向 自然 解释的那样“GPT-4当然不像一个人那样思考,对于它展示的任何能力,它都是以自己的方式实现的。”
米切尔说,尽管这份报告具有挑衅性,但它并没有系统地探究LLM的能力。“这更像是人类学,”她说。厄尔曼说,要想让人相信机器拥有心智理论,他需要看到与人类心智理论相对应的潜在认知过程的证据,而不仅仅是机器能输出与人类相同的答案。
人工智能研究人员表示,为了找出LLM的优势和劣势,需要更广泛和严格的审计。色彩缤纷的逻辑谜题可能是一个候选者。
新鲜拼图
2019年,在LLM爆红之前,Chollet在网上发布了一种新的人工智能系统逻辑测试,称为抽象和推理语料库(ARC)。6 .解算者看几个正方形网格变成另一个图案的视觉演示,并通过指示下一个网格将如何转换来显示他们已经掌握了变化的基本规则。“它应该是测试你对你以前没有见过的事物的适应能力,”Chollet说,他认为这是智力的本质。
ARC抓住了“人类智慧的标志”,莱克说:从日常知识中提取抽象,并将其应用于以前看不到的问题的能力。
Chollet在2020年组织了一次机器人ARC比赛,那时LLM还没有获得很大的关注。获胜的机器人是一个人工智能系统,专门训练来解决类似ARC的任务。但是,与LLM不同的是,它没有通用功能;它只能正确处理21%的问题。相比之下,人们80%的时间都能正确解决ARC问题 7 .几个研究小组现在已经使用ARC来测试LLMs的能力;没有一个接近人类的表现。
Mitchell和她的同事们制作了一套新的谜题——被称为ConceptARC——它们的灵感来自ARC,但在两个关键方面有所不同 1 .ConceptARC的测试更容易:米切尔的团队希望确保基准不会错过机器能力的进步,即使是很小的进步。另一个不同之处是,该团队选择特定的概念进行测试,然后为每个概念创建一系列的谜题,这些谜题是一个主题的变体。
例如,为了测试同一性的概念,一个谜题要求解题者将形状相同的物体保持在同一个图案中;另一个谜题要求解题者将物体沿同一轴线排列。这样做的目的是减少人工智能系统在没有掌握概念的情况下通过测试的机会。(参见“打败机器的抽象思维测试”)。
业绩不佳意味着什么
研究人员将ConceptARC任务提供给GPT-4和400名网上报名的人。平均而言,人类在所有概念组上的得分为91%(其中一组为97%);GPT-4在其中一组上的得分为33%,其余所有概念组上的得分均低于30%。
米切尔说:“我们表明,机器仍然无法接近人类的水平。”“令人惊讶的是,它可以解决一些问题,因为它从来没有被训练过,”她补充说。
该团队还测试了Chollet竞赛中的主要机器人,它们不是像LLM那样的通用能力系统,而是为解决ARC这样的视觉难题而设计的。总的来说,他们的表现比GPT-4好,但比普通人差,其中一个类别的得分最高的 77 %,但在大多数 1 。
ChatGPT:五个研究重点
然而,鲍曼说,GPT-4与ConceptARC的斗争并不能证明它缺乏抽象推理的潜在能力。他说ConceptARC是对GPT-4的倾斜,因为它是一个视觉测试。“即使你假设这些模型非常擅长这种推理,我也不认为你真的期望这个实验能成功,”他说。
测试方式的局限性可能使GPT-4更难进行测试。LLM的公开版本只能接受文本作为输入,因此研究人员给GPT-4一组数字来代表图像。(例如,空白像素可能是0,彩色正方形可能是数字。)相比之下,人类参与者只是看到了图像。Mitchell说:“我们把一个只有语言的系统与人类进行比较,人类拥有高度发达的视觉系统。”“所以这可能不是一个完全公平的比较。”
OpenAI已经创建了一个GPT-4的“多模态”版本,可以接受图像作为输入。Mitchell和她的团队正在等待它的公开发布,这样他们就可以在上面测试ConceptARC,尽管她并不认为多模式GPT-4会做得更好。她说:“我不认为这些系统具有人类所具有的那种抽象概念和推理能力。”
剑桥麻省理工学院的计算认知科学家Sam Acquaviva对此表示赞同。“我会震惊的,”他说。他指出,另一个研究小组已经在一个名为1D-ARC的基准上测试了GPT-4,在这个基准上,图案被限制在一行中,而不是在网格中 8 .他说,这应该会消除一些不公平。Acquaviva说,尽管GPT-4的表现有所改善,但这并不足以表明LLM可靠地掌握了基本规则并进行了推理。
推理论证
鲍曼指出,其他实验综合起来,向他表明,LLM至少已经获得了对抽象概念进行推理的基本能力。在一个例子中,哈佛大学的计算机科学家Kenneth Li和他的同事们使用了一个数字版的棋盘游戏《奥赛罗》,在这个游戏中,两个玩家通过在一个8×8的网格上放置黑色和白色的圆盘来竞争。他们的目的是研究LLM是否依赖于记忆的语言表面统计数据来生成文本,或者它们是否像人类一样建立了对世界的内部表征。
当他们训练一个LLM,给它输入玩家的走法列表时,它变得非常善于为下一个合法的走法给出准确的建议。研究人员认为,他们有证据表明, LLM 一直在跟踪董事会的状态,并使用这种表示来提出动议,而不仅仅是提出文字建议 9 。
鲍曼承认,一般来说,LLM的推理能力是“不稳定的”,比人类的推理能力更有限——但他说,它们是存在的,而且似乎随着模型的大小而提高,这向他表明,未来的LLM会更好。“这些系统绝对不像我们想要的那样可靠或通用,而且可能有一些特别的抽象推理技能,它们仍然完全失败,”他说。“但我认为基本能力是有的。”
鲍曼、米切尔和其他人都同意的一件事是,测试LLM的抽象推理能力和其他智力迹象的最佳方法仍然是一个开放的、未解决的问题。加州帕洛阿尔托斯坦福大学的认知科学家迈克尔·弗兰克(Michael Frank)并不认为会出现一个单一的、包罗万象的测试来取代图灵测试。“没有卢比孔河行动,没有一条线,”他说。相反,他认为研究人员需要大量的测试来量化各种系统的优缺点。“这些代理人是伟大的,但他们打破了许多,许多方面和探索他们的系统是绝对至关重要的,”他说。
Wortham给任何试图理解人工智能系统的人提供了建议——避免他所说的拟人化的诅咒。他说:“我们将任何表现出智慧的事物人格化。”
“这是一个诅咒,因为除了使用人类模型,我们想不出以任何方式展示目标导向行为的东西,”他说。“我们在想象,它之所以这样做,是因为它和我们一样,在被窝里思考。”
大自然 619 ,686-689( 2023 年)
doi: https://doi.org/10.1038/d41586-023-02361-7
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”