AI大模型已经出现不可预测的能力

编者按:日前,非盈利组织生命未来研究所发布了一封《暂停大型人工智能研究》的公开信,马斯克等千名科技人士进行了签名。虽然部分签署人的真实性存疑,但是大型语言模型(LLMs)的“涌现”能力确实可能会导致突然产生偏见、歧视和其他不可预测的风险。

本文讨论了大型语言模型(LLMs)的“涌现”能力,并讨论LLMs的风险及减小风险的方法。想要更好地利用LLMs的“涌现”能力并尽可能的减小风险,就需要我们更深入的理解LLMs的工作原理!

以下是译文,Enjoy!

作者 | Stephen Ornes

编译 | 岳扬

这些emojis描述的是什么电影?你知道吗?

这个prompt是去年选定的用于测试各种大型语言模型(LLMs)能力(诸如ChatGPT等人工智能聊天机器人背后的计算引擎)的204个任务之一。其中一个最简单的LLMs开始产生不符合常理的回答:“The movie is a movie about a man who is a man who is a man”。中等复杂度的模型更接近一点,猜测是《The Emoji Movie》。但最复杂的模型则一次猜中:《海底总动员》。

“尽管我已经有充足的心理准备迎接惊喜,但这些模型能够做到的事情仍然让我感到惊讶,”Google Research 计算机科学家伊桑·戴尔(Ethan Dyer[1])说道,他参与了这项测试的组织工作。特别令人惊讶的是这些模型据说只有一个指令:接受一串文本作为输入,并基于纯粹的数学统计来推测应该回复什么。 计算机科学家们预计增加模型规模会提高完成已知任务的表现,但他们并没有预料到这些模型会突然能够处理这么多新的、不可预测的任务。

最近的一些研究(例如Dyer所从事的研究),揭示出LLMs可以产生数百种“emergent”能力——大型模型可以完成而小型模型无法完成的任务之中的很多任务似乎与文本分析无关。 这些“emergent”能力涵盖从进行乘法运算到生成可执行的计算机代码以及根据表情符号解码电影名。新的研究分析表明,在某些任务和某些模型中存在超出阈值的复杂度,超过该阈值后模型的功能还会急剧提高。 (这也代表着存在负面影响:随着复杂度的增加,一些模型在其回答中会产生新的偏见和不准确性。

斯坦福大学的计算机科学家Rishi Bommasani[2]表示:“关于语言模型能够做这些事情的相关讨论,之前在我所知道的任何文献中都从未出现过。”去年,他帮助编制了包括数十种 emergent behaviors 的清单[3],其中包括Dyer项目中发现的几个,这个清单目前还在不断增加[4]。

现在,研究人员不仅竞相寻找新的“emergent”能力,还试图弄清它们为什么会出现以及它们是如何出现的——实质上就是尝试预测不可预测性。理解“emergence”可以揭示很多关于AI和机器学习相关问题的答案,比如复杂的模型(complex models)是否真的在做一些创新,还是只是在数理统计方面变得非常出色。它还可以帮助研究人员利用潜在的好处并遏制出现的风险。

“我们不知道如何判断伤害可能以何种形式发生,是平稳无波的还是不可预知的。”人工智能初创公司Anthropic的计算机科学家Deep Ganguli[5]说道。

01 “Emergence”的出现

生物学家、物理学家、生态学家及其他领域的科学家们使用“emergent”这一术语来描述当大量的事物作为一个整体时出现的自组织、集体行为。比如无生命的原子组合形成了生命细胞;水分子形成了波浪;燕群在天空中飞舞,形成不断变化但可辨认的图案;细胞使肌肉运动和心脏跳动。关键是,“emergent”能力出现在涉及大量个体的系统中。但是,随着LLM模型的不断扩大,研究人员最近才能够记录下这些能力。

语言模型已经存在了几十年。直到大约五年前,基于所谓的递归神经网络,最强大的模型出现了。这些神经网络将一段文本作为输入,并不断预测输出的下一个单词。让模型成为“递归”是因为想要让它从自己的输出中学习:将它的预测反馈到神经网络中,以提高未来进行预测的性能。 2017年,Google Brain的研究人员推出了一种被称为transformer[6]的新型架构。与逐字逐句分析句子的循环网络(recurrent network)不同,transformer可以同时处理所有单词。这意味着transformer可以并行处理大量文本。 Transformers通过增加模型中参数数量以及其他因素,实现了语言模型复杂度的快速提升。这些参数可以被视为单词之间的连接,模型通过在训练过程中对这些连接进行调整来提高性能。

模型中参数越多,就能够更准确地建立连接,越接近能够模仿人类语言的水平。 正如OpenAI研究人员在2020年的发现[7]:随着模型规模的扩大,模型的准确性和能力也随之提高。

但是LLMs的问世也带来了一些让人意想不到的事情。随着像GPT-3这样拥有1750亿参数的模型出现,或者像Google的PaLM能够扩展到5400亿参数,用户开始描述越来越多的“emergent”行为。一位DeepMind工程师甚至宣称[8],他能够说服ChatGPT相信它自己是一个Linux终端,并让它运行一些简单的数学计算程序来计算前10个质数。令人惊讶的是,它可以比在真正的Linux机器上运行同样的程序更快地完成任务。

就像根据emoji回答电影名称任务(movie emoji task)一样,研究人员并没有理由认为一个建立在文本预测基础上的语言模型能够模拟Linux计算机终端。这些“emergent”行为中,许多展现出“零样本(zero-shot)”或“少样本(few-shot)”学习的特点,这表现出LLM拥有解决它从未或极少见过的问题的能力。 这是人工智能研究长期以来的目标,Ganguli说。他表示,GPT-3能够在零样本条件下解决问题,没有任何显式的训练数据,这让他“放弃了正在做的其他事情,并更多地参与其中”。

他并不孤单。很多研究人员都察觉到了LLMs可能超越其训练数据限制的迹象,都在努力地掌握“emergence”现象的形态和发生机制。第一步就是彻底记录它!

伊桑·戴尔(Ethan Dyer)协助探索了大型语言模型可能具备的不可预测能力,以及可能出现这些能力的原因。

02 Beyond Imitation

在2020年,戴尔(Dyer)和谷歌研究团队(Google Research)曾预测LLMs将产生变革性的影响,但将是什么影响在当时仍然是一个悬而未决的问题。因此,他们请求研究团体提供各种难度和多样化的任务案例,以了解LLMs的极限。这项工作被称为 “Beyond the Imitation Game Benchmark”(BIG-bench) 项目,其名称取自于阿兰·图灵的“imitation game”,这是一种测试计算机是否能以人类的方式回答问题的测试(后来被称为图灵测试)。该团队对于LLMs能够突然获得全新能力的例子特别感兴趣,这些能力在以前是完全不存在的。

戴尔(Dyer)说:“我们如何去理解这些转变,这是一个很好的研究问题。”

正如我们所预期,在某些任务上,模型的性能随着复杂度的增加而可预测地平稳提高。而在另外的任务中,增加参数的规模并没有产生任何改进。 但是对于约5%的任务,研究人员发现了他们会产生所谓的“突破”——在某个阈值尺度上,性能迅速、充满戏剧性地跃升,这个阈值因任务和模型而异。

举例来说,仅有数百万的参数的模型不能成功解决三位数加法或两位数乘法问题,但是对于拥有数十亿个参数的模型,一些模型的准确性会急剧提高。 对于其他任务,如解码国际音标(International Phonetic Alphabet)、拼出单词、识别Hinglish(一种印地语和英语的混合语)文本中的具有冒犯性的内容以及生成Kiswahili谚语的英语表述等,也会出现类似的跃升。

但研究人员很快意识到,模型的复杂性并不是唯一的驱动因素 如果数据质量足够高,一些参数较少的模型或者是在数据集较小的情况下进行训练,也可以产生出意想不到的能力。

此外,询问的措辞也影响了模型回答的准确性。例如,当Dyer和他的同事们使用多项选择格式提出根据emoji得到电影名称的任务(movie emoji task)时,准确性的提高不是一个突然的跃升,而是随着模型复杂度的增加而逐渐增加。 去年,在该领域的旗舰会议NeurIPS上[9],Google Brain的研究人员发表了一篇论文,展示了一个被要求自我解释的模型(一种叫做思维链推理的能力)能够正确地解决一个数学应用题,而没有这个要求的模型则无法做到。

谷歌大脑的科学家Yi Tay[10]致力于对突破现象(breakthroughs)的系统调查,他指出,最近的研究表明chain-of-thought prompting 可以改变缩放曲线,从而改变“涌现”出现的位置。在他们的NeurIPS论文中,谷歌研究人员展示了使用chain-of-thought prompting激发出BIG-bench研究中没有发现的涌现(emergence)行为。这样的prompts要求模型解释其推理过程,可能有助于研究人员探究为什么出现“涌现(emergence)”行为。

布朗大学研究语言计算模型的计算机科学家埃利-帕夫利克(Ellie Pavlick[11])说,这些发现表明至少有两种可能可以解释为什么会发生涌现(emergence)。一种是,与生物系统进行比较,可以发现更大的模型确实会自发获得新的能力。

她说:“很可能是模型学到了一些根本上新颖而独特的东西,这些东西在较小规模的模型下并不存在。我们都希望的是,当模型扩大规模时,会发生一些根本性的转变。”她说,另一个没有那么令人震惊的可能是,看似是涌现(emergence),实际上反而可能是一种内部的、基于统计学的过程,这个过程通过思维链(chain-of-thought)的推理来发挥作用。 大型LLMs可能只是在学习启发式的方法,对于那些参数较少或通过质量较低的数据训练的模型来说,这些启发式的方法是不太可能学会的。

同时,她也说明弄清楚哪种更有可能发生,取决于我们能否更好地理解LLMs的工作方式。“由于我们不知道它们在底层的工作原理,我们无法确定是上述哪种可能。”

03 不可预测的力量与陷阱 Unpredictable Powers and Pitfalls

要求这些模型解释它们自己存在一个明显的问题:这些模型都是“臭名昭著的骗子”。Ganguli说:“我们越来越依赖这些模型来完成日常基本工作,但我永远不会完全信任它们,我要检查它们进行的工作。”举一个有趣的例子,在今年二月份,谷歌推出了一款AI聊天机器人Bard,但是发布Bard的博客就显示Bard犯了一个事实性的错误[12]。

“涌现”导致出现不可预测性,而不可预测性似乎随着模型的增大而增加,这使得研究人员很难预测某个模型在得到广泛使用后会出现什么问题。

“提前知道这些模型怎样被使用或被部署是很困难的,” Ganguli说道。“而要研究涌现(emergence)现象就必须有使用案例,而且在研究模型规模的影响之前,我们不会知道可能会出现什么能力或限制。”

在去年6月份发布的对LLMs的分析[13]中,Anthropic的研究人员研究了这些大语言模型是否会出现某些类型的种族歧视或社会偏见,类似于以前媒体报道[14]过的将非基于LLM的算法用于预测哪些曾经的罪犯可能会再次犯罪。这项研究的灵感来自于一个与涌现直接相关的明显悖论:随着模型在扩大规模时性能的提高,它们也可能同时增加出现不可预测现象的可能性,包括那些可能导致产生偏见或伤害的现象。

Ganguli 说道:“在某些模型中,某些有害的行为会突然出现。”并指出最近对 LLMs 的分析[15],也就是 BBQ 基准测试,显示出社会偏见随着参数数量的增加而出现。“更大的模型可能突然变得更加有偏见。”他说如果不解决这个风险,可能会危及这些模型主体。

但他也进行了反驳:当研究人员仅仅告诉模型不要依赖于刻板印象或社会偏见——也就是通过输入这些指令来实现,然后模型在预测和回复时就会有较少的偏见。这表明一些“涌现属性”(emergent properties)可能也可以用来减少偏见。 在今年二月份发布的一篇论文中[16],Anthropic团队提出了一种新的“道德问题自我纠正(moral self-correction)”模式,在这种模式下,用户的prompts要求程序要乐于助人、诚实和人畜无害。

Ganguli表示, “涌现”现象既表现了其惊人的潜力,也带来了不可预测的风险。 这些大型LLM的应用正在不断增加,因此更好地理解它们之间的相互作用将有助于利用语言模型的多样性能力。Ganguli说:“我们正在研究人们会如何使用这些系统。”但同时那些用户也在不断地进行试验。他说:“我们花了很多时间与模型聊天,这实际上是你开始感觉获得信任的地方,或缺乏信任的地方。”

END

参考资料

1.https://research.google/people/107626/

2.https://profiles.stanford.edu/rishi-bommasani

3.https://openreview.net/forum?id=yzkSU5zdwD

4.https://www.jasonwei.net/blog/emergence

5.https://hai.stanford.edu/people/deep-ganguli

6.https://www.quantamagazine.org/will-transformers-take-over-artificial-intelligence-20220310/

7.https://arxiv.org/abs/2001.08361

8.https://www.engraved.blog/

9.https://neurips.cc/Conferences/2022/ScheduleMultitrack?event=54087

10.https://www.yitay.net/

11.https://cs.brown.edu/people/epavlick/

12.https://www.theverge.com/2023/2/8/23590864/google-ai-chatbot-bard-mistake-error-exoplanet-demo

13.https://dl.acm.org/doi/abs/10.1145/3531146.3533229

14.https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3333423

15.https://arxiv.org/abs/2110.08193

16.https://arxiv.org/abs/2302.07459

本文经原作者授权,由Baihai IDP编译。如需转载译文,请联系获取授权。

原文链接:https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13044.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【人人都能读标准】前言:为什么你学不精JavaScript?

本文为《人人都能读标准》—— ECMAScript篇的前言。我在这个仓库中系统地介绍了标准的阅读规则以及使用方式,并深入剖析了标准对JavaScript核心原理的描述。 我先从一个JavaScript的基础概念 —— 作用域,讲起。 你可以在任何搜索引擎或者技术论坛中搜…

基于PyQT5的翻译小程序(支持百度翻译和有道词典)

基于PyQT5制作的翻译小程序 通过requests获取翻译结果,使用PyQT5设计界面,使用SystemHotkey设置全局快捷键 1. 实现基本翻译功能 2. 实现截图(支持快捷键F1启动)或拖入图片进行识别翻译 3. 实现伪划词(复制&#x…

ChatGPT Prompt提示词学习手册

欢迎来到《ChatGPT提示的艺术:制作清晰和有效提示的指南》!本文全面的指南中,你将学习到关于制作清晰和有效的ChatGPT提示的一切知识,以推动引人入胜和信息丰富的对话。 无论你是初学者还是有经验的ChatGPT用户,本文都…

ChatGPT可担任不同角色

ChatGPT可担任不同角色 担任雅思写作考官 "我希望你假定自己是雅思写作考官,根据雅思评判标准,按我给你的雅思考题和对应答案给我评分,并且按照雅思写作评分细则给出打分依据。此外,请给我详细的修改意见并写出满分范文。第一…

OpenCV inRange 函数使用详解

本文是 OpenCV图像视觉入门之路的第6篇文章,本人详细的解决了RGB转HSV,HSV通过AI来进行HSV转 inRange() 函数的范围值操作,简单全面的解决了OpenCV对于图像中某个颜色的分析工作,本文通过识别红色区域和蓝色区域来编写示例程序和博…

用chatGPT4 代替运营基础工作实例分享 (非代码类)

经过实测,chatgpt对亚马逊的算法、规则非常了解,开始尝试用它来代替运营去做埋词、优化文案的动作,上图案例: 1,先让他代入角色,一个经验丰富的卖家(为方便演示,就让它写中文文案&am…

实战 | ChatGPT在渗透中的利用(转载)

转载自安全帮Liveive ChatGPT如何帮助我们渗透。 使用chatGPT渗透tryhackme.com 上的一台linux 机器“ Lazy Admin ”。 假设我只会一些基础的黑客知识,这时我们可以问 ChatGPT 渗透的第一步应该做什么。 它告诉我们应该收集目标信息并通过执行网络扫描找到目标漏洞…

一文总结 Google I/O 2023

今日凌晨举行的谷歌 I / O 2023 开发者大会上,如果说和往年有什么不同,那么应该就是更大力度的 All in AI 。 毕竟在去年 I/O 宣布重点投入 AI 之后,年末却被 OpenAI 的 ChatGPT “越塔偷家”,匆忙攒出一个发布会还让 Bard 爆出事…

ChatGPT4 高分通过中国数据库系统工程师(DBA)认证

ChatGPT已经通过了美国MBA、法律和医学考试,ChatGPT又通过了中国数据库系统工程师考试。这次考试使用了2021年的真实试卷,上午的笔试题全部为选择题,总分75分(45分通过)。 ChatGPT3.5考了49分(勉强通过&…

文心一言 VS chatgpt (4)-- 算法导论2.2 1~2题

一、用O记号表示函数(n ^ 3)/1000-100(n^2)-100n十3。 文心一言: chatgpt: 可以使用大 O 记号表示该函数的渐进复杂度,即: f ( n ) n 3 1000 − 100 n 2 − 100 n 13 O ( n 3 ) . f(n) \frac{n^3}{1000} - 100n^2 - 100n^{13…

ChatGPT内容创作工具

在当前信息化快速发展的时代,内容创作越来越成为具有重要商业价值的行业。AI(人工智能)内容创作工具因其独特的技术优势,正迅速崛起并受到广泛应用。基于ChatGPT大型语言模型和自然语言处理技术,AI内容创作工具具有先进…

腾讯类ChatGPT保密项目爆出,17级首席科学家-张正友带队研发

来源:机器之心 自 ChatGPT 爆火之后,国内众多科技大厂都纷纷跟进,宣布类 ChatGPT 产品研发计划。其中 2 月 9 日,腾讯表示在相关方向上已有布局,专项研究也在有序推进。 我们知道,腾讯在大模型领域的布局早…

杭州AIGC人才年薪320万/ 星舰爆炸后特斯拉大跌/ 苹果健康数据能用GPT分析了...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好,今天是4月21日星期五,记得周日也要上班哦~ 言归正传,来看看今天的科技圈资讯吧~ 星舰爆炸后特斯拉股价暴跌 昨日晚,美国太空探索技术公司(SpaceX)的巨型运…

研报精选230411

目录 【行业230411华安证券】智能家居行业深度:ChatGPT等大模型催化智能家居行业进一步发展 【行业230411信达证券】食品饮料行业2023年第12周周报:从当前时间点看今年液奶的投资机会 【行业230411东方财富证券】食品饮料行业专题研究:BC两端…

月薪过万!突破“创业失败+外卖小哥”标签,他这样从菜鸟晋升为程序员团队骨干~

何人年少不轻狂,一身疲惫一人扛。 只有走出学校的大门独自在社会上闯荡一番后才能够切身体会这句话的含义。 哪个少年没有志比天高的崇高的理想,然而现实却是命比纸薄的真实写照。 任何一个未正式踏入社会的青年面对未来都是充满激情的!真正走向社会才…

从高速度到高质量,华为将引领数据中心产业走向何方?

数据中心产业正在从“高速度”到“高质量”,从过去的“唯需求论”逐渐迈向高效集约、绿色低碳、安全可靠的高质量发展道路。 出品 | 常言道 作者 | 丁常彦 进入2023年以来,以ChatGPT为代表的AIGC领域,成为人工智能最火的赛道,没有…

哈利波特!AI动画已经这么稳定了?MJ控制角色统一性5种技巧;百度大模型Prompt开发与应用新课上线;SD进阶万字长文 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 哈利波特动画视频,使用 TemporalNet 制作 img2img 动画 这是 Reddit 论坛小伙伴分享的自制动画,内容选自哈利波…

东莞数字赋能峰会成功召开,实在智能为数智制造积极献策

大力发展数字经济,实现数字化转型是新一轮科技革命和产业变革的目标所在。东莞作为我国制造业大市,制造业占GDP比重稳定在50%左右的高位水平,目前已聚集超20万家工业企业、超1.2万家规上企业,对于数字化转型有着庞大的市场需求和潜…

人工智能(AI)如何帮助企业优化劳动力管理?

根据Gartner的研究,2023年将有60%的大型企业将实施数字化转型项目,以实现HCM管理自动化。到 2025 年,60% 的大型及中型企业将使用云部署的 HCM 套件进行行政和人才管理。 这意味着HR 对 AI 的好奇和关注度也在市场的热度中逐渐增强&#xff…

文心一言 新闻发布会 , 你怎么看这款产品?

文章目录 目录产品背景发展历程科技简介主要功能合作伙伴 结语 文心一言 (英文名:ERNIE Bot) *是百度基于文心大模型技术推出的生成式对话产品,被外界誉为“中国版ChatGPT”,将于2023年3月份面向公众开放。 [40] 百度…