【花雕学AI】ChatGPT能用表情包猜电影,你能猜出来吗?揭秘它的神奇「涌现」能力

关于作者斯蒂芬
我是田纳西州纳什维尔的一名科学作家,负责数学、物理学、天文学和癌症研究。我的书Math Art: Truth, Beauty, and Equations 将于 2019 年 4 月出版。我在后院改建的办公室棚子里工作。我是范德比尔特大学的驻校作家,教授科学传播课程。
我的作品出现在《科学美国人》、《发现》、《新科学家》、《物理世界》、 《学生科学新闻》 和其他媒体上。我获得了两项 AAAS/Kavli 科学新闻奖,并且我的工作得到了医疗保健记者协会和美国记者和作家协会颁发的奖项的认可。我关于历史上最长的数学证明的专题文章出现在 2016 年美国最佳科学与自然写作卷中。
我的非科学非小说类作品出现在New Haven Review中,我的小说出现在The Portland Review、Arcadia、Vestal Review、Bartleby Snopes、McSweeney’s Internet Tendency、Prime Number、The Adirondack Review和One Story中。
原文链接:https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/

【本文转载】在正式介绍这篇文章之前,我们先提个问题:下图的表情符号描述的是什么电影呢?
在这里插入图片描述

可能连你都猜不出来,这四个符号代表的电影是「海底总动员」,这一提示任务是去年评测大型语言模型(LLM)204 个任务中的其中一个任务。对于最简单的 LLM 模型,给出的回答多少有点胡编乱造,它认为这部电影讲述的是一个男人的故事;相对复杂一点的中型模型,给出的回答是「The Emoji Movie」,这时答案已经很接近了。不过最复杂的模型猜中了,给出「海底总动员」这一答案。

谷歌计算机科学家 Ethan Dyer 表示:「模型的这一行为令人感到惊讶。更令人惊讶的是,这些模型只使用指令:即接受一串文本作为输入,而后预测接下来会发生什么,并完全基于统计数据来不断重复这个过程。」一些学者开始预计,扩大模型规模会提高解决已知任务的性能,但他们未预料到这些模型能突然处理这么多新的、不可预测的任务。

Ethan Dyer 近期所做的一项调查表明,LLM 可以创造出数百种「涌现(emergent)」能力,即大型模型可以完成而小型模型无法完成某些任务的能力。显然,随着模型的扩展能力提升了,从简单的乘法到生成可执行的计算机代码,直到基于表情符号解码电影。新的分析表明,对于某些任务和某些模型,存在一个复杂性阈值,一旦超过该阈值,模型的功能就会如火箭腾空般急速提升。不过研究者还指出模型扩展带来的负面影响,即随着复杂性的增加,一些模型在他们的响应 (response) 中表现出了新的偏见和不准确性。

斯坦福大学计算机科学家 Rishi Bommasani 表示:「在我所知道的所有文献中,从未有讨论过语言模型可以做这些事情。」去年,他帮助编制了一份包含数十种模型涌现行为的清单,其中包括 Ethan Dyer 项目中确定的几种行为。如今,该清单仍然在继续变长。

如今,研究人员不仅竞相确定大模型涌现能力,而且还想弄清楚它们发生的原因和方式 —— 本质上是试图预测不可预测性。理解其涌现性可以揭示与人工智能和机器学习有关的深层问题的答案,比如复杂模型是否真的在做一些新的事情,或者只是变得非常擅长统计。此外,它还可以帮助研究人员利用潜在的好处并减少涌现的风险。

突然的涌现

生物学家、物理学家、生态学家和其他科学家使用涌现这一术语来描述当一大批事物作为一个整体行动时出现的自组织集体性行为。无生命原子的组合产生了活细胞;水分子创造了波浪;椋鸟群以不断变化但可识别的队形掠过天空的壮观自然景象;细胞使肌肉运动和心脏跳动。至关重要的是,涌现能力出现在涉及许多独立部分的系统中。但研究人员直到最近才能够在 LLM 中记录这种涌现能力,因为这些模型刚刚才发展到足够巨大的规模。

语言模型已经存在了几十年。直到大约五年前,最强大的模型还是基于循环神经网络。这些模型本质上取用一串文本并预测下一个单词是什么。使模型循环的原因在于它从自己的输出中学习:它的预测会反馈到网络中以提高未来的性能。

2017 年,谷歌大脑(Google Brain)的研究人员推出了一种被称为 Transformer 的新型架构。当循环网络逐字分析句子时,Transformer 会同时处理所有单词。这意味着 Transformer 可以并行处理大量文本。

「很可能是该模型从根本上学到了一些新的和不同的东西,而这些东西在较小规模的模型上是没有的。」布朗大学的 Ellie Pavlick 表示。

通过增加模型中的参数数量以及其他因素,Transformers 能够快速扩大语言模型的复杂性。这些参数可以被认为是单词之间的连接,通过在训练期间打乱文本,transformers 可以调整这些连接从而改进模型。模型中的参数越多,它就越能准确地建立连接,越接近于模仿人类语言。正如预期的那样,OpenAI 研究人员在 2020 年进行的一项分析发现,模型随着规模的扩大而提高了准确性和能力。

但大型语言模型的问世也带来了很多真正意想不到的东西。随着具有 1750 亿个参数的 GPT-3 或可扩展到 5400 亿个参数的谷歌 PaLM 等模型的出现,用户开始描述越来越多的涌现行为。一位 DeepMind 工程师甚至报告说能够说服 ChatGPT 承认它是一个 Linux 终端,并让它运行一些简单的数学代码来计算前 10 个素数。值得注意的是,比起在真正的 Linux 设备上运行相同的代码,它可以更快地完成任务。

与通过表情符号描述电影的任务一样,研究人员没有理由认为为预测文本而构建的语言模型会被说服用于模仿计算机终端。这些涌现行为中的许多都证明了零样本或小样本学习,它们描述了 LLM 拥有解决以前从未(或很少)遇到的问题的能力。Ganguli 说,这一直是人工智能研究的长期目标。这也表明 GPT-3 可以在零样本设定中无需任何明确训练数据的情况下解决问题,Ganguli 表示,「这让我放弃了我正在做的事情,更多地参与到这项研究中。」

在这个研究领域里,他并不孤单。大量研究人员已经发现了 LLM 可以超越其训练数据限制的第一个线索,他们正在努力更好地理解涌现是什么样子的以及它是如何发生的。而要做的第一步就是彻底全面地记录它。
在这里插入图片描述

Ethan Dyer 帮助探索了大型语言模型具有什么样意想不到的能力,以及它们会带来什么。-Gabrielle Lurie

超越模仿

2020 年,Dyer 和谷歌研究院的其他研究人员预测大型语言模型将产生变革性影响 —— 但这些影响是什么仍然是一个悬而未决的问题。因此,他们要求研究界提供有关困难且多样化任务的例子,以记录追踪 LLM 可以做什么的外部极限。这项工作被称为 BIG-bench(Beyond the Imitation Game Benchmark) 项目,借用了艾伦・图灵 (Alan Turing) 模仿游戏的名称,目的是测试计算机是否能够以让人信服的人类方式回答问题。(这后来被称为图灵测试。)该研究组对 LLM 突然获得前所未有新能力的例子特别感兴趣。

正如人们所预料的那样,在某些任务中,随着复杂性的增加,模型的性能会得到更为稳定且可预测性的提升。而在其他任务上,扩大参数数量并没有对模型性能产生任何改善。而对于大约 5% 的任务,研究人员发现了他们所谓的突破 —— 在某个阈值范围内,性能出现了快速、戏剧性的跃升。不过该阈值会因任务和模型而异。

例如,参数相对较少(仅有几百万)的模型可能无法成功完成三位数的加法或两位数的乘法问题,但若拥有数百亿参数,某些模型的运算准确性会飙升。类似的性能跃升也出现在其他的一些任务中,包括解码国际音标、解读单词的字母、识别印度英语(印地语和英语的组合)段落中的冒犯性内容,以及生成与斯瓦希里语谚语类似的英语对应语。

但是,研究人员很快就意识到,模型的复杂性并不是其性能涌现的唯一驱动因素。如果数据质量足够高,一些意想不到的能力可以从参数较少或是在较小数据集上训练的较小模型中诱导而出。此外,查询的措辞方式也会影响模型响应的准确性。例如,当 Dyer 和他的同事使用多项选择格式(multiple-choice format)来安排电影表情符号任务时,准确性并不是突然的跳跃式提高,而是随着模型复杂性的增加而逐渐提高。去年,在该领域的顶级学术会议 NeurIPS 上发表的一篇论文中,谷歌大脑(Google Brain)的研究人员展示了一个具备 prompt 的模型可以自我解释(一种被称为思维链推理的能力)如何正确解答数学应用题,而没有该 prompt 的同一模型却不能解答该应用题。

在研究清楚模型规模的影响之前,你不会知道它可能会出现什么能力以及它的缺陷是什么。

谷歌大脑系统性研究科学家 Yi Tay 指出,最近的研究表明思维链 prompt 改变了扩展曲线,从而改变了模型涌现出现的节点。谷歌研究人员在他们的 NeurIPS 论文中表明,使用思维链 prompts 可以引发 BIG-bench 研究中未识别到的涌现行为。此类要求模型解释其推理的 prompt 可能有助于研究人员开始调研涌现发生的原因。

布朗大学研究语言计算模型的计算机科学家 Ellie Pavlick 说,最近的这些发现至少表明了涌现出现原因的两种可能性。第一个可能性是,正如与生物系统的比较所表明的那样,更大的模型确实会自发地获得新的能力。很可能是该模型学到了一些全新的和不同的东西,而这些东西在较小规模的模型上是没有的,这就是我们都希望的情况,即当模型按比例放大时会发生一些根本性的变化。

Ellie Pavlick 还指出,另一种相对正常客观的可能性是,看似涌现的事情可能反而是通过思维链式推理起作用的内部统计驱动过程的顶点。大型 LLM 可能只是在学习启发式方法,而这些启发式方法对于那些参数较少或数据质量较低的小模型来说却是难以理解的。

不过 Pavlick 认为,由于我们不知道模型底层的工作机制是怎样的,所以我们无法说出发生了哪些事情。

不可预测的能力和缺陷

但是大模型也存在缺陷,比如谷歌前段时间推出的人工智能聊天机器人 Bard,在回答与詹姆斯・韦布空间望远镜有关的问题时犯下事实性错误。

涌现导致了不可预测性,而不可预测性 —— 似乎随着模型的规模扩大而增加,研究人员难以掌控。

「我们很难提前知道这些模型将如何被使用或部署,」Ganguli 说。「要研究涌现现象,你必须考虑一个情况,在研究清楚模型规模的影响之前,你不会知道它可能会出现什么能力以及它的缺陷是什么。」

在这里插入图片描述

在去年 6 月发布的一篇 LLM 分析报告中,Anthropic 的研究人员研究了这些模型是否会表现出某些类型的种族或社会偏见,这与之前不是基于 LLM 的算法(用于预测哪些前罪犯可能会再次犯罪)所报告的那些不同。该研究的灵感来自一个与涌现直接相关的明显悖论:随着模型在扩大规模时性能提升,它们也可能增加不可预测现象的可能性,包括那些可能导致偏见或带来害处的现象。

「某些有害行为会在某些模型中突然出现,」Ganguli 说。他指出最近一个对 LLM 的分析 —— 也被称为 BBQ 基准 —— 表明社会偏见随着大量参数的出现而出现。「 更大的模型突然变得更有偏见,」 他说,如果不能解决这一风险,可能会危及这些模型的使用。

但他还提出了一个相反的观点:当研究人员简单地告诉模型不要依赖刻板印象或社会偏见时 —— 字面上来说,就是通过输入这些指令时,模型在其预测和响应时的偏见较小。这表明一些涌现的特性也可用于减少偏见。在 2 月份发布的一篇论文中,Anthropic 团队报告了一种新的道德自我修正模式,在这种模式下,用户提示程序是有帮助的、诚实的和无害的。

Ganguli 说,涌现既揭示了大型语言模型惊人的潜力,也揭示了其不可预测的风险。这些 LLM 的应用已经激增,因而更好理解这种双面性将有助于利用语言模型能力的多样性。

Ganguli 说:「我们正在研究用户实际上是如何使用这些系统的,不过他们也在不断地修补改进这些系统。我们花了很多的时间,只是为了与我们的模型聊天,使其功能更好。而实际上也就是从那时起,我们开始信任这些模型。」

在这里插入图片描述

附录:
【花雕学AI】是一个学习专栏,由驴友花雕撰写,主要介绍了人工智能领域的多维度学习和广泛尝试,包含多篇文章,分别介绍了ChatGPT、New Bing和Leonardo AI等人工智能应用和技术的过程和成果。本专栏通过实际案例和故事,分享了花雕在人工智能领域的探索和体验,旨在激发更多人对人工智能的兴趣和热情。了解更多,请使用谷歌、必应、百度或者今日头条等引擎直接搜索【花雕学AI】。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37938.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python数据分析中如何快速取到一列数据

Python 数据分析中如何快速取到一列数据 在 Python 数据分析中,我们经常需要取到表格中的某一列数据进行分析或可视化。下面介绍了几种方法,可帮助您快速有效地取得所需要的数据。 1. 使用 Pandas 包获取数据 Pandas 是 Python 中非常常用的数据分析库…

【花雕学AI】09:发挥ChatGPT最大潜力——产生高质量内容的九种方法和建议

人工智能(AI)是当今科技领域最热门和最有前景的话题之一,它已经渗透到了我们生活和工作的方方面面,给我们带来了许多便利和惊喜。而在AI的众多分支中,自然语言处理(NLP)是最贴近人类的一个领域&…

AI教父Hinton与OpenAI CEO Sam Altman领头预警:AI可能灭绝人类!

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 经过不到一年的时间,AI 的发展超乎所有人的想象,也大有失控的风险。 就在今天,全球部分顶尖的 AI 研究员、工程师和 CEO 就他们认为 AI 对人类构成的生存威胁发出了新…

多位知名学者最新警告「AI 可能灭绝人类」,ChatGPT 之父和 AI 教父都参与联名,如何理解?

警告“AI可能灭绝人类”是指一些知名学者和专家对于未来人工智能发展的担忧,他们认为如果AI发展得不受控制,可能会导致人类的灭绝。其中,ChatGPT之父和AI教父分别指的是OpenAI的创始人和AI领域的一些权威人物。 这种担忧主要源于以下几个方…

什么是ChatGPT?GPT4和3.5有什么不同

相信今天大家都被GPT刷屏了,我可以使用GPT帮我写文章框架,诗歌,作文等等。 那么,GPT究竟是什么呢? ChatGPT全称为“chat Generative Pre-trained Transformer”,翻译成中文就是生成型预训练变换模型&#…

不直播不露脸也能做短视频变现,想挣点生活费试试这些玩法

大家好,我是我赢助手短视频运营,最近一直有小伙伴问我,做了好久的短视频一直不赚钱,今天总结了一下,做了90天短视频还没赚了试试这5种易变现的玩法。 新手不直播不露脸也能做短视频变现,想在斗音挣点生活费…

实不相瞒,我做海外TikTok搬运视频一年的收入,可能是你10年的工资

被疫情偷走的这几年,听到的关键词几乎都是“难”,“很难”,“非常难”。 裁员成常态,收入大缩水,但花钱的地方却越来越多。 天天熬,夜夜熬。 最终换来的,是口袋空荡荡,日子紧巴巴。 …

短视频获客达人软件详情,精准截流app

互联网99%的项目离不开流量,流量所在之处,必有金钱相随。对于创业者来讲,更要注重精准引流的积累,或许引流没泛流量简单粗暴,但是賺钱更简单,选择互联网创业不是急功近利的儿戏,创业项目就应该有…

用Java代码实现双色球彩票

模拟整个双色球彩票的购买、开奖和中奖流程 一、双色球玩法规则: 1、投注: (1)双色球投注区分为红色球号码区和蓝色球号码区,(2)红色球号码区由1-33共三十三个号码组成,蓝色球号码…

c#文案语音配图片一键生成视频

高手略过吧,功能太简单,我自己都不好意思。。 这个是我自己的需要,做产品类的短视频,东搞西搞剪辑啊啥的,特别麻烦,所以先搞这个最简版,以后再一步步丰富功能。 需求:几张图片生成…

周鸿祎的AI野望

图片|Photo by BoliviaInteligente on Unsplash ©自象限原创 作者|罗辑 编辑|黑豆 排版|李帛锦 可能是大模型,把周鸿祎激活了。 6月27日,周鸿祎,突然晒出了清华大学的博士录取通知书…

张朝阳王石夏伯渝《雪山上的对话》:攀越生死极限,征服永不停步

雷递网 乐天 4月15日 搜狐创始人、董事局主席兼首席执行官张朝阳,与深石集团创始人王石、中国首位用义肢登顶珠峰的登山家夏伯渝相约丽江玉龙雪山,开始了一场来自“雪山上的对话”。 雪山不仅是旅游景点,更是自然生态系统的重要组成部分&…

国产激光雷达第一股诞生/ 周鸿祎称企业不做ChatGPT将被淘汰/雷军要让小米汽车进世界前五…今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 好消息:今天星期五。 “坏”消息:听说下周开学,各家小朋友寒假作业写完了嘛? (像我这样)不用赶作业的友友,来一起看看今日份科技要闻放松放松吧~ 雷军…

Meta与微软联手推出开源大型语言模型Llama 2;程序员如何优雅地做副业

🦉 AI新闻 🚀 Meta与微软联手推出开源大型语言模型Llama 2 摘要:Meta和微软近期合作发布了名为Llama 2的开源大型语言模型。该模型旨在帮助开发者和组织构建生成式人工智能工具和体验。Azure客户可以更轻松、安全地在Azure平台上微调和部署…

Python兼职私活接单方法大曝光,这4种方法你知道吗?教你月入三万!

挣钱方法1:接外包爬虫项目 这是网络爬虫最通常的的挣钱方式,通过外包网站,熟人关系接一个个中小规模的爬虫项目,一般向甲方提供数据抓取,数据结构化,数据清洗等服务。 各位新入行的猿人看官大多都会先尝试这个方向&a…

福利,剪映PC版来了~ 支持windos系统和苹果系统

做自媒体的小伙伴应该都知道剪映app,像抖音许多视频剪辑教学都是说,一部手机就能完成剪辑,基本上手机剪辑都是剪映,剪映是抖音家的产品,非常强大的一款视频处理app,即便你之前没有剪辑基础,也能…

办公效率提升,八款功能强大的效率工具不容错过

IconFont http://www.iconfont.cn/ ​IconFont 是阿里推出的免费矢量图标网站。 它上面已经累计72 万个图标。如果你是设计师,你可以把自己制作的图标分享在上面,如果你是用户,它提供了不同的颜色,不同的文件格式的图片可以下载&…

除了ChatGPT,还能用什么计划管理软件提高效率?

最近一段时间,人工智能工具ChatGPT成为互联网科技圈的热门话题。正如当年的阿尔法狗给世界带来的震动一样,人们讨论的最多的就是:ai智能会不会取代人工,因为ai的效率太高了,但再智能,也有ai永远也取代不了的…

提升办公效率——工具篇

前言: 人类和动物的本质区别之一是:人类可以创造工具,而正是有了这些工具使得人类站到了食物链的最顶端。而我们作为职场人,掌握一些高效的办公软件是有必要的,今天给大家介绍一些通用的办公软件,有了以下…

chatGpt AI智能文本创作软件开发

近年来,人工智能技术取得了巨大的突破,其中自然语言处理领域的发展尤为迅猛。chatGpt AI智能文本创作软件是一种基于Gpt模型的自然语言生成系统,能够模拟人类对话,具备一定的创作能力。 一、chatGpt AI智能文本创作软件的工作原理…