ChatGPT 为啥那么牛?语言模型足够大就会涌现出新能力

a4265d407bb9d15f45779ac68c213aeb.jpeg

导语

NLP 中的语言模型,动辄涉及百亿参数,为何需要这么大的模型呢?近日,Google 研究者发表了题为“大型语言模型的涌现能力”(Emergent Abilities of Large Language Models)的论文,考察了以 GPT-3 为代表的语言模型,发现语言模型的表现并非随着模型规模增加而线性增长,而是存在临界点,只有当模型大到超过特定的临界值,才会涌现出较小的模型不具备的能力。语言模型的这种涌现能力意味着,大型语言模型可能进一步扩展语言模型的功能。

NLP,语言模型,涌现

源:集智俱乐部 

作者:郭瑞东 

审校:梁金

编辑:邓一雪

2b9eb711b893f7457c93bc49a987d6ff.jpeg

论文标题:

Emergent Abilities of Large Language Models

论文链接:

https://openreview.net/forum?id=yzkSU5zdwD

1. 语言模型的涌现能力

在过去二十年里,人工智能领域的大部分研究都集中在训练神经网络来完成一个特定的任务,例如,分类一张图片是否包含一只猫,总结一篇新闻文章,中英文翻译等。然而近年来 NLP 的进展,得益于语言模型,它根据句子中先前出现的单词,简单地预测句子中下一个单词。

经过海量数据训练后,语言模型可以被“提示”执行任意的任务。例如,将一个英语短语翻译成斯瓦希里语的任务,可以被重新定义为下一个单词的预测: ‘人工智能’的法语翻译是......?语言模型代表了一种范式转变,从训练基于特定任务的模型,到训练可执行多任务的模型。例如,GPT-3 表明,语言模型可以成功地进行两位数乘法,即使它们没有被明确地训练这样做。

然而,这种执行新任务的能力只发生在具有一定数量的参数、并在足够大的数据集上进行训练的模型中。这样的涌现现象在复杂系统中普遍出现。例如当生态系统的复杂性降低到阈值之下时,系统的稳定性会显著降低。最早指出该现象的,是菲利普·安德森的经典论文“多者异也”。涌现指的是一个研究对象表现出组成它的部分要素本身所不具备的特性。例如,这些行为或能力只有通过各个部分的相互作用才能显现出来。

该研究中,作者对语言模型的涌现能力给出了如下定义:“如果一种能力不存在于较小的模型中,而存在于较大的模型中,那么这种能力就是涌现出来的。”可以通过不同的方式对模型大小进行测量,包括训练时计算量(FLOPs)、参数数量或训练数据大小。图1显示了涌现能力的三个例子:运算能力、参加大学水平的考试(多任务 NLU),以及识别一个词的语境含义的能力。在每种情况下,语言模型最初表现很差,并且与模型大小基本无关,但当模型规模达到一个阈值时,语言模型的表现能力突然提高。

652eba63bba185588c6be52787b2b1e4.jpeg

图1. 在多步计算、多任务语言理解和语境中的词汇含义三任务上,语言模型的准确度只有当模型规模(训练时的FLOPs)超过一个阈值时才突然提高。

另一类涌现能力包括提示策略(prompting strategy)以增强语言模型的能力。这些策略之所以出现,是因为较小的模型无法成功地使用这些策略,只有足够大的语言模型才可以。例如“思维链提示”(chain-of-thought prompting),其中模型被提示在给出最终答案之前生成一系列中间步骤。

图2A总结了思维链提示ーー它显著提高了大型语言模型的推理能力,使它们能够解决需要抽象推理的多步骤问题。如图2B所示,在一个小学数学问题的基准上,思维链提示比直接返回最终答案要差,直到模型大小达到一个临界值(1022 FLOPs),之后模型的表现会好得多。

a8919427bfc4cdfe93ca59a2e87c5295.jpeg

图2. (A) 思维链提示的案例,(B) 模型大小和思维链提示带来的准确性折线图。

研究者发现,语言模型的涌现能力是一个普遍现象而非特例,文中总结了GPT-3模型具有的137项涌现能力,对于更传统的NLP基准模型,例如 BIG-Bench,其具有的涌现能力也包括67项。图3展示了不同模型在多种任务上,准确性和模型大小都呈现相变(phase transition)。

5d09fe174d05578f132c67492f3a9d65.jpeg

图3. 模型大小和各项任务准确性之间的折线图

而另一项相关研究,关注GPT-3在类比推断上的涌现能力,发现在抽象模式归纳、匹配等需要类比思维的问题上,足够大的语言模型即使没有直接训练,也可以展现出超越人类的准确性。

论文地址:

Emergent Analogical Reasoning in Large Language Models

论文地址:

https://arxiv.org/abs/2212.09196

47e7ff7df126c25102b2f846a38fa081.jpeg

图4. 逻辑推断问题示例

acb3707c49816e7acd9d8c621de265c5.jpeg

图5. 在生成及多选这两类问题上,需要运用的规则越多,GPT-3 的表现就越优于人类

语言模型之所以必须足够大,才能进行类比推理,可以用解决问题需要的规则必须存储在足够多的参数中加以解释。例如需要同时使用三条规则进行类比的问题,就需要模型的参数能同时存储三条规则。然而语言模型的类比能力完全来自于预测人类文本,语言充满了类比,因此准确地预测自然语言可能需要一种能力。但是我们没有理由假设同样的系统,如果没有人类产生的输入,会自发形成类比式的思维能力。在某种程度上,大型语言模型捕获了成年人类的类比能力,它们的类比能力从根本上来说寄生在人类的自然智力上。

语言模型的涌现能力,也并非全然是好事,语言模型带来的社会问题,例如歧视女性、不文明用语等,也具有涌现的特性。即当模型较小时不会出现,只有模型足够大时才会呈现。

2. 大型语言模型的未来和限制

可以肯定的是,在可预见的未来,大型语言模型仍将是机器学习研究的主流。语言模型在零次学习(zero shot learning)上的涌现能力,已让它们得以进入实际应用领域(例如chatGPT),并在自然语言处理研究领域之外有许多新的应用。例如,语言模型通过提示将自然语言指令转换为机器人可执行操作的命令,或促进多模态推理(根据文字作画)。为此,我们需要继续研究它们的涌现能力和局限性,建立对涌现能力的一般性理解(目前缺少令人信服的解释),并探索未实现的潜力及最终极限。

涌现能力具有重要的科学意义,如果涌现能力是没有尽头的,那么只要模型足够大,强 AI 的出现就是必然的。对现有语言模型涌现特征的研究发现,语言模型的表现和模型大小之间的关系是不可线性外推的,有理由相信,随着模型大小的增加,模型将会变得更加鲁棒。

不同类型的任务中,具有涌现特征的比例相差巨大(图6),也不存在明确的趋势表明哪些类型的任务是最具涌现特征的。然而语言模型在逻辑推理和因果推断中,具有涌现特征的比例最低,可能反映了语言模型并没有真正把握因果关系。

69ef2e797e7673875b33c05fb25d2d58.jpeg

图6. 在BIG Bench模型中,在各类任务中,具有涌现特征(蓝色)、性能随模型大小线性增长(浅黄色)、以及所有模型都无法超过随机水平(橙红色)的任务个数。在类比推理、词义消歧、真实性、社会推理和情感理解这些任务中,具有涌现特征的任务比例最高;算术和数学相对较低;在逻辑推理、因果推理和视觉相关的任务中,具有涌现特征的任务比例最低。

在论文中,研究人员讨论了语言模型的涌现能力面临的限制,包括硬件和数据瓶颈。有些能力甚至可能不会随着模型规模变大而出现,例如在远离训练数据集分布的任务上。此外,一旦某种能力出现,涌现特征并不能保证它会随着规模的扩大而继续提高。

随着机器学习社区朝着创建更大的语言模型的方向发展,人们越来越担心大语言模型的研究和开发将集中在少数几个拥有财政和计算资源来训练和运行这些模型的组织中。通过对特定任务数据集的小型模型进行微调,可以使用小模型替代大语言模型。该研究的作者指出:一旦一种能力被发现,进一步的研究可能会使这种能力适用于小尺度模型。随着我们继续训练越来越大的语言模型,降低涌现能力发生相变的门槛,对于让社区更广泛地获得这种能力的研究将变得更加重要。

未来关于涌现能力的研究方向包括训练更有能力的语言模型(例如改进模型结构和训练程序,可以促进具有涌现能力的高质量模型,同时减少计算成本;使用数据增强,在更小的模型上重现涌现能力),以及通过理解涌现能力的来源,开发可用于更好地支持语言模型执行任务的提示策略。研究者还可以使用交叉熵、困惑度(preplexity)等新的测量方式,研究语言模型及多模态模型的涌现能力。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

fafadfa4709233104eaef1905e0376be.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/10848.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python代码怎么复制粘贴?

Python代码怎么复制粘贴? 对于有10年Python编程经验的工程师来说,复制粘贴代码是日常编程中不可或缺的操作。但你知道吗,正确地复制粘贴代码可以极大地提高编程效率,同时还能帮助你避免出现一些常见的错误。在本文中,…

Clipboard 通过按钮一键复制图片和文本

Clipboard 通过按钮一键复制图片和文本 找了很多资料,发现通过 Clipboard 插件复制图片时,只支持 png 图片。下面给出解决办法,可以复制jpg、jpeg等类型的图片。 步骤 后端传过来的是jpeg图片的url, (其中 url 需要是完整的格式…

chatgpt赋能python:Python编程技巧之复制粘贴技巧

Python编程技巧之复制粘贴技巧 Python作为一种富有表达力的编程语言,已经成为越来越多人的选择。但在编写代码时,有时候我们需要将别人的代码复制粘贴到自己的代码中。如何正确地复制粘贴代码?下面让我们来探讨一下。 复制和粘贴 在复制和…

chatgpt赋能python:Python中如何复制粘贴

Python中如何复制粘贴 Python作为一门高效且易于学习的编程语言,越来越受到开发者的欢迎。在编写Python程序的过程中,复制粘贴是非常常见的操作。但是,如果你不小心复制了不正确的代码,或者在粘贴时格式出错,就会浪费…

ChatGPT 在做什么… 以及它为何发挥作用?

作者:Stephen Wolfram,发表于 2023年2月14日原文链接:https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/翻译:DeepL,校对:李笑来文章字数:约 3.4 万字…

惊魂一夜--有福新闻UfqiNews升级到PHP8

有福新闻UfqiNews的老版本依然运行在 GWA2 PHP ( https://ufqi.com/dev/gwa2/ )上,去年底PHP编程语言本身升级到了PHP8, 获得好评,我们即打算择日升级GWA2 PHP到PHP8版本。 考虑到之前关于升级的经验教训,任何开源软件,能够在生产…

nexus7 android 6.0推送,Nexus用户有福了 Android 7.0即将推送

科客点评:终于来了!准备开始吃牛轧糖! 今年5月,谷歌正式发布最新的Android N系统。7月1日,谷歌都会在位于加州山景城的总部竖起一座新的雕像,将Android N正式定名为Android Nougat(牛轧糖)。现在&#xff0…

细节控有福了!显微镜级别的检测手法

最近科技圈最受关注的事大概就是RTX 4090显卡的发布了,该显卡的性能呈炸裂式增长,同时价格也奇高。 据悉4090显卡无论是在游戏、设计还是摄影上,都能够带来非常舒适畅快的体验。这感觉就对了,就是那种得不到的永远在骚动的感觉。…

oppo系统更新服务器,系统升级,这些OPPO用户有福了!

原标题:系统升级,这些OPPO用户有福了! OPPO 最近消息不断,上个月刚发布了一款旗舰新机,这个月又将推出Ace2,并且正式发布的时间已经确定了,就是这个月13号的晚上7点。而今日,官方也给…

GitHub 标星 2.9w+,我发现了一个宝藏项目,作为编程新手有福了!

大家好,我是 Rocky0429,一个最近老在 GitHub 上闲逛的蒟蒻… 特别惭愧的是,虽然我很早就知道 GitHub,但是学会逛 GitHub 的时间特别晚。当时一方面是因为菜,看着这种全是英文的东西难受,不知道该怎么去玩,另一方面是一直在搞 ACM,没有做一些工程类的项目,所以想当然的…

谷歌强势出手,人工智能学习者有福了,从此数据资产跨入搜索时代!

1995年,正是互联网方兴未艾之时,雅虎横空出世,雅虎以提供互联网各种信息目录起家,迅速崛起成为世界互联网巨头,整个互联网行业也迎来了门户网站时代。彼时的第一批互联网居民,要想在互联网上获取信息&#…

虚拟机连不上群晖服务器,没NAS也能体验群晖:VMware虚拟机安装DSM详细安装步骤...

2015-10-14 11:48:23 十一国庆遇到台风“杜鹃”,下了几天雨,蛮凉爽的。放晴后虽说去外面玩了几天,但最多时间还是呆在家里。最近对DSM比较感兴趣,网上看了几篇文章,如何安装及设置,对此有点初步的了解。手上没有NAS,但是想体验DSM的朋友有福了,抽空写了这篇文章,希望对…

鸿蒙碧 不忘前,不忘初心,荣耀手机包括老机型也将可升级华为研发的鸿蒙OS

原标题:不忘初心,荣耀手机包括老机型也将可升级华为研发的鸿蒙OS 根据之前曝光的消息,从4月份开始,华为将全面开启旗下自主研发系统HarmonyOS的升级适配,而且消息显示,华为大部分机型都将可以升级HarmonyOS…

Linux 游戏玩家有福了

ProtonDB 对 Steam 上前 10、前 100 和前 1000 款游戏的兼容性进行了评级,根据评级,前 1000 款游戏中有 77% 在 Linux 上运行良好,在前 100 款游戏中有 80% 在 Linux 上运行良好,而在前 10 名游戏中只有 4 个在 Linux 上运行良好。…

荣耀v20不支持鸿蒙,华为鸿蒙系统下月推送,这44款手机有福了!荣耀V20无缘升级...

原标题:华为鸿蒙系统下月推送,这44款手机有福了!荣耀V20无缘升级 从去年到今年,大家对于华为自主研发的“鸿蒙”系统非常期待,而余承东也在Mate40系列发布会上就明确表态,鸿蒙系统将在2021年第二季度推送。…

杜有福 c语言 第三版,C语言程序设计习题答案 杜有福.doc

C语言程序设计习题答案 杜有福.doc C语言程序设计习题答案习题一 C语言程序设计概述一、名词解释(1)程序P1 (2)程序设计P1 (3)机器语言P1 (4)汇编程序P2(5)高级语言P2 (6)编译程序P3 (7)解释程序P3 (8)算法P4(9)结构化的程序设计P9二、简述题1. 设计程序时应遵循哪些基本原则P4…

c语言编程设计杜有福,C语言程序设计习题答案 杜有福

C语言程序设计习题答案 习题一 C语言程序设计概述 一、名词解释 (1)程序P1 (2)程序设计P1 (3)机器语言P1 (4)汇编程序P2 (5)高级语言P2 (6)编译程序P3 (7)解释程序P3 (8)算法P4 (9)结构化的程序设计P9 二、简述题 1. 设计程序时应遵循哪些基本原则?P4 答&#xff1a…

【与ChatGPT相处两个星期让我刮目相看】

最近OpenAI的ChatGPT热度不减,作为一名IT老兵,怎么能够错过如此重量级的产品,就冲着微软的100亿美金,我也不得不给足面子,通过一系列爬山涉水、翻山越岭的准备工作,终于是能够一睹ChatGPT的庐山真容&#x…

斯坦福谷歌新研究爆火,用ChatGPT控制NPC,在虚拟世界构筑人类社会

放任25个AI共同生活,他们竟然在虚拟世界里构建人类社会! 前沿 时至今日,ChatGPT已经火遍全球,我们都见识到了AI的强大。但“生活”这个看似充满人情味的词,不负众望的和AI有了联系。 来自斯坦福和谷歌的一组研究人员…

R(2+1)D理解与MindSpore框架下的实现

一、R(21)D算法原理介绍 论文地址:[1711.11248] A Closer Look at Spatiotemporal Convolutions for Action Recognition (arxiv.org) Tran等人在2018年发表在CVPR 的文章《A Closer Look at Spatiotemporal Convolutions for Action Recognition》提出了R(21)D&a…