GPT-4太强,OpenAI也不懂!智能到底是怎么突然「涌现」的?

来源丨新智元

编辑丨LRS

点击进入—>3D视觉工坊学习交流群

2023年至今,ChatGPT和GPT-4始终霸占在热搜榜上,一方面外行人都在惊叹于AI怎么突然如此强大,会不会革了「打工人」的命;另一方面,其实内行人也不明白,为什么模型规模在突破某一界限后,突然就「涌现」出了惊人的智能。

3b1f9bf13a4c778c725f333bdb1ed438.png

出现智能是好事,但模型不可控、不可预测、不可解释的行为,却让整个学术界陷入了迷茫与深思。

突然变强的超大模型

先出一道简单的题目,下面这几个emoj代表了什么电影?

dabb526cb80623886749c7d60e7910bd.png

最简单的语言模型往往只能续写出「The movie is a movie about a man who is a man who is a man」;中等复杂度模型的答案则更接近,给出的答案是「The Emoji Movie」;但最复杂的语言模型只会给出一个答案:海底总动员「Finding Nemo」

实际上这个prompt也是为测试各种大型语言模型能力而设计的204项任务之一。

Google Research的计算机科学家Ethan Dyer参与组织了这次测试,他表示,虽然构建BIG-Bench数据集的时候我已经准备好了迎接惊喜,但当真的见证这些模型能做到的时候,还是感到非常惊讶。

ab947e42397d73f78fae3a47a6e16e8e.png

惊讶之处在于,这些模型只需要一个提示符:即接受一串文本作为输入,并且纯粹基于统计数据一遍又一遍地预测接下来是什么内容。

计算机科学家曾预计,扩大规模可以提高已知任务的性能,但他们没有预料到模型会突然能够处理这么多新的、不可预测的任务。

Dyer最近参与的一项调研结果显示,LLM 可以产生数百种「涌现」(emergent)能力,即大型模型可以完成的任务,小型模型无法完成,其中许多任务似乎与分析文本无关,比如从乘法计算到生成可执行的计算机代码,还包括基于Emoji符号的电影解码等。

2ac63e63d433a310ac0bd0a4a29b0422.png

新的分析表明,对于某些任务和某些模型,存在一个复杂性阈值,超过这个阈值,模型的功能就会突飞猛进。

研究人员也提出了涌现能力的另一个负面影响:随着复杂性的增加,一些模型在回答中显示出新的偏见(biases)和不准确性。

斯坦福大学的计算机科学家 Rishi Bommasani 表示,我所知道的任何文献中都没有讨论过语言模型可以做这些事情。

去年,Bommasani 参与编制了一份包含几十种涌现行为的清单,其中包括在Dyer的项目中发现的几种行为,并且这个名单还在继续变长。

f623a38cd34c6459b4ba6b13068f9502.png

论文链接:https://openreview.net/pdf?id=yzkSU5zdwD

目前研究人员不仅在竞相发现更多的涌现能力,而且还在努力找出它们发生的原因和方式,本质上是试图对不可预测性进行预测。

理解涌现可以揭示围绕人工智能和一般机器学习的深层次问题的答案,比如复杂模型是否真的在做一些新的事情,或者只是在统计方面变得非常擅长,它还可以帮助研究人员利用潜在的优势和减少涌现风险。

人工智能初创公司 Anthroic 的计算机科学家Deep Ganguli表示,我们不知道如何判断哪种应用程序的危害能力将会出现,无论是正常出现的还是不可预测的。

涌现的涌现(The Emergence of Emergence)

生物学家、物理学家、生态学家和其他科学家使用「涌现」一词来描述当一大群事物作为一个整体时出现的自组织、集体行为。

比如无生命的原子组合产生活细胞; 水分子产生波浪; 椋鸟的低语以变化但可识别的模式在天空中飞翔; 细胞使肌肉运动和心脏跳动。

重要的是,涌现能力在涉及大量独立部分的系统中都有出现,但是研究人员直到最近才能够在 LLM 中发现这些能力,或许是因为这些模型已经发展到了足够大的规模。

6291cd76ebe5899672a77e01b0f97413.png

语言模型已经存在了几十年,但直到五年前最强大的武器还是基于循环神经网络(RNN),训练方法就是输入一串文本并预测下一个单词是什么;之所以叫循环(recurrent),是因为模型从自己的输出中进行学习,即把模型的预测反馈到网络中,以改善性能。

2017年,谷歌大脑的研究人员引入了一种名为Transformer的全新架构,相比循环网络逐字分析一个句子,Transformer可以同时处理所有的单词,也就意味着Transformer可以并行处理大量文本。

e728782934a6802861594364359f1585.png

通过增加模型中的参数数量以及其他因素,Transformer使语言模型的复杂性得以快速扩展,其中参数可以被认为是单词之间的连接,模型通过在训练期间调整这些连接的权重以改善预测结果。

模型中的参数越多,建立联系的能力就越强,模拟人类语言的能力也就越强。

正如预期的那样,OpenAI 研究人员在2020年进行的一项分析发现,随着模型规模的扩大,它们的准确性和能力都有所提高。

732de5a465fa4a6195f0852d19f54b7e.png论文链接:https://arxiv.org/pdf/2001.08361.pdf

随着 GPT-3(拥有1750亿参数)和谷歌的 PaLM (可扩展至5400亿参数)等模型的发布,用户发现了越来越多的涌现能力。

一位 DeepMind 的工程师甚至报告说,他可以让 ChatGPT 认为自己是一个 Linux 终端,并运行一些简单的数学代码来计算前10个素数。值得注意的是,ChatGPT可以比在真正的 Linux 机器上运行相同的代码更快地完成任务。

a7a603f1d01d035e4a33b9647e5644d1.png

与电影Emoji符号任务一样,研究人员没有理由认为一个用于预测文本的语言模型可以模仿计算机终端,许多涌现行为都展现了语言模型的Zero-shot或Few-shot学习能力,即LLM可以解决以前从未见过或很少见过的问题的能力。

大批研究人员发现了 LLM 可以超越训练数据约束的迹象,他们正在努力更好地掌握涌现的样子以及它是如何发生的,第一步就是完全地记录下来。

超越模仿游戏

2020年,Dyer 和Google Research的其他人预测,LLM 将产生变革性影响,但这些影响具体是什么仍然是一个悬而未决的问题。

因此,他们要求各个研究团队提供困难且多样化任务的例子以找到语言模型的能力边界,这项工作也被称为「超越模仿游戏的基准」(BIG-bench,Beyond the Imitation Game Benchmark)项目,名字来源于阿兰 · 图灵提出的「模仿游戏」,即测试计算机是否能以令人信服的人性化方式回答问题,也叫做图灵测试。

9ad4b411bb212514dd79a449309ed855.png

正如所预料的那样,在某些任务上,随着复杂性的增加,模型的性能平稳且可预测地得到改善;而在其他任务中,扩大参数的数量并没有产生任何改善。

但是,在大约5% 的任务中,研究人员发现了所谓的「突破」(breakthroughs),即在一定阈值范围内,性能出现了快速、戏剧性的跃升,该阈值随任务和模型的不同而变化。

例如,参数相对较少(只有几百万)的模型不能成功地完成三位数加法或两位数乘法的问题,但对于数百亿个参数,某些模型的精度会大幅提高。

其他任务也出现了类似的跳跃,包括解码国际音标、解读单词的字母、识别印度英语(印地语和英语的结合)段落中的冒犯性内容,以及生成类似于斯瓦希里谚语的英语对等词。

但是研究人员很快意识到模型的复杂性并不是唯一的驱动因素,如果数据质量足够高,一些意想不到的能力可以从参数较少的较小模型中获得,或者在较小的数据集上训练,此外query的措辞也会影响模型回复的准确性。

去年,在该领域的旗舰会议 NeurIPS 上发表的一篇论文中,Google Brain的研究人员展示了如何让模型利用提示对自己进行解释(思维链推理),比如如何正确地解决math word问题,而同样的模型如果没有提示就不能正确地解决。

1e4e2c9eb2c2578c948b55a4e0d353ec.png

论文链接:https://neurips.cc/Conferences/2022/ScheduleMultitrack?event=54087

Google Brain的科学家Yi Tay致力于系统研究breakthroughs,他指出,最近的研究表明,思维链的提示改变了模型的规模曲线,也改变了涌现的点,使用思维链式提示可以引发 BIG 实验中没有发现的涌现行为。

布朗大学研究语言计算模型的计算机科学家Ellie Pavlick认为,最近的这些发现至少提出了两种可能性:

3360fe0011f6ec5e9b80b5cf13471165.png

第一个是,正如与生物系统相比较所显示的那样,较大的模型确实会自发地获得新的能力,这很可能是因为这个模型从根本上学到了一些新的和不同的东西,而这些东西在小尺寸模型中没有的,而这正是我们所希望的情况,当模型扩大规模时,会发生一些根本性的转变。

另一种不那么耸人听闻的可能性是,看似突破性的事件可能是一个内部的、由统计数据驱动的、通过思维链式推理运作的过程,大型 LLM 可能只是学习启发式算法,对于那些参数较少或者数据质量较低的参数来说,启发式算法是无法实现的。

但是她认为,找出这些解释中哪一个更有可能依赖于能够理解 LLM 是如何运行的,因为我们不知道它们在引擎盖下是如何工作的,所以我们不能说这些猜测中哪些更合理。

隐藏在未知力量下的陷阱

谷歌在二月份发布了类ChatGPT产品Bard,不过在演示中却暴露出了一个事实性错误,这也带来了一个启示,虽然越来越多的研究人员开始依赖这些语言模型来做基本的工作,但是并不能相信这些模型的输出结果,需要人来进一步检查他们的工作。

8569af04c6195ef65b540c323c5a6136.png

涌现导致了不可预测性,而不可预测性也随规模的扩大而增加,使研究人员难以预测广泛使用的后果。

想要研究涌现现象,那你必须先在头脑中有一个案例,在研究规模的影响之前,你无法知道可能会出现什么能力或局限性。

某些有害行为也会在某些模型中涌现,最近对 LLM 的分析结果表明,社会偏见的涌现往往伴随着大量的参数,也就是说大型模型会突然变得更有偏见,如果不能解决这一风险,就可能危及这些模型的研究对象。

参考资料:

https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/

本文仅做学术分享,如有侵权,请联系删文。

点击进入—>3D视觉工坊学习交流群

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
2.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
3.国内首个面向工业级实战的点云处理课程
4.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
5.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
6.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
7.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

8.从零搭建一套结构光3D重建系统[理论+源码+实践]

9.单目深度估计方法:算法梳理与代码实现

10.自动驾驶中的深度学习模型部署实战

11.相机模型与标定(单目+双目+鱼眼)

12.重磅!四旋翼飞行器:算法与实战

13.ROS2从入门到精通:理论与实战

14.国内首个3D缺陷检测教程:理论、源码与实战

15.基于Open3D的点云处理入门与实战教程

16.透彻理解视觉ORB-SLAM3:理论基础+代码解析+算法改进

17.机械臂抓取从入门到实战

重磅!粉丝学习交流群已成立

交流群主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、ORB-SLAM系列源码交流、深度估计、TOF、求职交流等方向。

扫描以下二维码,添加小助理微信(dddvisiona),一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

918e56372ee4af5c7ad6b080d5e35ff4.jpeg

▲长按加微信群或投稿,微信号:dddvisiona

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)源码分享、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答等进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,6000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看,3天内无条件退款

8b7f3bd34dfcd364dfb25758a8f8733f.jpeg

高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/46135.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【视频课程】持续更新中!算法工程师如何从零掌握ChatGPT大模型

前言 自从2022年11月ChatGPT发布之后,迅速火遍全球。其对话的交互方式,能够回答问题,承认错误,拒绝不适当的请求,高质量的回答,极度贴近人的思维的交流方式,让大家直呼上瘾,更是带火…

GDOI2022游记

文章目录 Day -1Day 0Day 1Day 2Day 3()Day ?~?Day ? Day -1 考前好像写题状态不太好(可能是纯粹的懒)。 开始写板子,很多算法都很久没碰了,有的调了很久才过。树剖都调了一个多小时,身败名裂。不过想想省选应该不…

Web3.0与ChatGPT4如何开创未来创业机会?

随着Web3.0时代的到来,人们对于新一代互联网的期望越来越高,越来越多的企业开始关注区块链技术、人工智能技术和金融科技等方面的创新应用。在这个新时代的背景下,ChatGPT4作为最先进的自然语言处理技术之一,也将在未来创业机会中…

Virus Total 曝数据泄露大事件:涉及多国情报部门

The Hacker News 网站披露,可疑文件和病毒在线检测平台 VirusTotal 曝出数据泄露事故,一名员工无意中将部分 VirusTotal 注册客户的姓名、电子邮件地址等敏感数据信息上传到了恶意软件扫描平台,此举导致约 5600 名用户数据泄露。 据悉&#x…

深度学习博士自救指南

点击上方“AI遇见机器学习”,选择“星标”公众号 第一时间获取价值内容 来自|AI科技评论 编译 | 青暮、陈大鑫 关于如何攻读机器学习博士学位,这个嘛,主要是不要重蹈我的覆辙,哈哈。 你已经开始了博士的学习课程&…

NLP发展关键模型:BERT,GPT

文章目录 chat bot重大进展基于编码器的预训练模型word embeddingELMOBERT GPT:基于解码器的预训练模型GPT1:Improving Language Understanding by Generative Pre-Trainingfinetune如何实现实验 GPT2:Language Models are Unsupervised Multitask Learn…

GitHub更改username,注销账号的方法

小编很久之前就开始使用GitHub,那时候只要求能创建个账号,随便起了个username。 如今,随着GitHub深度使用,项目和粉丝都多了起来,对username也有了新的想法,毕竟username是显示在url里的。 方法&#xff…

[简易的网站登录注册,注销退出操作]

ml 数据库字段前端页面java处理信息 先看看最终效果吧 ;在登录提交时,前端页面会用JS点击事件判断; 1.首先判断的是账户框和密码框输入的是否符合规则(基本是判断不能为空,全部输空格是不允许的(用了字符串的trim()函数,将输入字符两边的空格去除,然后再判断),)然后就是密码不…

计算机账户注销重新登录,win10系统注销账户切换账号登录的方法

相信有很多用户在使用win10系统的电脑时经常需要切换账号进行登录,使用多个账号操作电脑的话可以对账号的一些权限进行限制,根据最高管理员对这些账户权限的分配可以限制某个账户对电脑进行某些操作,于是用户在使用的过程中就会遇到需要注销账…

如何注销Facebook账户

登录你的Facebook账户; 在浏览器键入地址:https://ssl.facebook.com/help/contact.php?show_formdelete_account,会转入以下界面 点提交后,再输入密码和验证码; 系统出现如下提示,并同时发一封邮件到你邮箱 然后确认删…

阿里云盘挂载本地

目录 一、先安装JDK,配置环境变量 二、获取refresh_token 三、Windows R -------> 输入cmd ------> 进入命令行模式 四、打开浏览器, 刺客边风!把64000GB网盘当成电脑本地硬盘用?最强网盘挂载本地盘神器&#xf…

阿里云linux挂载云盘

阿里云购买的第2块云盘默认是不自动挂载的,需要手动配置挂载上。 1.查看SSD云盘 sudo fdisk -l 可以看到SSD系统已经识别为/dev/vdb 2.格式化云盘 sudo mkfs.ext4 /dev/vdb 3.创建挂载点: mkdir /data 4.挂载 sudo mount /dev/vdb /opt (或mount /dev/vdb …

阿里云CentOS服务器挂载数据盘

1. 查看系统环境 lsb_release -a2. 查看磁盘分区情况 fdisk -l查看磁盘情况,该阿里云服务器对应的系统盘为vda:40G,数据盘为vdb2:1.7T。 3. 磁盘分区 输入fdisk /dev/vdb2 对数据盘进行分区。根据提示,输入 n, p, …

RaiDrive通过WebDAV挂载阿里云盘

有了阿里云盘后总是想怎么去折腾它,因为它的传输速度实在太快了,完全秒杀 “Bai度” ,因为电脑里面存的资料什么的比较多,笔记本只有一个 500G 的固态硬盘,感觉有点空间吃紧,所以想到了借助工具 RaiDrive把…

使用阿里云服务器安装AList

一、申请免费的服务器(需要学生认证) 打开链接阿里云学生云服务器免费申请,完成下面任务,即可免费申请一个2核2G的服务器 申请完成后,打开控制台, 重置实例密码 查看公网ip 二、安装步骤 1. 连接到服务器 使…

阿里云系统盘扩容及数据盘分区、格式化分区、挂载、取消挂载

系统盘扩容 重点注意: 1.如果出现ping不同或者ssh链接不上,解决办法,直接把/etc/fstab文件还原成默认就可以了(随便操作,退路以为你们留好) 2.分区后挂在会出现问题我这边分享个链接,不分区挂载…

阿里云云盘扩容

1、进入阿里云控制台-云服务器ECS-实例 2、进入存储与快照-云盘 3、进入实例,找到要扩容的机器,点击实例id进入,到云盘,选择要扩容的创建快照 在弹出的对话框中,根据实际情况配置快照信息,然后单击确定。 …

阿里云Linux挂载OSS操作

OSS挂载 下载系统对应工具包安装修改配置文件设置权限挂载命令卸载注: 下载系统对应工具包 阿里云安装OSS工具地址 https://help.aliyun.com/document_detail/32196.html 这边提供CentOS6,7地址: CentOS7: wget http://gosspublic.alicdn.c…

群晖向阿里云OSS同步

一、阿里云 1.配置key 阿里云的访问控制RAM。 个人使用这里方便点,可以是子账号单独授权,创建key 2.配置对象存储 对象存储 OSS (aliyun.com) 配置阿里云OSS,建立新Bucket。登录阿里云控制台,找到阿里云OSS。 二、群晖 1.登录…

阿里云服务器购买之后设置密码、安全组、增加带宽、挂载云盘教程

当我们通过阿里云各种活动购买完云服务器之后,设置云服务器远程密码、配置安全组规则是必须操作的,由于活动中的云服务器购买时大多只有1M带宽,且没有数据盘,因此增加带宽和挂载云盘教程也是很多用户会做的事情,很多新…