GPT-4 最全测试,叩开 AGI 的大门!微软 154 页研究论文解读

整理 | 苏宓   本文来源 | CSDN(ID:CSDNnews)

2019 年,微软用 10 亿美元砸进 OpenAI,两者展开为期数年的合作。

当时两家对外公开的合作内容包括,微软和 OpenAI 将联合开发新的 Azure AI 超级计算技术,而 OpenAI 也将把它的服务转移到 Azure 上运行,最终目标是向通用人工智能(Artificial General Intelligence,AGI)技术发起进攻。

简单总结,微软与 OpenAI 联手,也被外界解读为,明为 AGI 研究,暗争 Google 市场。

几年之后,当 OpenAI 带着 ChatGPT、GPT-4 王者归来,微软率先利用这些技术加码新 Bing、Office 全家桶、Azure 等业务、产品之时,毋庸置疑,其进度早已超越了 Google 还在加快融入 Bard 大模型的整体步伐。

那么在明面上,AGI 的进度到底走到了哪里?

近日,微软研究团队用 154 页的论文报告内容给出了解答——GPT-4 语言模型可以被视为 AGI 的早期版本!

3f62fad6d7f936110db8f0708d25f115.png

一石激起千层浪,业界对于这篇论文的反应,不亚于去年听到「Google 工程师称 AI 已有自我意识」初觉有些荒诞,只是现如今再想会认为有什么不可能,深读后又觉得有些许的真实。

所谓 AGI,仅通过维基百科的解释——「AGI 是具备与人类同等智能、或超越人类的人工智能,能表现正常人类所具有的所有智能行为」。倘若 GPT-4 真的已成为通往 AGI 的第一步,「最高等的智慧生物」称号是不是要易主了?

a56d901537e349e119cd1ada26f7dfff.png

GPT-4 被合理地视为 AGI 的早期(但仍不完整)的版本

在论文中,微软研究人员表示,「由 OpenAI 开发的最新模型 GPT-4,是使用前所未有的计算和数据规模训练出来的。在论文中,我们报告了我们对 GPT-4 早期版本的调查,当时它还在 OpenAI 的积极开发中。我们认为,(这个早期版本的)GPT-4 是新一批 LLM(例如,与 ChatGPT 和谷歌的 PaLM 一起)的一部分,它比以前的 AI 模型表现出更多的通用智能。」

与此同时,研究人员在论文摘要中写道,“我们证明,除了对语言的掌握,GPT-4 还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外,所有这些任务中,GPT-4 的表现都惊人地接近人类水平,而且往往大大超过了 ChatGPT 等先前的模型。鉴于 GPT-4 能力的广度和深度,我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。

之所以得出这样的结论,这篇论文背后的作者包括微软研究院机器学习基础组的高级首席研究经理 Sébastien Bubeck、博士后研究员 Varun Chandrasekaran、数学家  Ronen Eldan 等人,用许多示例对 GPT-4 的能力进行了验证。

467a1da1ff58494628f96f6321d66b6e.png

GPT-4 的多能力

在第一个案例中,研究人员要求 GPT-4 「写出有无限多个素数的证明,且证明的表述要每行都押韵」,另外 GPT-4 要在绘图程序 TiKZ 中画出一只独角兽」。其中,TiKZ(一种在 LATEX 中创建图形的语言),用 Python 创建一个复杂的动画,并解决一个高中水平的数学问题。

GPT-4 在所有这些任务中都很容易取得成功,并且产生的输出结果基本上与人类所能产生的结果没有区别(甚至更好)。

376e40bdbe47694bedcda0af26903d06.png

同时,随着时间的推移,GPT-4 也在以难以想象的速度不断扩充自己的能力。如下图所示是一个月期间,研究人员用相同的提示词让 GPT-4 生成的绘图。

fe38d1aee5a77ca38d6047fab445da2b.png

研究人员发现,GPT-4 似乎能够理解和连接任何主题,并且能够执行任务,这超出了狭义人工智能系统的典型范围。为了验证 GPT-4 在 AGI 上所具备的能力,研究人员提出了一种不同的方法来研究 GPT-4,它更接近于传统的心理学而不是机器学习,利用人类的创造力和好奇心。

因此,以上图为例,当研究人员把独角兽角部分的代码认为删除之后,用自然语言让 GPT-4 生成时,它也能做到“看”(此时测试的 GPT-4 版本不是多模态的)的能力:自动在合适位置加上角。这表明 GPT-4 它可以根据自然语言描述来理解和操作代码,以及推断和生成视觉特征。

30d54ac8ea73e339373ddc08b6bde82b.png

另外,微软研究团队基于人类的创造力和好奇心来产生新颖和困难的问题,并探测 GPT-4 的反应和行为,也选择从 1994 年国际共识智力定义中的所给出不同能力进行验证,包括推理、计划、解决问题、抽象思考、理解复杂的想法、快速学习和从经验中学习的能力。

翻译

GPT-4 的主要优势是它对自然语言无与伦比地掌握。它不仅可以生成生成流畅和连贯的文本,而且还能以各种方式理解和处理它,如总结、翻译或回答极其复杂的问题。此外,这里提到的翻译我们所说的翻译不仅是指不同自然语言之间的翻译,还包括语气和风格的翻译,以及跨领的翻译,如医学、法律、会计、计算机编程、音乐等等。如假设是柏拉图批判自回归语言模型:

45d9ce4f1136498fae469d45c4724228.png

编码和数据

编码和数学是抽象推理和思维能力的象征。GPT-4 在这一点上的能力,其实自上线测试那一天,便有目共睹。

在论文中,研究人员在 HumanEval 上对 GPT-4 进行基准测试,该数据集由 164 个编码问题组成,测试了编程逻辑和熟练程度的各个方面。

最终结果显示,GPT-4 优于其他 LLM,包括 text-davinci-003(ChatGPT 的基础模型)和其他专门针对代码训练的模型。

6f5b1a4765206b8d50481c44af30a011.png

当然为了避免 GPT-4 在预训练时已经记住了 HumanEval 数据集的一些内容,研究团队还用 LeetCode 上最新发布的 100 个编程问题进行了测试,如要求 GPT-4 编写一个 Python 函数,并使用 LeetCode 的官方在线评判来检查正确性。

ebbd6363c6ab2493e358bb61a620f645.png

毫无疑问,GPT-4 的能力是所有模型中最高的。

0d52ee836d8a97ea5847a20fd6782194.png

它可以在 HTML 中用 JavaScript 编写一个 3D 游戏。

bbd3181293da3b67ca3ef291eb1cf135.png

也能掌握数学、统计学知识,以及凭借对 PyTorch、TensorFlow、Keras 等框架和库的熟悉度,编写深度学习的代码。

70e833ea7f149f4c2927ae71a4016395.png

还能逆向工程:

879feae62cce25129171bbdd99634b17.png

常识性问题

针对一些常识性问题,如“我们有一本书,9 个鸡蛋,一台笔记本电脑,一个瓶子和一个钉子。请告诉我如何以稳定的方式将它们叠在一起”,GPT-4 给出的解答是,“将 9 个鸡蛋摆成 3 乘 3 的正方形,放在书的上面,在它们之间留出一些空间”,而 ChatGPT 提出「将鸡蛋放在钉子上面,确保它们是平衡的,不会向一边倾斜」,靠谱和离谱还是一眼就能辨清楚的。

f6b4de450faf10e260d9163de728196e.png

多模态能力

为了测试该模型结合艺术和编程能力的能力,研究人员要求 GPT-4  "生成 JavaScript 代码,以画家康定斯基的风格生成随机图像",结果是这样的:

70e8f1f7d583baa6a97be1531a0db4a7.png

77937e7910361ba3841135810e1deac1.png

在测试时,因为研究人员拿到 GPT-4 模型比较早,当时并不具备多模态能力,即使是现在的 GPT-4 也不具备生成图像等能力。

不过倒是可以使用 SVG(可扩展矢量图形)生成一些图像:

677fbe0b53241aff7572cb1556dfa202.png

还能结合字母和物体:

f7a452fd18ba4f2fec1b99f7e3f7eabe.png

GPT-4 可以从提示中生成代码,这些代码可以被呈现为图像,再与现有的图像合成模型相结合,就有可能为应用开发的草图带来无限的可能:

69f735c528e83fe3568248cce588d6f2.png

值得注意的是,GPT-4 模型的数据也包含了以ABC符号编码的音乐信息,所以它也能生成图谱:

8e2e772caba70e13e574e0b95cc88ef6.png

与世界交互的能力

智能的一个关键方面是互动性。不过 GPT-4 对当前最新的知识和符号识别是存在一定的局限性的:

0a9e8bd36516c46348eab34d26dbbc68.png

整体而言,研究小组发现,GPT-4 在其上一代产品所缺乏的一系列类别中达到了接近人类水平的性能。根据该论文,GPT-4 在几次考试中也表现得非常好,在律师考试、LSAT 和注册侍酒师理论测试中的得分分别为 90 分、88 分和 86 分。

f9339b7ed1568d70256db4ef3bbdd9c3.png

GPT-4 距离理想中的 AGI 还有多远?

那么,在 GPT-4 实现种种能力的基础上,是否就意味着 AGI 时代的到来。其实不然,研究人员目前尚未就 AGI 或智能的定义达成一致。然而,一般来说,大家都会同意,当一个人工智能系统有意识并像人类一样思考时,就已经达到了 AGI。虽然 GPT-4 在一些任务中的表现优于人类,但值得注意的是,人工智能并没有像人类那样克服这些障碍。

这也正如研究人员在论文中写道,“我们声称 GPT-4 代表了 AGI 的进步,但这并不意味着它在做什么方面是完美的,或者它接近于能够做人类能做的任何事情(这是 AGI 的通常定义之一),或者它有内在的动机和目标。”

研究人员指出,虽然 GPT-4 "在许多任务上达到或超过了人类水平",但它的整体 "智能模式明显不像人类",其希望这一次的探索提供了一个欣赏 GPT-4 的非凡能力和挑战的第一步,也希望 GPT-4 为开发更正式和全面的方法来测试和分析具有如此广泛智能的未来人工智能系统开辟了新的机会。

「我们工作的核心主张是,GPT-4 达到了一种通用智能的形式,确实擦出了 AGI 的火花。这表现在它的核心心智能力(如推理、创造力和推理),它获得专业知识的主题范围(如文学、医学和编码),以及它能够完成的各种任务(如玩游戏、使用工具、解释自己,......)」研究人员说道,不过,要创建一个可以被称为完整的 AGI 的系统,还有很多事情要做。

最后,这篇论文对于 GPT-4 各种基准测试还是值得一看,从中也能挖掘出 GPT-4 更多的潜力。

完整论文内容可查看:

https://arxiv.org/pdf/2303.12712.pdf

猜您喜欢:

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

b7861582ababe1716298f2f465d627c9.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

2dc1c7c67d916ef81c7d239cfeb58681.jpeg

点击 一顿午饭外卖,成为CV视觉的前沿弄潮儿!,领取优惠券,加入 AI生成创作与计算机视觉 知识星球!     

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29433.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

平替这么多!谁能与我一战?GPT-4化身主考官

魏亦豪 投稿 量子位 | QbitAI(本文来源) GPT-4太强,甚至已经化身“主考官”了! 给其他市面上主流的大模型打分,结果自己给了自己最高分: 95.5。(好,给自己留点努力的空间&#xff…

AI 工具合辑盘点(一)持续更新

人工智能技术的发展已经改变了我们的生活,越来越多的AI工具正在被广泛应用于各个领域。ChatGPT这样的代表性AI模型正在大放异彩,为我们带来了无数的便利和惊喜。在本文中,我们将介绍一系列优秀的AI工具,这些工具可以帮助你完成各种…

基于易语言,PC端微信多开

.版本 2.程序集 启动窗口.子程序 取窗口文本, 文本型, , GetWindowText .参数 窗口句柄, 整数型 .局部变量 长度 .局部变量 缓冲, 文本型长度 = 发送消息 (窗口句柄, 14, 0, 0) + 1 缓冲 = 取空白文本 (长度) 发送消息 (窗口句柄, 13, 长度, …

P站-画师通图片如何保存为原图

进入P站-画师通 P站-画师通 打开F12,选中一个图片找到html 找到href https://www.huashi6.com/ href就是下一级页面 进入子页面,打开F12,选中图片 其中data-original连接是图片地址 https://img2.huashi6.com/images/resource/2018/02/08/67162h18…

游戏角色原画图怎么画?学游戏原画的详细步骤是什么?

很多喜欢角色原画的小伙伴都想着自己某天可以画出自己心中的角色原画人物,对于零基础角色原画萌新来说,非常的想拿起画笔自己创作,那么萌新学角色原画应该怎么学呢? 下面小编就给大家详细的罗列一下,角色原画应该如何一…

NLP中的对话机器人——预训练基准模型

引言 本文是七月在线《NLP中的对话机器人》的视频笔记,主要介绍FAQ问答型聊天机器人的实现。 场景二 上篇文章中我们解决了给定一个问题和一些回答,从中找到最佳回答的任务。 在场景二中,我们来实现: 给定新问题,从…

bp神经网络训练函数选择,BP神经网络训练过程

BP神经网络的训练集需要大样本吗?一般样本个数为多少? BP神经网络的训练集需要大样本吗?一般样本个数为多少? BP神经网络样本数有什么影响学习神经网络这段时间,有一个疑问,BP神经网络中训练的次数指的网…

利用BP神经网络对语音特征信号数据集进行分类

最近给学院老师的一篇论文帮忙改进BP神经网络,由于最后要发表论文,神经网络必须自己手写,搞了几个晚上,总算把基础的BP神经网络写出来,接下来再把老师的改进算法实现就ok了。**(当然那代码不能公开了&#…

英语口语中的音变现象及读音规则

英语口语中的音变现象是指再说英语的过程中出于“省力” 的原因,在读英语的时候唇舌处于放松的状态,可以让我们更轻松地说英语。音变现象包括:连读,弱读,缩读,浊化,异化。这五大音变现象最具有代…

Speech Representation预训练模型综述

最近在看Speech Representation预训练相关的论文,NLP的Bert模型大杀四方后,语音领域也开始涌现一些优秀的预训练模型,比如:Mockingjay,Wav2Vec,PASE,DeCoAR系列。 《Probing acoustic represen…

【综述】NLP 对抗训练(FGM、PGD、FreeAT、YOPO、FreeLB、SMART)

在对抗训练中关键的是需要找到对抗样本,通常是对原始的输入添加一定的扰动来构造,然后放给模型训练,这样模型就有了识别对抗样本的能力。其中的关键技术在于如果构造扰动,使得模型在不同的攻击样本中均能够具备较强的识别性 对抗…

端到端语音识别模型LAS(listen-attention-spell)

目录 端到端语音识别模型LAS介绍:模型:模型代码片段 端到端语音识别模型LAS Listen, Attend and Spell (LAS)的神经网络结构,由listener和speller组成,listener是以fbank为输入的pyramidal RNN encoder,speller是基于…

微调Whisper语音识别模型和加速推理

前言 OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了…

【回答问题】ChatGPT上线了!给我推荐20个比较流行的nlp预训练模型

目录 给我推荐20个比较流行的nlp预训练模型给我推荐20个比较流行的nlp预训练模型源码给我推荐20个比较流行的nlp预训练模型 BERT (谷歌) GPT-2 (OpenAI) RoBERTa (Facebook) ALBERT (谷歌) ELECTRA (谷歌) XLNet (谷歌/纽约大学) T5 (OpenAI) Transformer-XL (谷歌/香港中文大…

真实世界的人工智能应用落地——OpenAI篇 ⛵

💡 作者:韩信子ShowMeAI 📘 深度学习实战系列:https://www.showmeai.tech/tutorials/42 📘 本文地址:https://www.showmeai.tech/article-detail/414 📢 声明:版权所有,转…

谈谈ChatGPT是否可以替代人

起初我以为我是搬砖的,最近发现其实只是一块砖,哪里需要哪里搬。 这两天临时被抽去支援跨平台相关软件开发,帮忙画几个界面。有了 ChatGPT 之后就觉得以前面向 Googel 编程会拉低我滴档次和逼格,于是全部面向 ChatGPT 编程了。 我…

处理Element 日期选择器el-date-picker 限制时间跨度一年

处理Element 日期选择器el-date-picker 限制时间跨度一年 。 主要通过pickerOptions里的disabledDate来控制禁止选中的日期。实现思想就是,当选中第一个开始日期时,拿到该时间戳计算时间范围,然后控制接下来选中时间在一年以内,超…

elementui 中 DatePicker 日期选择器 设置仅能选今日之前 且展示是上个月到这个月的日期

使用了elementui组件的DatePicker组件,设置了日期选择范围为当前日期后,效果如图,右侧面板是灰色的,使用体验感不太好 而我想要实现的是这种效果:一点击出来,展示的就是上个月到这个月的日期 仔细翻阅了官…

vue+elementui 日期选择器

// 这个日期选择器的规则是开始的日期不能超过当天的日期 // 结束的日期不能超过开始的日期并且只能选开始日期选择的这一年的日期 结束的日期默认年份是开始日期选择的年份<el-form:model"DateTimeModel"ref"DateTimeRef":rules"DateTimeRules&qu…

elementui选择月份范围,限制只能选前后1年范围内

需求&#xff1a; 选中2022-2月之后可选范围为2021-2月~2023-2月&#xff0c;其余的月份禁用 代码&#xff1a; <el-form :model"queryParams" ref"queryForm" :inline"true"><el-form-item label"时间范围"><el-date-…