微软154页论文刷屏:GPT-4能力接近人类!初版AGI就快来了...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

转载自:机器之心

GPT-4 的能力什么档次?

1956 年,在达特茅斯学院召开的一个研讨会上,人工智能这一概念正式被提出。

之后这个词一直挑战着心理学家、哲学家和计算机科学家,因为它太难被定义了。1994 年,52 名心理学家联合发文试图捕捉它的本质。

随着时间的推移,研究者开始将注意力转移到特定领域的 AI 系统,如 2016 年 AlphaGo 挑战韩国冠军棋手大获全胜。之后,时间来到 20 世纪 90 年代末和 21 世纪初,研究者不满足于专用 AI,因此开发更通用的人工智能系统呼声越来越高。随之而来的是,通用人工智能 (AGI) 一词开始在 2000 年代初期流行起来。

最近一段时间,如大家所见,大型语言模型 (LLM) 走到聚光灯下,这些神经网络基于 Transformer 架构,并在大量文本数据集上训练而成。尤其是 OpenAI 最新发布的 GPT-4,更是展示了大型语言模型的通用性,在数学、文字、法律、医学等领域样样精通。

我们不禁会问,GPT-4 是迈向 AGI 的重要一步吗?

微软给出的答案是肯定的,在其最近发布的一篇论文中,他们阐述了这个观点。文中对 GPT-4 进行了全面评测。微软认为「鉴于 GPT-4 能力的广度和深度,我们相信它应该被合理视作一个通用人工智能(AGI)系统的早期(但仍不完整)版本。」

微软还表示,「本文的主要目标是对 GPT-4 的能力和局限性进行探索,我们相信 GPT-4 的智能标志着计算机科学及其他领域的真正范式转变。」

77be804a9326074a1449b9a0a1b48086.png

论文地址:https://arxiv.org/pdf/2303.12712.pdf

有趣的是,这篇火爆的论文还被人发现有大量删减,因此有人找出了未删节版论文。

从未删减版本中,这个博主也扒出了大量隐藏的细节,如 GPT-4 的内部名称为 DV-3,实际上也是该论文的隐藏第三作者,后被删除;这些微软的研究人员对 GPT-4 的技术细节似乎了解也并不多。此外博主也透露这篇论文发布时删除了有关毒性内容的部分(防止给 OpenAI 造成负面?)。

我们下面粘贴了该博主的 Twitter 线程,感兴趣的可以查看。

71153abba4b8a103bec1170da326e28f.png

Twitter thread:https://twitter.com/DV2559106965076/status/1638769434763608064

回到文章本身。

根据文章所认定的 AGI,是具体的拥有推理、计划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习的能力。从这些能力出发,论文进行了有趣的实验和评测。

论文分为 10 个章节:第一章为总括部分;第二章介绍了多模态,主要和视觉生成内容相关;第三章代码,根据指令生成代码、理解现有代码;第四章数学能力;第五章与世界的交互;第六章与人类的交互;第七章判别力;第八章 GPT-4 局限性;第九章社会影响;第十章未来方向及结论。

下面我们通过具体的示例,看看 GPT-4 是不是真的迈进了 AGI 时代。

多模态和跨学科组成

为了测试模型将艺术与编程相结合的能力,该研究要求 GPT-4 用 javascript 写一段代码,以生成康定斯基风格的随机图像,下图第一张为 Wassily Kandinsky 创作的,第二张和第三张分别由 GPT-4 和 ChatGPT 生成的:

64390a712dceaae4e9c5dc5a80468507.png

下面为 GPT-4 代码实现过程:

4f73e8e6f6c98f259bc791afa8715e44.png

进行视觉概念理解:在这个作图任务中, 输入提示让模型结合字母 Y、O、H 的形状来画一个人。其实在 GPT-4 的训练过程从没有关于字母形状的认识,只能从相关训练数据中、模糊地学习到字母与一些特定形状有关,结果显示 GPT-4 生成的结果还不错:

198bed6b525e82d8c8b06b224582a4ed.png

用于草图生成:GPT-4 还能与 Stable Diffusion 进行结合。下图为 3D 城市建模截图,输入提示有一条河流从左到右流淌、河的旁边建有金字塔的沙漠、屏幕底部有 4 个按钮,颜色分别为绿色、蓝色、棕色和红色。下面是生成结果:

21264b4f33daf6123efba13a54bc9c7e.png

你还能要求 GPT-4 用 ABC 记谱法生成和修改曲调:

e04d67953e14e623d482e82ca6d1c75c.png

编程能力

GPT-4 有非常强大的编程能力,包括根据指令编写代码和理解现有代码。该研究具体测试了 GPT-4 在编程方面的能力。

代码编写

下图 3.1 是一个让 GPT-4 写 python 函数的例子,该研究使用 LeetCode 在线判断代码是否正确。

7699dda36fc07eaa780e26cff1462d0d.png

0456baf53d99425d4c758ef2b71d0334.png

然后,该研究让 GPT-4 将上表 2 中 LeetCode 上的准确率数据可视化为图表,结果如下图 3.2 所示。

4a2959d6864fe4bd8815429a55d0d222.png

前端 / 游戏开发

如下图 3.3 所示,该研究让 GPT-4 用 JavaScript 在 HTML 中编写 3D 游戏,GPT-4 在零样本的情况下生成了一个满足所有要求的游戏。

4cb4cd08ae627aaa8a1298d176d8408c.png

深度学习编程

为深度学习编写代码需要数学、统计学知识,并熟悉 PyTorch、TensorFlow、Keras 等框架和库。如下图 3.4 所示,研究者要求 GPT-4 和 ChatGPT 编写自定义优化器模块,该任务对于人类深度学习专家来说也是具有挑战性的。研究者为 GPT-4 和 ChatGPT 提供了自然语言描述,其中包括一系列重要的操作,例如应用 SVD 等等。

a0ed66fe472fa35e5c0dab0bc14fc344.png

此外,该研究还测试了 GPT-4 把代码转换成 LaTex 公式的能力,结果如下图 3.5 所示。

fad5698129e131411a763471ce3fdccb.png

在理解代码方面,该研究尝试让 GPT-4 和 ChatGPT「读懂」一段 C/C++ 程序,并预测程序的输出结果,二者的表现如下:

ad1d256b8122ee753949f79697280a95.png

然后,该研究让 GPT-4 解释了一段 Python 代码:

aca4237d8de5d00de1b0e6ea4de59d14.png

还有解释一段伪代码:

b1af978b54af344d280449ec29ae4358.png

数学能力

一直以来,大型语言模型的数学能力似乎一直不是很好。那么 GPT-4 在这方面表现如何呢?本文经过一系列评测,结果表明 GPT-4 相比以前的模型在数学方面有了质的飞越,但是离专家水平还差得很远,不具备数学研究的能力。

在与 ChatGPT 的对比中, GPT-4 成功的生成了解决方案,而 ChatGPT 生成了错误答案:

8d1ef11fd809e7b591cd67f9659e8776.png

在 AP 问题上,GPT-4 vs ChatGPT 对比结果。GPT-4 使用了正确的方法,不过由于计算错误导致最终答案错误,而 ChatGPT 产生了一个不连贯的论点。

3122b7879c1379644619548f1ae6a6a6.png

此外,本文还测试了 GPT-4 使用数学思维和技术来解决现实问题的能力:下图展示了 GPT-4 如何成功地为一个需要广泛跨学科知识的复杂系统构建合理的数学模型,而 ChatGPT 未能取得有意义的进展。

d7f2cfddca51759cfb19e4146762c65b.png

由于论文内容长达 154 页,本文只对评测结果进行了大量展示,想要了解更多内容,读者可以参考原论文。

最后附上论文目录:

c7d320f243d075d8d2b083b99a78303f.png

d5c7fd781c4eaadbc0b6d301e1ec4ed9.png

a5bcf59375bcaa5abd827be34509063b.png

88bb61b5f510c2bf3d1454852c79dbb2.png

点击进入—>【计算机视觉】微信技术交流群

最新CVPP 2023论文和代码下载

 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57208.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TCP传输文件

传输文件和传输信息的区别: 传输信息,只是一条数据,传输文件是多条数据传输信息传输过去一般都会显示,传输文件一般不会显示,一般只是存放在文件中传输文件需要传输,文件大小和文件名称(不然不知…

【计算机网路】一个简单的chat程序,并能互传文件(Python)

前言 这个实验已经做了一个多月了,本来打算把程序功能完善一下再分享出来,无奈最近太忙了,又怕改来改去又改崩了就迟迟未改。最近终于把想学了好久的Git学了,就把这个代码传到了Github上。后续如果不出意外的话会继续完善&#x…

数字 IC 设计、FPGA 设计秋招笔试题目、答案、解析(4)2022 乐鑫数字芯片提前批笔试

单选题 1、以下关于 System Verilog 的描述,正确的是( ) A. sv 中可以用 logic 代替 Verilog 中的 wire 和 reg 类型 B. sv 中, 定义成 reg 的信号会被综合成触发器 C. sv 中的 function 语言不可被综合 D. 其他都不正确 …

数字 IC 设计职位经典笔/面试题(二)

共100道经典笔试、面试题目(文末可全领) FPGA 中可以综合实现为 RAM/ROM/CAM 的三种资源及其注意事项? 三种资源:BLOCK RAM,触发器(FF),查找表(LUT)&#xf…

数字IC设计工程师笔试面试经典100题-有答案

转自知乎答主ictown_数字IC设计工程师笔试面试经典100题-有答案-陈恩 1:什么是同步逻辑和异步逻辑?(汉王) 同步逻辑是时钟之间有固定的因果关系。异步逻辑是各时钟之间没有固定的因果关系。 同步时序逻辑电路的特点:各…

汇顶2018年 IC校招笔试题目

前言 后面,打算整理下数字ic笔试面试题目,希望以此为出发点,补充知识点!声明:个人觉得,学习期间,基本上都是知识的搬运,所以本博客所有内容都可以被大家引用!为了大家方便引用,博客内的图片都没有加博客的水印(除非不是自己的或者没看到)!这篇文章会基于下面这些文…

请收下这份数字IC面试超强攻略!(内附大厂面试题目)

2022年马上就要结束了,想必今年有很多同学也已经感受到IC行业的门槛在不断提升,这一点尤其在面试的过程中感受明显。 前两年的时候,面试官有可能问一些比较简单的问题就能通过,今年可就没那么简单了,必须提前做好相关…

数字IC笔试题3

目录 1.一个八位D/A转换器最小电压增量为0.01V,当输10011100时,输出电压为(D)V 2.下述概念中不属于面向对象这种编程范畴的是(D) 3.组合逻辑电路通常由(B)组合而成 4.三极管作为…

数字IC笔试题4

目录 1.[单选题]下列电路中属于时序逻辑电路的是(B) 2.[单选题]关于同步设计描述错误的是(D) 3.[多选题]下面哪种措施不能减少亚稳态影响(CD) 4.[单选题]状态机没有冗余状态时,可以不写defa…

海康威视 2024届 数字逻辑设计 实习笔试分析

说明 记录一下 5月11日晚,做的海康威视的一场笔试。分享给需要的IC人。 岗位:数字逻辑设计工程师(浙江 杭州) 转载需要本人同意! 我的见解不一定都是准确的,欢迎评论区交流指正~~ 单选题 1、&#xff…

数字IC设计/FPGA工程师秋招面经

秋招面经 秋招总结迷茫期低谷期兴奋期秋招面试常问问题投递公司学习的FPGA课程总结 秋招总结 已经一个多月没更新博客了,并不是因为博主的只是储备量空了,而是因为我去准备秋招去了,接下来将会恢复博客的更新,速度不会太快&#…

数字IC设计工程师笔试面试经典100题

数字IC设计工程师笔试面试经典100题 https://blog.csdn.net/qq_41394155/article/details/89349935 ASIC–模拟版图工程师 https://blog.csdn.net/qq_41394155/article/details/89208062 ASIC–DFT可测性设计工程师 https://blog.csdn.net/qq_41394155/article/details/8836502…

数字IC笔试题1

目录 单选 1.关于亚稳态的描述错误的是(A) 2.一段程序如下,请问在45这个时刻上,A B的值各是多少(B) 3.下列关于综合的说法哪项是不正确的(B) 4.当功能覆盖率(Functi…

数字IC笔试面试常考问题及答案汇总(内含各岗位大厂题目)

经历了无数的笔试面试之后,不知道大家有没有发现数字IC的笔试面试还是有很多共通之处和规律可循的。所以一定要掌握笔试面试常考的问题。 数字IC笔试面试常考问题及答案汇总(文末可领全部哦~) 验证方向(部分题目) Q1…

数字IC笔试/面试题

1、什么是同步逻辑和异步逻辑? 同步逻辑是时钟之间有固定的因果关系。异步逻辑是各时钟之间没有固定的因果关系。 同步时序逻辑的特点:各触发器的时钟端全部连接在一起,并接在系统的时钟端,只有当时钟脉冲到来时,电路…

数字IC笔试面试常考问题及答案

来源:知乎 链接:https://zhuanlan.zhihu.com/p/261298869 基础知识 原理务必理解透彻。 锁存器的结构-DFF的结构-建立保持时间-亚稳态-STA-CDC。 亚稳态的成因,危害,解决方法。 建立保持时间的计算,违例的Fix&#x…

3D建模除了日常工作,私下还可以赚外快哦,分分钟嗨赚

学习了游戏建模,肯定是想赚些外快的,可是有哪些地方可以提供这些方便呢?接下来陌陌就来说说了 APP和网站 八戒网:一个比较老的网站,会有一些企业发单,有很多任务,如果能力够不仅能赚取还能给对…

网上赚钱并不适合所有人!你为何没有在网上赚到钱!

为何100个人在网上开端挣钱,最后能挣钱的不到10个人呢?其实网上现在挣钱早已不是早期那么简略了!互联网最开端也许是为了把各个地方的人链接在一起,可是不知道从什么时候开端互联网上的人逐渐形成了一个集体然后再到一个圈子。 ​…

飞迈阁带你了解网上赚钱

中国互联网的发展近20年左右,网兼也曾经有过非常多的值得很多人回忆与唠嗑的时​代,每个时代都存在着变富的人,在这些人的背后有的是沧桑,有的是肮脏,网兼就是如此,它本来就差不多是一个毁誉参半的圈子。 当…