做完GPT-4完整测评,微软爆火论文称初版AGI就快来了

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

GPT-4 的能力什么档次?

1956 年,在达特茅斯学院召开的一个研讨会上,人工智能这一概念正式被提出。

之后这个词一直挑战着心理学家、哲学家和计算机科学家,因为它太难被定义了。1994 年,52 名心理学家联合发文试图捕捉它的本质。

随着时间的推移,研究者开始将注意力转移到特定领域的 AI 系统,如 2016 年 AlphaGo 挑战韩国冠军棋手大获全胜。之后,时间来到 20 世纪 90 年代末和 21 世纪初,研究者不满足于专用 AI,因此开发更通用的人工智能系统呼声越来越高。随之而来的是,通用人工智能 (AGI) 一词开始在 2000 年代初期流行起来。

最近一段时间,如大家所见,大型语言模型 (LLM) 走到聚光灯下,这些神经网络基于 Transformer 架构,并在大量文本数据集上训练而成。尤其是 OpenAI 最新发布的 GPT-4,更是展示了大型语言模型的通用性,在数学、文字、法律、医学等领域样样精通。

我们不禁会问,GPT-4 是迈向 AGI 的重要一步吗?

微软给出的答案是肯定的,在其最近发布的一篇论文中,他们阐述了这个观点。文中对 GPT-4 进行了全面评测。微软认为「鉴于 GPT-4 能力的广度和深度,我们相信它应该被合理视作一个通用人工智能(AGI)系统的早期(但仍不完整)版本。」

微软还表示,「本文的主要目标是对 GPT-4 的能力和局限性进行探索,我们相信 GPT-4 的智能标志着计算机科学及其他领域的真正范式转变。」

27db60bd1d80a94c003883d0e3f6f43e.png

论文地址:https://arxiv.org/pdf/2303.12712.pdf

有趣的是,这篇火爆的论文还被人发现有大量删减,因此有人找出了未删节版论文。

从未删减版本中,这个博主也扒出了大量隐藏的细节,如 GPT-4 的内部名称为 DV-3,实际上也是该论文的隐藏第三作者,后被删除;这些微软的研究人员对 GPT-4 的技术细节似乎了解也并不多。此外博主也透露这篇论文发布时删除了有关毒性内容的部分(防止给 OpenAI 造成负面?)。

我们下面粘贴了该博主的 Twitter 线程,感兴趣的可以查看。

38913be59bd44c352a395bd5b5afec29.png

Twitter thread:https://twitter.com/DV2559106965076/status/1638769434763608064

回到文章本身。

根据文章所认定的 AGI,是具体的拥有推理、计划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习的能力。从这些能力出发,论文进行了有趣的实验和评测。

论文分为 10 个章节:第一章为总括部分;第二章介绍了多模态,主要和视觉生成内容相关;第三章代码,根据指令生成代码、理解现有代码;第四章数学能力;第五章与世界的交互;第六章与人类的交互;第七章判别力;第八章 GPT-4 局限性;第九章社会影响;第十章未来方向及结论。

下面我们通过具体的示例,看看 GPT-4 是不是真的迈进了 AGI 时代。

多模态和跨学科组成

为了测试模型将艺术与编程相结合的能力,该研究要求 GPT-4 用 javascript 写一段代码,以生成康定斯基风格的随机图像,下图第一张为 Wassily Kandinsky 创作的,第二张和第三张分别由 GPT-4 和 ChatGPT 生成的:

f14136227b8b0a0e5fe315383b78c969.png

下面为 GPT-4 代码实现过程:

424fa44531f72e335688664eb2196615.png

进行视觉概念理解:在这个作图任务中, 输入提示让模型结合字母 Y、O、H 的形状来画一个人。其实在 GPT-4 的训练过程从没有关于字母形状的认识,只能从相关训练数据中、模糊地学习到字母与一些特定形状有关,结果显示 GPT-4 生成的结果还不错:

4c0759d37b719dc74764fab9409e695f.png

用于草图生成:GPT-4 还能与 Stable Diffusion 进行结合。下图为 3D 城市建模截图,输入提示有一条河流从左到右流淌、河的旁边建有金字塔的沙漠、屏幕底部有 4 个按钮,颜色分别为绿色、蓝色、棕色和红色。下面是生成结果:

0d6ca427dce967b2b5970c9851111420.png

你还能要求 GPT-4 用 ABC 记谱法生成和修改曲调:

8a34dd68bb21329434b35e0d3f582698.png

编程能力

GPT-4 有非常强大的编程能力,包括根据指令编写代码和理解现有代码。该研究具体测试了 GPT-4 在编程方面的能力。

代码编写

下图 3.1 是一个让 GPT-4 写 python 函数的例子,该研究使用 LeetCode 在线判断代码是否正确。

50701636aa796e6c73ad74dfe6411e13.png

367344fa1b9a589bbeaae910ed6f6655.png

然后,该研究让 GPT-4 将上表 2 中 LeetCode 上的准确率数据可视化为图表,结果如下图 3.2 所示。

96ce22106a16275815c13b78f09ce6b6.png

前端 / 游戏开发

如下图 3.3 所示,该研究让 GPT-4 用 JavaScript 在 HTML 中编写 3D 游戏,GPT-4 在零样本的情况下生成了一个满足所有要求的游戏。

5faa346e969b86459542dc865589d974.png

深度学习编程

为深度学习编写代码需要数学、统计学知识,并熟悉 PyTorch、TensorFlow、Keras 等框架和库。如下图 3.4 所示,研究者要求 GPT-4 和 ChatGPT 编写自定义优化器模块,该任务对于人类深度学习专家来说也是具有挑战性的。研究者为 GPT-4 和 ChatGPT 提供了自然语言描述,其中包括一系列重要的操作,例如应用 SVD 等等。

18c263b06fbb0666c2b8cbf0d480063b.png

此外,该研究还测试了 GPT-4 把代码转换成 LaTex 公式的能力,结果如下图 3.5 所示。

94b791774684aa065e73eaf2e2b9e736.png

在理解代码方面,该研究尝试让 GPT-4 和 ChatGPT「读懂」一段 C/C++ 程序,并预测程序的输出结果,二者的表现如下:

bc54a0fd117cd9297df7afeb4cfd0928.png

然后,该研究让 GPT-4 解释了一段 Python 代码:

bfc7402e124dd9243600a7542fe0d8b2.png

还有解释一段伪代码:

2d9cb00c5620c46118312c94f56fa70f.png

数学能力

一直以来,大型语言模型的数学能力似乎一直不是很好。那么 GPT-4 在这方面表现如何呢?本文经过一系列评测,结果表明 GPT-4 相比以前的模型在数学方面有了质的飞越,但是离专家水平还差得很远,不具备数学研究的能力。

在与 ChatGPT 的对比中, GPT-4 成功的生成了解决方案,而 ChatGPT 生成了错误答案:

bee140807db8bf80b375c37bd0ce1c12.png

在 AP 问题上,GPT-4 vs ChatGPT 对比结果。GPT-4 使用了正确的方法,不过由于计算错误导致最终答案错误,而 ChatGPT 产生了一个不连贯的论点。

6274a0ddcd6f19cbf9c986fe7c33803b.png

此外,本文还测试了 GPT-4 使用数学思维和技术来解决现实问题的能力:下图展示了 GPT-4 如何成功地为一个需要广泛跨学科知识的复杂系统构建合理的数学模型,而 ChatGPT 未能取得有意义的进展。

cd51b4e42ae9d75c4d44b89bb4663fba.png

由于论文内容长达 154 页,本文只对评测结果进行了大量展示,想要了解更多内容,读者可以参考原论文。

最后附上论文目录:

409fe2c16cce77d0e3e327251fc4b684.png

9ba2baa4a8c79b8479bc6aa5772e1b00.png

d783e55bb8f1b5bc57d88da72d72c772.png

aefeaab2c5cbe72127e91ebe4ab3fe5c.png

 

好消息!

小白学视觉知识星球

开始面向外开放啦👇👇👇

 

e9410683ef3c6b85dd92951ec2e8a515.jpeg

下载1:OpenCV-Contrib扩展模块中文版教程在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。交流群欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/59578.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023智源大会议程公开 | 基于认知神经科学的大模型

2023年,人工智能新研究、新系统、新产品竞放——我们即将见证另一场有关智能的惊叹演化。6月9日,2023北京智源大会,将邀请这一领域的探索者、实践者、以及关心智能科学的每个人,共同拉开未来舞台的帷幕,你准备好了吗&a…

python3写360图库爬虫

前言 要求:进行搜索并且保存360图库图片 图库地址:360图库 基本思路 简单分析以后,发现360图库使用动态渲染,并且采用下拉反式加载图片,那么解决问题就出现3种常用方法,操作js、模拟浏览器、Ajax。如果使…

“一言”既出,谁与争峰:权威国际测评给文心大模型3.5打出满分,三项绝对第一领跑!...

国内百“模”大战下,究竟谁实力最强,全球领先的IT市场研究和咨询公司IDC最新发布的《AI大模型技术能力评估报告,2023》给出了答案。报告显示百度文心大模型3.5拿下12项指标的7个满分,综合评分第一,算法模型第一&#x…

三个月诞生79个基础大模型,企业选用大模型需要注意些什么?

自从ChatGPT横空出世,各类大模型层出不穷,竞争也日渐激烈,可谓“乱花渐欲迷人眼”。 随着大公司的入场,无疑给创业公司带来了降维打击,创业公司随时可能倒掉,造成项目烂尾。 我也一直在关注大模型领域的最…

知名插画师走尺,带你走进“薪”世界

如果你要问我,掌握一门技能难不难呢?说实话,我觉得只要足够热爱,苦也是甜。 回顾我刚工作那几年,很注重自己的个人成长,总是一头扎进学技能的热潮里,看到别人因为什么技能提升改变了自己&#…

写着代码的插画师—王凌 |WLOP|

王凌(wlop),出生于江苏苏州,毕业于香港大学工学院,是一名工程师,自学的数字艺术与插画。 个人主页: http://wlop.deviantart.com/ 微博id: wlop- 以下部分内容来自 /CHOK/ /幕青社/ wlop-微博截图 ▼ 或许有朋友知道这位《鬼刀》(ghost blade)漫画的作者。 高中时偶然在有妖…

csp怎么给线条描边,插画师要失业了?还在纠结阴影怎么画?CSP软件能直接自动生成...

原标题:插画师要失业了?还在纠结阴影怎么画?CSP软件能直接自动生成 阴影怎么画?CSP软件好用吗?板绘应该如何入门?如何成为插画师?学习绘画难吗?怎样才能学好绘画?想必这些…

插画师的配色灵感分享

插画师|vacuum_chan 甜酷暗黑配色: 对比度高 明度低 饱和度高 风格:暗黑 魔幻 甜酷 神秘 /作品从人物造型、配色上,都可以当作我们用来练习人物插画、场景插画的学习参考。

AI插画师:生成对抗网络

目录 7.1 GAN的原理简介 7.2 用GAN生成动漫头像 7.3 实验结果分析 生成对抗网络(Generative Adversarial Net,GAN)是近年来深度学习中一个十分热门的方向,卷积网络之父、深度学习元老级人物LeCun Yan就曾说过“GAN is the most interestin…

西班牙插画师 Alex Vede

西班牙插画师 Alex Vede 西班牙插画师 Alex Vede,用细碎的线条刻画出细节丰富的场景,却能让人感受到画面里满满的故事情节。 西班牙插画师 Alex Vede,用细碎的线条刻画出细节丰富的场景,却能让人感受到画面里满满的故事情节。 西…

兴趣变高薪副业,知名插画师走尺带你感受插画的魅力

随着9月份的临近,又有一批新生即将步入大学校园,不免让我想起暑期“女生考入清华美院校长送化妆包”话题引起网友热议。据悉,文化成绩优异的魏泽涵因不舍内心热爱,高二依然选择艺考,为追上其他艺术生同学,她…

插画师所需的基础软件

ps虽然功能很多,看起来很复杂的样子,但绘画的话,常用的就几个工具,不会的可以去b站搜专门针对绘画的ps教程。 PS笔刷:平时日常练习,ps自带的笔刷就够用了,工作中一般有特定的笔刷,主…

插画师所需的素材网站

NO.1字加网 简介:登陆即可免费下载网站所有字体,所有字体都可以免费个人使用,部分字体可以免费商用。主要是中文字体,少量泰文和日文字体,界面清晰,分类清楚,是非常不错的字体网站。 NO.2 Font…

商业插画师走尺印象:只为做生活的设计师

从“知识改变命运”到如今的“技能改变人生”,拥有一技之长显然已经成为当下人尽皆知的一个生存之道。掌握一门顺应时代发展的高含金量技能,不仅能够增加自己的财富,甚至可以改变自己的一生。 到7月底,我已经跟着走尺老师学习插画…

天津插画师培训机构 ,0基础可以学吗?

天津插画师培训机构 ,0基础可以学吗? 其实很多0零基础同学在学和不学之间犹豫,大部分的原因是考虑学习插画难不难,自己能不能学的会?现在就告诉你,学习插画很简单,0基础同学也可以的&#xff0…

插画师配色分享

插画师|kun333r 梦幻配色: 对比度高 色相丰富 光泽感 风格:少女 厚涂 梦幻 浪漫 作品从人物造型、配色上,都可以当作我们用来练习厚涂插画、氛围感插画的学习参考。 “想要坠入深海里,独自去最深的海底。 还想…

对话知名视觉艺术设计师走尺:只要用心 人人是插画师

商业插画,和大多数人的日常生活关系紧密,穿的衣裤鞋靴,用到的外卖袋、包装盒,看到的广告动画等,早已充满了“插画”。 今天,我们有幸访谈了国内知名插画师走尺老师。跟随他的思想和艺术之路,探…

插画师培训机构盘点

哪些插画课程班比较靠谱?给大家梳理了国内最新5大插画班排行榜,各有优势和特色! 国内知名插画培训机构排名 1、轻微课(五颗星) 主打课程有日系插画、游戏原画、古风插画、动漫漫画,以“魔鬼训练”和“魔…

Android模仿微信UI界面

初学安卓制作的 下载链接

Android 画图方式总结

Android apk 里面的画图分为2D和3D两种:2D是由Skia 来实现的,也就是我们在框架图上看到的SGL,SGL也会调用部分opengl 的内容来实现简单的3D效果;3D部分是由OpenGL|ES实现的 先了解一下Android apk的几种画图方式,然后…