看完GPT-4测评报告,人麻了

击上方关注 “终端研发部

 

设为“星标”,和你一起掌握更多数据库知识

微软前两天发布了一个154页的GPT-4全方面测评报告,看完直接人麻了,确实太强了!!

说实话,很少看到这么多人转发关注一个论文:

9616c6e46bb3cce2c8ec786ab5d156f7.png

简单一句话总结一下:GPT-4不仅仅掌握语言能力,还可以在没有特殊提示的情况下,去解决新颖而困难的问题,跨越数学、编码、视觉、医学、法律、心理学等领域的任务

此外,在所有这些任务中,GPT-4的性能惊人地接近人类水平。从性能来说通常大大超过诸如ChatGPT之类的先前模型。

需要注意的是,这里测评报告中使用的是GPT-4早期模型,非多模态版本,也就是只有语言建模任务。

下面是论文的重点解析报告:

源:机器之心

1fc520382d5764416377ec6f1216293d.png

论文地址:https://arxiv.org/pdf/2303.12712.pdf

有趣的是,这篇火爆的论文还被人发现有大量删减,因此有人找出了未删节版论文。

从未删减版本中,这个博主也扒出了大量隐藏的细节,如 GPT-4 的内部名称为 DV-3,实际上也是该论文的隐藏第三作者,后被删除;这些微软的研究人员对 GPT-4 的技术细节似乎了解也并不多。此外博主也透露这篇论文发布时删除了有关毒性内容的部分(防止给 OpenAI 造成负面?)。

我们下面粘贴了该博主的 Twitter 线程,感兴趣的可以查看。

58d0b222176fc4ce9bfe40b4a87c40ac.png

Twitter thread:https://twitter.com/DV2559106965076/status/1638769434763608064

回到文章本身。

根据文章所认定的 AGI,是具体的拥有推理、计划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习的能力。从这些能力出发,论文进行了有趣的实验和评测。

论文分为 10 个章节:第一章为总括部分;第二章介绍了多模态,主要和视觉生成内容相关;第三章代码,根据指令生成代码、理解现有代码;第四章数学能力;第五章与世界的交互;第六章与人类的交互;第七章判别力;第八章 GPT-4 局限性;第九章社会影响;第十章未来方向及结论。

下面我们通过具体的示例,看看 GPT-4 是不是真的迈进了 AGI 时代。

多模态和跨学科组成

为了测试模型将艺术与编程相结合的能力,该研究要求 GPT-4 用 javascript 写一段代码,以生成康定斯基风格的随机图像,下图第一张为 Wassily Kandinsky 创作的,第二张和第三张分别由 GPT-4 和 ChatGPT 生成的:

08a063a2b6afc2007b54b4df6946676c.png

下面为 GPT-4 代码实现过程:

e852beaf6508555e45bd2bc265031f5c.png

进行视觉概念理解:在这个作图任务中, 输入提示让模型结合字母 Y、O、H 的形状来画一个人。其实在 GPT-4 的训练过程从没有关于字母形状的认识,只能从相关训练数据中、模糊地学习到字母与一些特定形状有关,结果显示 GPT-4 生成的结果还不错:

af7efac3840cbefeddeaba452d6feb50.png

用于草图生成:GPT-4 还能与 Stable Diffusion 进行结合。下图为 3D 城市建模截图,输入提示有一条河流从左到右流淌、河的旁边建有金字塔的沙漠、屏幕底部有 4 个按钮,颜色分别为绿色、蓝色、棕色和红色。下面是生成结果:

bbcf4b6a2676239d53e369d80abb15e7.png

你还能要求 GPT-4 用 ABC 记谱法生成和修改曲调:

33fc5f26c72c50f39cbb4faae55fce9a.png

编程能力

GPT-4 有非常强大的编程能力,包括根据指令编写代码和理解现有代码。该研究具体测试了 GPT-4 在编程方面的能力。

代码编写

下图 3.1 是一个让 GPT-4 写 python 函数的例子,该研究使用 LeetCode 在线判断代码是否正确。

27b6f4354fdc60b854da53d982bde809.png

8b234aec965dd842def4e8e6e3245588.png

然后,该研究让 GPT-4 将上表 2 中 LeetCode 上的准确率数据可视化为图表,结果如下图 3.2 所示。

110cf3eee3d8ff0aa5af15967f7c19aa.png

前端 / 游戏开发

如下图 3.3 所示,该研究让 GPT-4 用 JavaScript 在 HTML 中编写 3D 游戏,GPT-4 在零样本的情况下生成了一个满足所有要求的游戏。

fae9b5c1b9bb88e80897c6137a999bb7.png

深度学习编程

为深度学习编写代码需要数学、统计学知识,并熟悉 PyTorch、TensorFlow、Keras 等框架和库。如下图 3.4 所示,研究者要求 GPT-4 和 ChatGPT 编写自定义优化器模块,该任务对于人类深度学习专家来说也是具有挑战性的。研究者为 GPT-4 和 ChatGPT 提供了自然语言描述,其中包括一系列重要的操作,例如应用 SVD 等等。

be680691f097781050069059093efac2.png

此外,该研究还测试了 GPT-4 把代码转换成 LaTex 公式的能力,结果如下图 3.5 所示。

1769dee716ae80497d3357cdd8a0dc8a.png

在理解代码方面,该研究尝试让 GPT-4 和 ChatGPT「读懂」一段 C/C++ 程序,并预测程序的输出结果,二者的表现如下:

f37acae5b48e6dc7c0fa7d1dcc189be4.png

然后,该研究让 GPT-4 解释了一段 Python 代码:

ec24201a905b6bb46f60e163e671e3b8.png

还有解释一段伪代码:

68c3fe712a74da97d7a45a20dc03a97e.png

数学能力

一直以来,大型语言模型的数学能力似乎一直不是很好。那么 GPT-4 在这方面表现如何呢?本文经过一系列评测,结果表明 GPT-4 相比以前的模型在数学方面有了质的飞越,但是离专家水平还差得很远,不具备数学研究的能力。

在与 ChatGPT 的对比中, GPT-4 成功的生成了解决方案,而 ChatGPT 生成了错误答案:

1adb8a9270a30f52b5ec8ee83430a3b4.png

在 AP 问题上,GPT-4 vs ChatGPT 对比结果。GPT-4 使用了正确的方法,不过由于计算错误导致最终答案错误,而 ChatGPT 产生了一个不连贯的论点。

e3aa7c807e7a51163999e3d758c6d691.png

此外,本文还测试了 GPT-4 使用数学思维和技术来解决现实问题的能力:下图展示了 GPT-4 如何成功地为一个需要广泛跨学科知识的复杂系统构建合理的数学模型,而 ChatGPT 未能取得有意义的进展。

fe0075a95e5882719eb1142b8e6c1e64.png

由于论文内容长达 154 页,本文只对评测结果进行了大量展示,想要了解更多内容,读者可以参考原论文。

最后附上论文目录:

f81532dfe1b32b082ec1a769e3623432.png

4e2b8c4bac2facd1c2f3f9aaf2799965.png

64260d7871d2d04b069954d240ce6b0c.png

23ffad903fad1081a990a53e06766187.png


-END-

如果看到这里,说明你喜欢这篇文章,请 转发、点赞。同时 标星(置顶)本公众号可以第一时间接受到博文推送。

4b5234127262a2a93f24a323b4d9559f.jpeg

回复 【idea激活】即可获得idea的激活方式

回复 【Java】获取java相关的视频教程和资料

回复 【SpringCloud】获取SpringCloud相关多的学习资料

回复 【python】获取全套0基础Python知识手册

回复 【2020】获取2020java相关面试题教程

回复 【加群】即可加入终端研发部相关的技术交流群

用 Spring 的 BeanUtils 前,建议你先了解这几个坑!

lazy-mock ,一个生成后端模拟数据的懒人工具

在华为鸿蒙 OS 上尝鲜,我的第一个“hello world”,起飞!

字节跳动一面:i++ 是线程安全的吗?

一条 SQL 引发的事故,同事直接被开除!!

太扎心!排查阿里云 ECS 的 CPU 居然达100%

一款vue编写的功能强大的swagger-ui,有点秀(附开源地址)

相信自己,没有做不到的,只有想不到的

在这里获得的不仅仅是技术!

4d7fa86db4accb91dc00b011658f04b2.png

9a8d61a69ec3d4299a48b9c1b0e30b36.gif

喜欢就给个“在看3a08ef479a882dfdb4860794cd1f288e.gif 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13782.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谷歌CEO撰文:要安全、负责任地搞人工智能;GPT-4通过CPA会计考试;cURL 8.1 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

今天打开个税APP,我直接人麻了!

大家好,我是程序员小猿。 xdm,你们个税申报都完成了?每到每年3月份,我就很高兴,因为我基本上每年都会退税。作为一名博主,平时接点小广告,都是按劳务税20%走的,到每年3月份时&#x…

ChatGPT+智能家居在AWE引热议 OpenCPU成家电产业智能化降本提速引擎

作为家电行业的风向标和全球三大消费电子展之一,4月27日-30日,以“智科技、创未来”为主题的AWE 2023在上海新国际博览中心举行,本届展会展现了科技、场景等创新成果,为我们揭示家电与消费电子的发展方向。今年展馆规模扩大至14个…

我让 chatGPT 教我学一下操作系统怎么样?

大家都知道现在 chatGPT 已经在多个领域展现了及其强大的工地,比如文案策划,毕业论文方便,甚至很多程序员都直接让 chatGPT 帮忙写代码了,在一些模板化的代码方面,chatGPT 更展示了优秀的能力。 所以我突然迸发了一个…

HarmonyOS 最热门、生态成“老大难”,揭晓数万名开发者眼中的国产操作系统!...

作者 | 屠敏 出品 | CSDN(ID:CSDNnews) 操作系统经历了 30 多年的本土化发展,趟过了荒漠沙丘,栽培了基于 UNIX 操作系统开发模式下的零星绿植,再到现如今基于 Linux 以及自研技术的茂密森林,其上…

巴比特 | 元宇宙每日必读:外媒称谷歌终止AR头显项目,转向构建AR软件平台,微软曾吐槽市场规模太小,苹果、Meta仍在坚持...

摘要:据华尔街见闻报道,相比AI概念火爆拥挤,头显赛道显得格外冷清。周二,据Business Insider报道,谷歌终止了代号为Iris的增强现实(AR)头显项目,转向AR软件平台的构建。目前,头显巨头们开始“分…

AI 写作,30 秒上手,可别再说写作没思路了

你经常要与文字打交道吗,是不是也会有以下困惑? 写作难下笔写不好?课程制作难缺灵感?营销文案没吸引力?PPT制作耗时费力?短视频脚本没创意? ChatGPT 出现以后,嗅觉灵敏的先行者&…

AI Canon精选资源清单;带AI功能的PS安装文件与教程;讯飞星火10月对标 ChatGPT;直播换脸工具盘点 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 AI Canon:人工智能精选资源清单 思维导图 ShowMeAI知识星球资源编码:R106 AI Canon 是由美国著名的风投机构 …

万字长文:可能是全网最晚的ChatGPT技术总结-2

目前公开开源的模型FLAN T5就是在T5模型基础上进行了指令微调的训练,相较于那些动辄几百亿、几千亿参数的大模型来说,这个模型的参数量已经足够亲民,可以作为个人研究或者业务实现的strong baseline 接上一篇 作者:邱震宇&#x…

都说AI增益客服 企业实测:提效90%

吴立楠记得ChatGPT刚出来时全公司涌动着的激奋,“从CEO到投资人,天天开会讨论怎么和产品结合。”2022年12月,ChatGPT发布没几天,智能客服公司智齿科技的这位CTO与团队投入到一场耗时4个月的研发大战。目标明确:将GPT大…

超越ChatGPT——SelfCommNet:一种拥有自我意识的神经网络设计

SelfCommNet:一种拥有自我意识的神经网络设计 *注意:从本文获得相关思想需要注明引用本文* 引言心理学与神经科学基础方法1、整体架构2、外部输入数据及其编码器3、交流网络(Communication network system)4、输出数据控制器5、权重抑制6、记忆网络(Memo…

AI人工智能内容创作-超越ChatGPT

借助更多工具利用人工智能的力量,让你更快获得更好的结果,超越ChatGPT,如果你认为ChatGPT很棒,但你想要更清晰、更快、更好的结果,以及不需要超级准确的提示就能让它变得神奇的人工智能,请举手!…

科大讯飞发布超越ChatGPT的中文大模型:讯飞星火,真的能成为人工智能领域的新星吗?

近日,科大讯飞召开了星火认知大模型成果发布会,宣布讯飞星火大模型将突破开放式问答,对标ChatGPT,在中文能力上超过ChatGPT,在英文能力上与ChatGPT相当。这一消息引起了人工智能领域的广泛关注。 作为人工智能领域的翘…

讯飞星火大模型将超越chatgpt吗?

近日,科大讯飞召开了星火认知大模型成果发布会,会上表示讯飞星火大模型将突破开放式问答,对标ChatGPT,在中文能力上超过ChatGPT,在英文能力上与ChatGPT相当。对此,你怎么看? 一、你有使用过这种…

超越 ChatGPT,GPT-4 将成为下一个“顶流”?

出品人:Towhee 技术团队 从2022年底开始预热,智能对话机器人 ChatGPT (即 GPT 3.5)成功地又一次掀起了人工智能的热潮。除了AI 相关的从业者以外,如今 ChatGPT 已是家喻户晓。就在美国东部时间 3月14日,其…

Ernie3.5超越ChatGPT,中文测试胜过GPT-4

百度最近宣布,其旗下的ChatGPT风格服务在多个方面表现优于OpenAI的聊天机器人。该公司最新推出的AI模型Ernie3.5不仅在综合能力评分上超过了ChatGPT(GPT-3.5),而且在中文测试中也超越了GPT-4。这一成就标志着百度在人工智能领域取…

超越 ChatGPT ?AutoGPT 爆火,两周斩获 50k+ Star:无需人类插手,自主完成任务!...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 刚上线两周就收获 50k Star,看来 Auto-GPT 是真的火了! (项目地址:https://github.com/Torantulino/Auto-GPT?refjina-ai-gmbh.ghost.io) …

超越 ChatGPT

今天在LLM上构建产品的技术。 现代指令调整语言模型(LLM)是软件工程师工具箱中的最新工具。加入数据库、网络、超文本和异步 Web 应用程序等经典技术,我们现在有一种新的使能技术,它看起来非常强大,但其最佳应用程序尚…

超越 ChatGPT:生成式人工智能如何塑造下一代智能系统

生成式 AI 系统的创建是过去几年人工智能领域最重要的进步之一。生成式 AI 系统可以产生新颖、独特和原始的输出,这与典型的 AI 系统形成鲜明对比,典型的 AI 系统是分类器,经过训练可以区分几种类型的项目。这种生成式 AI 为在各个行业中使用这些技术创造了有趣的新机会。 生…

爆火的 AutoGPT 超越 ChatGPT ?两周斩获 50k+ Star

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 刚上线两周就收获 50k Star,看来 Auto-GPT 是真的火了! (项目地址:https://github.com/Torantulino/Auto-GPT?refjina-ai-gmbh.ghost.io) …