“GPT-4时代来临:为何这一代AI模型让GPT-3.5相形见绌?“


这个东西太强大了,GPT-4不同于ChatGPT先前的模型GPT-3.5,它不仅可以接收文字,同时还可以接受图片,但是图片还未开放给大众,从OpenAI的官方视频可以看到一段非常厉害的片段。

这个人用笔在本子上随便画了个自己网站的草图

然后用手机把这个草图拍下来

发送给GPT-4

它识别出了这是一个网站的草图

然后顺便生成了要建成这个网页的代码

好了,你的网站建好了

相比之下,这是原始的图

它强就强在可以接受图片为输入,并且能准确理解图片中的含义。

全文重点摘要

简短版:GPT-4是一个多模态的模型,可以接受文字和图片输入,并且输出文字。现在只开放了文字输入的功能,图片输入功能还在加紧开发中。

  • OpenAI发布了GPT-4,这是一个大型多模态模型,能够接受图像和文本输入,并输出文本。
  • 虽然在某些情况下它不如人类,但在各种专业和学术考试中表现出了与人类水平相当的性能(human-level performance)。
  • GPT-4的训练稳定性是史无前例的(unprecedentedly stable),这得益于对抗性测试计划(dversarial testing program)和来自于ChatGPT的经验教训。
  • 在过去的两年里,OpenAI重建了整个深度学习堆栈,并与Azure共同设计了一台超级计算机以便于应付他们的工作负载。
  • OpenAI首先发布了GPT-4的文本输入功能,图像输入功能敬请期待
  • OpenAI还开源了OpenAI Evals,这是他们的自动化评估AI模型性能的框架,任何人都可以提交他们模型的缺陷以帮助改进。

Logo的变化

图片的变化,前者是GPT-4,后者是ChatGPT的模型GPT-3.5可以看到,后者更整齐,更格式化;但新出的GPT-4给人的感觉反而显得杂乱。

其实背后的原因我觉得是GPT-4是个多模态()的模型,不同于GPT-3.5只能接受文字作为输入,GPT-4还可以接受一张图片作为输入,比如一份高考数学卷子,然后你可以根据这份卷子问一些问题,这就一定程度上解决了图片的变化。

性能的变化

简短版:比GPT-3.5,GPT-4更加可靠、有创造力,并能够处理更加微妙的指令。

详细版:跟GPT-3.5,也就是chatgpt在随意的交谈中,他们的区别可能不是很大。但是一旦任务的复杂性达到足够高的时候,差异就会显示出来。

为了了解这两种模型之间的区别,OpenAI在各种基准测试中进行了测试,比如这两种Olympiads and AP free response questions。并且值得注意的是,他们并没有针对性的拿着两种考试进行训练,意思是他们这个模型并没有针对特定的问题进行微调。

可以可以看到,GPT-4(绿色)大体上要比GPT3.5好,并且展现出类似于人类的水平。其中值得注意的是,GPT-4在这项律师考试(Uniform Bar Examination)中获得了前10%的高分。

下面是具体的得分,在很多项都是很靠前的得分。

在benchmark基准数据集上的表现优异

GPT-4在下面的这几个经常用来比较模型性能的数据集上做了测试,展现出了很高的性能,比如第一个MMLU数据集,GPT-4达到了86.4%的准确度,而SOTA也就是最高性能的才75.2%。OpenAI提到了,这些模型都是针对于特定任务经过精心调整的,然而,GPT-4可以说是爆杀了。

在其中语言上的比较

大多数的测试数据都是英文,为了测试GPT-4在其他语言上的性能,他们用Azure的翻译功能,将MMLU这个数据集翻译成了26种语言。在其中的24种语言上,GPT-4比GPT-3.5和其他的大语言模型,这里他们比较了Chinchilla, PaLM。

其中随机猜测的准确率是25%,符合多选题的概率。

Chinchilla- 67%,PaLM-69.3%和GPT-3.5 – 70.1%,

从图中可以看到,最差的两个是Marathi和Telugu,经过查证,这是俩印度的官方语言,大概率是使用人数虽然多,但是在互联网上以文字存在的分量并不多。

可以看到中文的性能也很好,只比英文差一点。

视觉输入性能

简短版:还在研究阶段,不公开。

详细版:GPT-4可以接受文本和图像输入,并且这两个是可以掺杂着用,它允许你用跟之前文本一样的使用方式。

一共有7个例子,总结起来,它可以识别搞笑图片,可以做复杂的物理化学之类的题目,可以做看图题,可以读论文,可以识别meme图片,总之,非常的强,可惜还不能开放使用。

第一个图

可以看到,它非常准确的认出了每幅图,并能理解为什么这幅图的搞笑之处。

第二幅图

这是一个对于普通人非常简单的看图题,但是对于之前的机器学习,这是很难做到的,GPT-4不仅可以读懂问题,还能非常完整的回答对。

第三幅图

这已经是一道有点儿复杂的像是物理的问题了,回答的准确无误。

第四幅图:

还是找异常点,准确。

第五幅图

读论文并总结,好像ChatPDF要完蛋了。

https://github.com/openai/evals我也是想了几秒钟后才察觉这是一个由鸡块构成的地球,GPT-4的回答非常精准。

第七幅图

解释了统计机器学习和深度学习的异同点,前者取消降低过拟合,后者需要增大网络层数,其实是一个比较专业性的搞笑图片。

但是结论是完全没问题的。

视觉数据集上的表现

还是没有经过微调,部分超过SOTA,部分跟SOTA持平,总之,很强。

操纵性(Steerability)

可以更好的规定你想要的回答风格,比如说你想要一位苏格拉底式的导师。特点是从不直接给学生答案,但会用启发式的形式教导学生,让学生学会独立思考。

莎士比亚风格的海盗(英译中很差,不如直接上英文)

让GPT-4保持Json的回答形式

局限性

跟之前的ChatGPT一样,它还是有可能会输出不可靠的内容,但是经过几个月的调整,性能提升很大。

比如在对抗性的问题TruthfulQA上,GPT-4性能提升具有统计意义的显著性。

至于数据问题的时间问题,还是一样,2021年之后的数据就不知道了,并且还是会随机的生成一些错误的内容,但是经过校准之后,这样的错误大大的减少了。

风险和应对措施

  • OpenAI一直在对GPT-4进行迭代,以使其更加安全。
  • GPT-4与以前的模型一样具有风险,但由于其额外的能力,从而会导致新的风险。
  • 邀请了50多名专家对模型进行对抗测试,以提高模型的安全性能。
  • GPT-4在RLHF训练过程中加入了额外的安全奖励信号,以减少有害输出。
  • 为了防止模型拒绝有效请求,收集了多样化的数据集,并在允许和不允许的类别上应用安全奖励信号。
  • 缓解措施显著提高了GPT-4的安全性能,例如将模型对于不允许内容请求的响应率降低了82%。

分别对于两个问题的回应

可以预测的扩展

OpenAI的GPT-4项目致力于构建一个可预测扩展的深度学习堆栈,以便在非常大的训练运行中不需要进行广泛的模型特定调整。他们开发了基础设施和优化,使得在多个规模上具有可预测的行为。现在,OpenAI能够准确预测训练期间他们优化的度量(损失),并开始开发预测更可解释的度量的方法。

他们认为,准确预测未来的机器学习能力是安全的一个重要部分,但是相对于其潜在影响,它并没有得到足够的关注。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/61453.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信聊天记录数据分析

目录 一、项目背景 二、数据准备 三、数据预处理及描述性统计 四、数据分析 1.聊天小时、日、月分别汇总分布图 2.聊天时间序列分布图 3.高频词汇统计 4.词云图展示 五、其它探索性分析 一、项目背景 2021年2月20日我和我女朋友第一次见面,之后开启了我们两个人的故…

个人电子邮箱注册申请哪个更好用?

在邮箱刚刚兴起的时候,我注册了个人邮箱,平常会保存一些家庭照片以及重要的工作邮件,最近在清理电脑时不小心清理了重要的邮件。于是我在百度上搜索了一些怎么可以恢复邮件的攻略,网友回复说升级TOM个人邮箱会员有误删恢复的功能。…

数据科学家赚多少?数据全分析与可视化 ⛵

💡 作者:韩信子ShowMeAI 📘 数据分析实战系列:https://www.showmeai.tech/tutorials/40 📘 AI 岗位&攻略系列:https://www.showmeai.tech/tutorials/47 📘 本文地址:https://www…

人美声甜GPT,数学题哪里不会讲哪里

衡宇 发自 凹非寺量子位 | 公众号 QbitAI 大模型的颠覆和变革,还只是开始。 ChatGPT一炮而红,重塑搜索、办公协同等多个场景和行业后,在线教育,被视为最重要的垂直场景——毕竟大语言模型展示出的能力,正是之前在线教育…

除了方文山,用TA你也能帮周杰伦写歌词了

周杰伦几乎陪伴了每个90后的青春,那如果AI写杰伦风格的歌词会写成怎样呢? 首先当然我们需要准备杰伦的歌词,这里一共收录了他的十几张专辑,近5000多行歌词。 原文档格式: 第一步数据预处理 def preprocess(data):&qu…

Selenium+Request+Beautifulsoup(周杰伦,林俊杰歌词爬取)

爬去JZ的歌词是为了做一个NlLP的任务,这里是在python上使用SelenuimRequestsBeautifulSoup实现的。使用selenuim是因为会涉及到动态网页抓取,又使用Request的原因是selenium对网页抓取时是要先进行加载的因此很耗时间,而Request不需要网页加载…

爬取QQ音乐(周杰伦)

首先呢,我们打开QQ音乐搜索周杰伦 https://y.qq.com/portal/search.html#page1&searchid1&remoteplacetxt.yqq.top&tsong&w周杰伦 一切做好准备后呢,我们需要找到歌曲清单,找到client_search(客户端搜索&#xf…

【方向盘】轰动从未停止,感动从未消失。他,是周杰伦

不仅20年,不仅是青春。 本文已被https://yourbatman.cn收录;女娲Knife-Initializr工程可公开访问啦;程序员专用网盘https://wangpan.yourbatman.cn;公号后台回复“专栏列表”获取全部小而美的原创技术专栏 你好,我是方…

用Python分析周杰伦歌曲并进行数据可视化

大家好,今天我们用python分析下周杰伦歌曲。为了尽量完整地呈现从原始数据到可视化的过程,接下来我们会先简单讲解数据的预处理过程,即如何将 JSON 数据转化为Excel 格式,以及如何对周杰伦的歌曲进行分词。 本案例中的歌词数据来…

哪里可以免费听到周杰伦的歌曲?请看这里,教你免费听歌

前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 小伙伴说想听周杰伦的音乐,有什么网站是可以免费听的,然后他发现咪咕音乐可以免费听周杰伦的歌曲,既然可以免费听,那…

计算机音乐谱大全告白气球,周杰伦《告白气球》钢琴曲谱

《告白气球》是由方文山作词,周杰伦作曲并演唱的歌曲,收录于周杰伦2016年6月24日发行的专辑《周杰伦的床边故事》中。2017年1月,这首歌曲获得Billboard Radio China 2016年度十大金曲奖。 创作背景 词作者方文山为周杰伦创作了《印地安老斑鸠…

周杰伦的歌里都有些啥?

周董的夕阳红粉丝团“被迫营业”,把蔡徐坤拉下了盘踞许久的微博超话人气榜第一,还一举破了亿。 当然,等我知道的时候,都战局已定了……作为当年会唱前三张专辑里所有歌曲的老粉,不想就这么躺赢,我今天也来给…

Python+pyecharts研究周杰伦歌词中的 秘密

一个朋友很喜欢周杰伦。 所以,前两天我跟别人去KTV,就唱的是“七里香”。 唱着唱歌,突然就好奇了起来。周杰伦的歌里,是不是还有很多的麻雀 后来发现,270首歌,140786个字,千言万语&#xff0…

周杰伦入局元宇宙,带你搞懂元宇宙怎么玩

自古以来,每个新兴产业的崛起,最关键、最重要的元素一定是流量,这对于元宇宙来说亦是如此。如果Facebook的入局元宇宙行业吸引了第一波市场流量,那么NBA球星史蒂芬库里、歌手林俊杰、周杰伦等明星入局的影响力就为“元宇宙”吸引了…

HTML网页设计:周杰伦网站

Hello朋友们!我们又见面了!是不是又到了焦头烂额忙期末设计的作业的时候了,不要担心,我来了,经过不懈的努力写出了一个比较容易懂的网页,完全足够应付你亲爱的老师的网页设计大作业! 哦&#xf…

用matlab演奏周杰伦的《七里香》

问题描述 前几天在学习matlab的时候,发现了一篇用matlab演奏音乐的文章,不禁感叹matlab居然还能这么玩!于是我就学着用matlab演奏我最喜欢听的一首歌——周杰伦的《七里香》。最后成果我已经发到B站,链接为:用matlab演…

WPF 消息传递简明教程

WPF 消息传递简明教程 独立观察员 2023 年 4 月 24 日 0、说明 参考:https://www.cnblogs.com/cdaniu/p/16852620.html 使用包:CommunityToolkit.Mvvm(8.1.0) 1、订阅 让需要使用消息的 ViewModel 继承 ObservableRecipient&#…

VMware官网注册账号之验证码问题

VMware官网注册账号之验证码问题 首先上个官网注册账号链接~ https://my.vmware.com/zh/web/vmware/registration 点我访问官网注册 然后不出意外都会看见中文版页面 这时候不要着急注册,因为你会发现验证码是这个造型的 抓狂的时候来了,不…

ChatGpt3.5 使用小记001

使用了一段时间的ChatGpt。主要的用途是向它咨询些学习的问题。因为有些它的分类是对话形式的,所以,一定问题多了,自己都不好找。故此想稍做整理,在此留存。 1.英语学习类 英语单词类,主要是因为有些近义词在中文的翻…