压力给到百度了,GPT- 4震撼发布!有4个惊喜,但仍有3个遗憾!

fa8c7df10b65546e78de70b567b0075a.png

7d239f166491dcf03d55612289cd43c2.png

0aaadec6383a11597b78e732ec809ebd.png




‍数据智能产业创新服务媒体

——聚焦数智 · 改变商业


一觉醒来,万众期待的GPT-4终于发布了,我们来看看他都有哪些迭代,给了我们哪些惊喜,又有哪些还没解决的问题呢?

作为一个重要的迭代升级版本,GPT-4相对于上一代而言,在多个性能上有显著的提升,这没有让我们失望。具体来看,关键的升级主要是以下几个方面:

惊喜1、文字输入限制提升至2.5万字

上一个版本,输入的文字不能超过3000字,而GPT-4将这一限制提升到了2.5万字。这个提升,将进一步扩展其应用范围。输入的不再限制于问题,用户可以直接输入文本内容,比如一篇文章甚至一篇报告。

惊喜2、可以输入图片了

上一代产品只能输入文本内容,此次更新升级,可以输入图片内容了。

比如,在此次发布的GPT-4,展示了下面这个例子。

用户:这张图有什么好笑的?

32128c2d55b6a38ed4f5235c8fc32962.png

GPT-4:

该图显示了带有三个面板的“Lightning Cable”适配器的包装。

图片1:带有 VGA 连接器(一种大的蓝色 15 针连接器,通常用于计算机显示器)的智能手机已插入其充电端口。

图片 2:“Lightning Cable”适配器的包装,上面有 VGA 连接器的图片。

图片 3:VGA 连接器特写,末端有一个小型闪电连接器(用于为 iPhone 和其他 Apple 设备充电)。

这张图片中的幽默来自将过时的大型 VGA 连接器插入小型现代智能手机充电端口的荒谬做法。

从这个例子可以看出,GPT-4可以可以“理解”图片的特征,而且可以理解多个图片之间的关联关系,并可以依据用户的指令,来将图片的特征描述出来。

在相关性能参数方面,GPT-4的表现也可圈可点,具体对比如下表:

bf79e3190c89ad91b581ab0e1da7b6e1.png

惊喜3、更聪明、更准确

为了了解这两种模型之间的差异,OpenAI在各种基准测试上进行了实验,包括最初为人类设计的模拟考试。OpenAI继续使用最新的公开测试(在奥林匹克和AP免费回答问题的情况下)或购买2022-2023版的模拟考试。

测试结果如下:

c2f0ac04eede8d3b83d6be54ac7d2d61.png

可以发现,当任务的复杂性达到足够的阈值时,GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

f3859b346d36494315f8846438cacd87.png

此外,OpenAI还在为机器学习模型设计的传统基准测试上评估了 GPT-4。GPT-4 的性能大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,具体比较如下表:

e1c2199d2c82221b1f1b34049944d17d.png

惊喜4、深度学习堆栈可预测性的扩展

对于像 GPT-4 这样的大模型,进行广泛的模型调整是不可行的。因此,模型的可扩展性就具有重要的价值。

OpenAI在模型的可扩展性方面不断探索,并在GPT-4 有重要的升级。为了验证GPT-4 的可扩展性,OpenAI通过从使用相同方法训练但使用少 10000 倍计算的模型进行推断,准确预测了 GPT-4 在内部代码库的最终损失,结果如下图:

23ce4ed0f8099708a5140cea1e5be681.png

从上述结果可以发现,GPT-4 可以用更少的计算量来实现更准确的预测。

此外,OpenAI成功预测了HumanEval数据集子集的通过率,从计算量减少 1000 倍的模型推断,其结果如下:

a57a0f28466868770fe85dc3f2391c02.png

接下来,OpenAI在Inverse Scaling Prize上进行了测试,其结果如下:

9292079e97f025a6f8f4c10c026799d6.png

可以发现,GPT-4 的表现要比GPT-3.5好很多。

然而,GPT-4并不是完美的,他依然还存在很多待解的问题,或者说是此次发布的遗憾。

遗憾1、参数规模没有大规模提升

GPT-4是一个大规模预训练模型,对于大模型而言,参数规模往往是一个关键指标。一般情况下,更大的参数规模意味着更强的技术能力。

在此前不久,业界就在流传GPT-4将在参数规模上有大幅度提升,甚至传言将达到100万亿级的参数规模,这也拉高了业界的期待。

此次发布的GPT-4,并没有公布准确的参数规模。如果参数规模提升了一个数量级,OpenAI肯定会大肆宣扬一番,并将其作为GPT-4的一个关键突破。既然没说,那大概率就是没有大的改进。

遗憾2、一个假的多模态,不能生成图片、视频

大模型的发展趋势,除了更好的性能表现外,一个关键的突破就是多模态。所谓多模态,就是文字、图片、视频、语音这些不同模态的信息之间的相互转换。比如,输入一段文字内容,AI应用可以依据文字描述来自动生成一幅画甚至是一个视频。

ChatGPT是很强大,但他的强大只表现在文字领域,还不能跨模态。GPT-4的一个关键升级就是多模态,业界最期待的也是这个。然而,此次发布的GPT-4却有点失望,他在多模态上有点突破,可以输入图片内容,但是输出的却还只能是文字。用户最期待的图片、视频生成,他没能实现,这是一个巨大的遗憾。

遗憾3、“发疯”问题有改善,但没彻底解决

ChatGPT在使用过程中,偶尔会遇到“发疯”的情况,变得胡言乱语,这给微软带来了不小的麻烦。那么,GPT-4把这个问题解决了么?

根据测试结果来看,这个问题有改善,但还没能彻底解决。

OpenAI承认,GPT-4 与早期的 GPT 模型具有相似的局限性,它仍然不完全可靠,可能会存在推理错误。

但是,但 GPT-4 相对于以前的模型已经有比较显著的改善了。OpenAI对不同模型进行了内部对抗性真实性测试,具体来看,进行了涵盖学习、技术、写作、历史、数学、可惜等九类测试,准确度为 1.0 意味着模型的答案被判断为与人类理想回答一致。

OpenAI将GPT-4 与ChatGPT-V2、ChatGPT-V3、ChatGPT-V4进行了比较,最终结果如下:

ecacfcdaa737f4e2211513a04928bc6d.png

在OpenAI的内部对抗性真实性评估中,GPT-4的得分比我们最新的GPT-3.5高40%。

之后,OpenAI在TruthfulQA等外部基准,测试了模型将事实与对抗性选择的一组错误陈述分开的能力。

af1fc10e0258e375254e2db6ffab5fde.png

根据结果来看,GPT-4仅比GPT-3.5好一点点,并没有显著的提升。

此次发布会,除了GPT-4本身技术性能的提升以外,还有一个很重要的看点,那就是其商业化进展。从微软近期的动作来看,他是准备在GPT-4基础上大干一场。在数据猿先前发布的文章《先用ChatGPT革自己的命,然后干翻所有人!微软要“梭哈”了!》中,整理了微软近期将ChatGPT与其业务体系整合的情况,可以发现,微软的很多业务都已经可以看到ChatGPT的身影。

6ebe73508cb567b279112e685aef2bc6.png

大规模预训练模型这个赛道异常热闹,尤其是OpenAI可以说已经成为科技界的明星。然而,大模型的竞赛才刚刚开始,鹿死谁手犹未可知。

GPT-4再好,也是别人的东西,我们当然更期待中国自己的大模型。

正好,百度将在明天(3月16日)发布文心一言,让我们小小期待一下吧。

所以,压力给到百度了。

往期精彩文章:

先用ChatGPT革自己的命,然后干翻所有人!微软要“梭哈”了!

关注数据猿公众号,后台回复“GPT4技术报告”获取最新98页报告原文。

文:月满西楼 / 数据猿

a07fbf8ff2c3338a5ccd6c6960f42646.jpeg

ChatGPT+Martech双选题月

开启无限可能!

点击查看详情↓↓↓

58601b319c6c673fd7838f7ca5dbeb69.png

691784467691abf5a0c0cd2823a0bfbb.png

986fdb0059f35969ab2cbab0a7d3ab06.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14213.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人类 vs AI:玩梗大作战,看看谁是最后的赢家?

能解释人类玩梗的 AI 究竟能多大程度地理解人类的「梗」? 五一假期就在眼前,LigaAI 小编每天都在「调休好烦」和「快放假啦」两种情绪间反复横跳,还会忍不住思考「AI 能不能理解调休和放假的情绪差异?」(一些精神世界高…

某程序员哀叹:月薪四五万,却每天极度焦虑痛苦,已有生理性不适,又不敢裸辞,怎么办?...

高薪能买来快乐吗? 来看看这位程序员的哀叹: 实在是扛不住了,每天都在极度焦虑和痛苦中度过,早上起来要挣扎着做心理建设去上班,已经产生生理性的头晕恶心食欲不振。有工作本身的原因,更多是自己心态的问题…

必应版ChatGPT竟爱上用户并引诱其离婚!微软:别问15个以上问题,不然它会疯

【导读】联网后,新必应会爆粗、会写黄文、会PUA人类了,但是如此放飞、如此有「人味」的必应,让网友简直爱不释手,直呼太喜欢! ChatGPT彻底放飞了!接入必应后的ChatGPT变了,如今它会开黄腔&…

浙江首批人工智能本科生即将毕业,月薪10万?ChatGPT这样回答

ChatGPT云炬学长 随着科技的不断进步和发展,人工智能正在成为当前最热门的话题之一。我们身边有一群特别的“00后”——浙江大学首批人工智能专业31名本科生,今年将完成本科学业。作为国内首批人工智能本科毕业生,他们会去哪儿,成…

英特尔GPU大牛投身AI创业/ ChatGPT公布Bug原因/ SpaceX最新估值1400亿美元…今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好,今天是3月23日星期四,但是想吃麦当劳(Doge)。 科技圈发生了哪些大事,一起来看看吧。 英特尔GPU大牛离职搞AI 又有大牛离职投身AI创业! 英特尔AGX图形事业…

ChatGPT 版 Bing「发癫作妖」,惨遭微软「脑叶切除」!

整理 | 禾木木 责编 |梦依丹 在Bing 引入 ChatGPT 爆火之后,Bing 就开始了各种“作妖”秀,翻车离谱事件是一件接着一件。有不少用户表示在和 Bing 的交流过程中,发现其出现了脾气暴躁、侮辱用户、操纵用户情感等令人毛骨悚然的行为。例…

Python:高级聊天机器人

首先,下载制作聊天机器人所需的库:chatterbot pip install -i https://pypi.douban.com/simple/ chatterbot1.0.4 pip install nltk 注意:这个库仅在Python3.7.17及更旧版本可用,因为新版本3.8删掉了一个time.clock()方法&#…

京东APP下单接口调用

首先声明本人对于以下研究仅出于学习目的,不存在任何商业化行为。 通过京东app的api调用下单接口直接下单需要做一下两步: 签名:京东app的每一个接口都会带上sign参数,值是由body,st,sv,clien…

京东API接口:item_get - 获得JD商品详情

今天分享的是京东平台API,商品详情接口。 京东获得JD商品详情 API 返回值说明 点击注册测试地址(获取Key和secret) Request address: //api.onebound.cn/jd/api_call.php? num_iid10335871600&api_nameitem_get&langzh-CN&k…

京东联盟API接口-京东订单查询接口-实时掌握订单情况

查询推广订单及佣金信息,可查询最近90天内下单的订单,会随着订单状态变化同步更新数据。支持按下单时间、完成时间或更新时间查询。建议按更新时间每分钟调用一次,查询最近一分钟的订单更新数据。 API接口说明: 通过联盟ID和拉取…

牛逼!“京东热” 框架 JD-hotkey 开源了...单机 QPS 可达 37 万!!

JD-hotkey 是京东 APP 后台热数据探测框架,历经多次高压压测和 2020 年京东 618 大促考验。 在上线运行的这段时间内,每天探测的key数量数十亿计,精准捕获了大量爬虫、刷子用户,另准确探测大量热门商品并毫秒级推送到各个服务端内…

京东jd商品详情API接口(item_get-根据ID取商品详情)代码封装

item_get-根据ID取商品详情接口 通过代码封装该接口可以拿到商品标题,商品价格,商品促销信息,商品优惠价,商品库存,sku属性,商品图片,desc图片,desc描述,sku图片&#xf…

京东 API 接口,item_get_app-获得JD商品详情原数据

京东获得JD商品详情原数据 API 返回值说明 item_get_app-获得JD商品详情原数据 公共参数 请求地址: https://console.open.onebound.cn/console/?iAnzexi 名称类型必须描述keyString是调用key(必须以GET方式拼接在URL中)secretString是调用密钥api_…

【京东API】京东app获得JD商品详情原数据接口

京东是中国最大的综合型电商网站之一,其app端是用户购买商品的主要途径之一。为了更好地满足用户的需求,开发人员提供了商品原数据接口,让第三方开发者可以获取京东商品的详细信息。 开发背景: 随着移动设备用户数量的不断增加&a…

京东旗舰店商品详情API接口(item_get-获得JD商品详情)

京东获得JD商品详情 API 返回值说明 公共参数 名称类型必须描述keyString是调用key(必须以GET方式拼接在URL中) 注册Key和secret接入secretString是调用密钥api_nameString是API接口名称(包括在请求地址中)[item_search,item_ge…

【chatGPT】ChatgGPT生成Excel统计公式

参考视频:https://edu.csdn.net/learn/38346/613667 1.问:生成一个xls文件,其中一列是随机生成的邮箱 运行以上代码,将生成一个名为"random_emails.xls"的Excel文件,其中包含一列随机生成的邮箱地址。你可…

Android应用启动白屏问题解决办法

目录 Android应用启动白屏问题解决办法白屏问题的由来解决方案文末有言 Android应用启动白屏问题解决办法 白屏问题是应用启动过程中普遍存在的问题。 本文将介绍白屏问题的由来以及一种作者认为是市场上比较普遍的解决办法。 白屏问题的由来 我们已知当系统启动并启动App时…

Android 启动白屏解决方案

方案一: 方案二: 方案二变种: 1.先让APP的启动背景变成另一张不是白色的图片 2.再在activity启动的时候把那张设置的非白色的图片设置为白色 方案三: 配置splash_preview.xml splash_preview.xml的显示效果 显示splash下…

QWebEngineView显示网页白屏

由于做项目时要用到Qt来调用百度的地图服务,但测试的时候一直白屏。 解决办法:经测试,仅在Qt 5.15.2 Release下正常运行,而在 Debug 模式下会报错,但强制运行仍有用。 套件选择: 成功: Debug…

微信登录,分享,支付,等的白屏闪屏等问题

首先以微信的第三方登录为例: 微信登录官方文档地址:点击进入 一、准备工作 在进行微信登录之前,首先要在微信开放平台注册开发者账号,并拥有一个已审核通过的移动应用,并获得相应的AppID和AppSecret,申请…