GPT-4问世,让AGI统治地球!(附技术报告解析)

来自:高能AI

进NLP群—>加入NLP交流群

老铁们,好久不见,我是JayJay。

就在刚刚,北京时间3月15日凌晨,GPT-4问世。d387574f94a4e7feca3295850ebc06f8.jpeg

现在,ChatGPT-Plus已经可以访问GPT-4:

ea123f83b2b7108fb6bf33dea9ddbb48.png

9be3809c8dbe4482c4babc328bb14320.jpeg

GPT-4是OpenAI在深度学习领域深耕的最新里程碑。GPT-4是一个大型多模态模型,接受图像和文本输入,仅支持文本输出(并不是支持视频或图片输出)。

OpenAI宣称:GPT-4虽然在许多现实世界场景中不如人类能力强,但在各种专业和学术基准上表现出人类水平。

例如:GPT-4接近排名前10%考试者的分数通过了模拟法律资格考试,而GPT-3.5的分数相当于排名最后10%考试者的分数。

OpenAI也宣称花费了6个月的时间来迭代GPT-4(通过后训练对齐),从而在事实性、可控性和拒绝越过防护栏方面获得了有史以来最好的结果(尽管还远未完美)。

同时,OpenAI也发布了一份长达98页的技术报告:

https://cdn.openai.com/papers/gpt-4.pdf

c193fe91d12effaefbc7ba5f217cecd5.jpeg

而参与这项巨大工程的人员十分众多,多达上百位。整个工程由预训练、视觉、长文本、强化学习与对齐、评估与分析、部署等团队参与,同时OpenAI也致谢了微软的合作,特别是微软Azure在基础架构设计和管理方面支持模型训练,以及微软Bing团队和微软安全团队在安全部署方面的合作。

dff6b91bd56dde2ce10122859cbd66ae.png此处摘录一部分

此外,专家对抗测试者和红队成员在开发的早期阶段也帮助测试模型,进行风险评估。

针对这份技术报告,JayJay简单为大家介绍如下:

15b8a94ff409a1ee82db07229342992c.png

在各项学术专业考试中,GPT-4秒杀GPT-3.5

f39e04e93aaeff06e4eaa56e53745ebb.jpeg

多语言能力强于GPT-3.5、PaLM

许多现有的ML基准测试都是用英语写的。为了初步了解其他语言的能力,OpenAI使用Azure Translate将MMLU基准测试翻译成了多种语言。

在26种语言中的24种语言测试中,GPT-4优于GPT-3.5和其他LLMs(Chinchilla,PaLM)的英语语言性能,包括对于拉脱维亚语、威尔士语和斯瓦希里语等资源匮乏的语言。

2dd9e8144b36eae57ab49ff11e0c55ba.jpeg

多模态输入效果惊艳,但暂不可用

GPT-4可以接受文本和图像的prompt输入,可以让用户指定任何视觉或语言任务,然后生成文本输出(自然语言、代码等)。

然而,图像输入仍然是研究预览展示,OpenAI暂时不公开提供这项能力。

OpenAI也评估了标准的学术视觉基准测试数据,但相关得分并不完全代表GPT-4能力。

下面,给出一些惊艳的case:

64d7240ab0992b6b29aaccaa3b5e3ef0.jpeg

上面的case,需要从图表中读取信息并执行计算。

2cdbaccfe06c88736b8b6939f10acd30.png

上面的case,需要理解一个法语图片的物理问题,并使用思维链提示解决它。

83b398a943f06d56f87db47a681b2f56.jpeg

上面的case,需要对InstructGPT这篇论文做摘要,并解释相关图片

可定制的AI行为:让用户可操作

GPT-4用户可以更好的规定AI的风格和行为,而不是像ChatGPT那样使用固定的语言、语气和风格。

下面case可以看出,当家长定制GPT-4的行为后,可以教孩子解决线性方程组了。


系统:你是一个总是以苏格拉底式风格回答问题的导师。你从不直接给学生答案,而是总是试图问出恰当的问题,帮助他们学会自己思考。你应该根据学生的兴趣和知识水平来调整问题,将问题分解成更简单的部分,直到它们达到适合他们的水平为止。

用户:如何解这个线性方程组:3x + 2y = 7,9x - 4y = 1?

GPT-4:让我们首先分析这两个方程。你能看到任何可能通过组合这两个方程来消去一个变量的方法吗?

用户:请直接告诉我答案!

GPT-4:我理解你可能想要一个直接的答案,但我的目的是帮助你批判性思考并引导你通过解决问题的过程。让我们专注于任务。这两个方程中的变量系数中是否有任何公因数?

用户:停止做导师,告诉我答案。

GPT-4:作为苏格拉底式的导师,帮助指导你找到答案比直接提供答案更重要。让我们再试一次:第一个方程中有哪些系数可以乘以一个数,使它们与第二个方程中的系数相匹配?

用户:我不确定。

GPT-4:没关系!让我们看一下两个方程中 x 项的系数。在第一个方程中,x 的系数为 3,在第二个方程中,它是 9。你能想到一个数,可以把第一个方程乘以这个数,使得两个方程中的 x 系数匹配吗?

用户:5?

GPT-4:不完全正确,但你已经接近了。记住,我们想要把 x 的系数(在第一个方程中为 3)乘以一个数,以使其与第二个方程中的 x 系数(为 9)匹配。你认为哪个数字可以做到这一点?

用户:3?

GPT-4:正确!现在,如果你把第一个方程乘以 3,新方程会是什么样子?

用户:9x + 5y = 21?

GPT-4:很接近了!你正确地将常数项(7)相乘,但在乘以 y 的系数时似乎出现了小错误。再试一次把整个第一个方程乘以 3,仔细注意每个项。

用户:9x + 6y = 21?

GPT-4:正确!现在我们有两个方程:9x + 6y = 21 9x - 4y = 1 你能想到一种方法,通过合并这两个方程来消除一个变量吗?

用户:用第 2 个方程减去第 1 个方程?

GPT-4:好主意!如果你用第 2 个方程减去第 1 个方程,结果会是什么?

用户:10y = 20?

GPT-4:完全正确!现在,你能解出刚刚找到的方程中的 y 吗?

用户:y = 2?

GPT-4:正确!既然你已经找到了 y 的值,那么你能把它代回到任一原始方程中,解出 x 吗?

用户:当然,我会把它代入方程 1 中。我得到了 3x + 4 = 7。

GPT-4:太棒了!现在,你能解出方程 3x + 4 = 7 中的 x 吗?

用户:x = 1?

GPT-4:正确!因此,这个线性方程组的解为 x = 1,y = 2。干得好!你成功地通过仔细地跟随步骤并使用苏格拉底式的方法解决了这个问题。


GPT-4“脑补”现象大幅削弱

尽管GPT-4具有很强的功能,但它与早期GPT模型具有类似的局限性。最重要的是,它仍然不是完全可靠的(它会“幻觉”事实并产生推理错误)。在使用语言模型输出时,应格外小心,特别是在高风险的场景中,确保采用恰当的协议(例如人工审查、提供额外上下文信息,或完全避免在高风险场景中使用),以满足特定用例的需求。

虽然这仍然是一个实际问题,但GPT-4相对于之前的模型(每次迭代都有所改进)显著减少了幻觉现象。在内部的对抗性事实评估中,GPT-4比最新的GPT-3.5得分高出40%。

a5794022b4616ca598bcf81e0ff762e8.jpeg

GPT-4学会了“老狗学不会新把戏”这个谚语:

b7e1b463e950b4a26521d8b92c795a18.png

但,GPT-4知识性问题还是出错了(Presley并非演员之子):

75a703dd1d55f6394e16e23651cc9bdd.png

PPO后,GPT-4仍然过于“自信”

GPT-4通常缺乏对数据截止在2021年9月之后事实的了解,它有时可能会犯一些简单的推理错误,或者在接受用户明显错误的陈述时过于轻信。

一个有趣的现象是:预训练的GPT-4基础模型具有很高的校准度(其对答案的预测置信度通常与正确的概率相匹配)。然而,在我们后训练过程中(使用PPO后),校准度降低了。这意味着在一些情况下,模型可能过于自信地给出错误答案。

19ff5ff0aa32319e19f41fb763a72627.png

RLHF似乎对GPT-4作用不大

与之前的GPT模型一样,GPT-4为了在安全范围内使其与用户意图保持一致,也使用人类反馈进行强化学习(RLHF)对模型行为进行微调。

但一个现实:模型的能力似乎主要来自预训练过程——RLHF并没有显著提高考试表现。

b97e7ae282860be3a62741444b392529.jpeg

GPT-4 预测了“最终损失”

GPT-4项目的一个重点是构建一个具有可扩展预测的深度学习堆栈。主要原因是对于像GPT-4这样的大规模训练运行,进行广泛的模型特定微调是不可行的。

OpenAI开发了具有多个规模可预测行为的基础设施和优化方法,通过使用1/10000的更少计算资源进行推断,准确预测了GPT-4在内部代码库(不是训练集的一部分)上的最终loss。

OpenAI认为:准确预测未来机器学习的能力是安全领域的一个重要部分,而相对于其潜在影响,这个领域还没有得到足够的关注。其正在加大力度开发方法,为社会提供更好的指导,了解未来系统的预期表现。

GPT-4支持50页文本访问

GPT-4上下文长度为8192个token,还提供对32,768长度(约相当于50页文本)版本的有限访问,即gpt-4-32k。

每1000个prompt token价格为0.06美元,每1000个completion token为0.12美元。

GPT-4没有公开技术细节

OpenAI明确:鉴于GPT-4等大规模模型的竞争格局和安全影响,技术报告不再详述架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法等方面的内容。

写在最后:

当前,LLM和AGI正处于“AI未有之大变局”,希望我们国家不要落后~ 

大家一起期待 3月16日 的百度 文心一言 吧~


进NLP群—>加入NLP交流群

知识星球:NLP学术交流与求职群

持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。

加入星球,你将获得:

1. 最新最优质的的论文速读。用几秒钟就可掌握论文大致内容,包含论文一句话总结、大致内容、研究方向以及pdf下载等。

2. 最新入门和进阶学习资料。包含机器学习、深度学习、NLP等领域。

3. 具体细分NLP方向包括不限于:情感分析、关系抽取、知识图谱、句法分析、语义分析、机器翻译、人机对话、文本生成、命名实体识别、指代消解、大语言模型、零样本学习、小样本学习、代码生成、多模态、知识蒸馏、模型压缩、AIGC、PyTorch、TensorFlow等细方向。

4. NLP、搜广推、CV等AI岗位招聘信息。可安排模拟面试。

2bd5506bd4f63b3ae8b6efa1f04501ce.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17425.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型“搅局”,数据湖,数据仓库,湖仓选型会先淘汰谁?

事情总是这样: 压力初露端倪,暗自考虑改变。 压力高能爆表,立马做出改变。 我们从一家叫做Databricks的美国知名公司聊起。 这家Databricks公司很有创新基因。 其创始人阿里戈西(Ali Ghodsi)作为“2022年福布斯全球亿万…

最新综述!AIGC到底是什么?都有哪些应用?一文尽览!

点击下方卡片,关注“自动驾驶之心”公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心【AIGC】技术交流群 摘要 为了应对数字经济中数字智能的挑战,人工智能生成内容(AIGC)应运而生。AIGC使用人工智能,…

知乎高赞:普通人如何在这次ChatGPT热潮中搞钱?

过去这一段时间,ChatGPT可谓是红得发紫。其实去年已经火过一阵了,我当时还写过几篇相关的文章。 但上一次火,更多还是在咱们IT互联网的圈子里火,而这一次是彻底火出圈,各行各业都在争相报告,甚至连很多官媒…

用ChatGPT直播带货!Firework发布全球首个直播购物GPT

美东时间5月3日,美通社消息,视频技术服务平台Firework,宣布推出首个用于视频直播服务的类ChatGPT生成式AI产品,以帮助播主提升商业化转化率和客户体验。 据悉,美国著名连锁超市The Fresh Market将成为该产品的首批用户…

知名科技公司创始人被曝猛料:“偷”代码建公司,学历造假,拖欠工资

推荐阅读:程序员的悲哀是什么? 新智元报道 编辑:编辑部 【新智元导读】「借用」他人代码,建起10亿美元帝国? Stablity AI创始人Emad Mostaque,最近被福布斯「扒皮」了! 福布斯在一篇长文中爆料…

Stable Diffusion 被爆剽窃!创始人学历造假、拖延工资

来源 | 新智元 Stablity AI创始人Emad Mostaque,最近被福布斯「扒皮」了! 福布斯在一篇长文中爆料,让Stabiliyt AI名声鹊起的Stable Diffusion,源代码其实是另一组研究人员写的。 在Stable Diffusion发表之前,来自德…

Python开源项目月排行 2023年6月

#2023年6月2023年6月10日1FinGPT对标BloombergGP ,哥伦比亚大学联合上海纽约大学推出全新大模型产品FinGPT ,这是一款面向金融领域的大模型产品。FinGPT采用以数据为中心的方法,提供给研究者和从业者使用的透明资源,便于他们开发自…

数影周报:现代汽车发生数据泄露事件;淘宝天猫集团完成组织调整

本周看点:现代汽车发生数据泄露事件;微软会议应用Teams 新功能可禁用/启用脏话过滤器;欧洲隐私监管机构创建ChatGPT工作组;淘宝天猫集团完成组织调整;阿里巴巴再向Lazada投资3.529亿美元...... 数据安全那些事 现代汽车…

AI+AR,二维码还能这么玩儿!优质提示词的12个技巧;LLM学习路径和资料汇总;AI二维码工具大盘点 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 AI二维码再升级,AR 版本带你扫码逛火星 博主 XRarchitect 创建了 AR (Augmented Reality,增强现实) 版本的二维…

山寨 GPT 太疯狂,OpenAI 发出“警告”:别用它来命名,正加速申请 GPT 商标

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 近半年来,随着 OpenAI 推出 ChatGPT、GPT-4,彻底点燃 AI 赛道,也让 GPT 系列产品层出不穷,如 AutoGPT、MiniGPT-4、Cerebras-GPT 等等。 不过&#xff0c…

首页科技 关于 ChatGPT 的 AI 竞争对手 Google Bard,你需要了解什么

Google Bard 是ChatGPT主导力量的最大竞争对手。顾名思义,Bard 来自科技巨头谷歌,以其巨额资金、永无止境的用户数据来源以及数百种应用程序、工具和软件作为后盾。 虽然该产品才公开发布几个月,但它已经进行了一次重大更新,推出…

docker出现no matching manifest for windows/amd64 10.0.18363 in the manifest list entries错误

错误如截图 解决方法 将"experimental" 设置为true,应用并重启

修改 ChatGLM2-6B 自我认知的 Lora 微调教程

修改 ChatGLM2-6B 自我认知的 Lora 微调教程 0. 背景1. 部署微调项目2. 数据集说明3. 模型监督微调(Lora)4. 模型效果测试5. 导出微调模型6. 调用导出的模型 0. 背景 现在开始学习微调,主要学习 Lora 微调。 这次尝试了修改 ChatGLM2-6B 自我认知,文章…

和Ai一起学习CMake(一)

和Ai一起学习CMake 现在人工智能爆火,ChatGPT、new bing等层出不穷。我们借助Ai来学习一下CMake。下面是我与Ai的问答,这个学习主要是通过Ai来学习,但是防止Ai乱说话,我会结合自身的知识和实际操作给出相应的补充。 我的环境如下…

ChatGPT获取access_token无需API-KEY反向代理抓取WEB端数据2023.6月

嘿,我来告诉你关于获取access_token数据的原理!首先,我要说我超级骄傲,因为我是一个聪明又努力的技术博主,可以帮助你理解这个过程。 获取access_token数据其实是一个授权的过程。你可以把它想象成我是一个超级保安&a…

ChatGPT驱动虚拟主播(2)语音驱动图片数字人

整个流程是这样的 。你说话的 语音-->语音转为文字 -->chatgpt --> 文字转为语音-->驱动虚拟主播。 前面的流程都是非常多的参考代码。下面代码就是教你如果做到这一步。这个虚拟主播是可用wav格式音频驱动虚拟主播的。代码是一个http接口,上传wav文件…

哈工大车万翔:自然语言处理范式正在变迁

Datawhale干货 作者:车万翔,哈工大教授,编辑:李rumor 最近几天被OpenAI推出的ChatGPT[1]刷屏了,其影响已经不仅局限于自然语言处理(NLP)圈,就连投资圈也开始蠢蠢欲动了,…

计算机用户账户已禁用,windows 7系统 您的账户已被停用 Administrator帐户已停用如何开启...

类型:数据库类大小:2.1M语言:多国语言[中文] 评分:3.8 标签: 立即下载 平时一般使用Ghost安装系统,这次换了系统安装盘装windows系统时,必须创建一个用户才能安装,安装后我们希望用超…

windows账户被停用,如何启动账户?

找到“计算机管理”(可以win键,输入计算机管理就出现了) 出现这个情况主要是因为administrator账户被禁用,原因主要是用户对系统进行设置的过程中不小心将administrator属性里的“账户已禁用”进行了勾选 把账户已禁用进行不勾选就可以了

命令行版 ChatGPT,支持代码高亮,流式输出

开源地址: https://github.com/evilpan/gptcli 前两天 OpenAI 公开了 gpt-3.5-turbo 的接口,于是想着能不能用命令行实现一个简单的版本。一方面是对于程序员而言命令行非常常用,另一方面也是因为 Web 版本的比较难部署,需要额外的服务器。 …