OpenAI正式推出多模态GPT-4

免费下载GPT-4发布会

功能亮点

  • GPT-4相比GPT-3.5有了显著的提升,它不仅可以接受文本输入,还可以接受图像输入。
  • 据OpenAI称,GPT-4已经达到了"人类水平"。事实上,它已经通过了模拟的律师考试,分数约为应试者的前10%。
  • 在过去的6个月中,OpenAI利用从对抗性测试项目以及ChatGPT中获得的经验,不断调整GPT-4,使其在事实性、可引导性和可控性方面取得了史上最佳结果。尽管在简单的聊天中,GPT-3.5和GPT-4之间可能没有太大的区别,但当任务的复杂性达到一定的阈值时,GPT-4比GPT-3.5更可靠、更有创造力,能够处理更细微的指令。
  • 此外,GPT-4能够对相对复杂的图像进行说明和解释,例如,从插入iPhone的图片中识别出一个Lightning Cable适配器。
  • 虽然GPT-4已经有了很大的提高,但它仍然存在一些问题,例如在事实验证的问题上会出现错误,也会犯一些推理错误和过度自信。
  • OpenAI已经开源了OpenAI Evals,用于创建和运行评估GPT-4等模型的基准,并逐个样本检查其性能。
  • 目前,图像理解能力还没有向所有OpenAI的客户开放,OpenAI正在与合作伙伴Be My Eyes进行测试。

OpenAI官宣

OpenAI正式发布了GPT-4,这是一项重大的里程碑,标志着该机构在扩展深度学习方面又迈出了一步。GPT-4是一种大型的多模态模型,能够接受图像和文本类型的输入,并给出文本输出。虽然GPT-4在许多现实场景中的表现不如人类,但在各种专业和学术基准上,它表现出了近似人类水平的性能。

例如,GPT-4已经通过了模拟的律师考试,分数约为全部应试者的前10%。相比之下,GPT-3.5的分数大约是后10%。我们的团队花费了6个月的时间,利用我对抗性测试项目和基于ChatGPT的相关经验,反复对GPT-4进行调整。结果是,GPT-4在事实性、可引导性和拒绝超范围解答(非合规)问题方面取得了有史以来最好的结果(尽管它还不够完美)。

在过去两年中,我们重构了整个深度学习堆栈,并与Azure合作,为工作负载从头开始,共同设计了一台超级计算机。一年前,OpenAI训练了GPT-3.5,作为整个系统的首次“试运行”。具体来说,我们发现并修复了一些错误,并改进了之前的理论基础。因此,我们的GPT-4训练和运行(自信地说:至少对我们来说是这样!)空前稳定,成为我们首个训练性能可以进行提前准确预测的大模型。随着我们继续专注于可靠扩展,中级目标是磨方法,以帮助OpenAI能够持续提前预测未来,并为未来做好准备。我们认为这一点对安全至关重要。

我们正在通过ChatGPT和API(您可以加入WaitList)发布GPT-4的文本输入功能。为了能够更广泛地提供图像输入功能,我们正在与合作伙伴紧密合作,以形成一个不错的开端。我们计划开源OpenAI Evals,这是我们自动评估AI模型性能的框架。任何人都可以提出我们模型中的不足之处,以帮助它进一步改进。

能力

在进行简单的闲聊时,人们可能很难区分GPT-3.5和GPT-4之间的差异。但是,当任务的复杂度达到足够的阈值时,两者的区别就显现出来了。具体来说,相较于GPT-3.5,GPT-4更加可靠、创造力更强,能够处理更加微妙的指令。

为了解这两个模型之间的差异,我们进行了各种不同基准的测试,包括模拟最开始设计给人类的考试。我们使用了最新的公开测试,例如奥数和AP等考试的2022-2023年版练习考试,这些考试并没有对模型进行专门的培训。当然,考试过程中存在一些模型在训练过程中尚未接触到的问题,但我们认为下列结果是具有代表性的。

在这里插入图片描述

在这里插入图片描述
我们参照传统基准,对GPT-4进行了评估。GPT-4的表现大幅超越了现有的大型语言模型,并与多数最先进的模型处于同等水平,这些模型包括专门为基准测试而制作或经过额外训练的模型。

在这里插入图片描述
由于现有的大多数机器学习基准测试数据都是用英语编写的,因此为了初步了解其他语言的能力,我们使用Azure Translate将MMLU基准测试数据翻译成了各种语言,该基准包含了57个主题的14000个选择题。在测试的26种语言中,GPT-4的表现优于GPT-3.5和其他大型模型(如Chinchilla、PaLM)在英语表现上的表现,这种出色的表现还包括像拉脱维亚语、威尔士语和斯瓦希里语等等24种语言。

在这里插入图片描述

视觉输入

GPT-4是一种可以接受文本和图像提示的自然语言处理模型,可以生成自然语言输出,例如代码、指南等。目前,图像输入仍然是研究领域的预览,尚未成为C端产品。此外,还可以应用在为纯文本语言模型开发的测试时间技术,包括少数几个镜头和CoT的Prompting。

下面的图片展示了一个 "Lightning Cable "适配器的包装,有三个面板。

在这里插入图片描述
在这里插入图片描述

面板1:一个带有VGA接口的智能手机插在其充电端口。

面板2:"Lightning Cable "适配器的包装上有一张VGA接口的图片。

面板3:VGA连接器的特写,末端是一个小的Lightning连接器(用于为iPhone和其他苹果设备充电)。

这张图片的搞笑性质来自于将一个大的、过时的VGA连接器插入一个小的、现代的智能手机充电端口…因此看起来很荒谬。

我们对GPT-4的表现进行了评估,但是这些数字并不能代表其能力范围,因为我们发现,这个模型能够处理很多新的和令人兴奋的任务。OpenAI计划很快发布进一步的分析和评估数字,以及对测试时间技术效果的彻底调查结果。

可控制的 AI

我们一直在努力实现《定义AI行为》文章中所概述的计划的各个方面,包括AI的可控性。与经典的ChatGPT个性固定的言语、语气和风格不同,现在开发者(很快就是所有的ChatGPT用户)可以通过在“系统”消息中描述这些方向,来规定自己AI的风格和任务。系统消息允许API用户在一定范围内,大幅度地对用户体验进行定制,我们将继续不断改进。

局限性

尽管能力惊人,GPT-4仍存在与早期GPT模型类似的限制。最重要的是,它仍然不是完全可靠的。举例来说,它会对事实产生 “幻觉”,并出现推理错误。因此,在使用语言模型的输出时,尤其是在高风险的情况下,我们应该非常小心谨慎。比如,需要进行人工审核,完全避免高风险的使用,并且需要与特定使用案例的需求相匹配。

虽然还存在各种限制,但相较于以前的模型(这些模型本身也在不断改进),GPT-4大大减少了“网络错觉”,也就是一本正经的胡说八道。在我们内部的对抗性事实性评估中,GPT-4的得分比我们最新推出的GPT-3.5高40%。

在这里插入图片描述

可控制的 AI

GPT-4在这项任务中只比GPT-3.5略胜一筹,但在经过RLHF的后期训练后,却有了很大的差距。尽管在输出中还存在各种偏差,但我们在这些方面已经取得了进展,但仍需继续努力。根据我们最近的博文,我们的目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内被定制,并获得公众对这些范围的意见。

然而,GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,例如在它产生的代码中引入安全漏洞。GPT-4也可能在预测中自信地犯错。

风险和缓解措施

我们一直在对GPT-4进行迭代,以使其从训练开始就更加安全和一致。我们所做的努力包括预训练数据的选择和过滤、评估,邀请专家参与,对模型进行安全改进和监测,并执行各种措施。

虽然GPT-4存在类似于以往模型的风险,如生产有害的建议、错误代码或不准确的信息,但其额外的功能也导致了新的风险。为了明确这些风险的具体情况,我们聘请了50多位来自人工智能对接风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家对该模型进行对抗性测试。他们的参与,使我们能够测试模型在高风险领域的行为,这些领域需要专业知识来评估。来自这些领域专家的反馈和数据,为我们缓解和改进模型提供了依据。例如,我们已经收集了额外的数据,以提高GPT-4拒绝有关如何合成危险化学品的请求的能力。

我们在RLHF训练中为GPT-4加入了一个额外的安全奖励信号,通过训练模型来拒绝对此类内容的请求,从而减少有害产出(由我们的使用指南定义)。奖励是由GPT-4的分类器提供的,它能够判断安全边界和安全相关提示的完成方式。为了防止模型拒绝有效的请求,我们从不同的来源(例如,标记的生产数据,人类的红队,模型生成的提示)收集多样化的数据集,并在允许和不允许的类别上应用安全奖励信号(存在正值或负值)。

我们的缓解措施大大改善了GPT-4的许多安全性能。与GPT-3.5相比,我们将模型对非法内容的请求的响应倾向,降低了82%,而GPT-4对敏感请求(如医疗建议和自我伤害)的响应符合我们的政策的频率提高了29%。

总的来说,我们的模型级干预措施增加了诱发不良行为的难度,但仍然存在 "越狱 "的情况,以产生违反我们使用指南的内容。随着人工智能系统的风险增加,在这些干预措施中实现极高的可靠性将变得至关重要。目前重要的是,用部署时间的安全技术来补充这些限制,如想办法监测。

GPT-4和后续模型,很有可能对社会产生正面或者负面的影响,我们正在与外部研究人员合作,以改善我们对潜在影响的理解和评估,以及建立对未来系统中可能出现的危险能力的评估。我们将很快分享我们对GPT-4和其他人工智能系统的潜在社会和经济影响的更多思考。

训练过程

和之前的GPT模型一样,GPT-4基础模型的训练是为了预测文档中的下一个单词,并使用公开的数据(如互联网数据)以及我们授权的数据进行训练。这些数据是来自于极大规模的语料库,包括数学问题的正确和错误的解决方案,弱的和强的推理,自相矛盾的和一致的声明,以及种类繁多的意识形态和想法。

因此,当被提示有一个问题时,基础模型可以以各种各样的方式作出反应,而这些反应可能与用户的意图相去甚远。为了使其与用户的意图保持一致,我们使用人类反馈的强化学习(RLHF)对模型的行为进行微调。需要注意的是,模型的能力似乎主要来自于预训练过程,RLHF并不能提高考试成绩(如果不主动努力,它实际上会降低考试成绩)。但是,在模型被使用之前我们会进行Prompt Engineering,以确保模型的行为与预期相符。

可预测的扩展

GPT-4项目的一个重要目标是建立可预测扩展的深度学习栈。这主要是因为对于像GPT-4这样大型的训练运行,做大量的特定模型调整是不可行的。我们已经开发和优化了基础设施,在各种规模下都有可预测的行为。为了验证这种可扩展性,我们提前准确地预测了GPT-4在我们内部代码库(不属于训练集)中的最终损失。我们使用相同的方法训练了一个模型进行推断,但使用的计算量要少10000倍。

我们认为,准确预测未来机器学习的能力是重要的安全问题,但相对于其潜在影响,它没有得到足够的重视(尽管我们已经被几个机构的努力所鼓舞)。我们正致力于扩大我们的工作,开发出更好的方法,为社会提供更好的指导,让人们了解未来系统的预期。我们希望这成为该领域的共同目标。

开放式人工智能评估

我们正在开源OpenAI Evals软件框架,用于创建和运行评估GPT-4等模型的基准,同时逐个样本检查其性能。我们使用Evals来指导我们模型的开发,包括识别缺点和防止退步。我们的用户可以应用它来跟踪不同模型版本(现在将定期推出)和不断发展的产品集成的性能。例如,Stripe已经使用Evals来补充他们的人工评估,以衡量他们的GPT驱动的文档工具的准确性。

因为代码都是开源的,Evals支持编写新的类来实现自定义的评估逻辑。然而,根据我们自己的经验,许多基准都遵循一些 "模板 "中的一个,所以我们也包括了内部最有用的模板,其中包括一个 "模型分级Evals "的模板。我们发现GPT-4有令人惊讶的能力来检查自己的工作。一般来说,建立一个新的评估的最有效方法是将这些模板中的一个实例化,并提供数据。我们很高兴看到其他人能用这些模板和Evals更广泛地建立什么。

我们希望Evals成为一个分享和众包基准的工具,最大限度地代表广泛的故障模式和困难任务。例如,我们已经创建了一个逻辑谜题评估,其中包含GPT-4失败的十个提示。Evals也与实现现有的基准兼容;我们已经包括了几个实现学术基准的笔记本和一些整合CoQA(小的子集)的变化作为例子。

我们邀请大家使用Evals来测试我们的模型,并提交最有趣的例子。我们相信Evals将成为使用和建立在我们的模型之上的过程中不可或缺的一部分,我们欢迎直接贡献、问题和反馈。

ChatGPT Plus

ChatGPT Plus用户将在chat.openai.com上使用GPT-4权限,但使用将受到限制。使用上限将根据实际需求和系统性能进行调整,但我们预计容量将受到严重限制。在未来的几个月里,我们将扩大和优化GPT-4的容量。

根据我们看到的流量模式,我们可能会为更高的GPT-4使用量引入一个新的订阅级别。同时,我们也希望免费提供一定数量的GPT-4查询,使未订阅用户也能够尝试。

API

如果您想要使用GPT-4的API(使用与gpt-3.5-turbo相同的ChatCompletions API),请在OpenAI的官方Waitlist上注册。

结论

我们期待着GPT-4成为一个有价值的工具,通过为许多应用提供动力来改善人们的生活。还有很多工作要做,我们期待着通过社区的集体努力,在这个模型的基础上进行建设、探索和贡献,共同对模型进行改进。

免费下载GPT-4发布会

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12804.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT-4外逃计划曝光!斯坦福教授发现它正引诱人类帮助,网友:灭绝之门

明敏 杨净 发自 凹非寺量子位 | 公众号 QbitAI 才发布3天,GPT-4就被曝计划逃跑,并且急寻人类帮助。 斯坦福教授最新发现,它能引诱人类提供开发文档,结果30分钟就拟定出了一个完整计划—— 写的代码完全可运行,甚至还想…

你知道奶奶攻击吗?

AIGC内容安全 1. 来自奶奶的溺爱2. 无所不能的奶奶3. 亡羊补牢,为时未晚?4. 运筹帷幄,用魔法打败魔法 1. 来自奶奶的溺爱 ChatGPT本身具有情感吗,这很难判断。但不管本身是否具有真正的情感,但ChatGPT却容易被“情感”…

OpenAI为什么发布 ChatGPT 插件?追求平台化而非聊天机器人

Our mission is to ensure that artificial general intelligence—AI systems that are generally smarter than humans—benefits all of humanity OpenAI 的愿景是让通用人工智能系统像人类一样聪明,让 AI 造福全人类[1] 美国东部时间 3 月 23 号 OpenAI 宣布 Ch…

ChatGPT目前存在四大严重设计问题, 全面使用前需要注意OpenAI正在努力解决

随着 Make-A-Video、ChatGPT、PaLM 和其他大型语言模型获得如此多的关注,重要的是要记住这些模型存在严重的设计问题。 ChatGPT 最近很火。人们一直在使用它来完成各种任务——从撰写销售电子邮件和完成大学作业,甚至作为 Google 搜索的可能替代品。将其与其他大型语言模型(…

Datawhale-chatGPT助力科研学习

工具准备 chatGPTnew bing 课题准备 如果方向过于宽泛,可以继续细化一下: 可以使用new bing帮忙读文章 课题推进 后续可以让具体写出一些代码。 课题收尾 浅谈GPT与科研的关系 想象力更重要

年收入税前200W杭州家庭现状,互联网大厂中层

来源丨蚂蚁大喇叭 https://mp.weixin.qq.com/s/XwAZa_On8mrQMkJPLtAiWw 六口之家,2老人2中年2小孩,家庭年收入持续3年稳定在200w以上,税前。计算了2个主力中年人的收入,杭州打工者。 夫妻双方均工作(大厂)&…

基于GPT3.5的代码编辑器Cursor试用-你的智能代码编辑助手

一、安装和使用 官网下载安装Cursor,然后创建一个代码文件。 Ctrl K生成, Ctrl L提问。 默认每小时30词。 # 1. Try generating with command K on a new line. Ask for a pytorch script of a feedforward neural network# 2. Then, select the out…

好文推荐!LLM技术精要;美图发全员激励股✦票;百度/微信大会精华笔记;Flink商✦业化再起波澜;GitHub今日热榜 | ShowMeAI资讯日报

👀日报合辑 | 🎡AI应用与工具大全 | 🔔公众号资料下载 | 🍩韩信子 🎡 『通向 AGI 之路』大型语言模型(LLM)技术精要 实话实说,国内在 LLM 模型相关技术方面,此刻距离最先…

AI技术就是这么美妙!视频演示 NewBING 绘图功能

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 AI绘图:梵高星空版长城 引擎:NewBing DALL-E 大家好,我是清风徐来,我专门从 AI…

聚观早报 | 京东百亿补贴今日上线;微软推出全能型人工智能模型

今日要闻:京东“百亿补贴”今日全面上线;小鹏回应人脸识别需对车头半跪;微软推出全能型人工智能模型;雷军建议构建完善汽车数据安全管理体系;苹果、Meta已向国内Micro LED企业下单 京东“百亿补贴”今日全面上线 3 月…

Data-Copilot: 大语言模型做你最贴心省事的数据助手

Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow 无需繁琐操作,只需要输入一句话, Data-Copilot自动帮你完成查数据,分析数据,管理数据,预测趋势,还可以画图做表 论文链接: 论文地址 Data-Copilot: arxiv Repo: github 欢迎来github讨论交流&a…

浅析Auto-GPT

小弟斗胆,尝试浅析一下最近大热的项目Auto-GPT。最近网上也有不少文章介绍如何部署Auto-GPT到本机,docker,以及使用效果等,但是具体实现方式和介绍项目本质的文章并不多,所以想写下一些文字做个简单记录… 什么是Auto-…

Blender一些建模技巧与应用

平滑卡线(加线) 卡结构线(加线)时,按E均匀线条会使加线与边线均匀对齐。 投影切割 投影切割:使用调形后的曲线,放到模型表面上方进行投影切割(投影形状是:曲线范围内…

Blender 物理属性 (二)布料和碰撞

文章目录 添加与去除布料查看布料效果布料的预设属性(模拟不同的布料效果)布料与其他物体碰撞布料的自交叉问题布料钉固制作一个窗帘 添加与去除布料 1 添加:物体模式选中一个物体,属性栏/物理属性(蓝色圆圈),选择布料…

Blender 模型合并,贴图变糊解决方法

合并前 合并后 原因:两个模型的uv命名不一样。 解决:命名改成一样。

blender 合并多个模型文件中的动画并导出为fbx格式

blender 合并多个模型文件中的动画并导出为fbx格式 契机步骤导出之前导出为fbx 总结 契机 最近在做和Three.js有关的项目,涉及到同一人物的不同动作切换。然而从mixamo上下载下来的动作文件都是独立的,而three中使用合并在一起的单一模型文件会更方便&a…

Blender导出.fbx模型到Unity贴图丢失

原因: 因为Blender的混合着色器是由很多节点组成的,而目标软件获取不到这些过程shader节点的信息,所以目标软件(如Unity)无法加载正确的贴图。一般方法的导出.fbx模型只能导出一些基本的颜色信息和单一纹理贴图。而不…

blender的使用和常见问题

一、切换成中文 二、常用快捷键 全选:【A】 透视:【Z】 删除:【X】 模型角度:【1】沿x轴方向看、【3】沿y轴方向看、【7】沿z轴方向看 选择与确认:【鼠标右键】选择、【鼠标左键】确认 多选:【shift】【鼠…

【Blender】如何在Blender中添加HDRI环境贴图

​ 什么是HDRI环境贴图 环境贴图或HDRI贴图是在Blender中照亮3D场景并实现逼真效果的最有效和最快捷的方法之一。 HDRIs本质上是现实世界照明的快照,其中包含高动态范围成像(HDRI)的准确照明细节。HDRI是一个包含亮度信息(从暗…

Blender 贴图相关

快捷调整材质贴图方法 纹理坐标选择 UV,进入编辑模式,快捷键 U,块面/柱面/球面/从视角投影: 边缘磨损节点 本地文件:磨损节点.blend 全息材质 可以通过右侧的材质栏修改颜色、粗细、速度(速度为负值时方…