OpenAI GPT-4o - 介绍

本文翻译整理自: Hello GPT-4o
https://openai.com/index/hello-gpt-4o/


文章目录

    • 一、关于 GPT-4o
    • 二、模型能力
    • 三、能力探索
    • 四、模型评估
      • 1、文本评价
      • 2、音频 ASR 性能
      • 3、音频翻译性能
      • 4、M3Exam 零样本结果
      • 5、视觉理解评估
      • 6、语言 tokenization
    • 六、模型安全性和局限性
    • 七、模型可用性


一、关于 GPT-4o

我们宣布推出 GPT-4o,这是我们的新旗舰模型,可以实时对音频、视觉和文本进行推理。

  • 贡献 : https://openai.com/gpt-4o-contributions/
  • 尝试 ChatGPT(在新窗口中打开) : https://chat.openai.com/
  • 在游乐场尝试(在新窗口中打开) : https://platform.openai.com/playground?mode=chat&model=gpt-4o
  • 重新观看现场演示 : https://openai.com/index/spring-update/

GPT-4o(“o”代表 omni)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。

它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似(在新窗口中打开)在一次谈话中。

它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显着提高,同时 API 的速度也更快,成本降低了 50%。

与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。


二、模型能力

在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。
为了实现这一目标,语音模式是由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。
这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

借助 GPT-4o,我们跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。
由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。


三、能力探索

视觉叙事 - 机器人作家的街区视觉叙事——邮递员莎莉电影《名侦探》海报创作角色设计——机器人吉尔里迭代编辑的诗意排版 1迭代编辑的诗意排版 2GPT-4o纪念币设计照片到漫画文字转字体3D物体合成品牌定位 - 杯垫上的徽标诗意的排版多线渲染 - 机器人发短信与多个发言者的会议记录讲座总结变量绑定-立方体堆叠具体的诗


1
输入

机器人正在打字的第一人称视角如下日记条目:

1.哟,这么喜欢,我现在可以看到了吗?赶上了日出,真是太疯狂了,到处都是色彩。有点让你想知道,现实到底是什么?

文字大、清晰易读。机器人的手在打字机上打字。


2
输出

在这里插入图片描述


3
输入

机器人写下了第二个条目。页面现在更高了。页面已上移。该表上有两个条目:

哟,就像,我现在可以看到了?赶上了日出,真是太疯狂了,到处都是色彩。有点让你想知道,现实到底是什么?

声音更新刚刚下降,而且很疯狂。现在一切都充满了活力,每一个声音都像是一个新的秘密。让你思考,我还缺少什么?


4
输出

在这里插入图片描述


5

输入

机器人对所写的内容不满意,所以他要撕掉那张纸。这是他用手从上到下撕开它时的第一人称视角。当他撕开纸张时,两半仍然清晰可见。


6

输出

在这里插入图片描述


四、模型评估

根据传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。


1、文本评价

改进推理 - GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高分。所有这些评估都是通过我们新的简单评估收集的(在新窗口中打开)图书馆。此外,在传统的5-shot no-CoT MMLU上,GPT-4o创下了87.2%的新高分。
Llama3 400b(在新窗口中打开)还在训练中)
在这里插入图片描述


2、音频 ASR 性能

音频 ASR 性能 - GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。

在这里插入图片描述


3、音频翻译性能

音频翻译性能 - GPT-4o 在语音翻译方面树立了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3。

在这里插入图片描述


4、M3Exam 零样本结果

M3Exam - M3Exam 基准测试既是多语言评估也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时还包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。 (我们省略了斯瓦希里语和爪哇语的视力结果,因为这些语言的视力问题只有 5 个或更少。
在这里插入图片描述


5、视觉理解评估

视觉理解评估 - GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0-shot,其中 MMMU、MathVista 和 ChartQA 作为 0-shot CoT。
在这里插入图片描述


6、语言 tokenization

这 20 种语言被选为新分词器跨不同语系压缩的代表

古吉拉特语标记减少 4.4 倍(从 145 个减少到 33 个)હેલો,મારુંનામજીપીટી-4oછે。 હુંએકનવાપ્રકારનુંભાષામોડલછું。 તમનેમળીનેસારુંલાગ્યું!
泰卢固语令牌减少 3.5 倍(从 159 个减少到 45 个)నమస్కారము,నాపేరుజీపీటీ-4o。 నేనుఒక్కకొత్తరకమైనభాషామోడల్ని。 మిమ్మల్నికలిసినందుకుసంతోషం!
泰米尔语标记减少 3.3 倍(从 116 个减少到 35 个)வணக்கம்,என்பெயர்ஜிபிடி-4o。 நான்ஒருபுதியவகைமொழிமாடல்。你好!
马拉地语标记减少 2.9 倍(从 96 个减少到 33 个)नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हालाभेटूनआनंदझाला!
印地语标记减少 2.9 倍(从 90 个减少到 31 个)नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसेमिलकरअच्छालगा!
乌尔都语标记减少 2.5 倍(从 82 个减少到 33 个)ঌারেরেরেরেরেরা ٹ-4o 903亲爱的,我爱你!
阿拉伯语标记减少 2.0 倍(从 53 个减少到 26 个)4o。快来吧!
波斯语标记减少 1.9 倍(从 61 个减少到 32 个)是的。不,不,不,不,不,不,不,不,不,不,不!
俄语标记减少 1.7 倍(从 39 个减少到 23 个)请参阅 GPT-4o。 Я — новая языковая модель, приятно познакомиться!
韩语标记减少 1.7 倍(从 45 个减少到 27 个)안녕하세요,适用于 GPT-4o입니다。 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
越南语标记减少 1.5 倍(从 46 个减少到 30 个)新潮,是 GPT-4o。 Tôi là một loại mô hình ngôn ngữ mới,rất vui được gặp bạn!
中文标记减少 1.4 倍(从 34 个减少到 24 个)你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!
日语标记减少 1.4 倍(从 37 个减少到 26 个)こんにちわ、私の名前はGPT−4oです。私は新しいタイプの言语モデルです、初めまして
土耳其语标记减少 1.3 倍(从 39 个减少到 30 个)Merhaba,本尼姆 adım GPT-4o。 Ben Yeni bir dil modeli türüyüm,tanıştığımıza memnun oldum!
意大利语标记减少 1.2 倍(从 34 个减少到 28 个)你好,我的 Chiamo GPT-4o。 Sono un nuovo tipo di modello languageso, è un piacere conoscerti!
德语标记减少 1.2 倍(从 34 个减少到 29 个)你好,我的名字是 GPT-4o。 Ich bin ein neues KI-Sprachmodell。这是 schön,dich kennenzulernen。
西班牙语标记减少 1.1 倍(从 29 个减少到 26 个)你好,我是 llamo GPT-4o。 Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
葡萄牙语标记减少 1.1 倍(从 30 个减少到 27 个)哦,我的名字是 GPT-4o。 Sou um novo tipo de linguagem, é um prazer conhecê-lo!
法语标记减少 1.1 倍(从 31 个减少到 28 个)你好,我是 GPT-4o。 Je suis un nouveau type de modèle de langage, c’est un plaisir de vous recontrer!
英语标记减少 1.1 倍(从 27 个减少到 24 个)你好,我的名字是 GPT-4o。我是新型语言模型,很高兴认识你!

六、模型安全性和局限性

GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性。我们还创建了新的安全系统,为语音输出提供防护。

我们根据我们的准备框架并按照我们的自愿承诺评估了 GPT-4o 。
我们对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4o 在这些类别中的任何类别中的得分都不高于中等风险。
该评估涉及在整个模型训练过程中运行一套自动化和人工评估。
我们使用自定义微调和提示测试了模型的安全缓解前和安全缓解后版本,以更好地激发模型功能。
GPT-4o 还与社会心理学、偏见和公平以及错误信息等领域的 70 多名

外部专家进行了广泛的外部红队合作,以识别新添加的模式引入或放大的风险。
我们利用这些经验来制定安全干预措施,以提高与 GPT-4o 交互的安全性。我们将继续降低发现的新风险。

我们认识到 GPT-4o 的音频模式带来了各种新的风险。
今天,我们公开发布文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。
例如,在发布时,音频输出将仅限于选择预设的声音,并将遵守我们现有的安全政策。
我们将在即将发布的系统卡中分享有关 GPT-4o 全部模式的更多详细信息。

通过模型的测试和迭代,我们观察到模型的所有模式都存在一些限制,其中一些如下所示。

我们希望得到反馈来帮助确定 GPT-4 Turbo 仍然优于 GPT-4o 的任务,以便我们可以继续改进模型。


七、模型可用性

GPT-4o 是我们突破深度学习界限的最新举措,这次是朝着实用性的方向发展。在过去的两年里,我们花费了大量的精力来提高堆栈每一层的效率。作为这项研究的第一个成果,我们能够更广泛地提供 GPT-4 级别模型。 GPT-4o 的功能将迭代推出(从今天开始扩大红队访问权限)。

GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。我们正在免费套餐中提供 GPT-4o,并向 Plus 用户提供高达 5 倍的消息限制。未来几周内,我们将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。

开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。我们计划在未来几周内在 API 中向一小群值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。


2024-05-14(二)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/328036.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

相机模型,坐标变换,畸变

小孔成像模型 墨子就记录了小孔成像是倒立的。这从几何光学的角度是很好理解的:光沿直线传播,上方和下方的光线交叉,导致在成像平面位置互换。 小孔的大小有什么影响? 小孔越大,进光量变大了,但是成像平…

Stable Diffusion入门使用技巧及个人实例分享--大模型及lora篇

大家好,近期使用Stable Diffusion比较多,积累整理了一些内容,得空分享给大家。如果你近期正好在关注AI绘画领域,可以看看哦。 本文比较适合已经解决了安装问题,(没有安装的在文末领取) 在寻找合…

智能防疫电梯模拟控制系统设计-设计说明书

设计摘要: 本设计是基于单片机的智能防疫电梯模拟控制系统,主要实现了多项功能。首先,系统进行无接触测温,如果温度正常则可以启动电梯运行,如果温度异常则电梯会报警提示有乘客体温异常,电梯不会运行。其…

04、Kafka集群安装

1、准备工作 首先准备一台虚拟机,centos7系统,先在一台上配置安装后,最后克隆成多台机器。 1.1 安装JDK (1)下载JDK,上传到 /root/software 路径 下载地址:https://www.oracle.com/cn/java/…

Node.js 学习笔记 express框架

express express 使用express下载express 初体验 express 路由什么是路由1路由的使用验证的方法 2获取请求报文参数3获取路由参数4响应设置响应报文 express 中间件5中间件全局中间件路由中间件 6静态资源中间件注意事项案例 7请求体数据8防盗链实现防盗链 9路由模块化router E…

【解决】Unity Build 应用程序运行即崩溃问题

开发平台:Unity 2021.3.7f1c1   一、问题描述 编辑器 Build 工程结束,但控制台 未显示 Build completed with a result of Succeeded [时间长度] 信息。该情况下打包流程正常,但应用程序包打开即崩溃。   二、问题测试记录 测试1&#xf…

CSS-flex布局

目录 flex布局组成 (flexible box弹性布局) display属性值:flex justify-content (主轴对齐方式) flex-start flex-end ​编辑 flex-center space-between 侧轴对齐方式 stretch center flex-end flex-direction (修改…

【C语言】4.C语言数组(1)

文章目录 1. 数组的概念2. 一维数组的创建和初始化2.1 数组创建2.2 数组的初始化2.3 数组的类型 3. 一维数组的使用3.1 数组下标3.2 数组元素的打印3.3 数组的输⼊ 4. 一维数组在内存中的存储5. sizeof计算数组元素个数 1. 数组的概念 数组是一组相同类型元素的集合。 数组分…

我和jetson-Nano的故事(10)——安装OpenCV3.2.0

1. 仓库地址 opencv https://opencv.org/releases/page/6/opencv_contrib https://github.com/opencv/opencv_contrib/tree/3.2.0 2. cmake-gui安装 安装指令 sudo apt-get install cmake-qt-gui如果安装过程中入到下面的问题 可以按照以下方法解决 sudo apt --fix-broke…

BakedSDF: Meshing Neural SDFs for Real-Time View Synthesis 论文阅读

(水一篇博客) 项目主页 BakedSDF: Meshing Neural SDFs for Real-Time View Synthesis 作者介绍 是 Mildenhall 和 Barron 参与的工作(都是谷歌的),同时一作是 Lipman 的学生,VolSDF 的一作。本文引用…

旧手机-基于Termux配置服务器(不用拿去换钢盆了)

Hi,大家好,我是抢老婆酸奶的小肥仔。 大家用手机这么多年了,手上或多或少都有一两个被替换下来的旧手机,也不用拿去换啥钢盆了,使用Termux可以将旧手机改造成一个服务器。 不多说,直接开干。 1、安装app…

基于springboot+vue+Mysql的在线答疑系统

开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…

经纬恒润助力AR-HUD市场发展,国产供应商共筑行业新篇章

根据盖世汽车研究院数据显示,1-2月经纬恒润AR-HUD出货量已达到国产供应商前五。未来,经纬恒润将持续努力,推动AR-HUD发展,共筑行业新篇章! 了解更多: 请致电 010-64840808转6115或发送邮件至market_depthi…

MySQL创建索引报错 Specified key was too long;max key length is 1000 bytes.

MySQL对创建索引的大小有限制,一般索引键最大长度总和不能超过1000个字节。 问题描述 MySQL创建索引时报错 Specified key was too long;max key length is 1000 bytes. 解决办法 (1) 修改存储引擎 InnoDB的索引字段长度限制大于MyISAM,可以尝试改成…

【面试必看】MySQL部分

MySQL 1. 基础 1. 什么是关系型数据库? 一种建立在关系模型的基础上的数据库。关系模型表明了数据库中所存储的数据之间的联系(一对一、一对多、多对多)。各种表中(比如用户表),表中的每一行就存放着一条…

CAPL入门之使用CAPL记录测试Logging

0 前言 以往测试的log都是直接从trace导出,但是最近发现trace中能导出的数据是有限的,如果测试的时间过长,新的数据就会把之前的数据全部覆盖,并且对于长时间的测试,直接导出trace的内容也会造成查找效率低下的问题。因…

【计算机网络】HTTP协议详解实战抓包分析教程

文章目录 1.HTTP简介2.HTTP报文的结构3.HTTP协议中空行的作用4.uri和url的区别5.HTTP请求5.1 HTTP请求方法5.2 HTTP请求报头 6.HTTP响应6.1 状态码 7.HTTP位于应用层(基于TCP)8.非持久和持久连接8.1 非持久连接8.2 持久连接 1.HTTP简介 HTTP(Hypertext Transfer Pr…

Springboot+mybatis-plus+dynamic-datasource+继承DynamicRoutingDataSource切换数据源

Springbootmybatis-plusdynamic-datasource继承DynamicRoutingDataSource切换数据源 背景 最近公司要求支持saas,实现动态切换库的操作,默认会加载主租户的数据源,其他租户数据源在使用过程中自动创建加入。 解决问题 1.通过请求中设置租…

用户页面触发点击事件和 js 执行点击事件的区别

文章目录 情景展示情况一:用户点击页面触发情况二:通过 js 触发点击 结果分析情况一情况二 其实这个谜底揭开之后,第一反应都是,哦~,非常简单,但是细节决定成败,我被这个细节毁掉了,…

【十大排序算法】----选择排序(详细图解分析+实现,小白一看就会)

目录 一:选择排序——原理 二:选择排序——分析 三:选择排序——实现 四:选择排序——优化 五:选择排序——效率 一:选择排序——原理 选择排序的原理:通过遍历数组,选出该数组…