ChatGPT实时语音将于本周向免费用户推出:OpenAI DevDay 2024详细解读

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

北美时间2024年10月1日,2024年度的OpenAI开发者大会(OpenAI DevDay 2024)如期而至。

1. ChatGPT实时语音将于本周向免费用户推出

在OpenAI DevDay 2024的最新更新中,OpenAI宣布从本周开始,实时语音功能Advanced Voice Mode)将面向全球所有ChatGPT Enterprise、Edu和Team用户推出。此外,免费用户也将能够抢先体验到这一功能。

虽然OpenAI如是说,但不出意外,ChatGPT免费用户应该是只能够短暂体验实时语音功能Advanced Voice Mode)这一新功能。毕竟对于ChatGPT Plus用户,实时语音功能也是有着聊天时长限制的,超过规定的聊天时长后,语音模式将会自动切换为标准语音模式(标准语音模式)。

目前OpenAI并没有给出明确的聊天时长限制,只是表示聊天时长的限制可能会随着计算资源而动态调整。聊天时长达到上限前15分钟,ChatGPT会发出通知提醒。

2. Realtime API

对于开发者,OpenAI推出了Realtime API,允许开发者在其应用中构建快速的语音聊天体验,类似于上面提到的ChatGPT实时语音模式(Advanced Voice Mode),但适用于开发者自己的应用。此API以低延迟提供自然的语音对话,现已面向付费开发者以公测形式推出。除了Realtime API,OpenAI还在其Chat Completions API中增加了音频输入和输出功能,开发者无需再将多个模型组合使用,单次API调用即可实现自然的语音对话体验。

主要特点:

  1. 低延迟的多模态体验:开发者可利用Realtime API实现快速的语音到语音转换,并支持在对话中插入功能调用,使语音助手可以执行操作或拉取上下文。

  2. 典型应用场景:可用于客户服务、语言学习、健康和健身教练等场景,提供自然流畅的语音交互。

  3. 音频定价Realtime API支持文本和音频输入输出,按token分别计费,价格为每百万个输入音频tokens 100美元,每百万个输出音频tokens 200美元。

  4. 安全与隐私Realtime API具备多层安全防护,防止滥用,并对用户输入输出进行监控。

3. 在Playground中自动生成Prompt

在OpenAI DevDay的更新中,OpenAI在Playground推出了自动生成Prompt提示词的功能。此功能可以帮助开发者更快地将想法转化为原型。开发者只需简单描述其使用模型的目的,Playground就会自动生成提示、有效的函数架构和结构化输出格式,让开发者更轻松地进行原型设计。

用过Claude控制台的小伙伴应该可以联想到,OpenAI新推出的这个功能对标的就是Claude几个月前在控制台添加的自动生成提示词的功能。详情可以看我这篇文章:《Claude更新王炸功能:一键生成、评估、优化提示词!》。

4. Prompt Caching(提示缓存)

此外,OpenAI推出了Prompt Caching(提示缓存)功能,让开发者能够降低使用成本并加快提示词处理速度。此功能可自动对模型最近处理过的输入令牌进行缓存,开发者可以以50%的折扣价格重复使用这些令牌,并且不会影响延迟。

主要特点:

  1. 折扣与定价:对于已经缓存的输入令牌,开发者可以获得50%的折扣。例如,GPT-4o模型的未缓存输入令牌费用为每百万tokens 2.50美元,而缓存令牌的费用为1.25美元。

  2. 自动应用:Prompt Caching将自动应用于最新版本的GPT-4oGPT-4o minio1-previewo1-mini模型,以及它们的微调版本。提示内容超过1024个令牌时,API会自动缓存,开发者无需修改API集成。

  3. 缓存清除:缓存通常在5到10分钟不活跃后清除,并在最后一次使用后一小时内完全移除。

  4. 企业隐私承诺:缓存不会在组织之间共享,且遵循OpenAI的企业隐私协议。

最后提一句,OpenAI这次推出的Prompt Caching(提示缓存)功能对标的也是Claude在今年8月推出的同名称的功能。

5. Model Distillation(模型蒸馏)

OpenAI在本次更新中推出了Model Distillation(模型蒸馏)功能,这是一个用于微调较小、成本效益更高模型的工作流程,利用大型模型(如GPT-4oo1-preview)的输出来提升性能。

模型蒸馏的主要功能:

  1. 存储完成(Stored Completions):开发者可以通过API捕捉并存储模型生成的输入输出对,生成用于微调的数据集。这使得使用生产数据构建数据集变得更加简单,以便评估和微调较小的模型。

  2. 评估(Evals,测试版):开发者可以在OpenAI平台上创建和运行自定义评估,以衡量模型在特定任务上的性能。Evals与微调流程完全集成,也可以独立使用来评估模型性能。

  3. 微调集成:存储完成和评估工具与现有的微调功能相结合,开发者可以使用存储的完成数据集进行微调,并使用Evals测试微调后的模型性能。

模型蒸馏工作流程:

  1. 通过Evals创建一个评估,以测试目标模型(如GPT-4o mini)的性能。

  2. 使用Stored Completions生成真实世界任务的数据集,将大型模型(如GPT-4o)的输出作为微调的基准数据。

  3. 使用生成的数据集微调较小的模型(如GPT-4o mini),并通过Evals不断测试其性能。

模型蒸馏定价与可用性:

Model Distillation(模型蒸馏)功能现已向所有开发者开放,支持所有OpenAI模型。开发者每天可以获得2百万个免费训练令牌用于GPT-4o mini,直到10月31日。此外,存储完成是免费的,而Evals在2024年底之前,每周最多可运行7次免费的评估,条件是开发者选择将其评估共享给OpenAI以改进未来的模型。

6. Vision Fine-tuning(视觉微调)

OpenAI宣布在其微调API中添加了对视觉微调的支持,开发者现在可以使用图像和文本微调GPT-4o。这一功能为图像理解任务提供了更强大的定制能力,适用于增强视觉搜索、改进自动驾驶的物体检测、或更精确的医学图像分析等应用。

主要特点:

  1. 图像和文本结合微调:开发者可以通过上传图像数据集来增强GPT-4o的视觉处理能力,并且只需100张图像即可实现显著性能提升。随着图像和文本数据量的增加,性能将进一步提升。

  2. 真实世界应用:通过与合作伙伴的测试,GPT-4o在改进道路图像检测、自动化企业流程以及优化网站设计等领域表现出色。例如,Grab 使用视觉微调改进了道路标志定位准确性,Automat 提高了桌面机器人在识别UI元素时的成功率,Coframe 则通过视觉微调提升了网站设计的一致性。

视觉微调定价与可用性:

视觉微调现已向所有付费开发者开放,并支持最新的GPT-4o模型(gpt-4o-2024-08-06)。OpenAI提供了免费的视觉微调训练令牌,2024年10月31日前每天最多100万免费令牌。之后,微调训练将按每百万tokens 25美元收费,推理过程则按每百万输入tokens 3.75美元、输出tokens 15美元计费。

7. 扩大o1模型API的使用权限

OpenAI宣布扩大o1模型API的使用权限,允许账号使用级别第3层(usage tier 3)的开发者访问,并提升了调用速率限制,使其与GPT-4o的速率限制相同,以满足生产级别的应用开发。

  • 第 5 层o1-preview每分钟10,000个请求,o1-mini每分钟30,000个请求。

  • 第 4 层o1-previewo1-mini均为每分钟10,000个请求。

  • 第 3 层o1-previewo1-mini均为每分钟5,000个请求。


精选推荐


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/437617.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows 环境搭建 CUDA 和 cuDNN 详细教程

CUDA CUDA(Compute Unified Device Architecture)是由NVIDIA公司推出的一个并行计算平台和编程模型,它允许开发者使用NVIDIA GPU进行通用计算(即GPGPU),从而加速各种计算密集型任务。CUDA提供了一套基于C/C…

深度学习:cGAN和pix2pix图像转换

cGAN和pix2pix的基础概念 cGAN cGAN是条件生成对抗网络(Conditional Generative Adversarial Networks)的简称。 它是一种基于基础GAN(Generative Adversarial Networks)架构的变体,通过给GAN模型引入额外的信息或条…

【零基础入门产品经理】学习准备篇 | 需要学一些什么呢?

前言: 零实习转行产品经理经验分享01-学习准备篇_哔哩哔哩_bilibili 该篇内容主要是对bilibili这个视频的观后笔记~谢谢美丽滴up主友情分享。 全文摘要:如何在0实习且没有任何产品相关经验下,如何上岸产品经理~ 目录 一、想清楚为什么…

uniapp 上了原生的 echarts 图表插件了 兼容性还行

插件地址:echarts - DCloud 插件市场 兼容性这块儿不知道后期会不会支持其他浏览器 H5 的话建议可以用原生的不用这个插件

沐风老师3DMAX快速嵌板修改器插件Panelizer使用方法

3DMAX快速嵌板修改器插件Panelizer,一键快速几何体分布工具,基于3dsMax的拓扑修改器,将几何模型散布并对齐到四边形面上的参数化建模工具。 【系统要求】 3dsMax 2018.1 - 2025 【安装方法】 1.将插件安装文件(.mcg)…

Llama 系列简介与 Llama3 预训练模型推理

1. Llama 系列简介 1.1 Llama1 由 Meta AI 发布,包含 7B、13B、33B 和 65B 四种参数规模的开源基座语言模型 数据集:模型训练数据集使用的都是开源的数据集,总共 1.4T token 模型结构:原始的 Transformer 由编码器&#xff08…

基于元神操作系统实现NTFS文件操作(二)

1. 背景 本文主要介绍MBR的读取和解析,并提供了基于元神操作系统的实现代码。由于解析MBR的目的是定位到NTFS磁盘分区进行文件操作,所以只解析了MBR的分区表部分,至于MBR的其它部分,可以参考相关文档进行理解。 2. 方法 &#…

Python使用matplotlib绘制五星红旗

安装包 pip install matplotlib pip install numpy完整代码 import matplotlib.pyplot as plt import numpy as np# 设置画布尺寸 fig plt.figure(figsize(10, 7)) ax fig.add_subplot(111)# 绘制红色背景 ax.set_facecolor(red)# 五星红旗的尺寸定义 flag_width 30 flag_…

VMware ESXi 8.0U3b macOS Unlocker OEM BIOS 2.7 Dell HPE 定制版 9 月更新发布

VMware ESXi 8.0U3b macOS Unlocker & OEM BIOS 2.7 Dell HPE 定制版 9 月更新发布 VMware ESXi 8.0U3b macOS Unlocker & OEM BIOS 2.7 标准版和厂商定制版 ESXi 8.0U3 标准版,Dell (戴尔)、HPE (慧与)、Lenovo (联想)、IEIT SYSTEMS (浪潮信息)、Cisco …

前端规范工程-2:JS代码规范(Prettier + ESLint)

Prettier 和 ESLint 是两个在现代 JavaScript 开发中广泛使用的工具,它们结合起来可以提供以下作用和优势: 代码格式化和风格统一: Prettier 是一个代码格式化工具,能够自动化地处理代码的缩进、空格、换行等格式问题,…

491. 递增子序列

文章目录 491. 递增子序列思路回溯三部曲总结 491. 递增子序列 491. 递增子序列 给你一个整数数组 nums ,找出并返回所有该数组中不同的递增子序列,递增子序列中 至少有两个元素 。你可以按 任意顺序 返回答案。 数组中可能含有重复元素,如…

Linux中的进程间通信之管道

管道 管道是Unix中最古老的进程间通信的形式。 我们把从一个进程连接到另一个进程的一个数据流称为一个“管道” 匿名管道 #include <unistd.h> 功能:创建一无名管道 原型 int pipe(int fd[2]); 参数 fd&#xff1a;文件描述符数组,其中fd[0]表示读端, fd[1]表示写端 …

解锁PDF阅读器的神奇功能与应用场景

PDF格式的文档因其稳定性、兼容性和安全性&#xff0c;成为了广泛传播和存储信息的重要载体。而PDF阅读器则是我们打开这个数字知识宝库的关键钥匙。接下来&#xff0c;让我们一同走进福昕PDF阅读器和它小伙伴们的世界&#xff0c;去探索它们的神奇之处。 1.福昕阅读器 链接一…

Spring Boot 和 MyBatis-Plus凑一块儿了,这份教程你得看

一、引言 MyBatis-Plus 是 MyBatis 的增强版&#xff0c;提供了 CRUD 接口、分页插件、性能分析插件等特性&#xff0c;简化了开发过程。本文将详细介绍如何在 Spring Boot 项目中集成 MyBatis-Plus。 支持的数据看也越来越多&#xff0c;值得去搞一下&#xff0c;写了一个小例…

Hive数仓操作(八)

一、Hive中的分桶表 1. 分桶表的概念 分桶表是Hive中一种用于提升查询效率的表类型。分桶指的是根据指定列的哈希值将数据划分到不同的文件&#xff08;桶&#xff09;中。 2. 分桶表的原理 哈希分桶&#xff1a;根据分桶列计算哈希值&#xff0c;对哈希值取模&#xff0c;将…

三维激光扫描技术在文保修缮项目中的应用

三维激光扫描技术作为一种新兴的高精度空间数据获取手段&#xff0c;其在文物保护和修缮项目中的应用日益广泛。这项技术通过快速获取物体表面的三维密集点云数据&#xff0c;为文物的数字化存档、保护、修复及再利用提供了强有力的技术支持。 数据采集&#xff1a;高精度与非接…

Python案例--水仙花数的探索之旅

一、引言 水仙花数&#xff0c;也称为阿姆斯特朗数&#xff0c;是一种特殊的三位数&#xff0c;其各位数字的立方和等于其本身。例如&#xff0c;153就是一个水仙花数&#xff0c;因为 135333153135333153。这种数字的发现不仅展示了数字的内在美&#xff0c;也激发了人们对数…

Element-plus安装及其基础组件使用

简而言之&#xff0c;在main.js中导出以下库,仅此&#xff0c;搞多了出错难排查 import ElementPlus from element-plus //导入ElementPlus 模块 import element-plus/dist/index.css //引入样式 app.use(ElementPlus) //注册库就能使用了 Element Plus 是一个基于 Vue 3 的组件…

《Linux从小白到高手》理论篇(十一):Linux的系统环境管理

值此国庆佳节&#xff0c;深宅家中&#xff0c;闲来无事&#xff0c;就多写几篇博文。本篇详细深入介绍Linux的系统环境管理。 环境变量 linux系统下&#xff0c;如果你下载并安装了应用程序&#xff0c;很有可能在键入它的名称时出现“command not found”的提示内容。如果每…

2024必备英语在线翻译工具推荐

英语在线翻译工具就如同一位随时待命的语言助手&#xff0c;为我们打破语言障碍&#xff0c;搭建起沟通的桥梁。接下来&#xff0c;让我们一起深入了解这些英语在线翻译工具的丰富功能及其为我们带来的便利。 1.福昕在线翻译 链接直达>>https://fanyi.pdf365.cn/doc …