OpenAI发布Voice Engine模型!用AI合成你的声音!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

北美时间3月29日,OpenAI继续大秀肌肉,在一篇博客中发布并展示了一款AI合成语音的模型,Voice Engine。Voice Engine的核心功能是从15秒的录音中生成接近说话者音色的自然语音。如果你上传自己的录音和一段文本,它可以使用听起来像你的AI合成语音来读取文本。并且,文本不必是母语。例如,Voice Engine可以用中文、英语、西班牙语、法语或许多其他语言重新创建你的声音。

和之前公布的文本生成视频模型Sora一样,OpenAI并没有公测Voice Engine这项技术,而是仅对少部分内测用户开放。据OpenAI官方表示,它仍在探索这项AI技术潜在的风险。与图像和视频生成模型一样,语音生成模型很有可能被用在社交媒体上散布虚假信息,并且可能被犯罪分子用来在网上或电话中冒充他人。OpenAI担心Voice Engine可能被用来破解银行账户和其他个人应用程序访问的声音认证系统。

OpenAI的产品经理Jeff Harris在接受采访时表示:“This is a sensitive thing, and it is important to get it right. (这是一个敏感的问题,正确处理它非常重要。)”OpenAI正在探索为合成声音添加水印或控制措施,以防止人们使用该技术模仿政治家或其他知名人物的声音。

Voice Engine早期应用场景

早在2022年底,OpenAI就已开发Voice Engine,并使用它来为文本转语音(TTS)API中的预设声音以及ChatGPT Voice和Read Aloud提供支持。OpenAI表示它一直抱着谨慎的态度,防止AI合成的声音被滥用。目前Voice Engine正在进行小规模测试,OpenAI将根据小规模测试结果做出关于是否以及如何在更大规模上部署这项技术的决定。

关于文本转语音TTS技术感兴趣的小伙伴可以看我之前的这篇文章:ChatGPT最新功能“Text To Speech (TTS,文本转语音)”详细解读!

Voice Engine自去年开始的早期应用场景包括:

  1. 教育辅助与个性化互动

    • 通过听起来很自然、富有情感的声音为阅读障碍人群和儿童提供阅读辅助,提供比一些预设声音更广泛的音色。致力于儿童学术的教育技术公司Age of Learning一直在使用这项技术来生成预设脚本的配音内容。他们还使用Voice Engine和GPT-4来创建实时、个性化的响应,与学生互动。通过这项技术,Age of Learning能够为更广泛的受众创造更多内容。

  2. 多语言视频和播客翻译

    • Voice Engine技术支持将内容如视频和播客翻译成多种语言,使创作者和企业能够以自己的语言流利地触及全球观众。早期使用者之一是HeyGen,这是一个AI视觉叙事平台,与他们的企业客户合作,为各种内容创建定制的、类人化的头像,从产品营销到销售演示。他们使用Voice Engine进行视频翻译,这样他们可以将说话者的声音翻译成多种语言,并触及全球观众。当用于翻译时,Voice Engine保留了原始说话者的本地口音:例如,使用法语说话者的音频样本生成的英语会带有法语口音。

  3. 提升偏远地区服务交付

    • 通过改善偏远地区的基本服务交付,触达全球社区。Dimagi正在为社区卫生工作者构建工具,以提供各种基本服务,例如为哺乳母亲提供咨询。为了帮助这些工作者发展他们的技能,Dimagi使用Voice Engine和GPT-4以每位工作者的主要语言提供交互式反馈,包括斯瓦希里语或像Sheng这样的非正式语言,Sheng是肯尼亚流行的混合代码语言。

  4. 增强语言障碍人群的沟通能力

    • 支持无法用语言进行沟通的人群,例如为影响语言的疾病患者的治疗应用和为有学习需求的人提供教育增强。Livox是一个AI替代通讯应用程序,为残疾人提供增强性和替代性通讯(AAC)设备。通过使用Voice Engine,他们能够为非言语人群提供独特且非机械的声音,涵盖多种语言。他们的用户可以选择最能代表他们的声音,对于多语言用户来说,可以在每种口语中保持一致的声音。

  5. 帮助患者恢复声音

    • 帮助患者恢复声音。布朗大学医学院的主要教学附属机构,Norman Prince Neurosciences Institute正在探索AI在临床环境中的用途。他们一直在试行一个项目,为因肿瘤或神经原因导致言语障碍的个体提供Voice Engine。由于Voice Engine只需要15s之短的音频样本,医生Fatima Mirza、Rohaid Ali和Konstantina Svokos能够恢复一位因脑血管肿瘤失去流利语言能力的年轻患者的的声音,使用的是为学校项目录制的视频中的音频。

构建安全的Voice Engine

OpenAI再次强调,在构建Voice Engine时充分意识到AI合成语音技术可能带来的风险,尤其是在选举关键时期。为了确保这项技术的安全使用,OpenAI积极与来自政府、媒体、娱乐、教育和民间社会的美国及国际合作伙伴进行沟通,以获取他们的反馈和建议,并将其融入到技术构建的过程中。

在测试阶段,OpenAI与合作伙伴共同制定了严格的使用政策,明确禁止未经授权的个人或组织声音模仿行为。合作伙伴需获取原始说话者的明确和知情同意,同时确保开发者不为个人用户创建定制声音,并要求向听众明确披露所听到的声音是由AI生成的。此外,为了追踪音频来源并监控使用情况,实施了包括水印技术和主动监控在内的安全措施。OpenAI还提倡建立声音认证机制和禁止声音列表,以防止合成声音与知名人物过于相似,确保技术的负责任部署。

面向未来的技术展望与社会责任

Voice Engine的开发体现了OpenAI对人工智能前沿技术的深入探索和对公开分享其潜力的承诺。在考虑到AI安全性的重要性和对社会的潜在影响下,选择仅进行有限的预览而非全面发布,旨在平衡技术的推广与其可能带来的风险。这一举措旨在展示该技术的潜力,同时唤起社会对于由高度逼真的生成式AI模型所带来的挑战的关注和应对能力。

为了应对AI合成语音技术可能带来的挑战,OpenAI提出了一系列具体的行动建议。这包括逐步淘汰基于声音的认证机制,以增强对敏感信息的保护;探索制定相关政策以保护个人声音不被滥用;普及AI技术的教育,提高公众对技术的理解和对潜在欺骗性内容的警觉;以及加速开发能够追踪音视频内容来源的技术,确保用户能够明确区分真人与AI的互动。

OpenAI博文原文

最后,附上英文版的OpenAI博文原文:

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices


精选推荐

  1. 完全免费白嫖GPT4的三个方法,都给你整理好了!

  2. AI领域的国产之光,ChatGPT的免费平替:Kimi Chat!

  3. Kimi Chat,不仅仅是聊天!深度剖析Kimi Chat 5大使用场景!

  4. 我用AI工具5分钟制作一个动画微电影!这个AI现在免费!

  5. 当全网都在疯转OpenAI的Sora时,我们普通人能做哪些准备?——关于Sora,你需要了解这些!

  6. 文心一言4.0 VS ChatGPT4.0哪家强?!每月60块的文心一言4.0值得开吗?

  7. ChatGPT和文心一言哪个更好用?一道题告诉你答案!

  8. 字节推出了“扣子”,国内版的Coze,但是我不推荐你用!

  9. 白嫖GPT4,Dalle3和GPT4V - 字节开发的Coze初体验!附教程及提示词Prompt

  10. 2024年了你还在用百度翻译?手把手教会你使用AI翻译!一键翻译网页和PDF文件!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/291179.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

6_相机坐标系_相机4个坐标系详述

相机系列文章是用来记录使用opencv3来完成单目相机和6轴机械臂手眼标定。本人吃饭的主职是linux下6轴机械臂相关应用开发。但对于机械臂运动学、相机应用等都非常感兴趣,所以对一些线性代数基础薄弱又想深入了解机械臂内部运算的同志比较有体会。由于是探索性学习&a…

快速上手Spring Cloud 九:服务间通信与消息队列

快速上手Spring Cloud 一:Spring Cloud 简介 快速上手Spring Cloud 二:核心组件解析 快速上手Spring Cloud 三:API网关深入探索与实战应用 快速上手Spring Cloud 四:微服务治理与安全 快速上手Spring Cloud 五:Spring …

新数字时代的启示:揭开Web3的秘密之路

在当今数字时代,随着区块链技术的不断发展,Web3作为下一代互联网的概念正逐渐引起人们的关注和探索。本文将深入探讨新数字时代的启示,揭开Web3的神秘之路,并探讨其在未来的发展前景。 1. Web3的定义与特点 Web3是对互联网未来发…

Discourse 最多允许有几个分类级别

和 DISCUZ 不同,DISCUZ 可以允许分类下面还有分类,再继续分类这种嵌套式分类。 Discourse 最多只允许有 2 个分类。 如果你在已有的分类下再继续分类的话,系统会提示错误: 意思就是子分类不能再分子分类。 Discourse 尽量采取了…

【linux课设】自主实现shell命令行解释器

shell和bash的关系 shell是命令解释器,它接收用户的命令并将其传递给内核去执行。bash,即GNU Bourne-Again Shell,是shell的一种实现方式,也是大多数linux系统下默认的shell。 bash的原理 大多数的指令进程(除了内建命令&#…

窥探未来:Web3如何颠覆传统互联网

随着科技的迅速发展,Web3正逐渐成为人们关注的焦点。与传统的Web2相比,Web3代表了一种全新的互联网模式,其潜力和影响力引发了人们对未来的期待和探索。本文将深入探讨Web3如何颠覆传统互联网的各个方面,并展望其可能带来的未来变…

Docker搭建LNMP环境实战(08):安装php-fpm

1、编写php测试文件 在文件夹&#xff1a;/mnt/hgfs/dockers/test_site/www目录下创建文件&#xff1a;test.php&#xff0c;内容为&#xff1a; <?phpecho "hello world!!!!!! From test.php"; ?>2、编写php-fpm部署配置文件 在文件夹&#xff1a;/mnt/h…

基于单片机寻迹巡线避障智能小车系统设计

**单片机设计介绍&#xff0c;基于单片机寻迹巡线避障智能小车系统设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机寻迹巡线避障智能小车系统设计是一个结合了硬件与软件技术的综合性项目。该系统的目标是设计一款…

AMEYA360代理 | 江苏长晶科技FST2.0高性能 IGBT产品介绍

江苏长晶科技股份有限公司是一家专业从事半导体产品研发、生产和销售的企业。自2019年起&#xff0c;连续4年被中国半导体行业协会评为 “功率器件十强企业”。2021年开始自主研发有着“工业CPU”之称的IGBT&#xff0c;截至2023年Q3在家电/工业/新能源等行业实现8款产品市场应…

【MySQL】DML的表操作详解:添加数据&修改数据&删除数据(可cv例题语句)

前言 大家好吖&#xff0c;欢迎来到 YY 滴MySQL系列 &#xff0c;热烈欢迎&#xff01; 本章主要内容面向接触过C Linux的老铁 主要内容含&#xff1a; 欢迎订阅 YY滴C专栏&#xff01;更多干货持续更新&#xff01;以下是传送门&#xff01; YY的《C》专栏YY的《C11》专栏YY的…

政安晨:【Keras机器学习实践要点】(九)—— 保存、序列化和导出模型

目录 介绍 如何保存和加载模型 保存一个Keras模型 装回模型 设置 保存 例子&#xff1a; 自定义对象 向 load_model() 传递自定义对象 使用自定义对象范围 模型序列化 APIs 内存模型克隆 任意对象序列化和反序列化 保存模型权重 内存中的权重传递接口 无状态层…

阿里云Salesforce CRM功能差异列表 - Winter‘24

阉割版的阿里云Salesforce由于技术和监管等因素与国际版的Salesforce差距很大&#xff01; 一、Winter‘ 24版差异概况&#xff1a; 1.1. 主要版本&#xff1a; 阿里云上的 Salesforce 提供两个版本&#xff0c;用于生产用途的 CN 版本&#xff08;CN Edition&#xff09;和用…

20240329-科技咨询:比亚迪第五代DMi;央视AI《周处除三害》;带屏幕苹果耳机爆火

一、比亚迪5月份即将推出第五代DMi技术 近日&#xff0c;比亚迪举行了2023年财报投资人沟通会。会议纪要显示&#xff0c;比亚迪董事长王传福在会上透露&#xff0c;今年5月将推出第五代DMI混动技术&#xff0c;预计馈电油耗将降至2.9升/百公里&#xff0c;而满油满电续航将达…

Matlab-写入mhd和raw医学图像处理格式文件

作者&#xff1a;翟天保Steven 版权声明&#xff1a;著作权归作者所有&#xff0c;商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处 mhd和raw是什么&#xff1f; MHD&#xff08;MetaImage&#xff09;和RAW&#xff08;Raw Image Data&#xff09;是用于医学图像…

kubernetes-networkpolicies网络策略问题

kubernetes-networkpolicies网络策略问题 问题描述 重点重点重点&#xff0c;查看我的博客CKA考题&#xff0c;里面能找到解决方法 1.部署prometheus监控的时候&#xff0c;都部署成功&#xff0c;但是web访问503-504超时 2.添加ingress的时候也是访问不到&#xff0c;其他命…

HarmonyOS实战开发-如何实现一个简单的电子相册应用开发

介绍 本篇Codelab介绍了如何实现一个简单的电子相册应用的开发&#xff0c;主要功能包括&#xff1a; 实现首页顶部的轮播效果。实现页面跳转时共享元素的转场动画效果。实现通过手势控制图片的放大、缩小、左右滑动查看细节等效果。 相关概念 Swiper&#xff1a;滑块视图容…

Eclipse新建java类的操作流程

一、在左侧空白区域&#xff0c;点击鼠标右键。 二、点击new&#xff0c;选择Java Project &#xff08;由于这里不知道怎么截图&#xff0c;就用手机拍了一张&#xff0c;希望不要介意&#xff09; 三、 给project文件起个名字&#xff0c;其他都不用管&#xff0c;点击Finis…

YoloV8实战:使用YoloV8检测钢材表面缺陷

摘要 本文讲解一下实战,使用YoloV8检测钢材表面缺陷。起因是有粉丝搞不定这个数据集,检测的时候出现了不收敛的情况。所以,给大家讲讲如何去做。 不收敛的原因 一般遇到不收敛的情况,就是数据转化的时候出错了,大家可以打开runs下面的训练日志,观察一下是否正常。 如…

数据结构(六)——图

六、图 6.1 图的基本概念 图的定义 图&#xff1a;图G由顶点集V和边集E组成&#xff0c;记为G (V, E)&#xff0c;其中V(G)表示图G中顶点的有限非空集&#xff1b;E(G) 表示图G中顶点之间的关系&#xff08;边&#xff09;集合。若V {v1, v2, … , vn}&#xff0c;则用|V|…

快排(六大排序)

快速排序 快速排序是Hoare于1962年提出的一种二叉树结构的交换排序方法&#xff0c;其基本思想为&#xff1a;任取待排序元素序列中的某元素作为基准值&#xff0c;按照该排序码将待排序集合分割成两子序列&#xff0c;左子序列中所有元素均小于基准值&#xff0c;右子序列中所…