语音克隆技术浪潮：探索OpenAI Voice Engine的奇妙之旅

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

OpenAI最近搞了个大新闻，推出了一个叫做Voice Engine的语音生成平台，只要给它一小段15秒的声音样本，它就能创造出一个能够读出各种语言文字的合成声音。这技术听起来是不是很酷？他们说，这些小范围的应用实验对他们理解如何在各个行业中利用Voice Engine起到了很大的帮助。现在，能用这项技术的公司还挺有看头的，包括教育科技公司Age of Learning、视觉故事平台HeyGen、前线健康软件制造商Dimagi、AI通讯应用开发者Livox，还有健康系统Lifespan呢。

通过OpenAI发布的样本，你能听到Age of Learning是怎样使用这项技术生成预设的配音内容，以及如何用GPT-4写出的“实时、个性化回应”来读给学生听。

OpenAI透露，Voice Engine的开发工作从2022年底就开始了，现在已经能为文本到语音的API和ChatGPT的朗读功能提供预设声音了。在接受TechCrunch采访时，OpenAI的Voice Engine产品团队成员Jeff Harris表示，这个模型是通过训练“一系列获得许可和公开可用的数据”来完成的。OpenAI告诉这家媒体，这个模型最初只会向大约10个开发者开放。

AI文本到音频的生成是个持续发展的领域，尽管大家更多地关注乐器或自然声音的生成，但能产生人声的公司相对较少，部分原因是OpenAI提到的那些问题。一些在这个领域的公司，比如Podcastle和ElevenLabs，提供AI语音克隆技术和工具，去年Vergecast还专门探讨过这些。

同时，美国政府也在努力遏制AI语音技术的不道德使用。上个月，联邦通信委员会(FCC)禁止使用AI语音的自动电话拨打，因为有人收到用AI克隆的乔·拜登总统声音的垃圾电话。

根据OpenAI的说法，它的合作伙伴同意遵守使用政策，即不使用语音生成技术来冒充没有同意的人或组织。还要求合作伙伴获得原始说话者的“明确且知情的同意”，不为个别用户创建自己的声音，并向听众透露这些声音是由AI生成的。OpenAI还给音频剪辑加上了水印，以追踪其来源，并积极监控音频的使用方式。

OpenAI提出了几个步骤，认为这些可以限制这类工具周围的风险，包括逐步淘汰基于声音的身份验证以访问银行账户、保护人们声音在AI中使用的政策、对AI深度伪造的更大教育，以及开发AI内容的追踪系统。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/294186.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！