每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
OpenAI最近搞了个大新闻,推出了一个叫做Voice Engine的语音生成平台,只要给它一小段15秒的声音样本,它就能创造出一个能够读出各种语言文字的合成声音。这技术听起来是不是很酷?他们说,这些小范围的应用实验对他们理解如何在各个行业中利用Voice Engine起到了很大的帮助。现在,能用这项技术的公司还挺有看头的,包括教育科技公司Age of Learning、视觉故事平台HeyGen、前线健康软件制造商Dimagi、AI通讯应用开发者Livox,还有健康系统Lifespan呢。
通过OpenAI发布的样本,你能听到Age of Learning是怎样使用这项技术生成预设的配音内容,以及如何用GPT-4写出的“实时、个性化回应”来读给学生听。
OpenAI透露,Voice Engine的开发工作从2022年底就开始了,现在已经能为文本到语音的API和ChatGPT的朗读功能提供预设声音了。在接受TechCrunch采访时,OpenAI的Voice Engine产品团队成员Jeff Harris表示,这个模型是通过训练“一系列获得许可和公开可用的数据”来完成的。OpenAI告诉这家媒体,这个模型最初只会向大约10个开发者开放。
AI文本到音频的生成是个持续发展的领域,尽管大家更多地关注乐器或自然声音的生成,但能产生人声的公司相对较少,部分原因是OpenAI提到的那些问题。一些在这个领域的公司,比如Podcastle和ElevenLabs,提供AI语音克隆技术和工具,去年Vergecast还专门探讨过这些。
同时,美国政府也在努力遏制AI语音技术的不道德使用。上个月,联邦通信委员会(FCC)禁止使用AI语音的自动电话拨打,因为有人收到用AI克隆的乔·拜登总统声音的垃圾电话。
根据OpenAI的说法,它的合作伙伴同意遵守使用政策,即不使用语音生成技术来冒充没有同意的人或组织。还要求合作伙伴获得原始说话者的“明确且知情的同意”,不为个别用户创建自己的声音,并向听众透露这些声音是由AI生成的。OpenAI还给音频剪辑加上了水印,以追踪其来源,并积极监控音频的使用方式。
OpenAI提出了几个步骤,认为这些可以限制这类工具周围的风险,包括逐步淘汰基于声音的身份验证以访问银行账户、保护人们声音在AI中使用的政策、对AI深度伪造的更大教育,以及开发AI内容的追踪系统。