OpenAI发布Voice Engine模型！用AI合成你的声音！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

北美时间3月29日，OpenAI继续大秀肌肉，在一篇博客中发布并展示了一款AI合成语音的模型，Voice Engine。Voice Engine的核心功能是从15秒的录音中生成接近说话者音色的自然语音。如果你上传自己的录音和一段文本，它可以使用听起来像你的AI合成语音来读取文本。并且，文本不必是母语。例如，Voice Engine可以用中文、英语、西班牙语、法语或许多其他语言重新创建你的声音。

和之前公布的文本生成视频模型Sora一样，OpenAI并没有公测Voice Engine这项技术，而是仅对少部分内测用户开放。据OpenAI官方表示，它仍在探索这项AI技术潜在的风险。与图像和视频生成模型一样，语音生成模型很有可能被用在社交媒体上散布虚假信息，并且可能被犯罪分子用来在网上或电话中冒充他人。OpenAI担心Voice Engine可能被用来破解银行账户和其他个人应用程序访问的声音认证系统。

OpenAI的产品经理Jeff Harris在接受采访时表示：“This is a sensitive thing, and it is important to get it right. （这是一个敏感的问题，正确处理它非常重要。）”OpenAI正在探索为合成声音添加水印或控制措施，以防止人们使用该技术模仿政治家或其他知名人物的声音。

Voice Engine早期应用场景

早在2022年底，OpenAI就已开发Voice Engine，并使用它来为文本转语音（TTS）API中的预设声音以及ChatGPT Voice和Read Aloud提供支持。OpenAI表示它一直抱着谨慎的态度，防止AI合成的声音被滥用。目前Voice Engine正在进行小规模测试，OpenAI将根据小规模测试结果做出关于是否以及如何在更大规模上部署这项技术的决定。

关于文本转语音TTS技术感兴趣的小伙伴可以看我之前的这篇文章：ChatGPT最新功能“Text To Speech (TTS，文本转语音)”详细解读！

Voice Engine自去年开始的早期应用场景包括：

教育辅助与个性化互动
- 通过听起来很自然、富有情感的声音为阅读障碍人群和儿童提供阅读辅助，提供比一些预设声音更广泛的音色。致力于儿童学术的教育技术公司Age of Learning一直在使用这项技术来生成预设脚本的配音内容。他们还使用Voice Engine和GPT-4来创建实时、个性化的响应，与学生互动。通过这项技术，Age of Learning能够为更广泛的受众创造更多内容。
多语言视频和播客翻译
- Voice Engine技术支持将内容如视频和播客翻译成多种语言，使创作者和企业能够以自己的语言流利地触及全球观众。早期使用者之一是HeyGen，这是一个AI视觉叙事平台，与他们的企业客户合作，为各种内容创建定制的、类人化的头像，从产品营销到销售演示。他们使用Voice Engine进行视频翻译，这样他们可以将说话者的声音翻译成多种语言，并触及全球观众。当用于翻译时，Voice Engine保留了原始说话者的本地口音：例如，使用法语说话者的音频样本生成的英语会带有法语口音。
提升偏远地区服务交付
- 通过改善偏远地区的基本服务交付，触达全球社区。Dimagi正在为社区卫生工作者构建工具，以提供各种基本服务，例如为哺乳母亲提供咨询。为了帮助这些工作者发展他们的技能，Dimagi使用Voice Engine和GPT-4以每位工作者的主要语言提供交互式反馈，包括斯瓦希里语或像Sheng这样的非正式语言，Sheng是肯尼亚流行的混合代码语言。
增强语言障碍人群的沟通能力
- 支持无法用语言进行沟通的人群，例如为影响语言的疾病患者的治疗应用和为有学习需求的人提供教育增强。Livox是一个AI替代通讯应用程序，为残疾人提供增强性和替代性通讯（AAC）设备。通过使用Voice Engine，他们能够为非言语人群提供独特且非机械的声音，涵盖多种语言。他们的用户可以选择最能代表他们的声音，对于多语言用户来说，可以在每种口语中保持一致的声音。
帮助患者恢复声音
- 帮助患者恢复声音。布朗大学医学院的主要教学附属机构，Norman Prince Neurosciences Institute正在探索AI在临床环境中的用途。他们一直在试行一个项目，为因肿瘤或神经原因导致言语障碍的个体提供Voice Engine。由于Voice Engine只需要15s之短的音频样本，医生Fatima Mirza、Rohaid Ali和Konstantina Svokos能够恢复一位因脑血管肿瘤失去流利语言能力的年轻患者的的声音，使用的是为学校项目录制的视频中的音频。

构建安全的Voice Engine

OpenAI再次强调，在构建Voice Engine时充分意识到AI合成语音技术可能带来的风险，尤其是在选举关键时期。为了确保这项技术的安全使用，OpenAI积极与来自政府、媒体、娱乐、教育和民间社会的美国及国际合作伙伴进行沟通，以获取他们的反馈和建议，并将其融入到技术构建的过程中。

在测试阶段，OpenAI与合作伙伴共同制定了严格的使用政策，明确禁止未经授权的个人或组织声音模仿行为。合作伙伴需获取原始说话者的明确和知情同意，同时确保开发者不为个人用户创建定制声音，并要求向听众明确披露所听到的声音是由AI生成的。此外，为了追踪音频来源并监控使用情况，实施了包括水印技术和主动监控在内的安全措施。OpenAI还提倡建立声音认证机制和禁止声音列表，以防止合成声音与知名人物过于相似，确保技术的负责任部署。

面向未来的技术展望与社会责任

Voice Engine的开发体现了OpenAI对人工智能前沿技术的深入探索和对公开分享其潜力的承诺。在考虑到AI安全性的重要性和对社会的潜在影响下，选择仅进行有限的预览而非全面发布，旨在平衡技术的推广与其可能带来的风险。这一举措旨在展示该技术的潜力，同时唤起社会对于由高度逼真的生成式AI模型所带来的挑战的关注和应对能力。

为了应对AI合成语音技术可能带来的挑战，OpenAI提出了一系列具体的行动建议。这包括逐步淘汰基于声音的认证机制，以增强对敏感信息的保护；探索制定相关政策以保护个人声音不被滥用；普及AI技术的教育，提高公众对技术的理解和对潜在欺骗性内容的警觉；以及加速开发能够追踪音视频内容来源的技术，确保用户能够明确区分真人与AI的互动。