OpenAI重大更新！为ChatGPT推出语音和图像交互功能

原创 | 文 BFT机器人

OpenAI旗下的ChatGPT正在迎来一次重大更新，这个聊天机器人现在能够与用户进行语音对话，并且可以通过图像进行交互，将其功能推向与苹果的Siri等受欢迎的人工智能助手更接近的水平。这标志着生成式人工智能运动的一个显著演进，OpenAI将基于语音助手与其强大的大型语言模型（LLMs）融为一体。

自从大约九个月前首次推出以来，这款广受欢迎的生成式人工智能助手一直是近年来最成功的技术之一，任何人都能通过简单的文本提示生成文章、诗歌和摘要。但现在，ChatGPT即将变得更加具有互动性，用户还可以与AI进行语音对话。

这一新闻与亚马逊承诺向OpenAI竞争对手Anthropic投资多达40亿美元的消息同时传出，这是全球科技巨头之间更大规模的生成式人工智能竞争的一部分，其中包括谷歌试图通过其Bard聊天机器人迎头赶上、Meta采取坚定的开源理念来帮助其占据优势地位、以及微软与OpenAI自身紧密合作。

ChatGPT的新语音功能不仅可以朗读文本输入，还可以讲述睡前故事，解决晚餐桌上的争论等等。这项语音功能由一款新的文本转语音模型提供支持，该模型可以从文本和少量采样的语音中生成类似人类的声音。OpenAI表示，他们与知名的配音演员合作，创建了五种不同的声音，使用他们的开源Whisper语音识别系统将口头表达转录成文本。

此外，Spotify也被宣布为OpenAI的合作伙伴之一，这家音乐流媒体巨头为播客制作者引入了一个非常有趣的新功能，允许他们采样自己的声音并将他们的节目从英语翻译成西班牙语、法语或德语，同时保留他们自己的原声。然而，OpenAI似乎很谨慎，不希望招致批评，因此他们并没有将这项技术提供给所有人——而仅仅跟播客制作者合作，其中包括Dax Shepard、Monica Padman、Lex Fridman、Bill Simmons和Steven Bartlett。