2022年8月,一幅名为《太空歌剧院》的数字画作获得冠军同时引发了巨大争议,AIGC(AI产生内容:AI-Generated Content)出圈的事件便频频出现在大众视野。同年11月30日OpenAI发布的聊天机器人模型ChatGPT免费开放,更掀起了人们对AIGC的广泛兴趣,各种花式问题,例如改代码,谈学问、问人生……ChatGPT的“机智”与“博学”令人刮目相看并耳目一新。
ChatGPT之所以引起了广泛关注,在于OpenAI 先后发布了三代GPT模型,每一代模型参数量都比前一代增长了10倍甚至100倍,进入GPT-3.5代的模型则是采用了RLHF(从人类反馈强化学习)方式,能够更好地理解人类语言的含义,即与人类在聊天、文章撰写、解答询问、代码查错等互动时更像一个经过“认真思考”慎重给出答案的“人”。
面对圈内如此热点,在火山语音音频合成算法研究员Stephen看来:“之所以AIGC近期表现大热,与AI生产的内容质量阶梯式提升密不可分。AI作为生产工具触发了更高的效率,AIGC则包含了文本生成、音频生成、图像生成和视频生成等诸多方向,也会反过来刺激其背后的人工智能技术快速发展,逐渐体现出极大的商业价值。”
声情并茂与能说会演 或成为AI语音的难点之一
我们经常会感慨,AI作画让你领略的是AI的“想象力”, 以ChatGPT为代表的AI问答则让你因为其博学与答案的“可读性”而震惊,而AI语音则考验的是TA能否像真人一样对内容正确理解后,通过匹配人设的音色以及符合当时情景的语气表达出来,这一点在火山语音(字节跳动AI Lab 智能语音与音频团队)与番茄小说的合作中屡见不鲜,AI算法生成的语音可以让你直接去听任何文字版的小说,而且听起来“更聪明一点”:差异化的音色配合恰当的语气,在朗读时化身“戏精”演绎出“喜怒哀乐”。
据了解,要让AI声情并茂与能说会演,首先需要确保输出内容不读错,这就需要文本分析模型来进行解析。“在番茄小说中,文本分析前端我们采用了 NLP 领域应用广泛的 Transformer 架构模型 BERT。主要通过神经网络加规则混合的正则化模型(TN)和多任务前端模型,结合长期的人工规则修正,不断提升前端的句级别精度,并通过蒸馏、量化等技术降低了算力需求。”
此外为了让语音听感更佳,团队还基于常规 TTS 流程加入了更多功能模块,实现了角色归属与情感控制。例如在角色归属中同样采用了 bert 结构,进行对话判定和指代消歧两个任务的建模,另外也采用了类似的结构进行情感预测。“通常小说文字中会出现多人对话,每个说话人又有属于自己的多种情感,如果可以将音色和情感进行解耦,就可以更好地控制合成语音的表现力,实现不同音色与不同情感的灵活组合,这个很关键。”
重要的一点,为了让AI能够理解各种类型小说的文本,火山语音还率先提出了“AI 文本理解”模型,即一套多任务的长文本理解AI系统。能够自动化地从小说文本中区分出对话的角色、判别出对话中所想要表达出的情感、预测出合理的句间停顿,极大地提升了精品 AI 有声书的制作效率,有效突破了人工标注的生产瓶颈。
「AI 文本理解」模型
更进一步,火山语音团队在满足发音清晰、韵律连贯、语调起伏的基础上,自研半监督学习的端到端风格控制声学模型,使声音遵循普鲁契克情感色轮(Plutchik's Wheel of Emotions)的情感类型,表现出开心、悲伤、惊讶、恐惧等多种情感色彩,以情感迁移的方式,让原本没有情感的发音获得多情感合成的效果。更好表达“以声传情”,将人类语言中常会出现的「副语言」现象进行了精细化的建模还原,实现了在有声书中常见的重音停顿、疑问反问、笑声哭腔、以及各类叹息、叫喊声等,达成了文本内容的精彩演绎。
“接近真人播讲的效果,使最终的AI语音能够体现出不同角色在不同上下文环境里的效果,是我们一直以来追求的目标。未来,我们更希望可以做到,通过文本-语音联合训练大模型,对不同上下文环境的文本提取表征,提升角色判别成功率;凭借多话者语音合成大模型,对情感、风格、音色和口音等属性进行解耦并能够自由迁移;同时根据文本描述生成匹配的背景音来提升有声书聆听时的代入感。”
提高内容质量和产生效率才是AIGC的核心价值
在更多实践中我们发现,除了文字和图像,人们对语音交互的应用范围更广,例如人们在家中经常通过语音交互发出指令控制各种电器;出行时通过车载语音助手完成导航、预定餐厅等事项;以及在办公场景中高频率使用的会议助手等,都离不开智能语音方案来提高内容质量和生产效率。
对此火山语音团队也随之进行了更多相关的创新性尝试,例如在短视频成为全民时尚的今天,面对UGC群体视频创作的随性记录以及音频质量不可控等现实因素,通过火山语音智能字幕解决方案为视频创作自动添加字幕,不仅可以兼容识别中、英、粤等常用的语言和方言,还能对歌曲进行识别。
对此火山语音音频理解方向产品经理W补充道:“视频内容生产中,传统加字幕的方式需要创作者对视频进行数次听写并校对,还需要根据起始时间逐帧对齐,经常10分钟的视频需要几小时的后期制作时间才能完成。此外字幕组还要精通多语言并熟悉字幕文件的制作,整体下来视频制作成本很高,这对于当今短视频时代的个人创作者或是单纯以记录生活的用户来说早已高不可及。”
为了降低创作门槛,让所有创作者都能轻松制作高质量的视频内容,记录美好生活,火山语音自研推出了智能字幕解决方案。不仅能够高效识别方言与歌曲,还可以对语种混合以及说话唱歌混合的场景有很好的识别效果;此外还可通过对用户创作内容的音频特性以及领域分析,凭借算法优化,大大提升语音识别对于噪声场景、多人说话等复杂场景的表现。尤其面对移动端用户针对功能响应时间的较高要求,即希望字幕可以既快且准,对此火山语音做了大量的工程优化和策略,1分钟的视频只需2-3秒即可完成。
智能字幕解决方案展示
众所周知,面对相同的内容,人类对于音频信息的获取效率远低于文本信息的获取效率,而将语音转化成文本被记录与使用的关键在于语音识别,例如火山语音推出的“千言转文字,一字胜千言”的实时字幕解决方案就是通过“语音识别+语音翻译”的AI链路,让跨国家、跨语言交流变得更加流畅;通过自动生成会议记录与纪要,做到大大提升与会者的工作效率,大幅减少会后整理和会中记录的工作量。可以预见伴随科技的迅速发展,AI语音会为人机交互增加信息输出的渠道,为信息获取提升效率。
同样面对AIGC带来质量以及效率的提升问题,在火山语音语音交互产品经理Y看来,AIGC确实有望在智能语音交互的辅助场景中落地,可以实现包括会话摘要、话术推荐、情绪安抚、工单摘要等方向的客服功能,辅助解决方案来提高生产效率。举个例子,在人机对话触发转人工时,可自动生成人机对话的对话摘要,辅助人工更快了解用户诉求,避免出现突然冷场去翻查聊天记录的情况;在与人对话过程中,通过对用户话术的理解,运用AIGC能力来生成答案供客服参考,提高了客服对话的效率。
“此外在异常情况处理方面也可发挥作用,比方说用户出现烦躁、愤怒等情绪时,AICG或可自动生成安抚话术供客服参考,提升服务满意度等。未来,伴随多模态技术和AIGC技术的不断成熟,或许通过虚拟数字人可取代部分人工,以人机共生的形态直接服务客户,更显著降低人力成本,提升服务效率。”但他也明确表示,如今的AIGC还无法做到真正独立生产内容,尚处于辅助人类提升内容生产效率的阶段。
成本、版权、实用性仍是AIGC发展的瓶颈
不论是ChatGPT给出了惊人回答,还是番茄小说中AI演绎出了感人声音,就连马斯克也惊叹:我们离强大到危险的人工智能不远了。这似乎预示着AIGC的时代即将来临。
然而在AI算法一线工作多年的火山语音音频合成算法研究员Stephen却有着更为清醒的判断,他指出:“AIGC背后的技术,未来可能会进行多模态融合,不仅仅是单一模态的生成式任务,这就像人类在创造内容的过程中也不仅仅是根据单一形态的知识而构思出新内容。举个例子,就像生成交互式数字人的任务中,目前主要是人脸、表情、姿态和动作的单独预测,未来或将用一个生成式模型预测这些特征,提升各特征之间的协同效果,降低分别录制带来的工作量;此外也会根据多模态理解任务得到的表征,基于正在对话的用户的表情、语气和肢体动作,在生成的形象和声音上给予对应的反馈。”
除了技术发展的预测,不容忽视的一点,目前AIGC在成本、版权和实用性上仍存在巨大挑战。他认为目前AIGC成本居高不下,很显著的表现是高质量文本、图片和视频生成技术等,都对应着大量训练和推理阶段硬件资源的消耗,这导致高校和研究机构均很难参与其中,不利于行业发展的推动。
“此外在版权保护上,目前生成的内容有些可能会被用来进行非法活动,因此在内容中加入版权保护,例如图像和音频水印变得越来越重要,但是在加入过程中,还得考虑不要因为剪切、混合等后处理方式导致水印失效。”
过去的2022年,尽管在图片和视频生成方向的技术应用效果显著提升,但依然需要大量人工筛选后,内容才能实际落地;而基于长篇章文本生成上下文相关的漫画和视频,既要保证场景的连续性,又要能体现人物的变化,还有大量的技术难题需要解决,避免人工智能变成“人工智障”是个挑战,所以实用性还有更多的提升空间。
我们或许可以这样认为,AIGC作为一种新型的内容生产方式,之所以受到关注,充分说明了各行各业对于内容的渴望,尤其是互联网平台,如何高效理解、创作、互动和分发内容,确实给现今的AI 技术带来了机遇和挑战。