技术解读 | 科大讯飞语音技术最新进展之二：语音识别与语音合成

这一篇内容将围绕语音识别与合成方向，继续为大家带来相关技术解析。

“风物长宜放眼量”。面向人机交互更加自然流畅的未来，智能语音技术进展如何？该走向何方？

以下内容根据讯飞研究院杰出科学家潘嘉在NCMMSC 2022上的主题演讲《科大讯飞语音技术前沿进展》整理。

技术专业度：⭐⭐⭐⭐⭐

语音识别

1、主流框架均为自回归端到端建模

2、提出基于文本语音统一空间表达的非自回归ASR框架

3、进一步提出多元语义评价的多任务学习框架

语音合成

1、提出SMART-TTS

2、虚拟音色生成

语音识别

主流框架均为自回归端到端建模

当前，基于自回归方式的端到端建模已经成为语音识别的主流框架。主要包含Attention-based Encoder-Decoder以及引入预测网络的Transducer结构。所谓自回归方式相当于在语音识别模型中引入了语言模型机制，其特点是预测当前识别结果需用等待先前历史的识别结果。

但是在真正大规模部署时，自回归的性质会影响并行程度和推理效率，因此我们思考是否能建立一个高准确率的非自回归的框架，便很自然想到了CTC（Connectionist temporal classification,连接时序分类）——作为非自回归的框架，其特性会将输出表现为尖峰的形式。

提出基于文本语音统一空间表达的非自回归ASR框架

如果做汉字的CTC建模，其隐层表征能抓到汉字级别上下文的关系，除了时长不一样以外，与自然语言里mask恢复或纠错任务是非常接近的。

为了解决语音和文本长度不匹配问题，讯飞研究院设计了一种有效的方案，即在文本中增加blank等来实现帧级的扩展。最终实现的效果是加入海量的纯文本数据与语音字级CTC数据联合训练后，将文本数据里包含的上下文语言模型类似信息吸收到整个模型中，结果也证明并不逊色于自回归的ED和Transducer，甚至更好。

进一步提出多元语义评价的多任务学习框架

同时，讯飞研究院进一步提出了多元语义评价的多任务学习框架来提高语音识别的可懂度。看上图左边，虽然识别率达到了93%，但其中一些关键部分识别错误影响了理解。

我们在字级CTC后又接了一些层，将其收到句字级的表征之后去做意图分类、语法评价等目标，希望整句话除了识别结果高之外，还能在意图上等较好地分类，提高语音识别系统的可懂度。

语音合成

提出SMART-TTS（Self-supervised Model Assisted pRosody learning for naTural Text To Speech）

近几年围绕语音合成通用框架所做的工作很丰富，例如VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)这种端到端建模，以及韵律表征等。

讯飞研究院提出了SMART-TTS框架，核心思路就是将语音合成的学习过程进行模块化拆解，通过预训练加强各个模块学习，而非一开始就直接学习文本与声学特征的映射。

首先做文本编码预训练。通过将文本先和语音联合在一起做预训练，希望在文本的表征里就能包含一些跟发音韵律相关的信息，在此基础上再做韵律建模、提取韵律表征相对就容易一些。

除了传统的基频能量或时长等一些人为设计的统计特征，我们用对比学习的方式提取韵律特征，使得对语音韵律的表征能力更强。

有了韵律特征之后，我们再去恢复最终的声学特征，声学特征用到了VAE等一些编码，在编码的基础上通过声码器最终去恢复它的语音。

目前，SMART-TTS已经上线讯飞开放平台，在学习强国、讯飞有声APP中都可以直接体验到其语音合成效果。

关于讯飞在线语音合成技术的更多应用信息点击查看：

在线语音合成_免费试用-讯飞开放平台

虚拟音色生成

除了SMART-TTS之外，讯飞研究院还在语音合成领域做了另外一项工作：虚拟音声的生成。

元宇宙是当下很火的一个话题，元宇宙空间中NPC（non-player character，非玩家角色）可以说无处不在。如果NPC的语音跟自己的人设不符，会很明显影响我们的体验感受。而面对海量的NPC，想要为每个NPC都寻找合适的发音人是极为费时费力的一件事。

同样的情况也出现在有声小说中，繁多的角色如果用同一个声音朗读，会让我们感觉比较乏味。怎样才能贴合每个角色的性格去实现声音的“角色扮演”呢？

虚拟音色生成，就是将海量说话人的语音联合在一起训练语音合成模型首先通过音色编码模块提取说话人的相关表征，这些表征是为了说话人识别服务的，在音色空间构成上是区分性的表征，不像生成式模型在空间层面有很多内插等的属性。因此，我们通过流模型将音色表征进一步投影到新的隐层表征空间，将这个空间的表征和前面的文本表征、韵律表征联合做语音合成。

因为在训练时会有非常多说话人的数据，且训练时还会标出一些说话人的音色特征标签，例如年龄、性别、特点（甜美、浑厚等）等，有了这些标签引导后使得最后的音色空间表征Z具有很强的指示性，同时还具有很好的内插等属性。

有了相关模型后，使用就变得更加简单了。我们可以输入一些希望生成的语音，例如“青年甜美的女声”等，然后通过语义编码模块训练一个和Z的映射关系，最后可以根据采样得到符合音色控制标签的音色。