TTS(Text To Speech)是一个序列到序列的匹配问题。处理TTS的方法一般分为两部分:文本分析和语音合成(speech synthesis)。文本分析可能采用NLP方法。
而在语音合成(speech synthesis)上有两种主要的方法:一种是非参数化的,基于样例的方法,如拼接语音合成;另一种是参数化的、基于模型的方法,如统计参数语音合成。
拼接语音合成:
基于统计规则的大语料库拼接语音合成系统
超大规模音库制作:语料设计;音库录制;精细切分;韵律标注;
优点:音质最佳,录音和合成音质差异小,正常句子的自然度也好
缺点:非常依赖音库的规模大小和制作质量,尺寸大,无法在嵌入式设备中应用,仍然存在拼接不连续性
参数语音合成
对于引得频谱特性参数进行建模,生成参数合成器,来构建文本序列映射到语音的映射关系
优点:尺寸小,语音自然度好
缺点:音质不如拼接合成