TTS常用的声码器介绍
- 分类
- 1. 自回归模型(Auto-regressive)
- 2. 基于流的模型(Flow-based)
- 3. 生成对抗网络(GAN-based)
- 4. 变分自编码器(VAE)与扩散模型
- 5. 传统信号处理算法
- 例子
- 1. 主流声码器分类
- (1) 自回归声码器
- (2) 基于流的声码器
- (3) 基于GAN的声码器
- (4) 轻量级声码器
- 2. 新兴技术方向
- (1) 大模型驱动的声码器
- (2) 高保真扩散模型
- 3. 选型建议
分类
在语音合成(TTS)系统中,声码器(Vocoder)是将声学特征(如梅尔谱图)转换为高质量波形音频的核心组件。根据技术原理和应用场景的不同,常用的声码器可分为以下几类:
1. 自回归模型(Auto-regressive)
- 代表模型:WaveNet、WaveRNN
- 特点:通过逐点生成语音波形,模拟人类发声的时序依赖关系。WaveNet 使用扩张因果卷积网络,能生成高保真语音,但计算量大、推理速度慢。WaveRNN 通过优化循环神经网络结构,提升了效率,但仍难以完全满足实时需求。
- 适用场景:对音质要求极高且对延迟不敏感的场景,如影视配音或高精度语音合成。
2. 基于流的模型(Flow-based)
- 代表模型:WaveGlow、Parallel WaveNet
- 特点:利用可逆神经网络将简单分布映射到复杂语音波形分布,支持并行生成。WaveGlow 结合了流模型和梅尔谱图条件,生成速度快且质量接近自回归模型,但模型参数量大,占用资源多。
- 适用场景:需要平衡速度与质量的场景,如实时语音助手或在线服务。
3. 生成对抗网络(GAN-based)
- 代表模型:MelGAN、HiFi-GAN、VocGAN
- 特点:通过生成器与判别器的对抗训练优化波形生成。
- MelGAN:首个基于GAN的轻量级声码器,推理速度极快(可实时生成),但音质略逊于自回归模型。
- HiFi-GAN:引入多周期判别器和特征匹配损失,显著提升音质,同时保持高效生成,成为当前工业界主流选择。
- VocGAN:在MelGAN基础上改进多尺度判别器,优化了语音细节表现。
- 适用场景:实时语音合成、嵌入式设备或移动端应用。
4. 变分自编码器(VAE)与扩散模型
- VAE:通过隐变量建模生成语音,但音质通常低于GAN和自回归模型。
- 扩散模型:如DiffWave、WaveGrad,通过逐步去噪生成波形,音质接近真实录音,但计算成本较高,适合离线高保真场景。
5. 传统信号处理算法
- Griffin-Lim算法:基于相位重建的经典方法,无需训练且实现简单,但生成的语音机械感较强,多用于早期TTS系统或快速原型验证。
例子
1. 主流声码器分类
(1) 自回归声码器
- WaveNet
- 特点:基于扩张因果卷积生成逐点波形,音质高但计算量大。
- 论文:WaveNet: A Generative Model for Raw Audio
- WaveRNN
- 特点:结合RNN与分段卷积,推理速度较WaveNet提升40倍。
- 论文:Efficient Neural Audio Synthesis
- LPCNet
- 特点:轻量级线性预测声码器,支持16kHz实时合成,复杂度仅2.8GFLOPs。
- 论文:LPCNet: An Efficient Speech Vocoder Using Linear Predictive Coding
(2) 基于流的声码器
- WaveGlow
- 特点:基于Flow的生成模型,支持并行计算,音质接近自回归模型。
- 论文:WaveGlow: A Flow-based Generative Network for Speech Synthesis
- Parallel WaveNet
- 特点:通过可逆变换实现并行生成,速度提升1000倍。
- 论文:Parallel WaveNet: Fast High-Fidelity Speech Synthesis
(3) 基于GAN的声码器
- HiFi-GAN
- 特点:多周期判别器+特征匹配损失,音质与速度的工业级平衡方案。
- 论文:HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis
- MelGAN
- 特点:首个实时GAN声码器,但音质略逊于HiFi-GAN。
- 论文:MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis
(4) 轻量级声码器
- FeatherWave
- 特点:结合多频带WaveRNN与LPCENT框架,16kHz合成速度达12倍实时,MOS评分4.55。
- 论文:FeatherWave: An Efficient High-Fidelity Neural Vocoder
- iSTFTNet
- 特点:基于iSTFT信号处理与神经网络结合,合成速度提升2倍且音质稳定。
- 论文:iSTFTNet: Fast and Lightweight Mel-Spec Vocoder
2. 新兴技术方向
(1) 大模型驱动的声码器
- Seed-TTS
- 特点:基于自回归Transformer与扩散模型,支持零样本语音合成与音色迁移,合成语音自然度达人类水平。
- 论文:Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
- VALLE
- 特点:使用离散音频代码(如Encodec)作为中间表征,实现零样本语音复刻与风格迁移。
- 论文:VALLE: Zero-Shot Voice Style Transfer with Only Autoencoder Loss
(2) 高保真扩散模型
- DiffWave
- 特点:通过去噪过程生成高质量波形,尤其擅长处理极端音调和快速语音。
- 论文:DiffWave: A Versatile Permutation-Invariant Signal Representation for Audio Processing
- WaveGrad
- 特点:优化梯度计算,支持多阶段采样策略,音质接近DiffWave但速度更快。
- 论文: WaveGrad 2: Iterative Refinement for Fast and High-Quality Speech Synthesis
3. 选型建议
- 工业部署:优先选择HiFi-GAN(平衡速度与音质)或FeatherWave(边缘设备优化)。
- 研究探索:关注Seed-TTS(大模型潜力)和VALLE(离散表征新范式)。 扩散模型和混合架构(如GAN+扩散)成为提升音质的新方向,但需优化计算效率。
- 开源工具/轻量化需求:Coqui TTS、Mozilla TTS集成主流声码器,Hugging Face提供FeatherWave等轻量级实现。MelGAN 或 LPCNet(基于线性预测编码)适合资源受限环境。
如需具体模型实现或开源工具,可参考以下资源:
- HiFi-GAN:GitHub 开源代码及预训练模型;
- WaveGlow:NVIDIA 官方实现;
- 开源框架:Coqui TTS、Mozilla TTS 等集成多种声码器。研究院的语音合成综述