PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

preprint
Korea Seoul, Korea
文章目录
- abstract
- method
- - Flow Matching for Waveform Generation
  - High-frequency Information Modeling for Flow Matching

demo page，
PeriodWave 三者最好，而且能把原声中的噪声去掉，GAN一类声码器做不到的。
PeriodWave + FreeU (step 16) 有白噪声
MB-PeriodWave (step 16) 有电音
abstract
- PeriodWave，第一个基于周期信息用于高分辨音频生成的结构。
- 使用生成能力强大的flow-matching，结合优化器路径进行快速采样。探讨不同的ODE对于音频生成的效果。
- 使用多周期估计器【使用质数prime number避免重叠】可以显著提升语音质量，但是会增大计算量导致infer 变慢。本文提出一个period-conditional universal estimator ，可以在推理阶段并行的推理多个周期路径。
- 此外，还使用DWT变换，用以建模高频低频信息。用FreeU 降低高频噪声。
method
- 加速infer：（1）多个不同周期的估计器并行推理预测，sum，然后由final block 预测波形；（2）mel-Encoder 编码time-shared conditional 用于flow-base estimators;
Flow Matching for Waveform Generation
1. wav 的范围【-1，1】，因此正态分布的噪声对于优化路径是比较大的值，会导致高频信息损失；因此噪声 $x_0 * 0.5$
2. 做了1之后还有轻微白噪声，从mel中得到一个时间相关的energy condition；
High-frequency Information Modeling for Flow Matching
- flow-matching 重建波形，会有高频损失；【Roman,From discrete tokens to high-fidelity audio using multi-band diffusion】，解决方法：Roman提出multi-band diffusion，每个band使用特定的降噪器，还提出frequency equlizer 通过正则每个band 噪声energy scale来减少白噪声；
- 本文用DWT，将频带分成 [0-3, 3-6, 6-9, 9-12 kHz]，首先生成低频结构，加在 $x_0$ 上，生成更高的频带，这样做显著的提升了生成音质（even in small sampling steps)；将mel 按照band平均，得到先验，[0-61, 60-81, 80-93, 91-100 bins]. ----- 各个band 是wav -dwt 变换之后的；infer时候，第一个band idwt 得到波形；
- FreeU证明skip connection会包含很多高频信息，从而让模型忽视语义信息【Freeu: Free lunch in diffusion u-net.】
- 本文实验也发现skip connection会包含很多高频信息，导致噪声。因此在skip阶段，对信息进行加权 $x = α \cdot zs ki p + β \cdot x$ ，增大backbone特征（x）可以改善听感质量，降低噪声。