- preprint
- Korea Seoul, Korea
文章目录
- abstract
- method
- Flow Matching for Waveform Generation
- High-frequency Information Modeling for Flow Matching
- demo page,
PeriodWave 三者最好,而且能把原声中的噪声去掉,GAN一类声码器做不到的。
PeriodWave + FreeU (step 16) 有白噪声
MB-PeriodWave (step 16) 有电音 abstract
- PeriodWave,第一个基于周期信息用于高分辨音频生成的结构。
- 使用生成能力强大的flow-matching,结合优化器路径进行快速采样。探讨不同的ODE对于音频生成的效果。
- 使用多周期估计器【使用质数prime number避免重叠】可以显著提升语音质量,但是会增大计算量导致infer 变慢。本文提出一个period-conditional universal estimator ,可以在推理阶段并行的推理多个周期路径。
- 此外,还使用DWT变换,用以建模高频低频信息。用FreeU 降低高频噪声。
method
- 加速infer:(1)多个不同周期的估计器并行推理预测,sum,然后由final block 预测波形;(2)mel-Encoder 编码time-shared conditional 用于flow-base estimators;
Flow Matching for Waveform Generation
- wav 的范围【-1,1】,因此正态分布的噪声对于优化路径是比较大的值,会导致高频信息损失;因此噪声 x 0 ∗ 0.5 x_0 * 0.5 x0∗0.5
- 做了1之后还有轻微白噪声,从mel中得到一个时间相关的energy condition;
High-frequency Information Modeling for Flow Matching
- flow-matching 重建波形,会有高频损失;【Roman,From discrete tokens to high-fidelity audio using multi-band diffusion】,解决方法:Roman提出multi-band diffusion,每个band使用特定的降噪器,还提出frequency equlizer 通过正则每个band 噪声energy scale来减少白噪声;
- 本文用DWT,将频带分成 [0-3, 3-6, 6-9, 9-12 kHz],首先生成低频结构,加在 x 0 x_0 x0上,生成更高的频带,这样做显著的提升了生成音质(even in small sampling steps);将mel 按照band平均,得到先验,[0-61, 60-81, 80-93, 91-100 bins]. ----- 各个band 是wav -dwt 变换之后的;infer时候,第一个band idwt 得到波形;
- FreeU证明skip connection会包含很多高频信息,从而让模型忽视语义信息【Freeu: Free lunch in diffusion u-net.】
- 本文实验也发现skip connection会包含很多高频信息,导致噪声。因此在skip阶段,对信息进行加权 x = α ⋅ z s k i p + β ⋅ x x=α⋅zskip +β⋅x x=α⋅zskip+β⋅x,增大backbone特征(x)可以改善听感质量,降低噪声。