音源分离 | Hybrid Spectrogram and Waveform Source Separation

一、摘要

本文提出了基于Demucs架构的的时域+频域的分离模型。提出的模型在2021年索尼组织的音乐分离挑战中获胜。该架构还包括其他改进，如压缩残差分支、局部注意力或奇异值正则化。

在MusDB HQ数据集上，所有源的信噪比（SDR）平均提高了1.4 dB，这一改进得到了人类主观评估的确认，整体质量评分为2.83分（非混合Demucs为2.36分），污染程度评分为3.04（非混合Demucs为2.37，比赛中排名第二的模型为2.44）。

二、方法

2.1 引言

音乐源分离的研究集中在将鼓、贝斯、人声和其他伴奏分离的监督方式上。2021年索尼组织的音乐分离挑战（MDX）提供了一个新的在线比赛平台，用于评估分离模型在未知测试集上的表现。

2.2 方法

本研究扩展了Demucs架构，以执行混合波形、频谱域源分离。模型包括时间域和频率域的并行分支，并引入了压缩残差分支、局部注意力和奇异值正则化等改进。这些改进在MusDB基准和MDX隐藏测试集上进行了评估，并进行了主观评估。

三、结果

混合Demucs在音乐分离挑战的Track A中取得了第一名，证明了其在鼓和贝斯源上的强大性能，同时在其他和人声源上也有显著提升。在MusDB数据集上，混合Demucs在鼓和贝斯源上实现了最佳性能，而在其他和人声源上则有所提升，但仍未超过KUIELAB-MDX-Net模型。人类评估结果表明，混合Demucs在整体质量上有所提高，尤其是在减少源之间污染方面。

总结：本文提出的混合源分离方法在音乐源分离领域取得了重要进展，通过混合波形和频谱域的方法，以及引入的新技术，显著提升了分离质量。尽管如此，该方法也带来了U-Net编码器、解码器复杂性的增加，这需要在未来的工作中进一步优化和简化。

【原文链接】https://arxiv.org/pdf/2111.03600

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/327236.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！