代码复现|Demucs Music Source Separation

一、背景介绍

        Demucs是一个开源的音源分离项目。

        Demucs在算法层面前后经历了三次大版本的进化,最原始的V1版本是:编解码+LSTM。具体算法原理图如下所示。该版本在时域进行音源分离。关于阅读笔记请点击这篇文章。

V1版本原理图

       V2版本是同时使用时域和频域信息进行音源分离。关于阅读笔记请点击这篇文章。

V2版本原理图

        V3版本是在V2版本上使用Transformer进一步提升性能。关于阅读笔记请看这篇文章。

V3版本原理图

二 、准备工作

2.1 安装软件环境

        关于驱动、和pytorch的安装可以看这篇文章Pytorch GPU版本安装-CSDN博客

        关于pip 安装的包可以参看我安装的版本。

Package                   Version
------------------------- -----------
aiohttp                   3.9.5      
aiosignal                 1.3.1      
alembic                   1.13.1     
antlr4-python3-runtime    4.8        
appdirs                   1.4.4      
async-timeout             4.0.3      
attrs                     23.2.0     
audioread                 3.0.1      
autopage                  0.5.2      
Brotli                    1.0.9      
certifi                   2024.2.2   
cffi                      1.16.0     
charset-normalizer        2.0.4      
click                     8.1.7      
cliff                     4.6.0      
cloudpickle               3.0.0      
cmaes                     0.10.0     
cmd2                      2.4.3
colorama                  0.4.6
colorlog                  6.8.2
Cython                    3.0.10
decorator                 5.1.1
diffq                     0.2.4
docker-pycreds            0.4.0
dora_search               0.1.12
einops                    0.8.0
ffmpeg-python             0.2.0
filelock                  3.14.0
frozenlist                1.4.1
fsspec                    2024.3.1
future                    1.0.0
gitdb                     4.0.11
GitPython                 3.1.43
greenlet                  3.0.3
huggingface-hub           0.23.0
hydra-colorlog            1.1.0
hydra-core                1.1.0
hydra-optuna-sweeper      1.2.0
idna                      3.4
importlib_metadata        7.1.0
joblib                    1.4.2
jsonschema                4.21.1
jsonschema-specifications 2023.12.1
julius                    0.2.7
lameenc                   1.7.0
lazy_loader               0.4
librosa                   0.10.2
lightning-utilities       0.11.2
llvmlite                  0.42.0
Mako                      1.3.3
markdown-it-py            3.0.0
MarkupSafe                2.1.5
mdurl                     0.1.2
mkl-fft                   1.3.8
mkl-random                1.2.4
mkl-service               2.4.0
msgpack                   1.0.8
multidict                 6.0.5
musdb                     0.4.2
museval                   0.4.1
mypy                      1.10.0
mypy-extensions           1.0.0
numba                     0.59.1
numpy                     1.26.4
omegaconf                 2.1.2
openunmix                 1.3.0
optuna                    2.10.1
packaging                 24.0
pandas                    2.2.2
pbr                       6.0.0
pillow                    10.2.0
pip                       23.3.1
platformdirs              4.2.1
pooch                     1.8.1
prettytable               3.10.0
protobuf                  4.25.3
psutil                    5.9.8
pyaml                     24.4.0
pycparser                 2.22
Pygments                  2.17.2
pyperclip                 1.8.2
pyreadline3               3.4.1
pyrootutils               1.0.4
PySocks                   1.7.1
python-dateutil           2.9.0.post0
python-dotenv             1.0.1
pytorch-lightning         1.9.0
pytz                      2024.1
PyYAML                    6.0.1
referencing               0.35.0
requests                  2.31.0
retrying                  1.3.4
rich                      13.7.1
rpds-py                   0.18.0
safetensors               0.4.3
scikit-learn              1.4.2
scipy                     1.13.0
sentry-sdk                2.0.1
setproctitle              1.3.3
setuptools                68.2.2
simplejson                3.19.2
six                       1.16.0
smmap                     5.0.1
soundfile                 0.12.1
soxr                      0.3.7
SQLAlchemy                2.0.29
stempeg                   0.2.3
stevedore                 5.2.0
submitit                  1.5.1
threadpoolctl             3.5.0
timm                      0.9.16
tomli                     2.0.1
torch                     1.12.1
torchaudio                0.12.1
torchmetrics              1.3.2
torchvision               0.13.1
tqdm                      4.66.2
treetable                 0.2.5
typing_extensions         4.9.0
tzdata                    2024.1
urllib3                   2.1.0
wandb                     0.16.6
wcwidth                   0.2.13
wheel                     0.41.2
win-inet-pton             1.1.0
yarl                      1.9.4
zipp                      3.18.1

2.2 下载数据集

        关于数据集可以看我之前的一篇文章音源分离|数据集|MUSDB18-HQ-CSDN博客

三、 复现过程

        复现过程主要分享遇到的问题及其解决方式。

3.1 DataLoader读取数据使用多进程出现问题

        参考这篇文章代码复现|DataLoader类num_workers参数引发的进程问题-CSDN博客

3.2 subprocess.run()导致报错“FileNotFoundError: [WinError 2] 系统找不到指定的文件

        参考这篇文章代码复现|subprocess.run()导致报错“FileNotFoundError: [WinError 2] 系统找不到指定的文件“-CSDN博客

3.3 编解码问题UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb2 in position 15: invalid start byte

        报错截图如下,根据报错提示信息定位到源码部分第91行。解决方法,把解码换成gbk

报错截图

报错源码

修改后的代码

3.4 命令找不到问题RuntimeError: Could not change bpm because 'soundstretch' 不是内部或外部命令,也不是可运行的程序或批处理文件。

        

报错截图

定位到报错位置

        出错原因:88行使用了soundstretch指令但是本地没有相应的EXE文件。

        解决方法:下载soundstretch.exe文件,然后放到C:\Windows\System32目录下。

3.5 关于显存不够问题concurrent.futures.process.BrokenProcessPool: A child process terminated abruptly, the process pool is not usable anymore

        我的PC只是8G大小为了让程序跑起来,修改配置文件将batch_size从64改成1,group_size也设置成1。

四、推理

        在训练过程中,因为整个工程是包管理的形式,一开始为了方便排除bug(跑通train.py)我将所有的包导入方式从from .xx import xx 改成 from xx import xx,如下图所示。

       排除完train.py相关的bug后,还原__init__.py,还原之前的包导入方式。使用下面命令运行train.py代码

python -m demucs.train

        等待训练结束后,再使用下面命令导出训练好的模型。注意97d170e1需要实际情况换成自己生成的。

python -m tools.export 97d170e1

          最后使用导出的模型进行推理。

python -m demucs --repo ./release_models -n 97d170e1 --mp3 D:\Basic_Audio\demucs-main\demucs-main\release_models
\mixture.wav

        成了,成了,我看谁还说咱只会看文献。本次从文献阅读,选择要复现的工程,复现初见成效(只是跑通代码)总耗时14个工作日。

五、参考

       非常感谢这位大佬的文章,加快了我的复现进程。【音频分离】demucs V3的环境搭建及训练(window)-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/328246.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

车牌检测识别功能实现(pyqt)

在本专题前面相关博客中已经讲述了 pyqt + yolo + lprnet 实现的车牌检测识别功能。带qt界面的。 本博文将结合前面训练好的模型来实现车牌的检测与识别。并用pyqt实现界面。最终通过检测车牌检测识别功能。 1)、通过pyqt5设计界面 ui文件如下: <?xml version="1…

Star CCM+创建报告与监测

前言 结合前文介绍&#xff0c;创建衍生零部件的目的是为了监测创建的点或者面的数据变化。如Star CCM衍生零部件的创建介绍&#xff0c;创建完所需的点或者面后&#xff0c;下一步就是对创建的点、面进行监测。 一 报告类型介绍 在Star中&#xff0c;通过创建报告来对监测的…

基于单片机的空气质量检测系统设计(51+4G版)-设计说明书

设计摘要&#xff1a; 本设计是基于单片机的空气质量检测系统设计涉及以下主要功能&#xff0c;旨在监测甲烷和一氧化碳的浓度&#xff0c;并在浓度过高时采取相应措施&#xff0c;以确保室内空气质量的安全。该系统使用传感器对甲烷和一氧化碳的浓度进行检测。传感器将收集到…

【环境安装】nodejs 国内源下载与安装以及 npm 国内源配置

前言 Node.js 是一个基于 Chrome V8 引擎构建的 JavaScript 运行时环境&#xff0c;它能够使 JavaScript 在服务器端运行。它拥有强大的包管理器 npm&#xff0c;使开发者能够轻松管理和共享 JavaScript 代码包。 在中国&#xff0c;由于众所周知的原因&#xff0c;我们可能会…

vscode对一些软件的调试插件。

vscode对一些软件的调试插件。 1、ae &#xff0c;f1然后选择运行 after effect 脚本 2、maya,右键send code to maya 3、max&#xff0c;ctrle运行脚本到max 4、unity 从在Visual Studio代码使用.NET的核心&#xff1a; 1、安装.NET Core SDK&#xff0c;链接: https://dotn…

【UE5.1 角色练习】01-使用小白人蓝图控制商城角色移动

目录 效果 步骤 一、导入资源 二、控制角色移动 三、更换角色移动动作 效果 步骤 一、导入资源 新建一个工程&#xff0c;然后在虚幻商城中将角色动画的相关资源加入工程&#xff0c;这里使用的是“动画初学者内容包”和“MCO Mocap Basics” 将我们要控制的角色添加进…

SuperBox设计出图的效率提升!新增内门自动开孔和垫高支架图纸输出功能

越来越多的配电箱项目要求带内门&#xff0c;内门不仅可以有效减少外界灰尘、异物进入配电箱内部&#xff0c;保障配电箱正常运行&#xff0c;还能够隔离操作人员意外触摸导电部件&#xff0c;减少触电事故的发生。但是配电箱在配置内门后&#xff0c;会给设计带来更多的要求&a…

web入门练手案例(一)

下面是一些web入门案例和实现的代码&#xff0c;带有部分注释&#xff0c;倘若代码中有任何问题或疑问&#xff0c;欢迎留言交流~ 新闻页面 案例描述&#xff1a; 互联网的发展使信息的传递变得方便、快捷&#xff0c;浏览新闻称为用户获取信息的重要渠道。下面将实现一个简…

详细教程!VMware Workstation Pro16 安装 + 创建 win7 虚拟机!

嚯嚯嚯&#xff0c;很多宝子都想拥有自己不同的操作系统环境&#xff0c;用于学习或项目搭建。买服务器费钱&#xff0c;虚拟机则成为了一个很好的选择。本文详细介绍VMware Workstation Pro 16安装及win7虚拟机创建&#xff0c;保姆级教程奉上&#xff01; 一、准备工作 VMw…

掏心经验分享,软考中项0基础入门篇!

想备考下半年中项&#xff08;系统集成项目管理工程师&#xff09;的朋友&#xff0c;不知道如何了解软考中项&#xff0c;今天给大家整理一篇关于我自己在备考软考时的一些考量和踩过的一些坑。&#xff08;无广&#xff0c;放心看&#xff09; 很多小伙伴总是听大家说软考中…

Linux 服务器配置共享文件夹(NFS)

一、准备三台 linux 服务器 三台服务器: manger:172.16.11.178 ap1:172.16.11.179 ap2:172.16.11.180 /root/serverfiles/ 为共享目录 二、配置步骤 1、在服务端01的机器上安装nfs和rpcbind程序 yum -y install nfs* yum -y install rpcbind* 2、在安装完nfs以及rpcb…

Leecode热题100---11:盛最多水的容器

题目&#xff1a; 给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线&#xff0c;使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 说明&#xff1a;你不能倾…

使用单目相机前后帧特征点匹配进行3D深度估计的方法

在计算机视觉和机器人领域&#xff0c;三维空间感知是实现环境理解和交互的核心技术之一。特别是在资源受限的场合&#xff0c;使用针孔模型的单目相机进行深度估计成为了一种既经济又实用的解决方案。单目深度估计技术依赖于从连续视频帧中提取和匹配特征点&#xff0c;以估计…

RT-Thread中使用Mqtt

环境&#xff1a; 开发板&#xff1a;Panduola&#xff08;stm32L475&#xff09; KEIL5 开发环境 rtthread 4.0.3内核 使用ENV 配置Rtt MQTT 1.MQTT介绍 ​ 客户端 Client 使用MQTT的程序或设备。客户端总是通过网络连接到服务端。它可以发布应用消息给其它相关的客户端。订…

RocketMQ:新增consumer消费组group从最新消息开始消费skip last offset message

场景 想创建一个新的consumer去消费一个已经再使用的topic时&#xff0c;默认情况下会从topic中的第一条消息开始消费&#xff0c;大多数情况是需要从最新的消息开始。然后再使用CONSUME_FROM_LAST_OFFSET设置时并不会对新的consumer生效&#xff0c;它只是在停用consumer重新启…

Google I/O 2024:探索未来AI技术的无限可能

近日&#xff0c;Google I/O 2024大会圆满落幕&#xff0c;带给我们一场关于人工智能的盛宴。在这场大会上&#xff0c;Google推出了一系列令人激动的AI新功能和工具&#xff0c;让我们得以一窥未来的科技发展。今天&#xff0c;就让我来为大家总结一下这些亮点吧&#xff01; …

压力测试及常用的压测工具!

前言 压力测试是一种评估系统性能的方法&#xff0c;通过模拟大量用户同时访问系统或执行特定操作&#xff0c;以测试系统的负载能力和稳定性。 压力测试可以帮助发现系统在高负载情况下的性能瓶颈、错误或故障&#xff0c;从而提前进行优化和改进。在进行压力测试时&#xf…

吴恩达深度学习笔记:优化算法 (Optimization algorithms)2.7

目录 第二门课: 改善深层神经网络&#xff1a;超参数调试、正 则 化 以 及 优 化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)第二周&#xff1a;优化算法 (Optimization algorithms)2.7 RMSprop 第二门课: 改善深层神经网络&am…

「Python绘图」绘制同心圆

python 绘制同心圆 一、预期结果 二、核心代码 import turtle print("开始绘制同心圆") # 创建Turtle对象 pen turtle.Turtle() pen.shape("turtle") # 移动画笔到居中位置 pen.pensize(2) #设置外花边的大小 # 设置填充颜色 pen.fillcolor("green&…

【大数据】计算引擎MapReduce

目录 1.概述 1.1.前言 1.2.大数据要怎么计算&#xff1f; 1.3.什么是MapReduce&#xff1f; 2.架构 3.工作流程 4.shuffle 4.1.map过程 4.2.reduce过程 1.概述 1.1.前言 本文是作者大数据系列专栏的其中一篇&#xff0c;专栏地址&#xff1a; https://blog.csdn.ne…