ComfyUI中运行Stable Audio Open，实现背景音乐、音效自由

ComfyUI中运行Stable Audio Open，实现背景音乐、音效自由

news/2024/11/15 21:54:43/文章来源:https://blog.csdn.net/JuMengXiaoKeTang/article/details/139843343

🧨背景

stability在一个月之前默默的发布了Stable Audio Open 1.0的音频音效生成模型，不过好像影响力一般，也没有太多文章分享测试，而今天看comfyui作者的一篇介绍文档，他已经让comfyui默认支持了这个模型。

原开源地址：https://huggingface.co/stabilityai/stable-audio-open-1.0

Stable Audio Open 1.0根据文本提示生成 44.1kHz 的可变长度（最长 47 秒）立体声音频。它由三个组件组成：将波形压缩为可管理序列长度的自动编码器、用于文本调节的基于 T5 的文本嵌入，以及在自动编码器的潜在空间中运行的基于变换器的扩散 (DiT) 模型。

实际测试下来，在音效生成方面，其实还可以，结合sd3或许可以生成不错的解压视频，所以这里介绍给大家。

✨训练集与应用限制

训练素材

数据集包含 486492 条录音，其中 472618 条来自 Freesound，13874 条来自免费音乐档案馆 (FMA)。所有音频文件均根据 CC0、CC BY 或 CC Sampling+ 获得许可。这些数据用于训练我们的自动编码器和 DiT。我们使用公开的预训练 T5 模型 ( t5-base ) 进行文本调节。

限制

该模型无法生成逼真的声音。
该模型已使用英语描述进行训练，在其他语言中的表现不会那么好。
该模型并不适用于所有音乐风格和文化。
该模型在生成音效和现场录音方面比音乐更出色。
有时很难评估哪种类型的文本描述可以提供最佳的生成效果。可能需要及时进行工程设计才能获得令人满意的结果。

🎊使用方法

第一步，首先更新ComfyUI到最新的版本；

第二步，下载音频生成相关的两个模型：

【音频生成模型资源】

https://pan.quark.cn/s/83bc2652d05e

第三步，从第二步的网盘下载工作流；

第四步，把stable-audio-open-1.0.safetensors模型放在models文件夹下的checkpoints文件夹下，可以有二级目录；

把t5-base模型放在models下clip文件夹下(注意，这里不能直接用sd3的t5xxl模型，这两个不通用)

第五步，打开工作流，选择大模型的地址，输入提示词就可以正常生成音频了。

注意：如果最右下角的mixlab的节点你没有安装，直接删掉这个节点也可以，这个节点的作用是在comfyui中直接播放音乐，比较方便而已，并不影响生成。

如果没有这个节点，可以到output文件夹下找到生成的音频：

测试下来，音频效果还不错，以下是几个可以尝试的音频提示词：

非常轻松的爵士小调：Very relaxing and pleasant jazz music, suitable for vlogs.

蛙鸣：A summer night with many frogs croaking.

雷电交加：Thunder and lightning, accompanied by the sounds of the wind and waves.

😄玩的开心，如果对你有帮助的话，记得点赞哦~

✨写在最后

之前一直讲的都是webUI的课程，这次针对ComfyUI的新手开了一门图文课程，目前还在持续更新中，欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html

感谢大家的支持~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/362385.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

学分制系统 WebService_PantoSchool SQL注入致RCE漏洞复现

学分制系统 WebService_PantoSchool SQL注入致RCE漏洞复现

0x01 产品简介学分制系统由上海鹏达计算机系统开发有限公司研发，是基于对职业教育特点和需求的深入理解，结合教育部相关文件精神，并广泛吸纳专家、学者意见而开发的一款综合性管理系统。系统采用模块化的设计方法，方便学校根据自身教学改革特点、信息化建设进程情况选择、…

阅读更多...

如何预防和处理他人盗用IP地址？

如何预防和处理他人盗用IP地址？

IP地址的定义及作用解释 IP 地址在互联网中的作用。它是唯一标识网络设备的数字地址，类似于物理世界中的邮政地址。 1、IP地址盗窃的定义解释一下什么是IP地址盗用，即非法使用他人的IP地址或者伪造IP地址的行为，这种行为可能引发法律和安…

阅读更多...

uniapp 实人认证

uniapp 实人认证

最下面有demo 首先Dcloud创建云服务空间，开启一键登录并充值下一步 1. 右键项目》创建uniCloud云开发环境》右键uniCloud》关联云服务空间 2. cloudfunctions右键新建云函数，任意命名（例：veify），然…

阅读更多...

elasticsearch重置密码

elasticsearch重置密码

0 案例背景 Elasticsearch三台集群环境，对外端口为6200，忘记elasticsearch密码，进行重置操作注：若无特殊说明，三台服务器均需进行处理操作 1 停止es /rpa/bin/elasticsearch.sh stop 检查状态 ps -ef|grep elast…

阅读更多...

【Linux】ss 命令使用详解

【Linux】ss 命令使用详解

目录一、ss命令介绍二、ss命令格式和使用 1、命令格式 2、ss命令的常用选项 3、命令的常见用法 3.1 找出打开套接字/端口应用程序 3.2 检查系统的监听套接字 3.3 显示所有状态为established的SMTP连接 3.4 查看建立的 TCP 连接 3.5 通过 -r 选项解析 IP 和端口号 …

阅读更多...

UI（三）布局

UI（三）布局

文章目录 1、Colum和Row——垂直方向容器和水平方向容器2、ColumnSplit和RowSplit——子组件之间插入一条分割线3、Flex——弹性布局子组件的容器4、Grid和GridItem——网格容器和网格容器单元格5、GridRow和GridCol——栅格容器组件和栅格子组件6、List、ListItem、ListItemGr…

阅读更多...

Mac OS 安装frida

Mac OS 安装frida

安装frida和frida-tools Python是基础，提前装好Python 终端执行 python3 -m pip install frida 如果出现error 按照提示处理信息提示：brew install pipx 于是终端执行： brew install pipx 安装frida： pipx install frida…

阅读更多...

华宽通中标长沙市政务共性能力建设项目，助力智慧政务建设新飞跃

华宽通中标长沙市政务共性能力建设项目，助力智慧政务建设新飞跃

在数字化浪潮的推动下，长沙市政府正积极拥抱智慧城市建设，以科技力量提升政务服务效能。华宽通凭借其卓越的技术实力与丰富的项目经验，成功中标长沙市政务共性能力建设项目，这无疑是对华宽通在智慧城市领域实力的高度认可。华宽…

阅读更多...

Mind+在线图形编程软件（Sractch类软件）

Mind+在线图形编程软件（Sractch类软件）

Scratch作为图形编程软件，可以为小朋友学习编程提供很好的入门，是初次接触编程的小朋友的首选开发软件。这里介绍的Mind软件与Sractch用法几乎完全一致，并且可以提供在线免安装版本使用，浏览器直接打开网址： ide.mindp…

阅读更多...

纳米硅（SiNP）可用于制造锂离子电池纳米硅粉为其代表产品

纳米硅（SiNP）可用于制造锂离子电池纳米硅粉为其代表产品

纳米硅（SiNP）可用于制造锂离子电池纳米硅粉为其代表产品纳米硅（SiNP）指尺寸在纳米尺度范围内的硅颗粒。纳米硅具有光吸收谱宽、表面活性高、比表面积大、机械强度高、电学性能好等优势，在石油化工、建筑工程、电子电…

阅读更多...

TypeError: %c requires int or char

TypeError: %c requires int or char

踩坑：在用python写脚本查询sql数据时，使用%s来替换sql语句里的变量，结果一直报，而其他sql使用同样的方法正常，最后发现是因为sql语句里有模糊查询 like "%测试%"，这里的%被误以为%s，解…

阅读更多...

PostgreSQL安装教程及文件介绍

PostgreSQL安装教程及文件介绍

Ubuntu 安装和配置 PostgreSQL 以 Ubuntu Server 20.04，PostgreSQL 12 版本为例。 1. 安装使用如下命令，安装指定版本的 PostgreSQL sudo apt install postgresql-12在 Ubuntu 20.04 中安装 PostgreSQL 登录您的 Ubuntu 系统并使用以下 apt 命令更新…

阅读更多...

ADI-DSP|在指定内存写入数据

ADI-DSP|在指定内存写入数据

一、LDF文件设置内存空间 user_data_test { TYPE(BW RAM) START(0x00380010) END(0x0039bfff) WIDTH(8) }//usr data dxe_user_data_bw BW{INPUT_SECTION_ALIGN(4)INPUT_SECTIONS( $OBJS_LIBS(user_data) )} > user_data_test 二、在C文件中设置数据 /************…

阅读更多...

20240628 每日AI必读资讯

20240628 每日AI必读资讯

📚 Hugging Face 推出新版开源大模型排行榜，中国模型 Qwen-72B 夺冠 - 阿里Qwen-2-72B指令微调版本问鼎全球开源大模型排行榜榜首 - Llama-3-70B 微调版本排名第二，而 Mixtral-8x22B 微调版本位居第四。 - 另外，微软的 Phi-3-M…

阅读更多...

cad报错：由于找不到vcruntime140.dll无法继续执行代码

cad报错：由于找不到vcruntime140.dll无法继续执行代码

在现代的工程设计中，计算机辅助设计（CAD）软件已经成为了工程师们不可或缺的工具。然而，在使用CAD软件的过程中，有时我们会遇到一些问题，其中之一就是“找不到vcruntime140.dll”的错误提示。本文将详细介绍…

阅读更多...

on ubuntu server install jupyter lab

on ubuntu server install jupyter lab

一、安装jupyter lab conda search jupyterlab 根据base的python版本，选择对应的版本 conda install jupyterlab3.0.14 该方法优点是可以快速的启动JupyterLab，缺点是需要记住大量参数写法。以下是一些常见参数的说明： --ip* 设置可访问的I…

阅读更多...

基于Flask开发的前后端交互项目（可用于期末大作业） MySQL数据库文件上传 Spider爬虫 Echarts可视化展示 JS动态

基于Flask开发的前后端交互项目（可用于期末大作业） MySQL数据库文件上传 Spider爬虫 Echarts可视化展示 JS动态

项目描述： 开发一个基于Flask框架开发的前后端交互项目，项目内容为东京奥运会。对各个需要填写的字段做了数据验证，非法信息会被JS拦截提醒不合法；还对未登录就访问做了拦截，阻止未登录就访问。前端：HT…

阅读更多...

【数据结构】（C语言）：动态数组

【数据结构】（C语言）：动态数组

动态数组： 内存区域连续，即每个元素的内存地址连续。可用索引查看元素，数组[索引号]。指定位置删除元素，该位置之后的元素全部往前移动一位。指定位置添加元素，从最后到该位置的元素全部往后移动一位。物理大小&#…

阅读更多...

冷门赛道，视频号励志语录赛道详解，新手轻松上手

冷门赛道，视频号励志语录赛道详解，新手轻松上手

大家好，我是闷声轻创，在当今数字化时代，社交媒体已成为人们获取信息、分享生活和实现个人价值的重要渠道。视频号，作为新兴的短视频平台，以其独特的优势和巨大的流量潜力，吸引了众多创作者的目光。今天我将…

阅读更多...

防近视台灯有效果吗？专业护眼台灯推荐！告诉你台灯怎么选

防近视台灯有效果吗？专业护眼台灯推荐！告诉你台灯怎么选

随着学业负担的加重和电子设备的广泛普及，近视问题在青少年群体中愈发凸显，近视率持续走高。导致近视的因素错综复杂，除了过度使用手机外，遗传因素、不良的用眼习惯、环境因素、营养不均衡以及学习压力等均为重要因素，…

阅读更多...

最新文章

推荐文章