ComfyUI中运行Stable Audio Open,实现背景音乐、音效自由

🧨背景

stability在一个月之前默默的发布了Stable Audio Open 1.0的音频音效生成模型,不过好像影响力一般,也没有太多文章分享测试,而今天看comfyui作者的一篇介绍文档,他已经让comfyui默认支持了这个模型。

原开源地址:https://huggingface.co/stabilityai/stable-audio-open-1.0

Stable Audio Open 1.0根据文本提示生成 44.1kHz 的可变长度(最长 47 秒)立体声音频。它由三个组件组成:将波形压缩为可管理序列长度的自动编码器、用于文本调节的基于 T5 的文本嵌入,以及在自动编码器的潜在空间中运行的基于变换器的扩散 (DiT) 模型。

实际测试下来,在音效生成方面,其实还可以,结合sd3或许可以生成不错的解压视频,所以这里介绍给大家。


✨训练集与应用限制

训练素材

数据集包含 486492 条录音,其中 472618 条来自 Freesound,13874 条来自免费音乐档案馆 (FMA)。所有音频文件均根据 CC0、CC BY 或 CC Sampling+ 获得许可。这些数据用于训练我们的自动编码器和 DiT。我们使用公开的预训练 T5 模型 ( t5-base ) 进行文本调节。

限制

  • 该模型无法生成逼真的声音。
  • 该模型已使用英语描述进行训练,在其他语言中的表现不会那么好。
  • 该模型并不适用于所有音乐风格和文化。
  • 该模型在生成音效和现场录音方面比音乐更出色。
  • 有时很难评估哪种类型的文本描述可以提供最佳的生成效果。可能需要及时进行工程设计才能获得令人满意的结果。


🎊使用方法

第一步,首先更新ComfyUI到最新的版本;

第二步,下载音频生成相关的两个模型:

【音频生成模型资源】

 https://pan.quark.cn/s/83bc2652d05e

第三步,从第二步的网盘下载工作流;

第四步,把stable-audio-open-1.0.safetensors模型放在models文件夹下的checkpoints文件夹下,可以有二级目录;

把t5-base模型放在models下clip文件夹下(注意,这里不能直接用sd3的t5xxl模型,这两个不通用)

第五步,打开工作流,选择大模型的地址,输入提示词就可以正常生成音频了。

注意:如果最右下角的mixlab的节点你没有安装,直接删掉这个节点也可以,这个节点的作用是在comfyui中直接播放音乐,比较方便而已,并不影响生成。

如果没有这个节点,可以到output文件夹下找到生成的音频:

测试下来,音频效果还不错,以下是几个可以尝试的音频提示词:

非常轻松的爵士小调:Very relaxing and pleasant jazz music, suitable for vlogs.

蛙鸣:A summer night with many frogs croaking.

雷电交加:Thunder and lightning, accompanied by the sounds of the wind and waves.

😄玩的开心,如果对你有帮助的话,记得点赞哦~ 


✨写在最后

之前一直讲的都是webUI的课程,这次针对ComfyUI的新手开了一门图文课程,目前还在持续更新中,欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html

感谢大家的支持~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/362385.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学分制系统 WebService_PantoSchool SQL注入致RCE漏洞复现

0x01 产品简介 学分制系统由上海鹏达计算机系统开发有限公司研发,是基于对职业教育特点和需求的深入理解,结合教育部相关文件精神,并广泛吸纳专家、学者意见而开发的一款综合性管理系统。系统采用模块化的设计方法,方便学校根据自身教学改革特点、信息化建设进程情况选择、…

如何预防和处理他人盗用IP地址?

IP地址的定义及作用 解释 IP 地址在互联网中的作用。它是唯一标识网络设备的数字地址,类似于物理世界中的邮政地址。 1、IP地址盗窃的定义 解释一下什么是IP地址盗用,即非法使用他人的IP地址或者伪造IP地址的行为,这种行为可能引发法律和安…

uniapp 实人认证

最下面有demo 首先Dcloud创建云服务空间,开启一键登录并充值 下一步 1. 右键项目 》 创建uniCloud云开发环境 》右键uniCloud》关联云服务空间 2. cloudfunctions右键 新建云函数,任意命名(例:veify),然…

elasticsearch重置密码

0 案例背景 Elasticsearch三台集群环境,对外端口为6200,忘记elasticsearch密码,进行重置操作 注:若无特殊说明,三台服务器均需进行处理操作 1 停止es /rpa/bin/elasticsearch.sh stop 检查状态 ps -ef|grep elast…

【Linux】ss 命令使用详解

目录 一、ss命令介绍 二、ss命令格式和使用 1、命令格式 2、ss命令的常用选项 3、命令的常见用法 3.1 找出打开套接字/端口应用程序 3.2 检查系统的监听套接字 3.3 显示所有状态为established的SMTP连接 3.4 查看建立的 TCP 连接 3.5 通过 -r 选项解析 IP 和端口号 …

UI(三)布局

文章目录 1、Colum和Row——垂直方向容器和水平方向容器2、ColumnSplit和RowSplit——子组件之间插入一条分割线3、Flex——弹性布局子组件的容器4、Grid和GridItem——网格容器和网格容器单元格5、GridRow和GridCol——栅格容器组件和栅格子组件6、List、ListItem、ListItemGr…

Mac OS 安装frida

安装frida和frida-tools Python是基础,提前装好Python 终端执行 python3 -m pip install frida 如果出现error 按照提示处理 信息提示:brew install pipx 于是终端执行: brew install pipx 安装frida: pipx install frida…

华宽通中标长沙市政务共性能力建设项目,助力智慧政务建设新飞跃

在数字化浪潮的推动下,长沙市政府正积极拥抱智慧城市建设,以科技力量提升政务服务效能。华宽通凭借其卓越的技术实力与丰富的项目经验,成功中标长沙市政务共性能力建设项目,这无疑是对华宽通在智慧城市领域实力的高度认可。 华宽…

Mind+在线图形编程软件(Sractch类软件)

Scratch作为图形编程软件,可以为小朋友学习编程提供很好的入门,是初次接触编程的小朋友的首选开发软件。这里介绍的Mind软件与Sractch用法几乎完全一致,并且可以提供在线免安装版本使用,浏览器直接打开网址: ide.mindp…

纳米硅(SiNP)可用于制造锂离子电池 纳米硅粉为其代表产品

纳米硅(SiNP)可用于制造锂离子电池 纳米硅粉为其代表产品 纳米硅(SiNP)指尺寸在纳米尺度范围内的硅颗粒。纳米硅具有光吸收谱宽、表面活性高、比表面积大、机械强度高、电学性能好等优势,在石油化工、建筑工程、电子电…

TypeError: %c requires int or char

踩坑:在用python写脚本查询sql数据时,使用%s来替换sql语句里的变量,结果一直报,而其他sql使用同样的方法正常,最后发现是因为sql语句里有模糊查询 like "%测试%",这里的%被误以为%s,解…

PostgreSQL安装教程及文件介绍

Ubuntu 安装和配置 PostgreSQL 以 Ubuntu Server 20.04,PostgreSQL 12 版本为例。 1. 安装 使用如下命令,安装指定版本的 PostgreSQL sudo apt install postgresql-12在 Ubuntu 20.04 中安装 PostgreSQL 登录您的 Ubuntu 系统并使用以下 apt 命令更新…

ADI-DSP|在指定内存写入数据

一、LDF文件设置内存空间 user_data_test { TYPE(BW RAM) START(0x00380010) END(0x0039bfff) WIDTH(8) }//usr data dxe_user_data_bw BW{INPUT_SECTION_ALIGN(4)INPUT_SECTIONS( $OBJS_LIBS(user_data) )} > user_data_test 二、在C文件中设置数据 /************…

20240628 每日AI必读资讯

📚 Hugging Face 推出新版开源大模型排行榜,中国模型 Qwen-72B 夺冠 - 阿里Qwen-2-72B指令微调版本问鼎全球开源大模型排行榜榜首 - Llama-3-70B 微调版本排名第二,而 Mixtral-8x22B 微调版本位居第四。 - 另外,微软的 Phi-3-M…

cad报错:由于找不到vcruntime140.dll无法继续执行代码

在现代的工程设计中,计算机辅助设计(CAD)软件已经成为了工程师们不可或缺的工具。然而,在使用CAD软件的过程中,有时我们会遇到一些问题,其中之一就是“找不到vcruntime140.dll”的错误提示。本文将详细介绍…

on ubuntu server install jupyter lab

一、安装jupyter lab conda search jupyterlab 根据base的python版本,选择对应的版本 conda install jupyterlab3.0.14 该方法优点是可以快速的启动JupyterLab,缺点是需要记住大量参数写法。以下是一些常见参数的说明: --ip* 设置可访问的I…

基于Flask开发的前后端交互项目(可用于期末大作业) MySQL数据库 文件上传 Spider爬虫 Echarts可视化展示 JS动态

项目描述: 开发一个基于Flask框架开发的前后端交互项目,项目内容为 东京奥运会 。对各个需要填写的字段做了数据验证,非法信息会被JS拦截提醒不合法;还对未登录就访问做了拦截,阻止未登录就访问。 前端:HT…

【数据结构】(C语言):动态数组

动态数组: 内存区域连续,即每个元素的内存地址连续。可用索引查看元素,数组[索引号]。指定位置删除元素,该位置之后的元素全部往前移动一位。指定位置添加元素,从最后到该位置的元素全部往后移动一位。物理大小&#…

冷门赛道,视频号励志语录赛道详解,新手轻松上手

大家好,我是闷声轻创,在当今数字化时代,社交媒体已成为人们获取信息、分享生活和实现个人价值的重要渠道。视频号,作为新兴的短视频平台,以其独特的优势和巨大的流量潜力,吸引了众多创作者的目光。今天我将…

防近视台灯有效果吗?专业护眼台灯推荐!告诉你台灯怎么选

随着学业负担的加重和电子设备的广泛普及,近视问题在青少年群体中愈发凸显,近视率持续走高。导致近视的因素错综复杂,除了过度使用手机外,遗传因素、不良的用眼习惯、环境因素、营养不均衡以及学习压力等均为重要因素,…