comfyUI-MuseTalk的参数设置

 comfyUI-MuseTalk的参数设置

目录

comfyUI-MuseTalk的参数设置

一、ComfyUI-VideoHelperSuite

二、comfyUI-MuseV合成的参考视频

2.1、什么时候会用到MuseV?

2.2、MuseV特别消耗系统内存

2.2.1、测试图片序列的像素比

2.2.2、影响运动范围和生成结果的参数

三、comfyUI-MuseTalk参考视频的参数

3.1、造成爆内存的可能情形

3.2、正确的设置,不会造成爆内存

3.2.1、原始参考视频的要求

3.2.1.1、参考视频短边的帧像素比

3.2.1.2、视频像素比、帧率及视频长度对参考视频动作的影响的基本原理

3.2.1.3、museV文生参考视频及拍摄真人视频对参考视频动作的影响程度

四、本期关联技术博文


一、ComfyUI-VideoHelperSuite

这个一个与视频工作流相关的I/O节点。

GitHub - Kosinkadink/ComfyUI-VideoHelperSuite: Nodes related to video workflows

它可以:

  • 加载视频

将视频文件转换为一系列图像

  • 加载图像序列

从子文件夹加载所有图像文件。选项与加载视频类似。

  • 视频合并

将一系列图像组合成输出视频
如果提供了可选的音频输入,它也将被组合到输出视频中。

  • 加载音频

提供一种加载独立音频文件的方法。

存在许多用于管理潜伏数据的实用节点。每个节点都有一个用于处理图像的等效节点。

  • 拆分批次

将潜在变量分为两组。第一组split_index潜在变量进入输出 A,其余组进入输出 B。如果split_index输入的潜在变量少于第一组潜在变量,则所有潜在变量均会传递至输出 A,而输出 B 为空。

  • 合并批次

将两组潜在变量合并为一个输出。输出的顺序是 A 中的潜在变量,然后是 B 中的潜在变量。
如果输入组的大小不同,则节点会在合并之前提供重新调整潜在变量的选项。

  • 选择每 N 个

每个输入中的第一个select_every_nth被传递,其余的被丢弃

  • 获取计数
  • 重复批次
  • 视频预览

加载视频(上传)、加载视频(路径)、加载图像(上传)、加载图像(路径)和视频合并提供动画预览。带有预览的节点在右键单击时提供附加功能。

二、comfyUI-MuseV合成的参考视频

2.1、什么时候会用到MuseV?

当你并非实际拍摄的参考动作视频,而是拍照;或拍摄的参考动作图片需要用其它的视频人物动作来做动作替换;或拍摄的参考动作视频需要更换背景和场景后再次进行处理。

2.2、MuseV特别消耗系统内存

MuseV非常吃系统内存,需要特别配置好运行参数进行调优推理。

2.2.1、测试图片序列的像素比

短边:480    512    640     720    1080   1080  448(test_data_width)
长边:720    768    960   1080    1620   1920  704(test_data_height)

2.2.2、影响运动范围和生成结果的参数
  • video_guidance_scale类似于 text2image控制 cond 和 不控制uncond 之间,影响较大,默认为 3.5。详见2.2所述。
  • use_condition_image:是否使用给定的第一帧进行视频生成, 默认 True
  • redraw_condition_image:是否重新绘制给定的第一帧图像。
  • video_negative_prompt:配置文件中全 negative_prompt 的缩写。默认为 V2

三、comfyUI-MuseTalk参考视频的参数

  • image_load_cap(frame_load_cap帧的读取上限):将返回的最大图像数量。这也可以被认为是最大批次大小。
  • skip_first_images:要跳过多少张图像。通过将此数字增加 image_load_cap,您可以轻松地将一长串图像分成多个批次。
  • select_every_nth:允许在每个返回的帧之间跳过一些图像。
  • crf:描述输出视频的质量。数字越低,视频质量越高,文件大小越大,而数字越高,视频质量越低,文件大小越小。缩放比例因编解码器而异,但视觉无损输出通常在 20 左右,默认值=19。
  • frame_rate:每秒显示多少输入帧。更高的帧速率意味着输出视频播放速度更快且持续时间更短。对于 AnimateDiff,此值通常应保持为 8,或当启用了 Load Video 节点的 force_rate的话,两者应当相等;最终的音视频输出帧率,也应当匹配。

3.1、造成爆内存的可能情形

3.2、正确的设置,不会造成爆内存

3.2.1、原始参考视频的要求
3.2.1.1、参考视频短边的帧像素比

常见的帧像素比例:

短边:480    512    640     720    1080   1080  448(test_data_width)
长边:720    768    960   1080    1620   1920  704(test_data_height)

这些都是符合要求的:

帧率越大,动作越连贯;帧率越小,动作越迟缓; 总帧数和帧率决定了当前配音的时长,是否被截断后输出,它影响到最终合成输入的音视频长度。

3.2.1.2、视频像素比、帧率及视频长度对参考视频动作的影响的基本原理

由于参考视频在拆解视频的每一帧后,需要对其“唇形”,这个过程需要使用系统内存对内存流进行处理,内存流的的对齐是连续的,即:当总视频长度对应的所有帧都必须正确的处理完毕后,将它们在内存中进行流的合并。如果操作系统的内存不够,将会导致错误。

那么,那些因素是影响参考视频”对齐“及“合并”的内存流大小的呢?

一是符合上述像素比的视频的短边的像素值s-px,s-px越大就越消耗内存;二是为了保证动作的连贯性和完整性,“参考视频”需要保证足够的时长,该视频的原始帧率会导致输出到缓存中的帧图片的数量的多少,即总批次数batch-sizes(这里简称bss);三就是可以强制设置输出帧率,并设置分批次batch-size(这里简称bs),用以调整将较长时长(这里简称vl)的参考视频切分成多个批次(这里简称bl)进行处理,bl = vl / bs ,处理完毕后再进行合并。在二和三中,无论哪种方式,所需的内存都不能超过系统内存的可用数。

最后,参考视频的帧率ref-fps,经验值,英伟达显存等于16G的显卡芯片,1帧 <= ref-fps <= 12帧;总帧数除以帧数,应当能够整除;一般帧率数值为1、2、4、8、12。 因此生成的参考视频或拍摄的参考视频,最好用剪映或秒剪进行前期处理,最好秒数为整数。

3.2.1.3、museV文生参考视频及拍摄真人视频对参考视频动作的影响程度

museV文生参考视频,既要处理脸部表情,又要处理随机动作,还要处理唇形对齐,所以按照3.2.1.2中所述的基本原理,它对系统内存的要求更加苛刻;而如果连续动作的参考视频是实拍的,就可以利用bl,每个批次处理1个较短的连续动作(一般 1秒 <= bl <= 4秒,比较适合),再给每个bl进行AI训练推理的配音;最终,将多段视频,在剪映或秒剪中进行视频剪辑的后期处理即可。否则,你将付出的是更大的显卡芯片cuda和系统内存的高昂开销。

四、本期关联技术博文

《ComfyUI-MuseTalk部署依赖mmcv》
《Win10环境将Docker部署到非系统盘》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/391273.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Yarn:一个快速、可靠且安全的JavaScript包管理工具

(创作不易&#xff0c;感谢有你&#xff0c;你的支持&#xff0c;就是我前行的最大动力&#xff0c;如果看完对你有帮助&#xff0c;还请三连支持一波哇ヾ(&#xff20;^∇^&#xff20;)ノ&#xff09; 目录 一、Yarn简介 二、Yarn的安装 1. 使用npm安装Yarn 2. 在macOS上…

基于Springboot的个人博客系统

文章目录 介绍访问地址一、功能展示1.前台首页归档相册留言关于我登陆注册 2.后台管理系统登陆页面首页文章管理相册管理写博客访客统计 介绍 基于Java&#xff08;Springboot&#xff09;可以用做毕业设计的个人博客系统&#xff0c;包括网站前台和后台管理系统两部分。网站前…

C++中const关键字的用法

C语言和C中const的不同 首先我们需要区分一下C语言中的const和C中的const&#xff0c;C语言中的const修饰的变量可以不初始化&#xff0c;但如果将一个变量定位为const类型还不初始化&#xff0c;那么之后就不能对这个变量直接赋值了。 如果我们使用C语言中的const定义的变量指…

c++ 21 指针

*像一把钥匙 通过钥匙去找内存空间 间接修改内存空间的值 不停的给指针赋值 等于不停的更改指针的指向 指针也是一种数据类型 指针做函数参数怎么看都不可以 指针也是一个数据类型 是指它指向空间的数据类习惯 作业 野指针 向null空间地址copy数据 不断改变指针指向 …

将本地微服务发布到docker镜像二:

上一篇文章我们介绍了如何将一个简单的springboot服务发布到docker镜像中&#xff0c;这一篇我们将介绍如何将一个复杂的微服务&#xff08;关联mysql、redis&#xff09;发布到docker镜像。 我们将使用以下两种不同的方式来实现此功能。 redis、mysql、springboot微服务分开…

Redis未授权访问漏洞 *

#安装redis apt-get install redis #redis链接 redis-cli -h 192.168.4.176 -p 6379 #redis常见命令 &#xff08;1&#xff09;查看信息&#xff1a;info &#xff08;2&#xff09;删除所有数据库内容&#xff1a;flushall &#xff08;3&#xff09;刷新数据库&#xff1a;f…

平衡二叉树 - 力扣(LeetCode) C语言

110. 平衡二叉树 - 力扣&#xff08;LeetCode&#xff09;&#xff08;点击前面链接即可查看题目&#xff09; 一、题目 给定一个二叉树&#xff0c;判断它是否是 平衡二叉树 是指该树所有节点的左右子树的深度相差不超过 1。 示例 1&#xff1a; 输入&#xff1a;root […

unity拖拽物品遇到的bug及解决思路

记录一下拖拽实现过程中遇到的bug RectTransform 专门用在UI中transform 判断点击是否在UI中 使用这个函数就可以判断点击的是否是UI面板&#xff0c;返回true表明在UI面板中 EventSystem.current.IsPointerOverGameObject()值得一提的是&#xff0c;如果发现了有UI穿透效…

【Material-UI】多选模式(Multiple values)与Autocomplete的高级用法解析

文章目录 一、多选模式的基本用法二、高级用法1. 固定选项&#xff08;Fixed options&#xff09;2. 复选框&#xff08;Checkboxes&#xff09;3. 限制标签显示数量&#xff08;Limit tags&#xff09; 三、性能优化与最佳实践1. 筛选已选项&#xff08;filterSelectedOptions…

乡村振兴建设顶层规划建设方案

数字乡村振兴平台顶层规划方案摘要 1. 政策背景与总体要求 政策背景&#xff1a;党的十九大明确提出实施乡村振兴战略&#xff0c;总体要求包括产业兴旺、生态宜居、乡风文明、治理有效和生活富裕。随后&#xff0c;中央一号文件、乡村振兴战略规划以及十四五规划和2035年远景…

C# 设计模式之装饰器模式

总目录 前言 装饰器模式的主要作用就是扩展一个类的功能&#xff0c;或给一个类添加多个变化的情况。学习面向对象的都知道&#xff0c;如果想单纯的给某个类增加一些功能&#xff0c;可以直接继承该类生成一个子类就可以。应对一些简单的业务场景继承也就够了&#xff0c;但是…

共享`pexlinux`数据文件的网络服务

实验环境准备&#xff1a; 1.红帽7主机 2.要全图形安装 3.配置网络为手动&#xff0c;配置网络可用 4.关闭vmware DHCP功能 一、kickstart自动安装脚本制作 1.安装图形化生成kickstart自动脚本安装工具 2.启动图形制作工具 3.图形配置脚本 这里使用的共享方式是http&#xff0…

2024靠这份软件测试面试题宝典已成功上岸,跳槽成功

上月很多朋友靠这份面试宝典拿到大厂的office&#xff0c;跳槽成功&#xff0c;面试找工作的小白和要跳槽进阶都很适合&#xff0c;没有一点准备怎么能上岸成功呢&#xff1f; 这份面试题宝库&#xff0c;包含了很多部分&#xff1a;测试理论&#xff0c;Linux基础&#xff0c…

每日OJ_牛客WY15 幸运的袋子

目录 牛客HJ62 查找输入整数二进制中1的个数 解析代码 牛客HJ62 查找输入整数二进制中1的个数 查找输入整数二进制中1的个数_牛客题霸_牛客网 解析代码 本题是计算一个数二进制表示中1的个数&#xff0c;通过&#xff08;n >> i) & 1可以获取第i位的二进制值&…

Linux中安装C#的.net,创建运行后端或控制台项目

安装脚本命令&#xff1a; 创建一个sh文件并将该文件更改权限运行 sudo apt update wget https://packages.microsoft.com/config/ubuntu/20.04/packages-microsoft-prod.deb -O packages-microsoft-prod.deb sudo dpkg -i packages-microsoft-prod.deb sudo apt-get upd…

【文件系统】抽象磁盘的存储结构 CHS寻址法 | sector数组 | LAB数组

目录 1.为什么要抽象 2.逻辑抽象_版本1 2.1sector数组 ​2.2index转化CHS 3.逻辑抽象_版本2 3.1LBA数组 3.2LAB下标转化sector下标 文件其实就是在磁盘中占有几个扇区的问题❗文件是很多个sector的数组下标❗文件是有很多块构成的❗❗文件由很多扇区构成------>文件…

PXE+Kickstart自动化安装RHEL7.9

准备环境 1. 一台RHEL7.9主机 2. 开启主机图形 如果是7.9的主机是图形化界面了 就输入命令init 5 开启图形 如果主机一开始没装图形化界面&#xff0c;可以使用以下命令安装 # yum group install "Server with GUI" -y 3. 配置网络可用 4. 关闭VMware dhcp功…

音视频入门基础:WAV专题(5)——FFmpeg源码中解码WAV Header的实现

音视频入门基础&#xff1a;WAV专题系列文章&#xff1a; 音视频入门基础&#xff1a;WAV专题&#xff08;1&#xff09;——使用FFmpeg命令生成WAV音频文件 音视频入门基础&#xff1a;WAV专题&#xff08;2&#xff09;——WAV格式简介 音视频入门基础&#xff1a;WAV专题…

IJCAI 2024 | 时空数据(Spatial-Temporal)论文总结

2024 IJCAI&#xff08;International Joint Conference on Artificial Intelligence, 国际人工智能联合会议&#xff09;在2024年8月3日-9日在韩国济州岛举行。 本文总结了IJCAI2024有关时空数据(Spatial-temporal) 的相关论文&#xff0c;如有疏漏&#xff0c;欢迎大家补充。…

给水排水杂志

一、基本信息 《给水排水》创刊于1964年&#xff0c;是国内创刊早、发行量大、内容涵盖广的水行业权威期刊&#xff0c;在业内享有盛誉。期刊现由中国建设集团股份有限公司主管&#xff0c;亚太建设科技信息研究院有限公司、中国土木工程学会主办。现任名誉主编&#xff1a…