无需训练!多提示视频生成最新SOTA!港中文腾讯等发布DiTCtrl:基于MM-DiT架构

文章链接:https://arxiv.org/pdf/2412.18597
项目链接:https://github.com/TencentARC/DiTCtrl

亮点直击

  • DiTCtrl,这是一种基于MM-DiT架构的、首次无需调优的多提示视频生成方法。本文的方法结合了新颖的KV共享机制和隐混合策略,使得不同提示之间能够无缝过渡,且无需额外的训练。

  • 首度分析了MM-DiT的注意力机制,发现其3D全注意力与UNet-like扩散模型中的交叉/自注意力块具有相似的行为,从而实现了基于mask的精确语义控制,使得不同提示之间的生成更加一致。

  • 推出了MPVBench,这是一个专为多提示视频生成设计的新基准,具有多种过渡类型和专门的评估指标,用于多提示视频的评估。 -大量实验表明,本文的方法在多提示视频生成任务上实现了业界领先的性能,同时保持了计算效率。

总结速览

解决的问题
当前的视频生成模型,尤其是基于单一提示(single-prompt)的模型,如Sora,主要聚焦于生成单一提示下的视频内容。它们在生成多个顺序提示(multi-prompt)的连贯场景时存在显著挑战,尤其是在动态场景中需要反映多个动作时,面临的问题包括:

  • 训练数据要求严格;

  • 提示跟随能力较弱;

  • 转场不自然,缺乏平滑过渡。

提出的方案 本文提出了DiTCtrl方法。这是基于MM-DiT架构的、训练无关的多提示视频生成方法,首次能够在没有额外训练的情况下生成多提示的视频,且能够保证多个提示之间的视频内容平滑过渡。

应用的技术

  • MM-DiT架构:多模态扩散Transformer(Multi-Modal Diffusion Transformer)架构被用于视频生成任务,能够有效处理文本、图像和视频的联合表示。

  • 3D全注意力机制:分析了MM-DiT的注意力机制,发现其3D全注意力与UNet-like扩散模型中的交叉/自注意力模块相似,能够在多个提示之间共享注意力,从而实现语义一致性。

  • KV共享和隐混合策略:为实现视频之间的平滑过渡,提出了键值共享(KV-sharing)机制和隐空间混合(latent blending)策略,以连接不同提示生成的视频片段。

达到的效果

  • 平滑过渡与一致性:通过DiTCtrl方法,生成的视频在多个提示之间能够实现平滑的过渡和一致的物体运动,而不需要额外的训练。

  • 高效性能:在MPVBench基准测试上,DiTCtrl在保持计算效率的同时,取得了最先进的性能。

  • 新基准MPVBench:为了促进多提示视频生成的研究,文章还提出了MPVBench基准,专门用于评估多提示视频生成的过渡效果和性能。

方法

本文解决了zero-shot、多提示长视频生成的挑战,无需模型训练或优化。这使我们能够生成高质量的视频,具有平滑和精确的提示间过渡,涵盖各种过渡类型(例如,风格、镜头运动和位置变化)。形式上,给定一个预训练的单提示文本到视频扩散模型 和一个包含 个提示的序列 ,所提出的DiTCtrl能够生成一个连贯的长视频 ,该视频能够随时间忠实地跟随这些提示,可以表示为:

MM-DiT 注意力机制分析

MM-DiT 是当前文本到图像/视频模型的基础架构,与之前的 UNet 架构有根本的不同,因为它将文本和视频映射到一个统一的序列中进行注意力计算。尽管该架构已被广泛使用,但其内部注意力机制的特性尚未得到充分探索,这限制了其在我们多提示长视频生成任务中的应用。因此,本文首次对基于最先进的视频模型(即 CogVideoX)的 3D 全注意力图中的区域注意力模式进行了全面分析。

如下图 2 所示,由于视觉和文本提示的连接,每个注意力矩阵可以分解为四个不同的区域,分别对应不同的注意力操作:视频到视频的注意力、文本到文本的注意力、文本到视频的注意力和视频到文本的注意力。以下是每个区域的详细介绍,灵感来源于先前的 UNet-like 结构中的独立注意力。

文本到视频和视频到文本的注意力
之前的 UNet-like 架构通过交叉注意力实现视频与文本的对齐。在 MM-DiT 中,文本到视频和视频到文本的注意力发挥了类似的作用。计算了所有层和注意力头的平均注意力值,然后通过选择特定的列或行来提取文本到视频和视频到文本区域的注意力值,这些列或行对应文本到视频和视频到文本区域中的token索引。接着,这些注意力值被重塑为 格式,从而能够可视化每一帧的语义激活图。如上图 2 所示,这些可视化结果显示了token级语义定位的显著精度,能够有效捕捉文本描述和视觉元素之间的细粒度关系。这一发现为精确的语义控制和定位提供了强有力的基础,为借用已有的图像/视频编辑技术以增强多提示视频生成的一致性和质量提供了支持。

文本到文本和视频到视频的注意力
文本到文本和视频到视频的区域注意力在某种程度上是新的,与相应的 UNet 结构不同。如下图 3 所示,本文的分析揭示了这两个组件中相似的模式。在文本到文本的注意力组件(图 3(a)(b),其中 (a) 表示较短提示的注意力模式,(b) 表示较长提示的模式)中,观察到一个显著的对角线模式,表明每个文本token主要关注其邻近的token。

值得注意的是,随着文本序列长度的增加,存在明显的垂直线,这些垂直线向后移动,表明所有token对文本序列末尾的特殊token保持显著关注。对于视频到视频的注意力组件,由于 MM-DiT 扁平化了空间和时间token以进行 3D 注意力计算,在单帧级别的分析揭示了空间注意力中的明显对角线模式(上图 3(c))。更重要的是,当检查来自不同帧中相同空间位置的token构建的注意力图时,还观察到显著的对角线模式(图 3(d))。这一特征与最近的基于 UNet 的视频模型中的空间注意力和时间注意力(如 VideoCrafter 和 Lavie)中的发现相似,符合 [25] 中的报告结果。

由于之前的工作仅训练扩散模型的特定部分以进行更高级的控制和生成,本文的发现为从 MM-DiT 角度看待这些方法提供了有力的证据。这些在 MM-DiT 架构中出现的一致对角线模式表明了帧间强相关性,这对于维持空间-时间一致性和保留视频序列中的运动忠实度至关重要。

随时间一致的视频生成

MM-DiT 中的注意力机制与 UNet-like 视频扩散模型中的行为类似。因此,提出了基于mask引导的 KV 共享策略,用于多提示视频生成任务中的一致视频生成。

如下图 4 所示,为了在提示 和提示 之间生成一致的视频,利用 MM-DiT 中第 和第 个提示的中间注意力来分别生成特定一致对象的注意力mask。这是通过对 3D 全注意力中的所有文本到视频/视频到文本部分进行平均,并使用给定的特定主题token来实现的。通过这些mask,接着执行mask引导的注意力融合,生成提示 的新注意力特征。受到 MasaCtrl 的启发,直接利用提示 中的键和值来引导提示 的生成,从而实现随时间变化的一致外观生成。

形式上,在第 步,分别使用固定的 MM-DiT 骨干网络与提示 和下一个提示 进行前向传递,生成中间区域的交叉注意力图。然后,对所有头和层中的注意力图进行平均,得到相同空间分辨率 和时间帧 的平均值。得到的交叉注意力图记作 ,其中 是文本token的数量。接下来,获得与前景对象相关的token的平均交叉注意力图。分别将 和 作为从 和 中提取的前景对象masks。利用这些masks,可以限制在 中的对象仅查询来自 中对象区域的信息:

其中, 是最终的注意力输出。然后,将当前步骤的特征图替换为 ,以便进一步计算。

用于过渡的隐混合策略

尽管之前的方法保证了片段之间的语义一致性,但要实现不同语义片段之间的平滑过渡,仍需要精心设计。因此,提出了一种隐混合策略,旨在确保不同语义片段之间的时间一致性,灵感来源于最近在单提示长视频生成中的工作 [33, 46]。

如下图 5 所示,本文的方法在相邻语义视频片段(视频 和视频 )之间引入重叠区域。对于重叠区域中的每个帧位置,应用一个位置相关的权重函数,该函数遵循对称分布——越靠近各自片段的帧得到更高的权重,而边界处的帧则得到较低的权重。这个加权方案确保了不同语义上下文之间的平滑过渡。

形式上,给定由提示 和 分别生成的两个相邻视频片段 和 ,提出如下隐混合策略。设 表示片段之间的重叠帧数。对于重叠区域中的帧位置 ,计算其混合隐特征 :

其中, 和 分别是来自 和 的隐特征, 是一个位置相关的三角形权重函数,定义为:

本文的方法的关键优势在于,它不需要额外的训练,同时能够有效地处理不同语义上下文之间的过渡。在每个去噪步骤中,首先独立处理每个片段,然后逐步使用位置相关的权重在重叠区域中融合隐特征。这一策略在保持时间一致性的同时,平滑地过渡于不同的语义上下文之间,使其特别适用于多提示视频生成任务。

实验

基于 CogVideoX-2B 实现了 DiTCtrl,CogVideoX-2B 是一种基于 MM-DiT 的先进开源文本到视频扩散模型。在实验中,生成了多提示条件的视频,每个视频片段由 49 帧组成,分辨率为 480×720。此外,还使用了 ChatGPT 来生成不同类型的多个过渡。在实验中将隐采样帧数和重叠大小设置为 13 和 6。实验在单个 NVIDIA A100 GPU 上进行。

质量结果

与当前最先进的多提示视频生成方法[33, 38, 40] 和领先的商业解决方案 进行了全面的定性比较。为了确保公平比较,还在 CogVideoX 主干上实现了 FreeNoise,作为增强的基准。

如下图 6 所示,本文提出的方法在三个关键方面展示了优越的性能:文本到视频对齐、时间一致性和运动质量。尽管 Kling 在高质量视频生成方面展现了令人印象深刻的能力,但它仅限于同时的多语义混合,而不是顺序的语义过渡,这突出了在多提示视频生成任务中实现时间演变内容的重要性。

本文的比较分析揭示了现有方法的 distinct 特征和局限性。Gen-L-Video 存在严重的时间抖动和偶尔的物体消失,影响了整体视频质量。Video-Infinity 和 FreeNoise 都在场景级语义变化方面取得了成功,但缺乏物理上合理的运动——例如,在上图 6 中,车辆看似在运动,但空间位置固定,这是它们基于 UNet 的能力的限制。相比之下,FreeNoise+DiT 利用了 DiT 架构的能力实现了更真实的物体运动,但在语义过渡上存在困难,导致片段之间出现明显的中断。DiTCtrl 方法保留了预训练 DiT 模型的固有能力,同时解决了这些局限性,能够平滑地实现语义过渡,并在整个视频序列中保持运动一致性。

定量结果

首先详细介绍我们提出的用于评估多提示视频生成的新基准 MPVBench,然后讨论定量结果。

MPVBench
MPVBench 包含一个多样化的提示数据集和一个专门为多提示生成定制的新度量标准。具体来说,通过利用 GPT-4,生成了 130 个长格式的提示,涵盖 10 种不同的过渡模式。然后,对于多提示视频生成,观察到 CLIP 特征在单一提示和多提示场景之间的分布有所不同。如下图 7 所示,自然视频的特征点沿着一条连续曲线分布,而两个拼接的孤立视频的特征点则沿着两条连续曲线分布,并且在中间有一个断点。

由于常见的 CLIP 相似度计算的是邻近相似度的平均值,自然视频和孤立视频之间的差异仅在断点处发生,并且在按帧数划分后,差异会变得非常小。为了解决这一限制,提出了 CSCV(Clip Similarity Coefficient of Variation),这一度量标准专门用于评估多提示过渡的平滑度:

其中, 表示帧特征, 和 分别是标准差和平均值。变异系数(CV)= 描述了均匀度的程度,可以大大惩罚孤立情况。函数 将分数映射到 范围内,分数越大越好。

自动评估
使用 MPVBench 进行自动评估。从下表 1 中可以看出,本文的方法获得了最高的 CSCV 分数,证明了在过渡处理和生成模式的整体稳定性方面具有优势。虽然 FreeNoise 排名第二,稳定性相对较强,但其他方法在这一方面显著落后,这与上图 7 中 CLIP 嵌入的 T-SNE 可视化结果一致。在运动平滑性方面,本文的方法在运动质量和一致性方面表现优越。在文本-图像相似度指标方面,尽管 FreeNoise 和 Video-Infinity 获得了更高的分数,但这可以归因于我们方法的 KV-sharing 机制,在该机制下,后续视频片段本质上从前面的语义内容中学习。

如前面图6所示,本文的设计选择允许路面逐渐过渡到雪地条件,同时保留之前场景的特征。尽管可能会导致较低的文本-图像对齐得分,但它确保了序列中的语义连续性。在实际应用中,这种权衡并不会对多提示场景中的视觉质量产生负面影响,如下面我们展示的用户研究结果所示。

人类评估
邀请了28名用户评估五个模型:Gen-L-Video、Video-Infinity、FreeNoise、FreeNoise+DiT 和本文的方法。使用5点Likert量表(1代表低质量,5代表高质量)。参与者根据16个不同场景生成的视频,考虑整体偏好、运动模式、时间一致性和文本对齐情况对每种方法进行评分。正如下表2所示,本文的方法在所有四个标准上显著超越了其他现有方法,展示了在生成具有自然语义过渡的视频方面的卓越能力,能够更好地与人类对视觉连贯性和连续性的偏好相符。

消融研究

进行消融研究,以验证DiTCtrl关键组件的有效性:隐融合策略、KV-sharing机制和掩模引导生成,如下图8所示。第一行显示了直接使用文本-视频模型的结果,导致场景变化突兀,运动模式断裂,无法保持从冲浪到滑雪过程中运动的一致性。第二行表明,未使用隐融合策略的DiTCtrl能够实现基本的视频编辑功能,但场景之间缺乏平滑过渡。没有KV-sharing(第三行)的DiTCtrl表现出不稳定的环境过渡和显著的运动伪影,角色缩放不一致,动作变形。此外,没有掩模引导(第四行)的DiTCtrl提高了运动一致性和过渡效果,但在不同提示和环境之间的对象属性混乱方面存在问题。另一方面,完整的DiTCtrl实现提供了对生成内容的最精确控制,展示了卓越的对象一致性和更平滑的提示过渡,同时保持所需的运动模式。这些结果验证了对MM-DiT注意力机制的分析及其在实现准确语义控制中的作用。

更多应用

单提示长视频生成
本文的方法能够自然地应用于单提示长视频生成。如下图9所示,使用提示“A white SUV drives on a steep dirt road”,本文的方法成功生成了长度超过原始视频12倍的视频,同时保持了一致的运动模式和环境连贯性。这表明,本文的技术不仅适用于多提示视频生成任务,还能有效地扩展到长时间视频的生成,确保了生成内容在时间维度上的连贯性和一致性。

视频编辑 本文展示了如何使用本文的方法实现视频编辑功能(例如,“重新加权”和“单词替换”)。通过这些操作,能够在不破坏视频原有结构和连贯性的情况下,灵活地编辑视频内容。这使得我们的技术不仅仅适用于新视频的生成,还能作为强大的视频编辑工具,在多个语义变化的场景下保持视频的整体一致性与流畅过渡。

结论

本文介绍了DiTCtrl,一种基于MM-DiT架构的多提示视频生成的创新方法,且无需额外的训练。对MM-DiT的注意力机制进行了开创性的分析,揭示了其与UNet-like扩散模型中的交叉/自注意力模块的相似性,这使得在提示之间能够实现mask引导的语义控制。通过引入KV共享机制和隐融合策略,DiTCtrl确保了语义段之间的平滑过渡和一致的对象运动,无需额外的训练。此外,还提出了MPVBench,这是首个针对多提示视频生成的广泛评估框架,旨在推动该领域未来的研究。

局限性与未来工作 尽管本文的方法展示了最先进的性能,但仍然存在两个主要局限性。首先,与图像生成模型相比,当前开源的视频生成模型在概念组合能力上较弱,偶尔会导致不同语义段之间的属性绑定错误。其次,基于DiT架构的计算开销对推理速度提出了挑战。这些局限性为未来研究提供了有前景的方向,特别是在增强语义理解和架构效率方面。

参考文献

[1] DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/497741.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot对静态资源的映射规则

目录 什么是SpringBoot静态资源映射? 如何实现SpringBoot静态资源映射? 1. webjars:以jar包的方式引入静态资源 示例: 2. /** 访问当前项目的任何资源 示例一: 示例二: 3. 静态首页(欢…

【EtherCATBasics】- KRTS C++示例精讲(2)

EtherCATBasics示例讲解 目录 EtherCATBasics示例讲解结构说明代码讲解 项目打开请查看【BaseFunction精讲】。 结构说明 EtherCATBasics:应用层程序,主要用于人机交互、数据显示、内核层数据交互等; EtherCATBasics.h : 数据定义…

【论文阅读】Reducing Activation Recomputation in Large Transformer Models

创新点: 针对Transformer结构,通过序列并行和选择性重计算激活值,在节省显存空间占用的情况下,不带来明显通信开销,同时减少重计算成本。 总的来说,就是在原有的张量并行的基础上,对LayerNorm和…

Linux arm 编译安装glibc-2.29

重要的话说三遍: !!!!!不要轻易自己去安装glibc!!!!! !!!!!不要轻易自己去安装glibc&a…

STM32完全学习——FLASH上FATFS文件管理系统

一、需要移植的接口 我们通过看官网的手册,可以看到我们只要完成下面函数的实现,就可以完成移植。我们这里只移植前5个函数,获取时间的函数我们不在这里移植。 二、移植接口函数 DSTATUS disk_status (BYTE pdrv /* Physical drive nmuber…

Docker使用——国内Docker的安装办法

文章目录 参考资料前言Mac安装办法Homebrew 安装1. 直接下报错2. 安装homebrew, 用国内镜像3. 安装Docker4. 启动docker服务5. 测试是否安装成功 参考资料 鸣谢大佬文章。 macOS系统中:Docker的安装:https://blog.csdn.net/sulia1234567890…

Java-38 深入浅出 Spring - AOP切面增强 核心概念 相关术语 Proxy配置

点一下关注吧!!!非常感谢!!持续更新!!! 大数据篇正在更新!https://blog.csdn.net/w776341482/category_12713819.html 目前已经更新到了: MyBatis&#xff…

【CSS in Depth 2 精译_096】16.4:CSS 中的三维变换 + 16.5:本章小结

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第五部分 添加动效 ✔️【第 16 章 变换】 ✔️ 16.1 旋转、平移、缩放与倾斜 16.1.1 变换原点的更改16.1.2 多重变换的设置16.1.3 单个变换属性的设置 16.2 变换在动效中的应用 16.2.1 放大图标&am…

iOS 苹果开发者账号: 查看和添加设备UUID 及设备数量

参考链接:苹果开发者账号下添加新设备UUID - 简书 如果要添加新设备到 Profiles 证书里: 1.登录开发者中心 Sign In - Apple 2.找到证书设置: Certificate,Identifiers&Profiles > Profiles > 选择对应证书 edit &g…

【HENU】河南大学计院2024 计算机网络 期末复习知识点

和光同尘_我的个人主页 一直游到海水变蓝。 计网复习 第一章互联网组成类别交换方式分组交换的要点:分组交换的优点: 网络性能指标体系结构网络协议五层协议 第二章:物理层物理层的主要任务(四大特性)通信的三种方式…

Kafka中的Topic和Partition有什么关系?

大家好,我是锋哥。今天分享关于【Kafka中的Topic和Partition有什么关系?】面试题。希望对大家有帮助; Kafka中的Topic和Partition有什么关系? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在 Apache Kafka 中&#…

一文读懂变分自编码(VAE)

一文读懂变分自编码(VAE) 概述 变分自编码器(Variational Autoencoder, VAE)是一种生成模型,用于学习数据的潜在表示并生成与原始数据分布相似的新数据。它是一种概率模型,通过结合深度学习和变分推断的思想,解决了传…

第十七周:Fast R-CNN论文阅读

Fast R-CNN论文阅读 摘要Abstract文章简介1. 引言2. Fast R-CNN框架2.1 RoI位置信息映射2.2 RoI pooling2.3 分类器与边界框回归器2.4 以VGG16为backbone的Fast RCNN的网络结构 3. 训练细节3.1 采样3.2 多任务损失 4. 优缺点分析总结 摘要 这篇博客介绍了Fast R-CNN&#xff0…

ThinkPHP 8开发环境安装

【图书介绍】《ThinkPHP 8高效构建Web应用》-CSDN博客 《ThinkPHP 8高效构建Web应用 夏磊 编程与应用开发丛书 清华大学出版社》【摘要 书评 试读】- 京东图书 1. 安装PHP8 Windows系统用户可以前往https://windows.php.net/downloads/releases/archives/下载PHP 8.0版本&am…

VM虚拟机配置ubuntu网络

目录 桥接模式 NAT模式 桥接模式 特点:ubuntu的IP地址与主机IP的ip地址不同 第一部分:VM虚拟机给ubuntu的网络适配器,调为桥接模式 第二部分:保证所桥接的网络可以上网 第三部分:ubuntu使用DHCP(默认&…

日本IT行业|分享实用的开发语言及框架

在日本IT行业中,开发语言与框架的选择非常多样化,但也有一些特定的技术和框架更为流行。以下是对日本IT行业在用的开发语言与框架的详细分享: 开发语言 Java:Java在日本是一门非常稳定且受欢迎的编程语言,很多日本公…

【畅购商城】校验用户名、手机号以及前置技术Redis和阿里大鱼短信验证码

搭建环境 后端web服务&#xff1a;changgou4-service-web修改pom.xml文档 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance&…

[创业之路-222]:波士顿矩阵与GE矩阵在业务组合选中作用、优缺点比较

目录 一、波士顿矩阵 1、基本原理 2、各象限产品的定义及战略对策 3、应用 4、优点与局限性 二、技术成熟度模型与产品生命周期模型的配对 1、技术成熟度模型 2、产品生命周期模型 3、技术成熟度模型与产品生命周期模型的配对 三、产品生命周期与产品类型的对应关系 …

第三方接口设计注意要点

实际工作中&#xff0c;我们会遇到与三方系统对接的情形&#xff0c;比如对接短信服务、支付服务、地图服务、以及一些外部业务系统的调用和回调等等&#xff0c;不论是我们调用第三方接口还是我们为其他系统提供接口服务&#xff0c;调用过程中会遇到一些大大小小的问题和吐槽…

折腾日记:如何让吃灰笔记本发挥余热——搭建一个相册服务

背景 之前写过&#xff0c;我在家里用了一台旧的工作站笔记本做了服务器&#xff0c;连上一个绿联的5位硬盘盒实现简单的网盘功能&#xff0c;然而&#xff0c;还是觉的不太理想&#xff0c;比如使用filebrowser虽然可以备份文件和图片&#xff0c;当使用手机使用网页&#xf…