视频编辑最新SOTA!港中文Adobe等发布统一视频生成传播框架——GenProp

文章链接:https://arxiv.org/pdf/2412.19761
项目链接:https://genprop.github.io

亮点直击

  • 定义了一个新的生成视频传播问题,目标是利用 I2V 模型的生成能力,将视频第一帧的各种变化传播到整个视频中。

  • 精心设计了模型 GenProp,包含选择性内容编码器(Selective Content Encoder, SCE)、专用损失函数以及mask预测头,并提出了一个用于训练模型的合成数据生成pipeline。

  • 本文的模型支持多种下游应用,如移除、插入、替换、编辑和跟踪。实验还表明,即使没有特定任务的数据进行训练,模型也能支持视频扩展(outpainting)。

  • 实验结果显示,本文的模型在视频编辑和对象移除任务中优于 SOTA 方法,同时扩展了包括跟踪在内的现有任务范围。

总结速览

解决的问题
当前大规模视频生成模型在处理各种视频编辑任务时,往往聚焦于单一任务(如视频修复、外观编辑、对象插入等),而传统的视频传播方法(如光流或深度传播)易受错误积累影响,缺乏鲁棒性和泛化能力。现有方法还需要密集标注或专门针对任务进行重新训练,流程复杂且效率较低。

提出的方案

  • 框架设计:提出了一个统一的视频生成传播框架——GenProp。
    • 使用选择性内容编码器(Selective Content Encoder, SCE)对原视频的未变部分进行编码。

    • 使用图像到视频生成模型(Image-to-Video, I2V)将第一帧的编辑传播至整段视频。

  • 损失函数设计:引入区域感知损失(region-aware loss),确保SCE只编码未编辑区域的内容,同时优化I2V模型在修改区域的生成能力。

  • 数据生成方案:利用实例级视频分割数据集生成合成数据,覆盖多种视频任务。

应用的技术

  • 生成模型:通过 I2V 生成模型进行内容传播,无需依赖光流或运动预测。

  • 辅助训练模块:加入辅助解码器预测修改区域,以提高编辑区域的生成质量。

  • 选择性编码:通过区域感知机制,减少对已修改区域的编码干扰,增强未编辑内容的保真度。

达到的效果

  • 编辑:支持对对象形状进行显著修改。

  • 插入:插入的对象能够独立运动。

  • 移除:可有效移除阴影、反射等对象效果。

  • 跟踪:能够精确跟踪对象及其相关效果。

  • 统一性:无需密集标注或任务特定的重新训练,简化了编辑流程。

方法

生成视频传播面临以下关键挑战:

  • 真实性 – 第一帧中的变化应自然传播到后续帧中。

  • 一致性 – 所有其他区域应与原始视频保持一致。

  • 通用性 – 模型应具有足够的通用性,适用于多种视频任务。

在 GenProp 中,通过 I2V 生成模型解决 真实性(1);引入选择性内容编码器和掩膜预测解码器,并使用区域感知损失进行训练以解决 一致性(2);通过数据生成方案和通用 I2V 模型,满足 通用性(3)。

问题定义

给定一个输入视频 (包含 帧),设 为修改后的第一帧,目标是传播该修改,生成修改后的视频 ,其中每帧 ()保持对关键帧 的修改,同时在整个序列中保持外观和运动的一致性。

采用潜在扩散模型(latent diffusion model)在潜在空间中编码像素信息。为了简化表示,继续用 表示该潜在表示形式。形式化地,在推理过程中,GenProp 生成每帧 的公式为:

其中, 是由选择性内容编码器 引导的 I2V 生成模型。

在训练过程中,使用从现有视频实例分割数据集中构造的合成数据来创建配对样本。定义一个数据生成操作符 ,用于从原始视频序列 构造训练数据对 。令 表示应用于原始视频序列的合成数据生成操作符,其中:

然后, 是合成视频序列。
GenProp 被训练以满足以下目标,在所有帧 中:

其中, 是一个区域感知损失,用于解耦修改区域和未修改区域,保证未修改区域的稳定性,同时允许在编辑区域进行准确的传播。为了确保最终输出符合真实视频数据的分布,合成数据仅输入到内容编码器。I2V 生成模型则使用原始视频,防止模型无意中学习到合成伪影。

模型设计

为了保持原始视频的未修改部分,并仅传播修改区域,我们将两个额外的组件集成到基本的 I2V 模型中:选择性内容编码器(Selective Content Encoder,SCE)和mask预测解码器(Mask Prediction Decoder,MPD),如下图 4 所示。

选择性内容编码器 (SCE)
SCE 架构是主生成模型初始 个块的复制版本,类似于 ControlNet 。在每个编码器块后,提取的特征将添加到 I2V 模型中的相应特征中,从而实现内容信息的平滑和层次化流动。注入层是一个具有零初始化的多层感知机(MLP),该层也会进行训练。此外,为了实现双向信息交换,I2V 模型的特征在第一个块之前与 SCE 的输入进行融合。这使得 SCE 能够识别修改区域,从而能够选择性地编码未修改区域的信息。

Mask预测解码器 (MPD)
Mask预测解码器(MPD)用于估计需要编辑的空间区域,帮助编码器将修改内容与未修改内容区分开。SCE 使用 I2V 模型的前 个块,而 MPD 通过使用最终块及一个多层感知机(MLP)作为最终层来镜像这一结构。它从倒数第二个块获取潜在表示,该表示包含丰富的空间和时间信息,并通过 MLP 层处理。这恢复了时间维度,并与视频帧的数量匹配。最终输出通过均方误差(MSE)损失 训练,以匹配视频的实例掩码。这引导模型关注编辑区域,并显著提高注意力图的准确性。

区域感知损失 (Region-Aware Loss)

在训练过程中,使用实例分割数据来确保编辑和未编辑区域都能得到适当的监督。本文设计了区域感知损失(RA Loss),如下图 5 所示,旨在平衡两个区域的损失,即使编辑区域相对较小。

对于输入视频 和实例级别的mask ,其中 表示帧 中的编辑区域,在空间维度上应用高斯下采样,并在时间维度上重复,以获得与视频潜在表示形状对齐的掩码 。损失分别计算mask区域和非mask区域,得到

其中, 表示扩散均方误差损失(MSE loss),用于衡量生成帧 与真实帧 之间的像素级误差。

为了进一步减少 SCE 在mask区域的影响,添加了一个梯度损失 ,它最小化编码器输入中mask区域的影响。不直接计算二阶梯度,而是通过有限差分法进行近似计算。

其中, 表示编码器的特征, 是一个小的扰动。梯度损失定义为:

RA损失是三个项的加权和,以确保对mask区域和非mask区域都有足够的监督。

合成数据生成

创建大规模配对视频数据集可能既昂贵又具有挑战性,尤其是对于视频传播任务,因为很难涵盖所有视频任务。为了解决这个问题,本文提出使用从视频实例分割数据集中派生的合成数据。在训练中,使用了Youtube-VOS、SAM-V2 和一个内部数据集。然而,这一数据生成pipeline可以应用于任何可用的视频实例分割数据集。

采用了多种增强技术来处理分割数据,针对不同的传播子任务进行了定制:

  • 复制并粘贴:从一个视频中随机分割对象并粘贴到另一个视频中,模拟物体插入;

  • Mask填充:对mask区域进行修复,在选定区域内创建逼真的编辑;

  • 颜色填充:用特定的颜色填充mask区域,表示基本的物体追踪场景。

对于颜色填充,将被送到,将被送到,如公式3所示。每种合成数据类型与一个特定任务对齐,使得本文的模型能够跨不同应用进行泛化。对应这些增强方法的任务嵌入被注入到模型中,引导模型根据增强类型进行适应。请注意,尽管数据创建方法和任务多样,但SCE的核心功能保持一致:编码未编辑的信息,而I2V模型保持生成能力以传播已编辑区域。

实验

实现细节

由于GenProp是一个通用框架,在基于Sora的DiT架构和基于Stable Video Diffusion (SVD)的U-Net架构上进行了实验,作为基本的视频生成模型。对于前者,模型在32、64和128帧的视频上进行I2V生成训练,帧率为12和24FPS,基准分辨率为360p。SCE(24个块)和MPD进行训练,而I2V模型被冻结。结果可以使用超分辨率模型提升至720p。学习率设置为5e-5,采用余弦衰减调度器和线性预热。为确保训练稳定性,采用指数滑动平均。梯度范数阈值设为0.001,以防止训练不稳定。分类器自由引导(CFG)值设为20,数据增强比率分别设置为0.5/0.375/0.125,分别对应复制并粘贴/掩码填充/颜色填充。在RA损失中,为2.0,为1.0,为1.0。所有实验在32/64个NVIDIA A100 GPU上进行,针对不同的架构进行实验。DiT骨干网络具有更好的视频生成质量。主要结果来自这个DiT变体,而消融研究则基于SVD架构进行。

比较

由于生成视频传播是一个新问题,在GenProp的三个子任务中与现有的最先进方法进行了比较。请注意,本文的模型能够在同一个模型中处理这些任务,并进一步涵盖了如外延(outpainting)以及这些子任务的组合等附加任务,如下图1底部所示。

基于扩散的视频编辑
在下图6(a)和(b)中,将GenProp与其他基于扩散的视频编辑方法进行了比较,包括文本引导和图像引导的方法。InsV2V依赖于指令文本来控制生成。然而,由于训练数据有限,它在形状变化较大时表现不佳,并且不支持对象插入。Pika也使用文本提示在框选区域内进行编辑,但当物体形状发生显著变化时,它表现较差,且无法处理背景编辑或对象插入。AnyV2V是一个无需训练的方法,使用第一帧来引导编辑。虽然它能够处理外观变化,但在发生大规模形状或背景修改时会失败,通常会导致退化或鬼影效果。像InsV2V和Pika一样,它也无法插入物体。使用ReVideo通过先移除一个物体再重新插入来处理大规模的形状变化,但这种两阶段过程有缺点。基于框的区域可能导致模糊的边界,并且物体运动会受到原始点跟踪的影响,导致错误累积。此外,框选区域限制了它有效编辑复杂背景的能力。

视频物体移除
对于物体移除,将GenProp与传统的修补pipeline进行了比较,其中级联了两个最先进的模型来实现类似传播的修补,因为传统方法需要对所有帧进行密集的遮罩注释:SAM-V2用于遮罩跟踪,然后Propainter用于修补估计遮罩中的区域。如上图6(c)和(d)所示,GenProp具有几个优点:(1)不需要密集的遮罩注释作为输入;(2)去除物体的反射和阴影等效果;(3)去除大物体并在大面积内进行自然填充。

视频物体跟踪
在上图6(e)中将GenProp与SAM-V2在跟踪性能上进行了比较。由于SAM-V2是在大规模SA-V数据集上训练的,因此SAM-V2通常会生成比GenProp更精确的跟踪遮罩。此外,GenProp比像SAM-V2这样的实时跟踪方法要慢。然而,它有显著的优势。由于其视频生成的预训练,GenProp具有强大的物理规则理解能力。如图6所示,与SAM-V2不同,后者由于训练数据有限且偏倚,难以处理物体的反射和阴影等效果,GenProp能够稳定地跟踪这些效果。这突显了通过生成模型处理经典视觉任务的潜力。

定量结果
对多个测试集进行了定量评估。在视频编辑(如表1所示)中,在两种类型的测试集上进行了评估:(1)经典测试集,使用TGVE的DAVIS部分及其“对象变化描述”作为文本提示,重点关注对象替换和外观编辑;(2)挑战性测试集,包括从Pexels和Adobe Stock收集的30个手动选择的视频,涵盖了大规模物体替换、物体插入和背景替换。对于(2),第一帧使用商业图像编辑工具进行了编辑。对于Pika,使用在线框选工具,每个结果运行三次。对于ReVideo,选择一个框选区域,然后使用其代码提取原始物体的运动点以跟踪外观变化。对于具有显著形状变化的编辑,首先移除原始物体,再插入新物体并分配未来轨迹。

为了评估未编辑区域的一致性,在编辑遮罩外计算PSNR,记作PSNRm。对于形状变化较大的情况,我们在原始和编辑区域上应用粗略的遮罩,仅计算这些遮罩外区域的PSNR。对于文本对齐,我们计算编辑帧与文本提示的CLIP嵌入之间的余弦相似度(CLIP-T)。对于结果质量,计算跨帧的CLIP特征距离(CLIP-I)。

如下表1所示,GenProp在大多数指标上优于其他方法,特别是在挑战性测试集上。Pika在经典测试集上表现出较好的一致性,因为当物体形状相对不变时,其边界框表现得相当好。ReVideo在多个物体上效果较差。对于物体移除,收集了15个复杂场景的视频,包括物体效果和遮挡,因为现有的测试集没有覆盖这些情况。对于SAM,我们点击物体和副作用以确保完整的覆盖。

如表2所示,GenProp实现了最高的一致性,而ReVideo可能会产生边界框伪影,ProPainter在物体效果方面表现较差。

由于质量指标往往不能准确捕捉生成结果的真实感,使用Amazon MTurk进行了用户研究,共有121名参与者。每个参与者查看由GenProp和随机基线生成的几个视频,以及原始视频和文本提示。他们被问到两个问题:

  • 哪个视频与说明更匹配?

  • 哪个视频在视觉上更好?

然后参与者为每个问题选择一个视频。在上面表1和表2中,展示了用户在对齐/质量上的偏好,GenProp在所有基线上均大幅领先,特别是在挑战性测试集上。

消融研究

Mask预测解码器(MPD)
在下表3中,评估了MPD在挑战性测试集上的效果,结果显示它可以改善文本对齐和一致性。如图7的第1和第2行所示,未使用MPD时,输出mask往往严重退化,导致移除质量更差。如果没有MPD的显式监督,模型可能会混淆应该传播的部分和应该保留的部分,导致在后续帧中部分移除的物体重新出现。MPD有助于解耦,使得移除结果和预测掩码更加准确,即使在严重遮挡的情况下也能实现完全物体移除。

区域感知损失 (RA Loss)
在表3中,进一步测试了所提议的RA Loss在挑战性测试集上的有效性。GenProp中的一个核心挑战是,SCE可能错误地选择原始视频的所有区域,包括编辑区域,这会因为重建损失而削弱I2V生成能力。

如下图7的第3至第5行所示,在没有RA Loss的情况下,原始物体往往会逐渐重新出现,从而阻碍了第一帧编辑(绿色摩托车)的传播。使用RA Loss后,编辑区域能够以稳定一致的方式传播。

颜色填充增强 (Color Fill Augmentation)
颜色填充增强是解决传播失败的另一个关键因素。尽管复制粘贴和遮罩填充增强使得模型能够隐式学习物体修改、替换和删除,但颜色填充增强明确地训练模型进行跟踪,引导模型在整个序列中保持第一帧所做的修改,提示为“跟踪彩色区域”。如上图7的第6至第8行所示,由于形状差异显著,将女孩变成一只小猫是具有挑战性的。然而,使用颜色填充增强后,GenProp成功地将这一大幅修改在整个序列中传播。

结论

本文设计了一种新型的生成视频传播框架——GenProp,利用I2V模型固有的视频生成能力,实现了包括物体移除、插入和跟踪等多种下游应用。通过展示其能够扩展可实现的编辑范围(例如,移除或跟踪物体及其相关效果)并生成高度逼真的视频,且不依赖于传统的中间表示(如光流或深度图),我们展示了其潜力。通过集成选择性内容编码器并利用I2V生成模型,GenProp能够始终保持未改变的内容,同时动态传播变化。合成数据和区域感知损失进一步提升了其在跨帧解耦和细化编辑方面的能力。实验结果表明,GenProp在范围和精度上均优于现有方法,确立了其作为一种强大、灵活的解决方案的地位。未来,我们计划扩展该模型以支持多个关键帧的编辑,并探索可以支持的其他视频任务。

参考文献

[1] Generative Video Propagation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/504955.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络例题

IP地址分类: A类:网络号范围: 1~126 (0000 0001 ~ 0111 1110) B类:网络号范围:128.1 ~ 191.255 (可用范围) C类:网络号段范围:192.0.1 ~ 223.2…

【大数据基础】大数据概述

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数…

鸿蒙UI(ArkUI-方舟UI框架)

参考:https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V13/arkts-layout-development-overview-V13 ArkUI简介 ArkUI(方舟UI框架)为应用的UI开发提供了完整的基础设施,包括简洁的UI语法、丰富的UI功能&#xff…

【Java项目】基于SpringBoot的【校园交友系统】

【Java项目】基于SpringBoot的【校园交友系统】 技术简介:系统软件架构选择B/S模式、SpringBoot框架、java技术和MySQL数据库等,总体功能模块运用自顶向下的分层思想。 系统简介:系统主要包括管理员和用户。 (a) 管理员的功能主要有首页、个人…

C#中的常用集合

目录 一、动态数组ArrayList 二、List 三、栈(Stack) 四、队列(Queue) 五、字典(Dictionary),int> 一、动态数组ArrayList ArrayList 是 C# 中提供的一种动态数组类,位于命名空间 Syste…

[笔记] 使用 Jenkins 实现 CI/CD :从 GitLab 拉取 Java 项目并部署至 Windows Server

随着软件开发节奏的加快,持续集成(CI)和持续部署(CD)已经成为确保软件质量和加速产品发布的不可或缺的部分。Jenkins作为一款广泛使用的开源自动化服务器,为开发者提供了一个强大的平台来实施这些实践。然而…

WEB前端-2

目录 HTML-常见的网页标签-分类2 语义化标签 列表标签 表单标签 form标签 input标签 select标签 textarea标签 html转义符 h5提供的新标签 【例3:豆瓣电影】 【源码】 【例4:登录注册】 【源码】 【例5:QQ注册】 【源码】 H…

Nacos概述与集群实战

什么是Nacos,它有什么作用 Nacos 是一个开源的服务发现和配置管理平台,由阿里巴巴开发,用于构建云原生应用程序。Nacos 的名字源自于 “Naming and Configuration Service”(命名和配置服务)的缩写。它支持服务注册与发现、动态配置服务、动态服务管理等特性,广泛应用于微…

EtherCAT转Modbus网关与TwinCAT3的连接及配置详述

在工业自动化控制系统中,常常需要整合不同的通信协议设备。本案例旨在展示如何利用捷米特JM-ECT-RTU协议转换网关模块,实现 EtherCAT 网络与 Modbus 设备之间的无缝连接,并在 TwinCAT3 环境中进行有效配置,以构建一个稳定可靠的自…

目标检测中的Bounding Box(边界框)介绍:定义以及不同表示方式

《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…

YARN WebUI 服务

一、WebUI 使用 与HDFS一样,YARN也提供了一个WebUI服务,可以使用YARN Web用户界面监视群集、队列、应用程序、服务、流活动和节点信息。还可以查看集群详细配置的信息,检查各种应用程序和服务的日志。 1.1 首页 浏览器输入http://node2.itc…

Linux标准IOday3

1:思维导图 2 :使用3语言编写一个简易的界面,界面如下 1:标准输出流 2:标准错误流 3:文件流 要求:按1的时候,通过printf输出数据,按2的时候,通过perror输出数据,按3的时候将输入写入文件中&a…

Clickhouse基础(一)

操作命令: sudo clickhouse start sudo clickhouse restart sudo clickhouse status进入clickhouse clickhouse-client -mCREATE TABLE db_13.t_assist (modelId UInt64,taskId UInt64,testNo String,tdId UInt64,eventDay String,eventDaytime UInt64,eventBatch …

Ubuntu网络连接问题(笔记本更换wifi后,虚拟机连不上网络)

1、笔记本更换wifi后,虚拟机的IP地址变了,然后就连不上网络了(主机笔记本连接wifi正常上网) 2、修改子网地址(按照ubutun的ip设置子网掩码) 3、Ubuntu已经显示网络连接正常了,但是就是无法上网&…

Spring 项目 基于 Tomcat容器进行部署

文章目录 一、前置知识二、项目部署1. 将写好的 Spring 项目先打包成 war 包2. 查看项目工件(Artifact)是否存在3. 配置 Tomcat3.1 添加一个本地 Tomcat 容器3.2 将项目部署到 Tomcat 4. 运行项目 尽管市场上许多新项目都已经转向 Spring Boot&#xff0…

VSCode 在Windows下开发时使用Cmake Tools时输出Log乱码以及CPP文件乱码的终极解决方案

在Windows11上使用VSCode开发C程序的时候,由于使用到了Cmake Tools插件,在编译运行的时候,会出现输出日志乱码的情况,那么如何解决呢? 这里提供了解决方案: 当Settings里的Cmake: Output Log Encoding里设…

VS2022 安装和配置 vcpkg

vs2022使用vcpkg最全版本_vs2022 vcpkg-CSDN博客 Visual Studio 2022 安装和配置 vcpkg_vs2022 vcpkg-CSDN博客 GitHub - microsoft/vcpkg: C Library Manager for Windows, Linux, and MacOS vcpkg 文档 | Microsoft Learn 没有详细教程写出来,先大概看看&#x…

【通俗理解】AI的两次寒冬:从感知机困局到深度学习前夜

AI的两次寒冬:从感知机困局到深度学习前夜 引用(中英双语) 中文: “第一次AI寒冬,是因为感知机局限性被揭示,让人们失去了对算法可行性的信心。” “第二次AI寒冬,则是因为专家系统的局限性和硬…

css出现边框

前言 正常情况下,开启 contenteditable 属性后会出现 “黑色边框”。 如下图所示,很影响美观: 您可能想去掉它,就像下面这样: 解决方案 通过选择器,将 focus 聚焦时移除 outline 属性即可。 如下代码所示&a…

Flutter:打包apk,安卓版本更新(二)

在Flutter:打包apk,详细图文介绍(一)基础上,实现安卓端的版本更新功能。 1、把自己的demo文件复制到空项目中 2、生成APP图标:dart run icons_launcher:create 3、生成启动图:dart run flutter…