【AIGC】SYNCAMMASTER:多视角多像机的视频生成

在这里插入图片描述


标题:SYNCAMMASTER: SYNCHRONIZING MULTI-CAMERA VIDEO GENERATION FROM DIVERSE VIEWPOINTS
主页:https://jianhongbai.github.io/SynCamMaster/
代码:https://github.com/KwaiVGI/SynCamMaster

文章目录

  • 摘要
  • 一、引言
  • 二、使用步骤
    • 2.1 TextToVideo生成模型
    • 2.2 多视图同步模块(SYNCHRONIZATION MODULE)
    • 2.3 数据收集
    • 2.4 训练策略
    • 2.4 扩展到新视图的视频合成
  • 三、实验
  • 四、代码


摘要

  视频扩散模型的最新进展在模拟真实世界的动态和保持三维一致性方面显示出了特殊的能力,能够确保不同视点间的动态一致性。不像现有方法(专注于多视图生成单个对象的四维重建),我们从任意视点生成开放世界视频,结合6自由度摄像机姿态。提出一个即插即用模块,即多视图同步模块,以保持这些视点的外观和几何一致性。针对训练数据,设计一个混合训练方案,利用多像机图像和单目视频来补充UE渲染的多像机视频。此外扩展了从新视角重新渲染视频,还发布了一个多视图SynCam数据集。

  


一、引言

  以往多相机生成方面的努力主要集中在4D对象生成上。它们仅限于从固定位置生成多视图视频,比如沿着围绕物体的轨道以等间隔采样。此外,它们仅限于单对象域,不支持开放域场景生成。最近CVD(Kuang et al.,2024)探索了从相同pose开始的多像机轨迹合成视频。然而,由于数据集构建的限制,这种方法只在狭窄视点的背景下进行研究

  从任意视点的开放域多摄像机视频生成,面临两个挑战: (i)跨多视点的动态同步,这引入了保持4D一致性的复杂性,以及(ii)具有不同pose的多像机视频的稀缺。

  引入即插即用模块来利用预训练的文本-视频生成模型:给定所需摄像机的外参,通过将摄像机设置为全局坐标系来进行归一化,使用camera encoder将这些参数编码到像机嵌入空间中。然后在一个多视图同步模块中计算特征间注意力,该模块被集成到预训练的DiT中。

  创建一个混合训练数据集SynCam,由多视图图像、常见单视图视频和UE渲染的多视图视频组成。虽然手动准备的UE数据存在特定领域的问题和数量有限,但公开可用的通用视频增强了对开放领域场景的泛化,而多视图图像促进了视点之间的几何和视觉一致性。

二、使用步骤

  我们的目标是实现一个开放域多摄像机视频生成模型,可以 合成n个同步视频{ V 1 , . . . , V n V^1,...,V^n V1,...,Vn} ∈ R n × f × c × h × w ∈R^{ n×f×c×h×w} Rn×f×c×h×w,即 f f f帧符合文本提示 P t P_t Pt n n n个指定视点{ c a m 1 × , . . . , c a m n cam^1×,...,cam^n cam1×,...,camn} 。视点用相机的外参表示,即 c a m i cam_i cami:= [ R , t ] ∈ R 3 × 4 R,t]∈R^{3×4} R,t]R3×4,为了简化,假设视点在各帧之间保持不变,并利用预训练视频扩散模型进行三维一致的动态内容合成,并引入即插即用的多视图同步模块来调节视图间的几何和视觉一致性,如图2。

在这里插入图片描述

2.1 TextToVideo生成模型

  预训练的latent SVD 由一个3D VAE和一个DiT组成。其中每个Transformer block都被实例化为一系列的空间注意、三维(时空)注意力和交叉注意力模块。前向过程,以及用常微分方程(ODE)去噪过程如下:

在这里插入图片描述

速度 v v v由神经网络的权值 Θ Θ Θ参数化。对于训练,回归一个向量场 u t u_t ut,通过Conditional Flow Matching 生成 p 0 p_0 p0(数据分布)和 p 1 p_1 p1(噪声分布)之间的概率路径:在这里插入图片描述

在这里插入图片描述

2.2 多视图同步模块(SYNCHRONIZATION MODULE)

  在T2V生成模型的基础上,训练多视图同步(MVS)模块,并冻结base model。以下操作是跨视点的逐帧执行的,为简化省略了帧索引 t t t MVS模块的输入为 空间特征 F s F^s Fs = { F 1 s , . . . , F n s F^s_1,..., F^s _n F1s,...,Fns} ∈ R n × f × s × d R^{n×f×s×d} Rn×f×s×d和token尺寸为 s = h ∗ w s =h∗w s=hw)和n个视频的相机外参 c a m = cam= cam={ c a m 1 , . . . , c a m n cam^1,...,cam^n cam1,...,camn}∈ R n × 12 R^{n×12} Rn×12,输出视图一致的特征 F ˉ v \bar{F}^v Fˉv= { F ˉ 1 v , . . . , F ˉ n v \bar{F}^v _1, . . . , \bar{F}^v_n Fˉ1v,...,Fˉnv} ∈ R n × f × s × d ∈R^{n×f×s×d} Rn×f×s×d到base T2V模型的后续层。

  具体地,首先将第 i i i台像机的12维外参嵌入为像机编码器 ϵ c {\epsilon}_c ϵc,按element-wise添加到相应的空间特征中。然后利用跨视图自注意层来进行多视图同步。最后,将聚合的特征投影回具有线性层和残差连接的空间特征域:

在这里插入图片描述

2.3 数据收集

  多视图视频数据的缺乏是阻碍多视图视频生成模型训练的主要挑战之一。现有的多视角视频数据主要包括(1)从不同视角的4D资产视频和(2)以人为中心的运动捕捉数据集。

  three-step 解决方案,如图3所示。首先,利用单摄像机视频作为多视点图像数据,将不同视点之间的几何对应关系知识转移到视频生成中。具体来说,RealEstate-10K和DL3DV-10K包含跨帧的摄像机运动的视频及其相应的摄像机参数,从中采样n个视频帧作为可用的多视图图像数据。其次,使用UE引擎手动渲染少量的视频(500个场景,每个场景36个摄像机),这些视频具有在城市环境中移动的人类和动物等3D资产。我们通过随机放置摄像机位置来增强模型在任意视点上的泛化能力。最后,在训练过程中加入了高质量的一般视频数据(没有相应的摄像机信息)作为正则化。首先,我们收集了70个人类和动物的3D资产作为主体,并在3D场景中选择了500个不同的位置作为背景。其次,随机抽取1-2名主要受试者,将他们放置在每个位置,并让他们沿着几个预先定义的轨迹移动。第三,我们在每个场景的不同位置设置了36台摄像机,并同步渲染100帧。因此,多视图视频数据集由500组同步视频组成,每组有36个摄像机。每个场景中的摄像机都被放置在一个半球形的表面上,距离中心为3.5米-9米。为了确保渲染的视频与真实视频具有最小的域移动,我们将每个摄像机的高程限制在0◦-45◦之间,方位角限制在0◦-360◦之间。为了支持SynCamMasser从任意视点合成视频,每个摄像机都在约束范围内随机采样,而不是在场景中使用相同的摄像机位置集。图4显示了一个场景的例子,其中红色的星星表示场景的中心点(略高于地面),视频由同步摄像机渲染视频,以捕捉主体的运动

在这里插入图片描述

2.4 训练策略

  渐进式训练。为了有效地学习不同视点之间的几何对应关系,我们发现从用相对较小的角度差异输入模型视图开始,并在训练过程中逐步增加差异是至关重要的。当相对角度较大的输入视点时,简单地从同一场景中的不同摄像机进行随机采样,就会导致视点跟踪功能的性能显著下降(图7)

在这里插入图片描述

  与多视图图像数据的联合训练。为了缓解多摄像头视频数据的缺乏,通过引入的单摄像头视频数据中采样来构建多视图图像数据。DL3DV-10K作为辅助图像数据,包括∼10K视频,包括室内外场景的广角摄像机运动,显著提高了SynCamMaster的泛化能力。(10K vs 500)

  使用single-view视频联合训练。为了提高合成视频的视觉质量,将高质量的视频数据(没有摄像机信息)作为正则化。给定一个single-view视频,复制成 v v v个具有相同相机参数的多视图视频(数据增强)。此外,我们观察到,当简单地使用任意摄像机运动的视频时,性能会下降,这可能是由于分布未对齐引起的,因为SynCamMaster的目标是从一个固定的视角生成视频。为此,我们使用以下三个步骤过滤掉静态摄像机视频数据:首先,我们将视频降采样到8 fps,并使用SAM分割第一帧,获得64个分割掩码。然后将每个mask的中心作为锚点,使用视频点跟踪方法CoTracker来计算每个锚点在所有帧中的位置坐标。最后,我们确定所有点的位移是否低于一定的阈值,来过滤掉12000个静态摄像机视频,这些视频在训练过程中被添加为一个正则化项。

2.4 扩展到新视图的视频合成

  为了实现新视图视频合成任务,基于参考视频生成不同视点的视频,将SynCamMaster转换为一个 video-to-multiview-video生成器 训练中 ,给定多视角视频在时间步 t t t 的噪声latent features { z t 1 , . . . , z t n z_t^1,...,z_t^n zt1,...,ztn} ∈ R n × f × c × h × w ∈ R^{n×f×c×h×w} Rn×f×c×h×w将第一个视图视频为参考,将原始视频的噪声潜在概率替换为p = 90%,即 z t 1 = z 0 1 z_t^1 = z_0^1 zt1=z01。为此,来自新视图(i = 2,···,n)的视频可以通过之前的多视图同步模块,有效地聚合来自参考视图的特征。推理阶段 ,首先用预训练的视频编码器提取输入视频的潜在特征,然后在每个时间步长t = T、···、0进行特征替换。同时对文本条件 c T c_T cT和视频条件 c V c_V cV实现加权的无分类器指导,类似于diult-pix2pix:

在这里插入图片描述

s T s_T sT s V s_V sV分别为文本和视频条件的加权分数,实践中设置为7.5和1.8,得到的SynCamMaster可以有效地重新渲染与文本提示和摄像机pose一致的视频,如图8:

在这里插入图片描述

三、实验

  实验细节。我们在多视图视频数据、多视图图像数据和单视图视频数据上联合训练我们的模型,其概率分别为0.6、0.2和0.2。我们以384x672的分辨率训练了50K步长的模型,学习率为0.0001,批量大小为32。利用temporal-attention的权重对view-attention module进行初始化,并对摄像机编码器和投影器进行零初始化。

  评价指标。主要从cross-view synchronization(跨视图同步)和visual quality两方面来评价所提出的方法。 跨视图同步方面,使用最先进的图像匹配方法GIM来计算: (1)置信度大于阈值的匹配像素数,记为Mat.Pix.,和(2)由每一帧的GIM估计的旋转矩阵和平移向量及其地面真实值之间的平均误差,分别表示为RotErr和TransErr。此外,我们计算了SV4D中的FVDV评分和同一时间戳下多视图帧之间的平均CLIP相似度,记为CLIP-V。对于视觉质量,我们将其分为保真度、文本一致性和时间一致性,并分别使用FID和FVD、CLIP-T和CLIP-F对其进行量化。CLIP-T为每一帧及其对应文本提示符的平均CLIP相似度,CLIP-F为相邻帧的平均CLIP相似度。我们用100个手动收集的文本提示来构建评估集,每个文本提示有4个视点进行推断,总共得到400个视频

  对比方法 由于还没有其他类似工作。为此,我们建立了基线方法,首先提取SynCamMaster生成的每个视图的第一帧,然后将它们输入(1)图像到视频(I2V)生成方法,即SVD-XT (2)基于SVD-XT的最先进的单摄像机控制方法CameraCtrl。由于CameraCtrl在静态摄像机轨迹条件下具有非最优性能,因此我们使用具有有限运动的轨迹作为输入。为了确保公平的比较,我们另外训练了一个基于SynCamMasser使用的相同T2V模型的I2V生成模型,I2V模型采用类似于EMU视频的方法,对50K步进行微调。在训练过程中,我们将第一帧的潜在特征与噪声视频的潜在特征沿信道维数进行扩展和连接,并以零初始化的权值扩展输入卷积层的维数。我们也用在0.1的概率下的零来代替潜在的图像。在推理阶段,我们对图像和文本条件实现了无加权分类器的指导

在这里插入图片描述

图5:与最先进的方法的比较。基线方法的参考多视图图像(在蓝框中显示)由SynCamMaster生成。结果表明,SynCamMaster从同一场景的不同视点生成一致的内容(例如,红框中的细节),并实现了良好的视图间同步。

在这里插入图片描述

在这里插入图片描述

图6:在联合训练策略的消融实验。两边的字幕代表了训练集的构成,其中“Mono. Video”是指一般的单目视频。结果表明,利用辅助的多视点图像数据和一般视频数据进行训练,可以显著提高合成视频的泛化能力和保真度。

四、代码

1.训练数据格式如下:


SynCamVideo
├── train
│   ├── videos    # training videos
│   │   ├── scene1    # one scene
│   │   │   ├── xxx.mp4    # synchronized 100-frame videos at 480x720 resolution
│   │   │   └── ...
│   │   │   ...
│   │   └── scene1000
│   │       ├── xxx.mp4
│   │       └── ...
│   └── cameras    # training cameras
│       ├── scene1    # one scene
│       │   └── xxx.json    # extrinsic parameters corresponding to the videos
│       │   ...
│       └── scene1000
│           └── xxx.json
└──val└── cameras    # validation cameras├── Hemi36_4m_0    # distance=4m, elevation=0°│   └── Hemi36_4m_0.json    # 36 cameras: distance=4m, elevation=0°, azimuth=i * 10°│   ...└── Hemi36_7m_45└── Hemi36_7m_45.json

2.预训练权重未开源

3.关键代码

# 1. add pose feature
pose = rearrange(pose, "b v d -> (b v) 1 d")
pose_embedding = self.cam_encoder(pose)
norm_hidden_states = norm_hidden_states + pose_embedding# 2. multi-view attention
norm_hidden_states = rearrange(norm_hidden_states, "(b v) (f s) d -> (b f) (v s) d", f=frame_num, v=view_num)
norm_encoder_hidden_states = rearrange(norm_encoder_hidden_states, "(b v) n d -> b (v n) d", v=view_num)
norm_encoder_hidden_states = repeat(norm_encoder_hidden_states, "b n d -> (b f) n d", f=frame_num)
attn_hidden_states, _ = self.attn_syncam(hidden_states=norm_hidden_states,encoder_hidden_states=norm_encoder_hidden_states,image_rotary_emb=image_rotary_emb_view,
)# 3. project back with residual connection
attn_hidden_states = self.projector(attn_hidden_states)
attn_hidden_states = rearrange(attn_hidden_states, "(b f) (v s) d -> (b v) (f s) d", f=frame_num, v=view_num)
hidden_states = hidden_states + gate_msa * attn_hidden_states

  

  

  







d \sqrt{d} d 1 8 \frac {1}{8} 81 x ˉ \bar{x} xˉ x ^ \hat{x} x^ x ~ \tilde{x} x~ ϵ \epsilon ϵ
ϕ \phi ϕ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2177.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

左神算法基础提升--1

文章目录 哈希函数哈希函数的主要特点确定性快速计算输出长度固定离散性 哈希表哈希表的原理解题 布隆过滤器布隆过滤器的主要特点高效性快速查询空间效率误报率 布隆过滤器的原理 一致性哈希一致性哈希原理一致性哈希应用 哈希函数 哈希函数是一种将任意长度的输入&#xff0…

【Go】Go Gin框架初识(一)

1. 什么是Gin框架 Gin框架:是一个由 Golang 语言开发的 web 框架,能够极大提高开发 web 应用的效率! 1.1 什么是web框架 web框架体系图(前后端不分离)如下图所示: 从上图中我们可以发现一个Web框架最重要…

VS Code 的扩展下载安装的最新方式

离线包的下载 在 2024年的时候,在VS Code的官方扩展市场:https://marketplace.visualstudio.com/ , 搜索到需要的扩展之后,是可以在对应的页面现在最新版本和几个历史版本的扩展的安装包。 下载下来的扩展包的文件是后缀是 vsix …

【Vue3 入门到实战】3. ref 和 reactive区别和适用场景

目录 ​编辑 1. ref 部分 1.1 ref定义基本数据类型 1.2 ref 定义引用数据类型 2. reactive 函数 3. ref 和 reactive 对比 3.1 原理 3.2 区别 3.3 使用原则 在 Vue 3 中 ref 和 reactive 是用于创建响应式数据的两个核心函数。它们都属于 Composition API 的一部分&…

浅谈云计算07 | 云安全机制

云计算安全机制 一、引言二、加密技术:数据的隐形护盾三、散列机制:数据完整性的忠诚卫士四、数字签名:数据来源与真伪的鉴定专家五、公钥基础设施(PKI):信任的基石六、身份与访问管理(IAM&…

【Sql递归查询】Mysql、Oracle、SQL Server、PostgreSQL 实现递归查询的区别与案例(详解)

文章目录 Mysql 5.7 递归查询Mysql 8 实现递归查询Oracle递归示例SQL Server 递归查询示例PostgreSQL 递归查询示例 更多相关内容可查看 Mysql 5.7 递归查询 MySQL 5.7 本身不直接支持标准 SQL 中的递归查询语法(如 WITH RECURSIVE 这种常见的递归查询方式&#xf…

【Unity3D】【已解决】TextMeshPro无法显示中文的解决方法

TextMeshPro无法显示中文的解决方法 现象解决方法Assets 目录中新建一个字体文件夹在C:\Windows\Fonts 中随便找一个中文字体的字体文件把字体文件拖到第一步创建的文件夹中右键导入的字体,Create---TextMeshPro---Font Asset,创建字体文件资源把 SDF文件…

ShaderJoy —— 如何判别直线是否和二次贝塞尔曲线相交【GLSL】

效果图 关键代码解析 bool IntersectsQuadraticBezier (vec2 src, vec2 dest) {float A = (CONTROL_POINT_A - 2.0 * CONTROL_POINT_B

第十二章:算法与程序设计

文章目录: 一:基本概念 1.算法与程序 1.1 算法 1.2 程序 2.编译预处理 3.面向对象技术 4.程序设计方法 5.SOP标志作业流程 6.工具 6.1 自然语言 6.2 流程图 6.3 N/S图 6.4 伪代码 6.5 计算机语言 二:程序设计 基础 1.常数 …

【BLE】CC2541之ADC

本文最后修改时间:2022年04月12日 23:00 一、本节简介 本文介绍如何通过P05口采集电压值。 二、实验平台 1)CC2541平台 ①协议栈版本:BLE-CC254x-1.4.0 ②编译软件:IAR 10.20.1 ③硬件平台:香瓜CC2541开发板、USB…

SpeingMVC框架(三)

目录 五、响应数据与结果视图 1、返回值分类 2、springmvc的请求转发和重定向 六、异常处理 1、处理思路 2、自定义异常处理器 七、springmvc中的拦截器 1、拦截器概述 2、自定义拦截器步骤 五、响应数据与结果视图 1、返回值分类 返回String:Controller方…

Hadoop3.x 万字解析,从入门到剖析源码

💖 欢迎来到我的博客! 非常高兴能在这里与您相遇。在这里,您不仅能获得有趣的技术分享,还能感受到轻松愉快的氛围。无论您是编程新手,还是资深开发者,都能在这里找到属于您的知识宝藏,学习和成长…

【Vue】分享一个快速入门的前端框架以及如何搭建

先上效果图: 登录 菜单: 下载地址: 链接:https://pan.baidu.com/s/1m-ZlBARWU6_2n8jZil_RAQ 提取码:ui20 … 主要是可以自定义设置token,更改后端请求地址较为方便。 应用设置: 登录与token设置: 在这里设置不用登录,可以请求的接口: request.js i…

汽车免拆诊断案例 | 2007 款法拉利 599 GTB 车发动机故障灯异常点亮

故障现象  一辆2007款法拉利599 GTB车,搭载6.0 L V12自然吸气发动机(图1),累计行驶里程约为6万km。该车因发动机故障灯异常点亮进厂检修。 图1 发动机的布置 故障诊断 接车后试车,发动机怠速轻微抖动,…

Emacs 折腾日记(九)——elisp 数组与序列

elisp 中序列是数组和列表的统称,序列的共性是内部数据有一个先后的顺序,它与C/C 中有序列表类似。 elisp 中的数组包括向量、字符串、char-table 和布尔向量,它们的关系如下: 在之前一章中已经介绍了序列中的一种类型——列表&#xff0c…

Mac玩Steam游戏秘籍!

Mac玩Steam游戏秘籍! 大家好!最近有不少朋友在用MacBook玩Steam游戏时遇到不支持mac的问题。别担心,我来教你如何用第三方工具Crossover来畅玩这些不支持的游戏,简单又实用! 第一步:下载Crossover 首先&…

初识算法和数据结构P1:保姆级图文详解

文章目录 前言1、算法例子1.1、查字典(二分查找算法)1.2、整理扑克(插入排序算法)1.3、货币找零(贪心算法) 2、算法与数据结构2.1、算法定义2.2、数据结构定义2.3、数据结构与算法的关系2.4、独立于编程语言…

Oracle 使用dbms_stats.gather_table_stats来进行表analyse,收集表统计信息

目录 一. 介绍二. 参数说明三. 简易封装四. 效果 一. 介绍 DBMS_STATS.GATHER_TABLE_STATS 用于收集 表 级别的统计信息。这些统计信息有助于查询优化器优化查询计划,影响与表本身相关的查询性能。 Oracle 查询优化器会根据表的统计信息来选择最优的执行计划。当运…

apache-skywalking-apm-10.1.0使用

apache-skywalking-apm-10.1.0使用 本文主要介绍如何使用apache-skywalking-apm-10.1.0,同时配合elasticsearch-8.17.0-windows-x86_64来作为存储 es持久化数据使用。 步骤如下: 一、下载elasticsearch-8.17.0-windows-x86_64 1、下载ES(elasticsear…

Flink系统知识讲解之:容错与State状态管理

Flink系统知识之:容错与State状态管理 状态在Flink中叫作State,用来保存中间计算结果或者缓存数据。根据是否需要保存中间结果,分为无状态计算和有状态计算。对于流计算而言,事件持续不断地产生,如果每次计算都是相互…