【三维生成】StarGen:基于视频扩散模型的可扩展的时空自回归场景生成

在这里插入图片描述


标题:《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》
项目:https://zju3dv.github.io/StarGen
来源:商汤科技、浙大CAD、Tetras.AI

文章目录

  • 摘要
  • 一、引言
  • 二、相关工作
    • 2.1 Reconstruction Models
    • 2.2 Generation Models
    • 2.3 Combining Reconstruction and Generation
  • 三、时空自回归(Spatiotemporal Autoregression)
  • 四、时空条件的视频生成(Spatiotemporal-Conditioned Video Generation)
  • 五、下游任务
  • 实验


摘要

  近年来,大型重建和生成模型的研究进展显著改善了场景重建和新的视图生成。然而,由于计算的限制,这些 大型模型的每个推理都局限在一个小的区域内,这使得长期一致的场景生成具有挑战性。为了解决, StarGen使用了一个预训练的视频扩散模型,以自回归的方式进行远程场景生成 每个视频clip 的条件是(空间上)相邻图像和先前生成的clip 的(时间上的)重叠图像的 3D warping,通过精确的姿态控制提高远程场景生成的时空一致性。时空条件与各种输入条件兼容,促进了各种任务,包括稀疏视点插值sparse view interpolation、永久视角生成 perpetual view generation和基于布局的城市生成 layout-conditioned city generation。
  

一、引言

  近年来,大型模型的快速发展推动了在三维重建和生成方面取得的重大进展,这两个领域日益相互交织和互补。在重建方面,大型重建模型[30,70,75]的出现成功地减少了对密集多视图捕获的依赖。与此同时,生成模型已经被用来解决在稀疏捕获的视图[40,61,71]中填充不可见区域的挑战。在生成方面,3D重建技术促进了将2D生成模型提升到3D生成任务,要么通过将2D分布提取为3D表示 [LucidDreamer,DreamFusion,ProlificDreamer] ,要么通过从2D生成的图像 [LucidDreamer Text2RoomText2NeRF] 重建3D表示。此外,大型重建模型也被用来增强生成的二维多视图图像[21,71,81]之间的一致性。

  这些大型重构和生成模型的一个主要限制是,在有限的计算资源下,在单一推理中只能处理有限数量的令牌(token)。因此,目前的方法通常局限于生成单个对象或短程场景,这使得支持远程场景生成具有挑战性。虽然有时间自回归方法将当前视频剪辑的第一帧设置在之前生成的剪辑的最后一帧上,以实现long range视频生成,但它们只在短时间[16,22]内保持时间一致性。随着时间的推移,误差会累积,空间一致性变得难以保持。例如,当在同一区域内来回移动时,每个pass 可能会在同一位置产生不一致的内容

  StarGen是一个long range 的场景生成的时空自动回归框架。如图1,关键思想是将每个视频clip的生成不仅在时间上相邻的图像上,而且在与当前窗口共享共同内容的空间上相邻的图像上。我们引入了一个大型的重建模型,该模型从空间条件化图像中提取三维信息,并将重建的潜在特征渲染到每个新的视图中,通过精确的姿态控制来指导生成。贡献总结如下:

  • StarGen,一种新的自回归框架,它结合了空间和时间条件,以支持long range场景生成和精确的姿态控制。

  • 我们提出了一种新的架构,补充了一个精心设计的大型重建模型预训练的视频扩散模型用于时空条件视频生成

  • 我们通过在框架内实现三个任务来演示StarGen的多功能性,包括稀疏视图插值、永久视图生成和布局条件下的城市生成。
      

在这里插入图片描述

二、相关工作

2.1 Reconstruction Models

2.2 Generation Models

2.3 Combining Reconstruction and Generation

在这里插入图片描述

  LangSplat提出了一种预测三维潜在空间中语义高斯的方法,可以通过轻量级生成的2D architecture 进行splat和decode。现有的可推广的三维重建方法要么不能扩展到大的场景和分辨率,要么局限于近距离输入视图的插值。LangSplat结合了基于回归和生成方法的优势,同时纯粹在现成的真实视频数据上进行训练,方法的核心是变分三维高斯,这是一种有效地编码由三维特征高斯组成的潜在空间内的变化不确定性的表示。从这些高斯分布中,特定的实例可以通过高效的喷溅和快速生成的解码器进行采样和渲染。

在这里插入图片描述
  Epipolar Transformer 是一种用于处理稀疏特征的技术,主要用于解决多视图几何中的特征匹配问题。它的核心思想是利用**极线约束(Epipolar Constraint)**来引导特征匹配和特征提取,从而在稀疏特征点(如关键点或角点)的场景中,利用极线约束优化特征的位置和描述符。

  该方法的核心是三维表示,将场景编码为一组语义三维高斯,通过附加的视图相关的特征向量描述场景外观。此外,通过存储球谐系数正态分布的参数µ和σ,而不是显式特征向量,分别对每个语义高斯分布的不确定性进行建模。总的来说,一个场景被表示为N个变分高斯的集合:

在这里插入图片描述

  采样语义高斯。我们区分了高斯表示的两种状态,变分高斯和语义高斯。后者可以通过对所有高斯数分布的重参数化技巧对显式球谐系数进行采样得到:

在这里插入图片描述

  

三、时空自回归(Spatiotemporal Autoregression)

  给定一个长的位姿轨迹,StarGen为每个位姿生成一个图像。与以往基于视频扩散模型 [Streetscapes,Vista] 的时间自回归方法相似,长轨迹生成通过短视频clip的重叠滑动窗口{ W k W_k Wk} k = 1 K ^K_{k=1} k=1K进行,如图1(a).中的虚线框所示。当前(新的)窗口 W k W_k Wk的生成,以前一个(已知)窗口 W k − 1 W_{k−1} Wk1的temporally overlapping image I k t e m p I^{temp}_k Iktemp 为条件,如蓝色实心框所示。为了处理时间上非相邻图像可能与当前窗口共享相同内容的情况,引入空间相邻图像以增强空间一致性。

  具体的,将生成的场景表示为一组稀疏采样的图像{ I i s p a t I^{spat}_i Iispat} i = 1 M ^M_{i=1} i=1M,每个图像与输入位姿 P i P_i Pi和生成的深度图 D i D_i Di配对。首先识别两个当前窗口具有最大公共区域的空间条件图像 ( I i 1 s p a t , I i 2 s p a t ) (I ^{spat}_{i1},I^{spat}_{i2}) Ii1spatIi2spat,如绿色梯形区域。这些时空条件图像 ( I i 1 s p a t , I i 2 s p a t , I k t e m p ) (I ^{spat}_{i1},I^{spat}_{i2},I^{temp}_k) Ii1spatIi2spatIktemp被输入一个时空条件视频生成模型,生成当前的视频clip,如图1(b)所示。最后,从当前clip中均匀采样两个图像,并添加到采样图像集中,窗口向前滑动,继续生成

在这里插入图片描述

四、时空条件的视频生成(Spatiotemporal-Conditioned Video Generation)

在这里插入图片描述

图2.时空条件下的视频生成。给定两幅带pose图像作为空间条件(左边的绿色框),重建模型对它们的深度图和特征图进行回归。两个特征图 F i 1 s p a t F^{spat}_{i1} Fi1spat F i 2 s p a t F^{ spat}_{i2} Fi2spat被渲染成新视图特征 F n o v F^{nov} Fnov,并暂时压缩到CogVideoX的潜在空间,得到 z s p a t z^{spat} zspat。同时,对时间条件图像(右边的蓝框)进行编码,以取代(也可以说成补充) z s p a t z^{spat} zspat 中相应的latent,得到时空条件 z s t − c o n d z^{st-cond} zstcond,通过ControlNe给CogVodoX的生成添加条件。

  

  3D重建模型,与预训练的视频扩散模型相结合,生成一个基于之前生成的内容的视频clip,如图2所示。鉴于空间条件 C s p a t = C^{spat}= Cspat={ I i s p a t , P i I^{spat}_i,P_i Iispat,Pi} i = i 1 , i 2 _{i=i1,i2} i=i1,i2,时间条件 C t e m p = C^{temp}= Ctemp={ I k t e m p I^{temp}_k Iktemp},文本提示 T T T,和新视角 P n o v P^{nov} Pnov = { P j P_j Pj} j = 1 N ^N_{j=1} j=1N,目标是为新视图 x = x= x={ x j x_j xj} j = 1 N ^N_{j=1} j=1N生成图像的条件分布建模:

在这里插入图片描述
其中θ表示模型参数,N表示每个视频clip中的图像数量。该公式使模型能够利用空间和时间条件来指导新视图生成。

   空间条件 。受LatentSplat[60]的启发, 1.【重建】首先利用一个大型重建模型(LRM)从两张空间条件图像 ( I i 1 s p a t , I i 2 s p a t ) (I ^{spat}_{i1},I^{spat}_{i2}) Ii1spatIi2spat中预测场景结构 。与现有的仅依赖颜色信息的方法不同,输入还包含了先验深度图和 Plucker坐标。完整的LRM输入是 { I i s p a t , D ^ i s p a t , P ^ i s p a t I^{spat}_i,\hat{D}^{spat}_i,\hat{P}^{spat}_i Iispat,D^ispat,P^ispat} i = i 1 , i 2 _{i=i1,i2} i=i1,i2,包括RGB图像 I ∈ R H × W × 3 I∈R^{H×W×3} IRH×W×3,Depth Anythinig V2预测的深度图 D ∈ R H × W × 1 D∈R^{H×W×1} DRH×W×1,以及来自输入位姿的Plucker坐标 P ∈ R H × W × 6 P∈R^{H×W×6} PRH×W×6

2.【回归】按照GS-LRM ,我们将LRM的输入stack, patchify, concatenate到一个token序列中,输入一个Transformer网络,回归对应于两个条件视图的 深度图{ D i s p a t D^{spat}_i Dispat} i = i 1 , i 2 _{i=i1,i2} i=i1,i2和 特征图{ F i s p a t F^{spat}_i Fispat} i = i 1 , i 2 _{i=i1,i2} i=i1,i2需要注意的是,与从单目深度预测中获得的无尺度 D ^ i s p a t \hat{D}^{spat}_i D^ispat不同,回归的 D i s p a t D^{spat}_i Dispat 被期望与输入pose进行尺度对齐 。所以我们可以将特征渲染给新的视图(给定新视图 P n o v = P^{nov}= Pnov= { P j P_j Pj} j = 1 N ^N_{j=1} j=1N),获得新的视图特征 F n o v = F^{nov}= Fnov= { F j F_j Fj} j = 1 N ^N_{j=1} j=1N和深度映射 D n o v = D^{nov}= Dnov= { D j D_j Dj} j = 1 N ^N_{j=1} j=1N

在这里插入图片描述

F n o v F^{nov} Fnov 中的不可见区域用零填充。这样,结构、外观、摄像机运动和可见性信息被编码在 F n o v F^{nov} Fnov中,为生成过程提供条件,以确保可见区域与空间条件图像一致,识别和填充不可见区域,并遵循输入的位姿轨迹。为了将条件对齐到SVD模型的潜在空间,设置每个特征映射的维度来匹配潜在维度:训练一个压缩网络,压缩 F n o v ∈ R N × h × w × c F^{nov}∈R^{N×h×w×c} FnovRN×h×w×c 的时间维度从N到n,生成 z s p a t ∈ R n × h × w × c z^{spat}∈R^{n×h×w×c} zspatRn×h×w×c。按照CogVideoX ,除了第一帧外,每四帧都被压缩成一帧,即 n = 1 + ( N − 1 ) / 4 n = 1+(N−1)/4 n=1+(N1)/4

   时空条件 。其他方法通过将backbone T2V模型微调为I2V模型来支持 时间condition,因此需要在不同的位置训练不同的backbone 进行condition。为了在不调整主干的情况下增强多功能性,我们直接替换了 z s p a t z^{spat} zspat中相应的latent frame。

具体地说,将时间条件图像 I k t e m p I^{temp}_k Iktemp(可以理解为当前已知的帧)输入预训练的VAE编码器,获得一个latent z k t e m p z^{temp}_k zktemp。为了条件化第一帧, z k s p a t z^{spat}_k zkspat中的第一个 latent frame被直接替换为 z k t e m p z^{temp}_k zktemp。对于其他帧的条件化,通过在第 k k k帧处插入三个重复的pose来修改新视图pose轨迹。这四个静态帧将在 z s p a t z^spat zspat中被压缩成一个 ,并被 z k t e m p z^{temp}_k zktemp取代。被替换的latent记为 z s t − c o n d z^{st-cond} zstcond,作为CogVideoX通过ControlNet生成与时空条件一致的视频的条件。

   训练损失

在这里插入图片描述

其中 λ d e p t h λ_{depth} λdepth = 0.05, λ l a t e n t λ_{latent} λlatent = 0.1和 λ d i f f u s i o n λ_{diffusion} λdiffusion = 1.0。第一项 λ d e p t h λ_{depth} λdepth监督渲染的深度图 D n o v D^{nov} Dnov 来训练LRM。使用无尺度损失:

在这里插入图片描述

S n o v S^{nov} Snov表示新视图的均匀采样子集。 ∣ S n o v ∣ = 3 |S^{nov}| = 3 Snov=3 为了提高实验效率。 π ( ⋅ ) π(·) π()将逆深度归一化为[0,1]; λ l a t e n t λ_{latent} λlatent用于监督 latent z s p a t z^{spat} zspat 来同时训练 LRM 和压缩网络; λ d i f f u s i o n λ_{diffusion} λdiffusion 是传统的扩散损失:

在这里插入图片描述
其中,E为预训练的VAE编码器,x为真实的新视图图像; ϵ θ ϵ_θ ϵθ为模型参数为θ的去噪网络, z t z_t zt为被已知噪声 ϵ ϵ ϵ corrupted 的 noisy latent, t t t 表示扩散时间步长。

五、下游任务

   稀疏视图插值 是稀疏视图重建的关键步骤,与我们密切相关的并行工作[40,71]证明了这一点。给定开始帧和结束帧,它将生成中间图像。在StarGen的框架下,我们基于两种输入图像之间的重叠来区分两种情况。在两幅输入图像有较大的重叠区域的情况下,它们同时作为空间和时间条件,输入时空条件视频生成模型,生成插值视频。对于起始帧和结束帧共享最小甚至没有共同区域的远程场景,我们提出了一种双通道方法。在第一个pass中,该过程与之前的方法相似,但相邻生成的图像之间的姿态差比第一种情况大,得到一组稀疏采样的图像。在第二pass中,来自第一通道的每一对相邻图像被视为视频clip的开始帧和结束帧。然后,使用所提出的时空自回归方法按顺序生成所有的片段

  永久视图生成是从单个图像生成一个场景的新视图的任务,同时允许位姿控制[39,71]。在StarGen的框架中,输入图像作为第一个生成的clip的空间和时间条件。剩下的片段然后使用所提出的时空自回归生成。与开始帧和结束帧都提供约束的稀疏视图插值任务相比,永久视图生成只对第一帧有约束。因此,它对错误积累更加敏感,并对生成模型的可伸缩性提出了更高的要求,使其成为StarGen能力的一个优秀演示。

  基于布局条件的城市生成是生成给定城市布局和观测位姿[16,62]的图像的任务。首先根据观察位姿,将城市布局渲染为深度和语义视频。然后分别为深度和语义图训练两个独立的ControlNet,类似于 [Pixart-δ: Fast and controllable image generation with latent consistency models] 。这两个ControlNet被组合起来生成第一个clip。剩下的片段然后使用所提出的时空自回归生成。时空条件可以有效地与深度和语义条件相结合,这要感谢ControlNet的结合能力和我们提出的框架的灵活性。

实验

  实验细节 StarGen由一个大型的重建模型(LRM)、一个普通压缩网络(CCN)和一个带有ControlNet的视频扩散模型(VDM)组成。LRM,使用ViT架构[17],它包括12层,隐藏大小为768,MLP大小为4096,和12个注意头,总计114M参数;CCN使用了一个Conv3d层,输入和输出通道都设置为16,内核大小为(3、3、3),步幅为(1、1、1),空洞为(1、1、1),padding为(0、0、0);VDM使用预训练的CogVideoX-2B-T2I [68],没有进行任何微调。ControlNet模型包含6层模型,是CogVideoX- 2B-T2I前6层的可训练副本。

   为了提高训练的效率,所提出的模型在分辨率为256×256的情况下进行了训练。训练过程包括: 1)预热 使用batchsize 384的连续帧从头开始训练LRM+CCN,从1K热身步骤开始,共持续40K步;2)间隔训练 使用1∼3帧间隔训练LRM+CCN,batchsize 为384,训练20k步;3)联合训练,也使用1∼3帧间隔,15K步为240步。对于布局条件的城市生成任务,我们另外训练了两个深度和语义控制网,使用128个超过20K步的批大小。我们还微调了我们的模型,在11K步中训练16的LRM+CCN,然后在另外11K步中分别训练80的ControlNet

  数据集 训练数据包括RealEstate-10K[79]、ACID [39]和DL3DV-10K [38]。我们过滤掉了较短的视频剪辑,最终得到了66,859个视频的数据集。对于具有布局条件的城市生成任务,我们另外使用了来自CityDreamer[62]的城市生成数据集,该数据集包括来自开放街道地图[2]的城市布局数据和来自Google Earth Studio [1]的渲染。该数据集包括400个轨迹,每个轨迹最初有60帧,我们将其插值到600帧

  


在这里插入图片描述

RealEstate-10K数据集上,稀疏视图插值的结果

  


在这里插入图片描述

在这里插入图片描述

  


在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28946.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32 进阶 定时器

在stm32中定时器大概分为4类 1、系统定时器:属于arm内核,内嵌在NVIC中 2、高级定时器:可以用来刹车和死区 3、通用定时器:可以用来输出pwm方波 4、基本定时器:只能记数 系统定时器注意: 1、系统定时器…

day21-API(算法,lambda,练习)

常见的七种查找算法: ​ 数据结构是数据存储的方式,算法是数据计算的方式。所以在开发中,算法和数据结构息息相关。今天的讲义中会涉及部分数据结构的专业名词,如果各位铁粉有疑惑,可以先看一下哥们后面录制的数据结构…

正则表达式梳理(基于python)

正则表达式(regular expression)是一种针对字符串匹配查找所定义的规则模式,独立于语言,但不同语言在实现上也会存在一些细微差别,下面基于python对常用的相关内容进行梳理。 文章目录 一、通用常识1.通配符ps.反义 2.…

Java多线程与高并发专题——为什么 Map 桶中超过 8 个才转为红黑树?

引入 JDK 1.8 的 HashMap 和 ConcurrentHashMap 都有这样一个特点:最开始的 Map 是空的,因为里面没有任何元素,往里放元素时会计算 hash 值,计算之后,第 1 个 value 会首先占用一个桶(也称为槽点&#xff…

Llama-Factory框架下的Meta-Llama-3-8B-Instruct模型微调

目录 引言 Llama - Factory 训练框架简介: Meta - Llama - 3 - 8B - Instruct 模型概述: Lora 方法原理及优势: 原理 优势 环境准备: 部署环境测试: 数据准备: 模型准备: 模型配置与训练&#xff1…

介绍一个能支持高带宽的EDID编辑软件

软件名称叫980 Manager 4.24.16,安装后的图标如下。   软件可以去此地址下载https://download.csdn.net/download/cjie221/90459603,下载后需解压,运行.msi文件安装。   安装后,打开软件,首先会弹出这个界面&…

2025年Cursor最新安装使用教程

Cursor安装教程 一、Cursor下载二、Cursor安装三、Cursor编辑器快捷键(1) 基础编辑快捷键(2) 导航快捷键(3) 其他常用快捷键 一、Cursor下载 Cursor官方网站(https://www.cursor.com/ ) 根据自己电脑操作系统选择对应安装包 二、Cursor安装 下载完成后…

[内网安全] Windows 本地认证 — NTLM 哈希和 LM 哈希

关注这个专栏的其他相关笔记:[内网安全] 内网渗透 - 学习手册-CSDN博客 0x01:SAM 文件 & Windows 本地认证流程 0x0101:SAM 文件简介 Windows 本地账户的登录密码是存储在系统本地的 SAM 文件中的,在登录 Windows 的时候&am…

pt-archiver删除数据库的数据表/各种报错类型

这篇帖子是前面文的一部分延申 mysqlimport导入一亿数据的csv文件/一行命令删除表-CSDN博客 如需转载,标记出处 目录 pt-archiver命令格式 如果执行后出现下面报错 1)Cannot find an ascendable index in table at /usr/bin/pt-archiver line 3233. …

开发环境搭建-06.后端环境搭建-前后端联调-Nginx反向代理和负载均衡概念

一.前后端联调 我们首先来思考一个问题 前端的请求地址是:http://localhost/api/employee/login 后端的接口地址是:http://localhost:8080/admin/employee/login 明明请求地址和接口地址不同,那么前端是如何请求到后端接口所响应回来的数…

自学Linux系统软件编程第八天

并发服务器: 服务器在同一时刻可以响应多个客户端的请求。 UDP:无连接 单循环服务器:服务器同一时刻只能响应一个客户端的请求。 TCP:有连接 构建TCP并发服务器: 让TCP服务端具备同时响应多个客户端的能力。 方法…

FusionInsight MRS云原生数据湖

FusionInsight MRS云原生数据湖 1、FusionInsight MRS概述2、FusionInsight MRS解决方案3、FusionInsight MRS优势4、FusionInsight MRS功能 1、FusionInsight MRS概述 1.1、数据湖概述 数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。可以…

.NET 10首个预览版发布:重大改进与新特性概览!

前言 .NET 团队于2025年2月25日发布博文,宣布推出 .NET 10 首个预览版更新,重点改进.NET Runtime、SDK、Libraries 、C#、ASP.NET Core、Blazor 和.NET MAUI 等。 .NET 10介绍 .NET 10 是 .NET 9 的后继版本,将作为长期支持维护 &#xff…

HTTP 黑科技

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,…

C++20 模块:告别头文件,迎接现代化的模块系统

文章目录 引言一、C20模块简介1.1 传统头文件的局限性1.2 模块的出现 二、模块的基本概念2.1 模块声明2.2 模块接口单元2.3 模块实现单元 三、模块的优势3.1 编译时间大幅减少3.2 更好的依赖管理3.3 命名空间隔离 四、如何使用C20模块4.1 编译器支持4.2 示例项目4.3 编译和运行…

计算光学成像与光学计算概论

计算光学成像所涉及研究的内容非常广泛,虽然计算光学成像的研究内容是发散的,但目的都是一致的:如何让相机记录到客观实物更丰富的信息,延伸并扩展人眼的视觉感知。总的来说,计算光学成像现阶段已经取得了很多令人振奋…

安铂克科技 APPH 系列相位噪声分析仪:高性能测量的卓越之选

在当今的电子测量领域,对于信号源及各类设备的精确评估至关重要。安铂克科技的 APPH 系列相位噪声分析仪(亦称作相噪仪、相位噪声测量仪、信号源分析仪),凭借其超凡的性能与全面的功能,成为众多工程师与科研人员的理想…

算法探秘:盛最多水的容器问题

目录 一、问题引入 二、示例剖析 三、暴力解法与困境 四、双指针法:优雅的解决方案 五、总结 一、问题引入 在算法的奇妙世界里,常常会遇到各种有趣又富有挑战性的问题,“盛最多水的容器”就是其中之一。想象一下,有一系…

QTday4

1:是进度条通过线程自己动起来 mythread.h #ifndef MYTHREAD_H #define MYTHREAD_H #include <QThread>class mythread : public QThread {Q_OBJECT public:mythread(QObject* parent nullptr); protected:virtual void run() override; private: signals:virtual voi…

PPT小黑第26套

对应大猫28 层次级别是错的&#xff0c;看着是十页&#xff0c;导入ppt之后四十多页 选中所有 红色蓝色黑色 文本选择标题&#xff1a;选择 -格式相似文本&#xff08;检查有没有漏选 漏选的话 按住ctrl 点下一个&#xff09; 要求新建幻灯片中不包含原素材中的任何格式&…