论文链接: https://arxiv.org/abs/2409.02048
GitHub链接:https://github.com/Drexubery/ViewCrafter
项目链接: https://drexubery.github.io/ViewCrafter/
Demo链接: https://huggingface.co/spaces/Doubiiu/ViewCrafter
亮点直击
本文提出了一种迭代视图合成策略,并结合内容自适应相机轨迹规划算法,以逐步扩展新视图覆盖的区域和重建的点云,从而实现远距离和大范围的新视图合成。
本文的方法在多个具有挑战性的数据集上表现出色,不仅在合成新视图的质量方面表现优异,还在相机姿态控制的精确度方面表现出色。该方法不仅适用于新视图合成,还可以通过高效优化基于3D-GS的表示,实现实时渲染的沉浸式体验,以及用于场景级别的文本到3D生成,以创造更具想象力的艺术作品。
来自北大、港中文、腾讯等机构的研究人员提出ViewCrafter,可以从根据单张或稀疏输入图像生成精确相机可控的新视角视频,并支持场景级图生3D,文生3D和稀疏视角重建等应用。
传统的新视生成方法如NeRF和3D-GS等技术依赖于密集的多视角训练数据,这限制了它们在仅有稀疏甚至单张输入视角的情况下的应用。同时,这些方法没有需要逐场景优化,不具备范化能力,限制了他们在训练资源受限场景下的应用。
在实际应用中,一个更理想的问题场景是从稀疏视角甚至单张输入图像中生成任意规模场景的新视角。这项任务相当具有挑战性,因为它需要模型对3D物理世界有全面的理解。而本文提出的新视角生成方法,ViewCrafter,能够对任意输入图像实现相机轨迹精确可控的新视角视频生成,并进一步支持图生3D,文生3D和稀疏视角重建等应用。
目前论文和代码均已开源,并提供了在线Huggingface demo供玩用户使用。
效果展示
相机轨迹可控的视频生成,单视角输入
相机轨迹可控的视频生成,2视角输入
文生3D
文生3D
单图生3D
单图生3D
方法介绍
视频扩散模型
Sora等在大规模真实场景视频数据集上训练得到视频扩散模型能够学到对3D物理世界的深入理解,从而使其从单张图像或文本提示中生成复合物理规律和现实世界规则的视频内容。然而,由于它们缺乏场景的底层3D信息,因此难以在视频生成过程中实现精确的相机视角控制。
点云先验
快速多视图/单视图stereo技术的发展使得仅从单张或稀疏图像中快速重建点云表征成为可能。点云表征能够提供粗略的3D场景信息,支持自由视角渲染和精确的相机位置控制。然而,由于其表示能力较差,以及极其稀疏的输入图像所提供的3D线索非常有限,它在处理遮挡、缺失区域和几何变形方面存在问题,限制了其在新视角合成中的应用。
ViewCraftr
研究者们提出将视频扩散模型的生成能力与点云表征提供的粗略3D先验相结合,以实现相机精准可控的任意场景高保真度新视角视频生成。
如上图所示, 给定单张或稀疏视角输入图像,我们首先使用快速多视图Stereo方法构建其点云表示,这样可以准确地移动相机进行自由视角渲染。随后,为了解决点云渲染结果中存在的大面积缺失区域、几何失真和点云伪影,我们训练了一个以点云渲染结果为控制信号的视频扩散模型,作为增强渲染器,以便根据粗糙的点云渲染结果生成高保真且一致的新视角。利用点云中的显式3D信息以及视频扩散模型的生成能力,我们的方法能够实现6自由度的精准相机位姿控制,并生成高保真度、一致性强的新视角视频。
迭代生成
视频扩散模型在生成长视频时往往面临挑战,因为长视频推理会造成巨大的计算成本开销。为了解决这一问题,我们提出了一种迭代式的新视角生成策略,并提出了一种内容自适应的摄像机轨迹规划算法,以逐步扩展重建的点云和新视图覆盖的区域。具体来说,从输入图像构建的初始点云开始,我们首先使用摄像机轨迹规划算法,从当前点云预测一段相机轨迹,以有效揭示遮挡区域。接着,根据预测的轨迹渲染点云,并利用ViewCrafter根据渲染的点云生成高质量的新视角。随后,我们用生成的新视角更新点云,以扩展全局点云表征。通过迭代执行这些步骤,我们最终可以获得覆盖大视场范围和扩展点云的高保真新视图。
D高斯重建
基于研究者们提出的迭代新视角生成算法,可以从单张图像/稀疏视角甚至一段文字描述中中进行3D高斯重建。
实验结果
零样本新视角生成
研究者们在Tanks-and-Temples,CO3D, RealEstate10K这三个真实世界数据集上与发表在CVPR2024,SIGGRAPH2024等顶会上的SOTA方法进行了定量和定性比较,实验结果证明我们的方法在相机位姿控制的精准程度,以及生成新视角的视觉质量上都大幅超过对比方法。
稀疏视角3D高斯重建
研究者们在Tanks-and-Temples数据集上与发表在CVPR2024,ECCV2024等顶会上的SOTA方法进行了定量和定性比较,实验结果证明我们的方法在生成新视角的视觉质量上大幅超过对比方法
文生3D效果
启发
一些同期工作采用普吕克坐标作为视频生成模型的控制信号,实现相机可控的新视角生成。作为对比,为了验证点云控制信号的优越性,我们训练了一个以普吕克坐标为控制信号的新视角生成模型,并进行控制变量实验,保证除了控制信号外其他模型结构与ViewCrafter一致。两个模型在新视角生成任务上对比结果如下所示:
实验结果证明,不管是在新视角生成质量还是在相机控制的精准程度上,我们使用的基于点云的控制信号都要优于基于普吕克坐标的控制信号。
结论
本文提出了 ViewCrafter,一种结合视频扩散模型和点云先验的高保真度和准确的新视图合成框架。本文的方法通过为各种场景类型提供泛化能力和对单幅图像及稀疏图像输入的适应性,同时保持新视图的质量一致性和准确性,克服了现有方法的局限性。此外,引入了迭代视图合成方法和自适应相机轨迹规划程序,促进了长范围新视图合成和多样场景的自动相机轨迹生成。除了新视图合成外,还探索了 3D-GS 表示的高效优化,以实现实时、高帧率的新视图渲染,并将本文的框架适配于文本到 3D 生成。
未来计划
研究者们验证了ViewCrafter对于静态场景的强大新视角生成能力。在未来的工作中,将探索和视频深度估计方法结合,实现单目动态视频的新视角生成和4D重建。
更多精彩内容,请关注公众号:AI生成未来