SimVS: Simulating World Inconsistencies for Robust View Synthesis 论文解读

SimVS: Simulating World Inconsistencies for Robust View Synthesis 论文解读

news/2025/3/4 8:31:22/文章来源:https://blog.csdn.net/m0_60177079/article/details/145932475

目录

一、概述

二、相关工作

三、SimVS

1、利用视频模型模拟世界的不一致性

2、效果

一、概述

该论文提出了一种名为SimVS的视频模型方法，旨在解决稀疏多视角图像捕捉中因动态变化（光照变化、物体运动）导致的视图合成鲁棒性问题。

动机：现有方法在动态场景下需要依赖静态假设信息（比如NeRF），而实际的应用中输入的图像存在动态干扰，导致重建质量下降，或者使用了很少的数据，最后重建结果出现残影或者几何错乱（如下图CAT3D）。

近期的NVS模型都是从一组一致性的图像作为输入，场景几何形状和照明都是静态的，但是现实场景的图像捕捉一般很难遵循这一约束，人、物体可能存在移动或者变形，灯光也可能存在移动或改变亮度。

目的：该论文实现了从动态不一致的稀疏输入中恢复高质量的静态3D模型。原理是将动态干扰的稀疏图像隐式对齐到同一静态状态，输出一个与参考视角几何一致的图像，以供后续3D重建。

关键贡献：

一种生成式数据增强策略，利用视频扩散模型（Lumiere）去采样世界的不一致性（场景运动和光线改变）

一种多视图协调模型，根据生成的数据进行训练，将不一致的稀疏输入图像转换为一组一致的图像。

二、相关工作

三、SimVS

首先对于所假设的模型缺乏成对的动态-静态的训练数据，所以打算创建一个数据集。

基于现有的多视图数据集，当前大多数的静态多视图数据集只包含对一致场景的capture，而通过简单的缩放数据，不足以形成robust的NVS，而如果对图像移动视点或者单独进行场景变形或者照明改变是很繁杂的。如果利用启发式数据增强策略（如下图），比如随机变换，色彩变换，难以捕捉真实情况的照明变换和几何性质，甚至这种方式不能影响场景内的运动。如果使用objaverse数据集，他只能在物体级实现，而没有场景级。

下图第一列为原始图片，第二列真实场景下的加以dynamics/lighting的效果，第三列是通过VDM生成的效果，第四列是启发式数据增强策略生成的，效果很拉胯，不真实。

基于实际拍摄的动态场景，难以获取多视角的同步数据。

1、利用视频模型模拟世界的不一致性

所以基于上面的原理，考虑利用生成模型创造一个数据集--包含不同dynamic/lighting的并对应原来静态效果的数据集，这也就是下图所作的工作。

（a）Multiview inputs

视频模型采用Lumiere模型，一个二阶段高分辨率生成的视频扩散模型。

模拟了两个最突出的不一致现象：动态运动和照明变化。动态运动，采用Mannequin Challenge dataset（包含相机运动，同一场景下人物的连续型动作）照明变化，采用RealEstate10k dataset（包含多样化的室内室外照明条件的图像）

上面这些图像都是多视图输入 $x_i$ 。

（b）Inconsistency prompts

接下来是inconsistency prompt的生成，我们基于多模态大语言模型Gemini生成多样化的标题，对于给定的每一个clip，也就是每一张 $x_i$ 都随机生成一个简单且具体的prompts。

另外也添加一个negative的prompt，类似于文生图中的反向提示词，来强制模型忽略与固定视角冲突的生成方向，比如文本是“a person is waving hands”， $c_{negative}$ 可以写作“moving camera”，保证视角固定，但是场景中人物存在动作变化。

（c）Video model

预训练模型Lumiere（文本+图像生成视频模型）权重冻结，输入 ${x}_i$ 和prompts并生成一个富有光照变化或者动态场景的视频。

（d）Synthesized inconsistent

如何将视频转换为一帧Synthesized inconsistent的图像 $\tilde{x}_i$ ？论文中给的是随机采样一帧 $\tilde{x}_i$ ，这一帧相比于 ${x}_i$ 来说存在光照不一致但是空间一致。

（e）Multiview generative model

这个后半段用的模型就是CAT3D的预训练模型，基于参考视图来实现多视图扩散，然后利用NeRF进行多视角生成。

这个模型的意义是，基于给定的多张（图中是3张） $\tilde{x}_i$ 以及一张参考视图 ${x}_0$ ，得到与参考视图光照条件一致，（或者如果动态场景变化，那么就是时间一致的）多视角输出 $\hat{x}_i$ 。

模型如何做到的呢？过去的想法参考视图应该利用交叉注意力层类似以往文本编码的方式，编码他的光照信息，输入到模型中。（异想天开罢了）他就是一个CAT3D，

损失函数方面：可以去看CAT3D，他的损失就是重建阶段的损失函数，空间一致性：先生成Raymap保留几何性质，通过多视图输入LDM实现跨视角一致性，LDM通过自注意力机制来实现空间一致性。不再使用极线约束，这样可以依赖大规模的训练数据，数据驱动。

2、效果

下图diffusion samples就是扩散出来的多视图，NeRF是根据NeRF生成模型后的效果，如果用以往的CAT3D生成，在扩散模型后就会出现空间不一致，所以NeRF重建效果也会出现鬼影。

后两个是在objaverse上做的和启发式增强，说白了就是饱和度+亮度调整。

参考论文：SimVS: Simulating World Inconsistencies for Robust View Synthesis

相关博文：

CAT3D: Create Anything in 3D with Multi-View Diffusion Models 论文解读-CSDN博客

ReconFusion: 3D Reconstruction with Diffusion Priors 论文解读-CSDN博客

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/26735.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

华为OD机试真题：跳房子I (E卷、Java)

华为OD机试真题：跳房子I (E卷、Java)

华为OD机试（E卷D卷C卷）最新题库【超值优惠】Java/Python/C合集题目描述跳房子，也叫跳飞机，是一种世界性的儿童游戏。游戏参与者需要分多个回合按顺序跳到第1格直到房子的最后一格。跳房子的过程中，可以向前跳&…

阅读更多...

$快速排序算法详解$

快速排序算法详解

算法原理快速排序是一种分治的策略的排序算法。它的核心排序思想是将问题不断的分解为子问题。以数组为例进行介绍更容易理解，创建一个数组或者vector，假设是std::vector<int> a{3，2, 1, 5, 4,7}，要对a从小到大进行排序&a…

阅读更多...

Windows本地Docker+Open-WebUI部署DeepSeek

Windows本地Docker+Open-WebUI部署DeepSeek

最近想在自己的电脑本地部署一下DeepSeek试试，由于不希望污染电脑的Windows环境，所以在wsl中安装了ollama，使用ollama拉取DeepSeek模型。然后在Windows中安装了Docker Desktop，在Docker中部署了Open-WebUI，最后再在Ope…

阅读更多...

题解 | 牛客周赛82 Java ABCDEF

题解 | 牛客周赛82 Java ABCDEF

目录题目地址做题情况 A 题 B 题 C 题 D 题 E 题 F 题牛客竞赛主页题目地址牛客竞赛_ACM/NOI/CSP/CCPC/ICPC算法编程高难度练习赛_牛客竞赛OJ 做题情况 A 题判断字符串第一个字符和第三个字符是否相等 import java.io.*; import java.math.*; import java.u…

阅读更多...

$Codeforces Round 1007 (Div. 2)(ABCD1)$

Codeforces Round 1007 (Div. 2)(ABCD1)

A. The Play Never Ends 翻译： 让我们来介绍一种双人游戏--乒乓球，在这种游戏中，胜负永远分明，不可能出现平局。索赛、福福和浩海三人想用一生的时间打乒乓球。他们决定用以下方式永远打下去： 在每场比赛中&#xff…

阅读更多...

swift 开发效率提升工具

swift 开发效率提升工具

安装github copliot for xcode github/CopilotForXcode brew install --cask github-copilot-for-xcode安装swiftformat for xcode brew install swiftformatXcode Swift File代码格式化-SwiftFormat

阅读更多...

蜂鸣器使用

蜂鸣器使用

1、蜂鸣器原理无源蜂鸣器模块根据输入的不同方波信号（作为震荡源）可以发出不同的声音。驱动电路中三极管电阻一般为1K-4K都行，能够让三极管导通即可。（三极管即带箭头的部分，基极和发射机（PNP&#xff09…

阅读更多...

drawDB：一款免费数据库设计工具

drawDB：一款免费数据库设计工具

drawDB 是一款基于 Web 的免费数据库设计工具，通过拖拽、复制、粘贴等方式进行数据库建模设计，同时可以生成相应的 SQL 脚本。功能特性 drawDB 目前可以支持 MySQL、MariaDB、PostgreSQL、SQL Server 以及 SQLite 数据库，核心功能包括&…

阅读更多...

【AI论文】将1568个标记压缩到单个向量中并再解压：探索嵌入空间容量的极限

【AI论文】将1568个标记压缩到单个向量中并再解压：探索嵌入空间容量的极限

摘要：近期，一系列研究致力于解决将标记序列压缩为更短的实值向量序列的问题，这些向量序列将作为输入，替代标记嵌入或键值缓存。这些方法有助于减少现有语言模型中的计算量。尽管使用了强大的模型作为编码器，但无损压缩…

阅读更多...

【JavaWeb学习Day20】

【JavaWeb学习Day20】

Tlias智能学习系统员工登录三层架构： Controller：1.接收请求参数（用户名，密码）2.调用Service方法3.响应结果具体实现： /*** 登录*/ PostMapping("/login") public Result login(Reque…

阅读更多...

.net开源商城_C＃开源商城源码_.netcore开源商城多少钱

.net开源商城_C＃开源商城源码_.netcore开源商城多少钱

在现今的电子商务领域，开源商城系统为企业和开发者提供了丰富的选择和可能性。其中，.NET开源商城、C#开源商城源码以及.NET Core 开源商城备受关注。然而，对于这些开源商城的价格问题，往往是人们在选择时需要重点考虑的因素之一。…

阅读更多...

Java并发编程之ConcurrentHashMap的原理和使用

Java并发编程之ConcurrentHashMap的原理和使用

ConcurrentHashMap（CHM）是Java为解决高并发场景下哈希表性能瓶颈而设计的线程安全容器，其核心目标在于：线程安全‌：避免多线程操作导致的数据不一致问题‌；高吞吐量‌：通过细粒度锁和无锁化设计降低线程竞争‌；动态扩展‌：支持自动扩容与数据结构优化（如链表转红黑树…

阅读更多...

问题修复-后端返给前端的时间展示错误

问题修复-后端返给前端的时间展示错误

问题现象： 后端给前端返回的时间展示有问题。需要按照yyyy-MM-dd HH:mm:ss 的形式展示两种办法： 第一种在实体类的属性上添加JsonFormat注解第二种（建议使用） 扩展mvc框架中的消息转换器代码： 因为配置类继…

阅读更多...

《基于 LIME 的低照度图像处理》开题报告

《基于 LIME 的低照度图像处理》开题报告

目录一、研究目的和意义 1.研究目的 2.研究意义二、国内外研究现状和发展趋势三、研究内容、研究方法及可行性分析 1、研究内容 2、研究方法 3、可行性分析四、项目特色与创新点 1、面向特定应用场景的针对性研究 1.多算法比较与选择的严谨性 2.基于硬件平台的深…

阅读更多...

【Linux文件IO】系统IO详情

【Linux文件IO】系统IO详情

目录一、前言二、相关API介绍 2.1 open 2.2 read 2.3 write 2.4 lseek 2.5 close 三、简单示例 3.1 示例1 3.2 示例2 一、前言在 Linux 系统编程中，系统 I/O（又称低级 I/O）是直接通过操作系统提供的系统调用实现的文件操作接口…

阅读更多...

MATLAB代码：机器学习-分类器

MATLAB代码：机器学习-分类器

本文包含三种机器学习分类器的MATLAB实现方式代码块：支持向量机、决策树、逻辑回归。目录 SVM/支持向量机(Support Vector Machine) 原理 MATLAB实现实例代码块采用搜索确定参数 Decision Tree / 决策树原理 MATLAB实现实例代码块 Logistic Regressio…

阅读更多...

DeepSeek赋能数据治理：数字转型智慧引擎，企业数治的全新解决方案

DeepSeek赋能数据治理：数字转型智慧引擎，企业数治的全新解决方案

在数字化时代，数据已成为企业的核心资产，而数据治理则是企业实现数字化转型的关键环节。然而，传统数据治理面临着诸多挑战，如数据孤岛、数据质量参差不齐、治理效率低下等。如今，随着人工智能技术的飞速发展&#xf…

阅读更多...

火山引擎AI一体机-DeepSeek版来了

火山引擎AI一体机-DeepSeek版来了

2025年伊始，DeepSeek 在各领域尽显其能。除常态公有云部署外，一些企业也希望将 DeepSeek 与本地数据、业务场景相融合，拥抱 AI 新未来。不过，算力基础设施缺失、模型交付周期长、推理性能不足、数据安全合规等技术和成本问题成为了…

阅读更多...

Hadoop之02：MR-图解

Hadoop之02：MR-图解

1、不是所有的MR都适合combine 1.1、map端统计出了不同班级的每个学生的年龄如：(class1, 14)表示class1班的一个学生的年龄是14岁。第一个map任务： class1 14 class1 15 class1 16 class2 10第二个map任务： class1 16 class2 10 class…

阅读更多...

IP属地是通过卫星定位的吗？如何保护用户隐私

IP属地是通过卫星定位的吗？如何保护用户隐私

在数字时代，网络空间成为了人们日常生活不可或缺的一部分。随着社交媒体、在线服务等平台的兴起，用户IP属地信息的重要性日益凸显。然而，关于IP属地是如何确定的，尤其是是否通过卫星定位这一问题，却常常引发公众的疑问…

阅读更多...

最新文章

推荐文章