《RECONX: RECONSTRUCT ANY SCENE FROM SPARSEVIEWS WITH VIDEO DIFFUSION MODEL》论文阅读

《RECONX: RECONSTRUCT ANY SCENE FROM SPARSEVIEWS WITH VIDEO DIFFUSION MODEL》论文阅读

news/2024/11/24 1:10:44/文章来源:https://blog.csdn.net/programmer_A/article/details/142965719

论文地址：https://arxiv.org/pdf/2408.16767

项目地址：GitHub - liuff19/ReconX: ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

---------------------------------------------------------------------------------------------------------------------------------

任务：

将模糊重建挑战重新构建为时间生成任务

挑战：

传统3D场景重建在“密集视角”（即从多个角度拍摄大量照片）情况下表现很好，但当捕获的视角有限时，重建变得困难。这是因为有限视角下信息不足，导致“未见区域”出现伪影和失真。

解决：

1. 重新定义问题：ReconX 将这个模糊的重建问题视为一个“时间生成任务”，也就是说，它不直接解决3D重建的病态问题，而是通过时间维度（视频序列）生成一个逐帧一致的3D场景。

2. 使用大规模预训练的扩散模型：扩散模型是一种生成模型，能够从稀疏视角中生成高质量的内容。ReconX 利用这种模型来生成细节丰富的视频帧，并通过这些帧确保3D场景的一致性。

贡献：

提出了ReconX，一种新的稀疏视角3D场景重建框架，将模糊的重建挑战重新定义为时间生成任务。
将3D结构引导整合到视频扩散模型的条件空间中，以生成具备3D一致性的帧，并提出了一种基于3D置信度感知的优化方案，通过3DGS从生成的视频中重建场景。
大量实验表明，ReconX在多个真实世界数据集上在高保真度和泛化性方面优于现有方法。

大致过程：

首先, 给定稀疏的图像，通过一个 无姿态的立体重建方法DUSt3R 构建全局点云。
然后，将其编码到一个丰富的上下文表示空间中，作为交叉注意力层中的3D条件，指导视频扩散模型合成细节保留的帧，并生成具备3D一致性的场景新观察视角。
最后，通过结合3D置信度感知和鲁棒的场景优化方案的高斯点散射，从生成的视频中重建3D场景，从而有效地去除视频帧中的不确定性模糊。

详细过程：

该项目分为一下几步：构建三维结构指导，3D一致的视频帧生成，自信感知3d优化

构建三维结构指导

从稀疏视图的图像集（可能只有几个图像）中恢复场景的3D结构。

首先，对于给定的稀疏图像集，构建了一个连接图。每个图像被视为一个节点，如果两个图像之间有相同或重叠的视觉内容，它们之间就会形成一条边。这种结构便于识别哪些视图有共享信息。

接下来，系统通过每对图像之间的视觉信息预测点云和置信度图，生成每对视图共享的3D点。

通过旋转和缩放，使每对图像的点云预测对齐到同一个全局坐标系中。这一步是为了确保不同视角下的点云一致。

对齐后的点云被进一步简化，并通过 Transformer 编码器投射到一个潜在的3D上下文空间中。这是为了让系统在处理过程中能够更好地理解和利用这些3D结构信息。

最终，通过这个上下文空间，系统生成了3D结构引导信息，这些信息将用于指导视频扩散模型生成3D一致性较好的新视图。

3D一致的视频帧生成

将3D结构引导F(P) 融入到视频扩散过程中，以生成3D一致性帧。为了确保生成帧与场景的高保真渲染视图之间的一致性，利用视频插值能力来恢复更多未见的视角。

首先，利用3D结构引导来提升生成帧的质量，使其更加符合稀疏图像视角下的3D结构。

然后，模型通过交叉注意力机制，在每层的空间特征中融合图像和3D结构特征，进而生成符合高保真标准的新视角帧。

置信感知3DGS优化

置信感知机制主要通过全局对齐生成帧的像素值，建模每个像素的颜色值为高斯分布，其中均值是生成帧的像素值，方差则衡量生成帧和真实帧的差异。

问题：

传统的3D重建方法主要用于处理经过校准的摄像机拍摄的真实照片，而直接应用这些方法于生成的视频时，由于生成图像的不确定性，难以恢复一致的3D场景。

解决：

采用了一种置信感知的3DGS（3D结构引导系统）机制来重建复杂场景。

首先，对于生成的帧 Ii 和真实视图 i 的每像素颜色值表示为^Ci和Ci

然后，将像素值建模为3DGS中的高斯分布，其中 Ii 的均值和方差为Ci和σi。方差σi表示生成的视图与实际视图之间的差异。目标是最小化所有帧之间的负对数似然。

最后，从DUSt3R的 Transformer 解码器中找到对齐良好的映射函数A，该函数为每个生成的帧 ${[I_i]}^{K'}_{i=1}$ 构建置信度图 ${[C_i]}^{K'}_{i=1}$ 。具体地说，在难以估计的区域(例如，具有固体颜色的区域)中，置信度分数往往较低，而在不确定性较低的区域得分将较高。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/454652.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

2019年计算机网络408真题解析

2019年计算机网络408真题解析

第一题： 解析：OSI参考模型第5层完成的功能首先，我们需要对OSI参考模型很熟悉：从下到上依次是：物理层-数据链路层-网络层- 运输层-会话层-表示层-应用层，由此可知，题目要问的是会话层的主要功能…

阅读更多...

什么是感知与计算融合？

什么是感知与计算融合？

感知与计算融合（Perception-Computing Fusion）是指将感知技术（如传感器、摄像头等）与计算技术（如数据处理、人工智能等）有机结合，以实现对环境的更深层次理解和智能反应的过程。该技术广泛应用于…

阅读更多...

基于SSM品牌银饰售卖系统的设计

基于SSM品牌银饰售卖系统的设计

管理员账户功能包括：系统首页，个人中心，用户管理，促销活动管理，饰品管理，我的收藏管理，系统管理，订单管理用户账号功能包括：系统首页，个人中心，…

阅读更多...

新书速览|Android智能座舱开发:从源码到实践

新书速览|Android智能座舱开发:从源码到实践

《Android智能座舱开发:从源码到实践》本书内容《Android智能座舱开发:从源码到实践》是一本专注于Android智能座舱系统开发与优化的实战指南。《Android智能座舱开发:从源码到实践》共9章，第1章从搭建源码编译环境开始，详细指导读者如何下载和编译An…

阅读更多...

活体人脸识别技术总结及实践

活体人脸识别技术总结及实践

文章目录 1、背景2、人脸反伪装技术2.1 活体人脸识别常见模式2.2 学术上反伪装研究 3、工程实现3.1 Silent-Face3.2 Silent-Face模型转rknn3.3 Silent-Face模型的限制 1、背景 1.1 什么是活体检测？ 在人脸识别之前，先判断一下屏幕前摄像头捕捉到的人脸是…

阅读更多...

深度解析RLS（Recursive Least Squares）算法

深度解析RLS（Recursive Least Squares）算法

目录一、引言二、RLS算法的基本思想三、RLS算法的数学推导四、RLS算法的特点五、RLS算法的应用场景六、RLS算法的局限性七、总结一、引言在自适应滤波领域，LMS（Least Mean Squares）算法因其计算简单、实现方便而广受欢迎。然而&#xff0…

阅读更多...

【leetcode|哈希表、动态规划】最长连续序列、最大子数组和

【leetcode|哈希表、动态规划】最长连续序列、最大子数组和

目录最长连续序列解法一：暴力枚举复杂度解法二：优化解法一省去二层循环中不必要的遍历复杂度最大子数组和解法一：暴力枚举复杂度解法二：贪心复杂度解法三：动态规划复杂度最长连续序列输入输…

阅读更多...

【数据结构与算法】时间、空间复杂度详解

【数据结构与算法】时间、空间复杂度详解

大家有没有遇到过，为什么有些程序跑得飞快，而有些程序却慢得让人抓狂？我们可能都是这样认为的：他写的程序效率高等等，确实如此。但这背后隐藏着两个重要的概念：时间复杂度和空间复杂度。它们就像程序的“效…

阅读更多...

算法题总结（十九）——图论

算法题总结（十九）——图论

图论 DFS框架 void dfs(参数) { if (终止条件) {存放结果;return; }for (选择：本节点所连接的其他节点) {处理节点;dfs(图，选择的节点); // 递归回溯，撤销处理结果 } }深搜三部曲确认递归函数，参数确认终止条件处理目前搜索节…

阅读更多...

Windows系统启动MongoDB报错无法连接服务器

Windows系统启动MongoDB报错无法连接服务器

文章目录发现问题解决办法发现问题 1）、先是发现执行 mongo 命令，启动报错： error: MongoNetworkError: connect ECONNREFUSED 127.0.0.1:27017； 2）、再检查 MongoDB 进程 tasklist | findstr mongo 发现没有进程&a…

阅读更多...

爬虫基础--requests模块

爬虫基础--requests模块

1、requests模块的认识 requests模块的认识请跳转到 requests请求库使用_使用requests库-CSDN博客 2、爬取数据这里我们以b站动漫追番人数为例。首先进去b站官网鼠标右键点击检查或者键盘的F12，进入开发者模式。（这里我使用的是谷歌浏览器为例&#…

阅读更多...

【JVM】—深入理解G1回收器—回收过程详解

【JVM】—深入理解G1回收器—回收过程详解

深入理解G1回收器—回收过程详解 ⭐⭐⭐⭐⭐⭐ Github主页👉https://github.com/A-BigTree 笔记链接👉https://github.com/A-BigTree/Code_Learning ⭐⭐⭐⭐⭐⭐ 如果可以，麻烦各位看官顺手点个star~😊 文章目录深入理解G1回收…

阅读更多...

基于PERL语言的MS中CASTEP模块批量提交计算脚本

基于PERL语言的MS中CASTEP模块批量提交计算脚本

在现代科学研究中，高效的计算工具对于推动科研进步具有不可估量的价值。为了满足广大科研工作者在材料科学、化学、物理等领域日益增长的计算需求，我们特别推出了一款基于Perl语言的MS CASTEP模块批量提交计算脚本。一、批量提交，高效处理 …

阅读更多...

Vulnhub打靶-Empire-LupinOne

Vulnhub打靶-Empire-LupinOne

基本信息靶机下载：https://download.vulnhub.com/empire/01-Empire-Lupin-One.zip 攻击机器：192.168.20.128（Windows操作系统）& 192.168.20.138（kali） 提示信息： 这个盒子被创建为中等…

阅读更多...

RNN，LSTM，GRU的区别和联系? RNN的梯度消失问题？如何解决？

RNN，LSTM，GRU的区别和联系? RNN的梯度消失问题？如何解决？

RNN，LSTM，GRU的区别和联系? RNN（Recurrent Neural Network）、LSTM（Long Short-Term Memory）和GRU（Gated Recurrent Unit）都是用于处理序列数据的神经网络模型，它们之间…

阅读更多...

《黑神话悟空》各章节boss顺序汇总

《黑神话悟空》各章节boss顺序汇总

第一章BOSS顺序： 1、牯护院：犀牛精，位于苍狼岭娟，击败后能获得定身术。 2、广智：火刀狼， 位于观音禅院，击败后获得广智变身，记得敲钟。 3、蓝皮幽魂：蓝皮大头&#xff0…

阅读更多...

间充质干细胞疗法迎来快速发展：国内新药申请超93项，全球临床试验超1300项

间充质干细胞疗法迎来快速发展：国内新药申请超93项，全球临床试验超1300项

间充质干细胞（Mesenchymal Stem Cells, MSCs）独一无二的特性和机制构建了非凡的治疗前景和成药空间。截止到2024年10月18日，临床试验注册库clinicaltrials.gov网站上有关“Mesenchymal Stem Cell”的项目有1303项。在国家药品监督管理局药品审…

阅读更多...

Active Directory(活动目录)密码审核工具

Active Directory(活动目录)密码审核工具

什么是Active Directory密码审核 Active Directory密码审核涉及监控用户密码的状态及其身份验证尝试，以便 IT 管理员收到有关弱 Active Directory密码或任何异常身份验证行为的通知。 Active Directory密码审核可帮助管理员评估用户密码的强度并采取必要措施来加强…

阅读更多...

Composio：AI 开发利器，集成 100+ 工具，简化智能体构建

Composio：AI 开发利器，集成 100+ 工具，简化智能体构建

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！ 微信公众号｜搜一搜&…

阅读更多...

SimpleLive 1.7.3 | TV+手机，聚合抖B虎鱼四大直播

SimpleLive 1.7.3 | TV+手机，聚合抖B虎鱼四大直播

SimpleLive是一款聚合多个直播平台的应用程序，内置虎牙、斗鱼、哔哩哔哩及抖音直播，提供无广告体验，支持弹幕显示调整、夜间模式切换等功能，无需登录即可关注不同平台主播并查看其直播状态。下载安装APK后打开应用，选择…

阅读更多...

最新文章

推荐文章