《RECONX: RECONSTRUCT ANY SCENE FROM SPARSEVIEWS WITH VIDEO DIFFUSION MODEL》论文阅读

论文地址:https://arxiv.org/pdf/2408.16767

项目地址:GitHub - liuff19/ReconX: ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

---------------------------------------------------------------------------------------------------------------------------------

任务:        

                                        将模糊重建挑战重新构建为时间生成任务

挑战:

        传统3D场景重建在“密集视角”(即从多个角度拍摄大量照片)情况下表现很好,但当捕获的视角有限时,重建变得困难。这是因为有限视角下信息不足,导致“未见区域”出现伪影和失真。

解决:

        1. 重新定义问题:ReconX 将这个模糊的重建问题视为一个“时间生成任务”,也就是说,它不直接解决3D重建的病态问题,而是通过时间维度(视频序列)生成一个逐帧一致的3D场景。

        2. 使用大规模预训练的扩散模型:扩散模型是一种生成模型,能够从稀疏视角中生成高质量的内容。ReconX 利用这种模型来生成细节丰富的视频帧,并通过这些帧确保3D场景的一致性。

贡献:

  •         提出了ReconX,一种新的稀疏视角3D场景重建框架,将模糊的重建挑战重新定义为时间生成任务。
  •         将3D结构引导整合到视频扩散模型的条件空间中,以生成具备3D一致性的帧,并提出了一种基于3D置信度感知的优化方案,通过3DGS从生成的视频中重建场景。
  •         大量实验表明,ReconX在多个真实世界数据集上在高保真度和泛化性方面优于现有方法。

大致过程:

  • 首先, 给定稀疏的图像,通过一个 无姿态的立体重建方法DUSt3R 构建全局点云。
  • 然后,将其编码到一个丰富的上下文表示空间中,作为交叉注意力层中的3D条件,指导视频扩散模型合成细节保留的帧,并生成具备3D一致性的场景新观察视角。
  • 最后,通过结合3D置信度感知鲁棒的场景优化方案的高斯点散射,从生成的视频中重建3D场景,从而有效地去除视频帧中的不确定性模糊。

详细过程:

        该项目分为一下几步:构建三维结构指导,3D一致的视频帧生成,自信感知3d优化

构建三维结构指导

        从稀疏视图的图像集(可能只有几个图像)中恢复场景的3D结构。

        首先,对于给定的稀疏图像集,构建了一个连接图。每个图像被视为一个节点,如果两个图像之间有相同或重叠的视觉内容,它们之间就会形成一条边。这种结构便于识别哪些视图有共享信息

        接下来,系统通过每对图像之间的视觉信息预测点云置信度图,生成每对视图共享的3D点。

        通过旋转和缩放,使每对图像的点云预测对齐到同一个全局坐标系中。这一步是为了确保不同视角下的点云一致。

        对齐后的点云被进一步简化,并通过 Transformer 编码器投射到一个潜在的3D上下文空间中。这是为了让系统在处理过程中能够更好地理解和利用这些3D结构信息。

        最终,通过这个上下文空间,系统生成了3D结构引导信息,这些信息将用于指导视频扩散模型生成3D一致性较好的新视图。

3D一致的视频帧生成

        将3D结构引导F(P) 融入到视频扩散过程中,以生成3D一致性帧。为了确保生成帧与场景的高保真渲染视图之间的一致性,利用视频插值能力来恢复更多未见的视角。

        首先,利用3D结构引导来提升生成帧的质量,使其更加符合稀疏图像视角下的3D结构。

        然后,模型通过交叉注意力机制,在每层的空间特征中融合图像和3D结构特征,进而生成符合高保真标准的新视角帧。

置信感知3DGS优化

        置信感知机制主要通过全局对齐生成帧的像素值,建模每个像素的颜色值为高斯分布,其中均值是生成帧的像素值,方差则衡量生成帧和真实帧的差异。

        问题:

                传统的3D重建方法主要用于处理经过校准的摄像机拍摄的真实照片,而直接应用这些方法于生成的视频时,由于生成图像的不确定性,难以恢复一致的3D场景。

        解决:

                采用了一种置信感知的3DGS(3D结构引导系统)机制来重建复杂场景。

        首先,对于生成的帧 Ii 和真实视图 i 的每像素颜色值表示为^Ci和Ci

        然后,将像素值建模为3DGS中的高斯分布,其中 Ii 的均值和方差为Ci和σi。方差σi表示生成的视图与实际视图之间的差异。目标是最小化所有帧之间的负对数似然。

        最后,从DUSt3R的 Transformer 解码器中找到对齐良好的映射函数A,该函数为每个生成的帧 {[I_i]}^{K'}_{i=1} 构建置信度图 {[C_i]}^{K'}_{i=1}。具体地说,在难以估计的区域(例如,具有固体颜色的区域)中,置信度分数往往较低,而在不确定性较低的区域得分将较高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/454652.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2019年计算机网络408真题解析

第一题: 解析:OSI参考模型第5层完成的功能 首先,我们需要对OSI参考模型很熟悉:从下到上依次是:物理层-数据链路层-网络层- 运输层-会话层-表示层-应用层,由此可知,题目要问的是会话层的主要功能…

什么是感知与计算融合?

感知与计算融合(Perception-Computing Fusion)是指将感知技术(如传感器、摄像头等)与计算技术(如数据处理、人工智能等)有机结合,以实现对环境的更深层次理解和智能反应的过程。该技术广泛应用于…

基于SSM品牌银饰售卖系统的设计

管理员账户功能包括:系统首页,个人中心,用户管理,促销活动管理,饰品管理,我的收藏管理,系统管理,订单管理 用户账号功能包括:系统首页,个人中心,…

新书速览|Android智能座舱开发:从源码到实践

《Android智能座舱开发:从源码到实践》 本书内容 《Android智能座舱开发:从源码到实践》是一本专注于Android智能座舱系统开发与优化的实战指南。《Android智能座舱开发:从源码到实践》共9章,第1章从搭建源码编译环境开始,详细指导读者如何下载和编译An…

活体人脸识别技术总结及实践

文章目录 1、背景2、人脸反伪装技术2.1 活体人脸识别常见模式2.2 学术上反伪装研究 3、工程实现3.1 Silent-Face3.2 Silent-Face模型转rknn3.3 Silent-Face模型的限制 1、背景 1.1 什么是活体检测? 在人脸识别之前,先判断一下屏幕前摄像头捕捉到的人脸是…

深度解析RLS(Recursive Least Squares)算法

目录 一、引言二、RLS算法的基本思想三、RLS算法的数学推导四、RLS算法的特点五、RLS算法的应用场景六、RLS算法的局限性七、总结 一、引言 在自适应滤波领域,LMS(Least Mean Squares)算法因其计算简单、实现方便而广受欢迎。然而&#xff0…

【leetcode|哈希表、动态规划】最长连续序列、最大子数组和

目录 最长连续序列 解法一:暴力枚举 复杂度 解法二:优化解法一省去二层循环中不必要的遍历 复杂度 最大子数组和 解法一:暴力枚举 复杂度 解法二:贪心 复杂度 解法三:动态规划 复杂度 最长连续序列 输入输…

【数据结构与算法】时间、空间复杂度详解

大家有没有遇到过,为什么有些程序跑得飞快,而有些程序却慢得让人抓狂?我们可能都是这样认为的:他写的程序效率高等等,确实如此。但这背后隐藏着两个重要的概念:时间复杂度和空间复杂度。它们就像程序的“效…

算法题总结(十九)——图论

图论 DFS框架 void dfs(参数) { if (终止条件) {存放结果;return; }for (选择:本节点所连接的其他节点) {处理节点;dfs(图,选择的节点); // 递归回溯,撤销处理结果 } }深搜三部曲 确认递归函数,参数确认终止条件处理目前搜索节…

Windows系统启动MongoDB报错无法连接服务器

文章目录 发现问题解决办法 发现问题 1)、先是发现执行 mongo 命令,启动报错: error: MongoNetworkError: connect ECONNREFUSED 127.0.0.1:27017; 2)、再检查 MongoDB 进程 tasklist | findstr mongo 发现没有进程&a…

爬虫基础--requests模块

1、requests模块的认识 requests模块的认识请跳转到 requests请求库使用_使用requests库-CSDN博客 2、爬取数据 这里我们以b站动漫追番人数为例。 首先进去b站官网 鼠标右键点击检查或者键盘的F12,进入开发者模式。(这里我使用的是谷歌浏览器为例&#…

【JVM】—深入理解G1回收器—回收过程详解

深入理解G1回收器—回收过程详解 ⭐⭐⭐⭐⭐⭐ Github主页👉https://github.com/A-BigTree 笔记链接👉https://github.com/A-BigTree/Code_Learning ⭐⭐⭐⭐⭐⭐ 如果可以,麻烦各位看官顺手点个star~😊 文章目录 深入理解G1回收…

基于PERL语言的MS中CASTEP模块批量提交计算脚本

在现代科学研究中,高效的计算工具对于推动科研进步具有不可估量的价值。为了满足广大科研工作者在材料科学、化学、物理等领域日益增长的计算需求,我们特别推出了一款基于Perl语言的MS CASTEP模块批量提交计算脚本。 一、批量提交,高效处理 …

Vulnhub打靶-Empire-LupinOne

基本信息 靶机下载:https://download.vulnhub.com/empire/01-Empire-Lupin-One.zip 攻击机器:192.168.20.128(Windows操作系统)& 192.168.20.138(kali) 提示信息: 这个盒子被创建为中等…

RNN,LSTM,GRU的区别和联系? RNN的梯度消失问题?如何解决?

RNN,LSTM,GRU的区别和联系? RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)和GRU(Gated Recurrent Unit)都是用于处理序列数据的神经网络模型,它们之间…

《黑神话悟空》各章节boss顺序汇总

第一章BOSS顺序: 1、牯护院:犀牛精,位于苍狼岭娟,击败后能获得定身术。 2、广智:火刀狼, 位于观音禅院,击败后获得广智变身,记得敲钟。 3、蓝皮幽魂:蓝皮大头&#xff0…

间充质干细胞疗法迎来快速发展:国内新药申请超93项,全球临床试验超1300项

间充质干细胞(Mesenchymal Stem Cells, MSCs)独一无二的特性和机制构建了非凡的治疗前景和成药空间。截止到2024年10月18日,临床试验注册库clinicaltrials.gov网站上有关“Mesenchymal Stem Cell”的项目有1303项。在国家药品监督管理局药品审…

Active Directory(活动目录)密码审核工具

什么是Active Directory密码审核 Active Directory密码审核涉及监控用户密码的状态及其身份验证尝试,以便 IT 管理员收到有关弱 Active Directory密码或任何异常身份验证行为的通知。 Active Directory密码审核可帮助管理员评估用户密码的强度并采取必要措施来加强…

Composio:AI 开发利器,集成 100+ 工具,简化智能体构建

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦! 微信公众号|搜一搜&…

SimpleLive 1.7.3 | TV+手机,聚合抖B虎鱼四大直播

SimpleLive是一款聚合多个直播平台的应用程序,内置虎牙、斗鱼、哔哩哔哩及抖音直播,提供无广告体验,支持弹幕显示调整、夜间模式切换等功能,无需登录即可关注不同平台主播并查看其直播状态。下载安装APK后打开应用,选择…