MASt3R:从3D的角度来实现图像匹配(更新中)

Abstract

        图像匹配是 3D 视觉中所有性能最佳算法和pipeline的核心组件。 然而,尽管匹配从根本上来说是一个 3D 问题,与相机姿态和场景几何结构有内在联系,但它通常被视为一个 2D 问题。因为匹配的目标是建立 2D 像素字段之间的对应关系,但这是一个具有潜在危险的选择。 在这项工作中,我们换一种视角,使用 DUSt3R(一种基于 Transformers 的最新且强大的 3D 重建框架)将匹配作为 3D 任务

         该方法基于点图回归,在匹配具有极端视点变化的视图方面显示出令人印象深刻的鲁棒性,但精度有限。 我们的目标是提高这种方法的匹配能力,同时保持其稳健性。首先, 我们建议用一个新的神经网络头来增强 DUSt3R 网络,该头输出密集的局部特征,并用额外的匹配损失进行训练。 进一步,我们解决了密集匹配的二次复杂度问题,如果不仔细处理,下游应用程序的速度会变得非常慢。 我们引入了一种快速相互匹配方案,该方案不仅可以将匹配速度提高几个数量级,而且还具有理论保证。大量实验表明,我们的方法在多个匹配任务上显着优于现有技术。 特别是,在极具挑战性的无地图定位数据集上,它的 VCRE AUC 比最好的已发布方法高出 30%(绝对改进)。

1.Introduction-我们要解决什么问题?如何解决?

        能够在同一场景的不同图像之间建立像素之间的对应关系(称为图像匹配),构成了所有 3D 视觉应用的核心组件,spanning mapping [14,61]、local-ization [41,72], navigation [15], photogrammetry摄影测量 [34,64] and autonomous robotics in general一般自主机器人技术 [63,87],例如,最先进的视觉定位方法绝大多数依赖于离线映射阶段的图像匹配,例如 使用 COLMAP [75],以及在线本地化步骤,通常使用 PnP [30]。在本文中,我们专注于这一核心任务,目标是在给定两个图像的情况下生成一个成对对应列表,表示为匹配。 特别是,我们寻求输出高度准确和密集的匹配,这些匹配对视点和照明变化具有鲁棒性,因为这些最终是现实世界应用的限制因素[36]。

        传统方法是基于局部的方法,实际上,全局信息也很关键

        在过去,传统的匹配方法是分三步进行的,首先提取稀疏和可重复的关键点,然后用局部不变的特征来描述它们,最后通过比较关键点在特征空间中的距离来配对离散的关键点集。这条管道有几个优点:关键点检测器在低到中等光照和视点变化下都是精确的,关键点的稀疏性使问题在计算上很容易处理,无论何时在类似条件下查看图像,都能在毫秒内实现非常精确的匹配。这解释了SIFT[52]在COLMAP[75]这样的3D重建管道中的成功和持久性。

        但是,基于关键点的方法通过减少对关键点包问题的匹配,丢弃了对应任务的全局几何上下文 这使得它们在重复模式或低纹理区域的情况下特别容易出错,这实际上对于局部描述符来说是不适定的解决这个问题的一种方法是在配对步骤中引入全局优化策略,通常利用一些学习到的匹配先验知识,SuperGlue 和类似的方法成功实现了 [51,72]。 然而,如果关键点及其描述符尚未编码足够的信息,那么在匹配期间利用全局上下文可能为时已晚。 因此,另一个方向是考虑密集整体匹配,即完全避免关键点,并一次匹配整个图像。 最近随着cross-attention的出现,这成为可能[96]。 这样的方法,如 LoFTR [82],将图像视为一个整体,并且生成的对应集是密集的,并且对于重复模式和低纹理区域更稳健 [43,68,69,82]。

匹配任务的制定本质上是一个 3D 问题,但是现有很多方法仍然没有考虑这一点,所以我们从3D角度来重新考虑这个问题

        尽管如此,即使像 LoFTR [82] 这样表现最好的方法,在无地图定位基准上的 VCRE 精度也相对令人失望,为 34%。 我们认为这是因为到目前为止,几乎所有匹配方法都将匹配视为图像空间中的二维问题。 实际上,匹配任务的制定本质上是一个 3D 问题:对应的像素是观察相同 3D 点的像素。 事实上,2D 像素对应和 3D 空间中的相对相机姿态是同一枚硬币的两个面,因为它们通过对极矩阵直接相关[36]。 目前在 Map-free 基准测试中表现最好的是 DUSt3R [102],这种方法最初是为 3D 重建而不是匹配而设计的,并且匹配只是 3D 重建的副产品,但是这个方法在匹配问题中具有很大潜力。

        在本文中,我们指出,虽然 DUSt3R [102] 确实可以用于匹配,但它相对不精确,尽管对视点变化非常鲁棒。 为了弥补这个缺陷,我们建议附加第二个头来回归密集的局部特征图,并使用 InfoNCE 损失对其进行训练。 由此产生的架构称为 MASt3R(“匹配和立体 3D 重建”),在多个基准测试中均优于 DUSt3R。 为了获得像素精确的匹配,我们提出了一种从粗到细的匹配方案,在此方案中在多个尺度上执行匹配。 每个匹配步骤都涉及从密集特征图中提取相互匹配,这可能与直觉相反,这比计算密集特征图本身要耗时得多。 我们提出的解决方案是一种更快的算法,用于查找相互匹配,速度几乎快两个数量级,同时提高了姿态估计质量。 总而言之,我们提出了三个主要贡献。 首先,我们提出 MASt3R,这是一种基于最近发布的 DUSt3R 框架构建的 3D 感知匹配方法。 它输出局部特征图,可实现高度准确且极其稳健的匹配。 其次,我们提出了一种与快速匹配算法相关的从粗到细的匹配方案,能够处理高分辨率图像。 第三,MASt3R 在几个绝对和相对姿势定位基准上显着优于最先进的技术。

2.Relation work-当前的几类匹配方法

        关键点匹配:分三个不同的阶段进行:关键点检测、局部不变描述和描述符空间中的最近邻搜索。 相比于传统方法如 SIFT [52,71] ,现代方法已经转向基于学习的数据驱动方案来检测关键点 [8,60,97,117],描述它们 [7,33, 37,88] 或 两者同时进行[10,21,53,54,70,98]。 总体而言,基于关键点的方法在许多基准测试中占主导地位[7,35,44,77],强调了它们在需要高精度和速度的任务中的持久价值[19,77]。 然而,一个值得注意的问题是它们减少了与局部问题的匹配,即放弃了其整体性。 因此,SuperGlue 和类似的方法 [51, 72] 建议在最后的配对步骤中执行全局推理,利用更强的先验来指导匹配,同时将检测和描述留在本地。 虽然成功,但它仍然受到关键点的局部性质及其无法对强烈的观点变化保持不变的限制。

        稠密匹配与基于关键点的方法相比,半密集[11,16,43,46,82,85]和密集方法[27,28,29,58,92,93,94,122]为建立图像对应提供了不同的范例 ,考虑所有可能的像素关联。 很容易让人想起光流方法[22,40,42,79,80,86],它们通常采用从粗到细的方案来降低计算复杂性。 总的来说,这些方法旨在从全局角度考虑匹配,但代价是增加计算资源密集匹配已被证明在详细的空间关系和纹理对于理解场景几何至关重要的场景中是有效的但是这些方法仍然将匹配视为二维问题

        相机姿态估计:该技术差异很大,但最成功的策略,在速度、准确性和鲁棒性权衡方面,基本上都是基于像素匹配[73,75,105]。 匹配方法的不断改进促进了更具挑战性的相机姿态估计基准的引入,例如 Aachen Day-Night、InLoc、CO3D 或 Map-free [5, 67,84,118],所有这些都具有强烈的视点和/或照明变化。

3D Grounding matching:利用场景物理属性的先验来提高准确性或鲁棒性在过去已被广泛探索,但大多数先前的工作只是利用极线约束进行对应的半监督学习,而没有任何根本性的改变[9,38,47,101,108,111,114,120 ]。 托夫特等人。 [89]则提出通过使用从现成的单目深度预测器获得的透视变换来校正图像来改进关键点描述符。 最近,姿势 [100] 或射线 [116] 的扩散,尽管严格来说并不匹配方法,但通过将 3D 几何约束纳入其姿势估计公式中,显示出了有希望的性能。 最后,最近的 DUSt3R [102] 探索了从未校准图像的 3D 重建先验困难任务中恢复对应关系的可能性。 尽管没有经过明确的匹配训练,但这种方法产生了有希望的结果,在无地图排行榜上名列前茅[5]。 我们的贡献是通过回归局部特征并显式训练它们进行成对匹配来实现这一想法。

3.Method

        给定两个图像 𝐼1 和 𝐼2,分别由参数未知的两个相机 𝐶1 和 𝐶2 拍摄,我们希望恢复一组像素对应关系 {(𝑖, 𝑗)},其中 𝑖, 𝑗 是像素 𝑖 = (𝑢𝑖, 𝑣𝑖), 𝑗 = (𝑢 𝑗, 𝑣𝑗) ∈ {1, . 。 。 , 𝑊}×{1, . 。 。 , 𝐻}, 𝑊, 𝐻 分别是图像的宽度和高度。 我们的方法如图所示。 2,旨在联合执行 3D 场景重建并匹配给定的两个输入图像。 它基于 Wang 等人最近提出的 DUSt3R 框架 [102]。我们首先在第 3.1 节中回顾,然后在第 3.2 节中提出我们提出的匹配头及其相应的损失。 然后,我们在 3.3 节中介绍了一种专门设计用于处理密集特征图的优化匹配方案,我们在 3.4 节中将其用于从粗到细的匹配。

3.1 DUSt3R

        DUSt3R是输入两个视角的图片,通过auto-encoder框架,利用交叉注意力联通了两个视角的全局信息,最后网络输出对应视角的pointmap以及confidence,pointmap在深度真实值的基础上计算。大家可以查看这篇文章(DUSt3R:Geometric 3D Vision Made Easy)或者我的另一篇文章:

InstantSplat论文阅读-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/m0_74310646/article/details/141145147?spm=1001.2014.3001.5501

其中,有两个关键个loss,一个是pointmap的,另一个是confidence的

3.2 Matching prediction head and loss

        DUSt3R在匹配结果上不够精确,我们分析主要有两个原因:一是回归本质上受到噪声的影响,二是因为 DUSt3R 从未经过明确的匹配训练。因此我们考虑增加两个输出头:最后输出稠密的featuremap,它是一个d通道的H*W图。

        我们将头部实现为与非线性 GELU 激活函数交错的简单 2 层 MLP [39]。 最后,我们将每个局部特征标准化为单位范数。

        匹配目标:我们希望一个图像中的每个局部描述符(应该是类似单个像素或者多个,这样就是一个矩阵)最多与另一个图像中表示场景中相同 3D 点的单个描述符匹配。为此,我们利用了 infoNCE [95] 损失:        \widehat{M}的意思是两个view的pointmap的GT中,映射到同一个3D点的像素位置(i,j)的集合

        请注意,此匹配目标本质上是交叉熵分类损失:与等式中的回归相反。 (6),网络只有在正确的像素而不是附近的像素时才会获得奖励。 这有力地鼓励了网络实现高精度匹配。意思就是说,featuremap是坐标与特征之间的对应关系,而在前面pointmap中同一个3D点对应的像素坐标下,对应的两组特征也要一致,这才能保证s_{\tau }最大而log(\cdot)逼近0,从而loss最小,最后,结合回归和匹配损失得到最终的训练目标:        

3.3. Fast reciprocal matching-快速相互匹配

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/415983.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MYSQL:删除指定时间范围内每个电站每天发电数据除最大值以外的记录

有一个需求,需要保留每个电站每一天发电数据的最大值记录,其余删除。 表数据大概长这样: MYSQL 5.7写法:(因为不支持ROW_NUMBER()函数,采用自定义的变量来代替) 首次清理一年内数据&#xff1…

在Postgresql中计算工单的对应的GPS轨迹距离

一、概述 在某个App开发中,要求记录用户的日常轨迹,在用户巡逻设备的时,将记录的轨迹点当做该设备巡逻时候的轨迹。 由于业务逻辑上没有明确的指示人员巡逻工单-GPS位置之间的关系,所以通过时间关系进行轨迹划定。 二、创建测试表…

备受500强企业青睐的安全数据交换系统,到底有什么优势?

网络隔离成为常见的安全手段 网络隔离技术已成为许多企业进行网络安全建设的重要手段之一,党政单位、金融机构、半导体企业、以及能源电力、医疗、生物制药等等行业及领域的企业都会选择方式不一的网络隔离技术来保护自己的网络安全,规避互联网中的网络…

python开发--模板语句

这部分是导航栏部分的代码,由于导航栏在各个页面都需要用,为了提高代码复用率将导航栏部分作为一个模板。 在下面代码图中,红色框部分相当于一个插槽,其他页面,如部门列表、用户列表等将在这个位置展示。 这部分是用户…

全国地市未来产业水平数据集(2008-2023年)

未来产业,作为驱动经济社会高质量发展的核心引擎,是指依托科技创新和模式创新,引领全球新一轮科技革命和产业变革,具有前瞻性、先导性、战略性的新兴产业领域。也是实现生产力大解放,推动生产力质的跃迁并形成新质生产…

路径处理秘籍:Golang path包最佳实践与技巧

路径处理秘籍:Golang path包最佳实践与技巧 引言基本概念和功能path包简介路径的概念:相对路径与绝对路径常见操作函数概览 路径清理和拼接path.Cleanpath.Joinpath.Split 路径提取与处理path.Basepath.Dirpath.Ext处理不同操作系统的路径分隔符 路径匹配…

kubeadm方式升级k8s集群

一、注意事项 升级前最好备份所有组件及数据,例如etcd 不要跨两个大版本进行升级,可能会存在版本bug,如: 1.19.4–>1.20.4 可以 1.19.4–>1.21.4 不可以 跨多个版本的可以逐个版本进行升级。 二、查看当前版本 [rootk8s…

AI时代的程序员:关于创业、应用开发与快速成长的经验分享 | CSDN杭州线下分享

写在前面 上周六参加了一个CSDN组织的线下技术沙龙,做了一个分享,所以本篇内容对当时分享的内容做一个整理,感谢CSDN平台和鲲志大佬的组织,让大家有了一次深入的沟通交流。 先贴照片留念: 本来是想弄个详细点的逐字稿…

【qt】多线程实现倒计时

1.界面设计 设置右边的intvalue从10开始倒计时 2.新建Thread类 新建Thread类,使其继承QThread类,多态重写run函数,相当于线程执行函数 3.重写run函数 重写run函数,让另一个进程每隔1s发出一个信号,主线程使用conne…

大零售时代:开源 AI 智能名片、2+1 链动与 O2O 商城小程序引领融合新趋势

摘要:本文深入探讨了当今零售业态的发展趋势,指出在数据匹配的时代,人依然在零售中发挥着重要作用。通过对大零售理念的阐述,分析了跨行业跨业态融合的必然性,强调了业态融合的指导思想以及实现方式。同时,…

《OpenCV计算机视觉》—— 对图片的各种操作

文章目录 1、安装OpenCV库2、读取、显示、查看图片3、对图片进行切割4、改变图像的大小5、图片打码6、图片组合7、图像运算8、图像加权运算 1、安装OpenCV库 使用pip是最简单、最快捷的安装方式 pip install opencv-python3.4.2还需要安装一个包含了其他一些图像处理算法函数的…

【教程】MySQL数据库学习笔记(六)——数据查询语言DQL(持续更新)

写在前面: 如果文章对你有帮助,记得点赞关注加收藏一波,利于以后需要的时候复习,多谢支持! 【MySQL数据库学习】系列文章 第一章 《认识与环境搭建》 第二章 《数据类型》 第三章 《数据定义语言DDL》 第四章 《数据操…

华为云征文|华为云Flexus X实例docker部署srs6并调优,协议使用webrtc与rtmp

华为云征文|华为云Flexus X实例docker部署srs6并调优,协议使用webrtc与rtmp 什么是华为云Flexus X实例 华为云Flexus X实例云服务是新一代开箱即用、体验跃级、面向中小企业和开发者打造的高品价比云服务产品。Flexus云服务器X实例是新一代面向中小企业…

CRM系统为贷款中介行业插上科技的翅膀

CRM(客户关系管理)系统为贷款中介公司插上了科技的翅膀,极大提升了贷款中介企业的运营效率、客户管理能力和市场竞争力。鑫鹿贷款CRM系统基于互联网、大数据分析、人工智能、云计算等前沿技术,帮助贷款中介公司实现业务流程的自动…

注册安全分析报告:央视网

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

Android 11 (R)AMS Activity内部机制

一、AMS是如何被管理的 如我们在Android 11(R)启动流程中介绍的一样,AMS和ATMS是在SystemServer中被启动的 ActivityTaskManagerService atm mSystemServiceManager.startService(ActivityTaskManagerService.Lifecycle.class).getService(); mActivityManagerSe…

名城优企游学活动走进龙腾半导体:CRM助力构建营销服全流程体系

8月29日,由纷享销客主办的“数字中国 高效增长——名城优企游学系列活动之走进龙腾半导体”研讨会在西安市圆满落幕,来自业内众多领袖专家参与本次研讨会,深入分享交流半导体行业的数字化转型实践,探讨行业数字化、智能化转型之路…

Linux【3】文件目录进阶

目录 cd 回到家目录 在最近两次目录来回切花 相对路径:从当前位置开始,前面没有/ or ~ mkdir rm 不可恢复 删除目录 -f 有则删,无也不报错 ls通配符仍适用!【批量删除】 cd 回到家目录 cd cd ~ 在最近两次目录来回…

Python 数据分析— Pandas 基本操作(上)

文章目录 学习内容:一、Series 创建及操作二、DataFram 的创建与操作三、Pandas 的读写操作四、选择指定行列数据 学习内容: 一、Series 创建及操作 ** Series : Pandas 的一种数据结构形式,可理解为含有索引的一维数组。** **(…

【Altium Designer脚本开发】——PCB平面绕组线圈 V1.4

PCB平面绕组线圈工具用于生成平面电机线圈,应用场景可参考平面电机的书籍、CNKI论文或平面电机的视频。此工具运行环境在Altium Designer中,可用于Altium Designer全系列的版本中。 以下工具可以定制和试用 原理图文档处理工具 ➡️物料编码自动查找工具…