【论文笔记】MambaGlue: Fast and Robust Local Feature Matching With Mamba

【引用格式】:Ryoo K, Lim H, Myung H. MambaGlue: Fast and Robust Local Feature Matching With Mamba[J]. arXiv preprint arXiv:2502.00462, 2025.

【网址】:https://arxiv.org/pdf/2502.00462

开源代码】:https://github.com/uri-Kaist/MambaGlue

【PPT】:https://download.csdn.net/download/Word_And_Me_/90409456

目录

一、瓶颈问题

二、本文贡献

三、解决方案

1、输入特征与初始化

2、单层处理流程

1)MambaAttention Mixer

        a)MambaAttention Mixer(上图(b))

        b)交叉注意力模块

2)深度置信分数回归器

3)Exit Test机制

3、损失函数

四、实验结果

1、Homography Estimation

2、Relative Pose Estimation

3、Outdoor Visual Localization

4、Ablation Study


一、瓶颈问题

  • 效率与鲁棒性的权衡:现有基于Transformer的局部特征匹配方法(如SuperGlue、LightGlue)虽然鲁棒,但计算复杂度高(随关键点数量平方增长),难以满足实时性需求(如SLAM、视觉定位)。
  • 特征描述符的局限性:传统方法依赖独立特征检测器和描述符,难以应对光照变化、弱纹理场景和视角差异,导致匹配错误率较高。

二、本文贡献

  1. MambaAttention Mixer模块:结合Mamba架构(选择性状态空间模型)与自注意力机制,同时捕捉全局和局部上下文,显著提升特征表达能力。
  2. 深度置信分数回归器:基于多层感知机(MLP)设计,动态评估匹配置信度,支持早期停止机制(Exit Test),减少冗余计算。
  3. 高效混合架构:并行融合Mamba与Transformer,在保持高精度的同时实现线性时间复杂度,显著降低推理延迟。

三、解决方案

        MambaGlue的核心架构由多层堆叠结构组成,每层通过三个关键模块处理特征:MambaAttention Mixer、交叉注意力(Cross-Attention)和深度置信分数回归器

1、输入特征与初始化

        系统的输入由图像A和B的两组局部特征组成,将A和B的特征集分别表示为F_{A}F_{B},表示如下:

F_{A}={(p_{i}^{A},d_{i}^{A})}_{i=1}^{N_{A}}

F_{B}={(p_{j}^{B},d_{j}^{B})}_{j=1}^{N_{B}}

        其中,N_{A}N_{B}分别是图像A和B上的特征数;为简单起见,F_{A}F_{B}中任意 q 特征点和 d 维描述符分别记为p_{q}^{I} 和 d_{q}^{I} I\in \begin{Bmatrix} {A,B} \end{Bmatrix}

        每个关键点的状态x_{q}^{I}初始化为对应的描述符:

x_{q}^{I}\leftarrow d_{q}^{I}(I\in \begin{Bmatrix} A,B \end{Bmatrix})

2、单层处理流程

        每一层的具体流程可见上图(b)所示

1)MambaAttention Mixer

        受 MambaVision [MambaVision: A hybrid mamba- transformer vision backbone](见上图 (a))的启发,文中首先提出了一个基于 Mamba 的自注意模块,称为 MambaAttention Mixer。如上图 (b)所示,MambaAttention 混合器由一个自注意区块、一个直接连接的输入区块一个基于 Mamba 的区块组成。自注意和 Mamba 的结合允许对输入标记进行全局和选择性扫描。之后,MambaAttention Mixer和交叉注意块的组合构成了系统每一层的重要组成部分。

a)MambaAttention Mixer(上图(b))

        自注意区块:编辑全局相对位置关系,计算公式如下:

        其中,W为投影矩阵;R为相对位置之间的旋转编码;qk是从状态向量x_{i}通过不同的线性变换得到的查询向量和键向量。

        直连区块:保留原始特征x_{q},防止信息丢失。

        基于Mamba区块:通过选择性扫描(Selective Scan)捕捉序列中重要局部信息,计算公式如下:

y_{q}=Linear(\frac{d}{2},d)(Scan(f(x_{q})))

z_{q}=Linear(\frac{d}{2},d)(f(x_{q}))

        其中,Scan(-) 是选择性扫描操作,用于有效地聚焦于输入序列中最相关的片段;f(x_{q})\sigma (Conv(Linear(d,\frac{d}{2})(x_{q})))Linear(d_{in}, d_{out})(\cdot )为对后面信息进行线性操作;

        更新状态:将三个信息融合并更新,公式如下:

m_{q}=[s_{q}|y_{q}|z_{q}]

x_{q}\leftarrow x_{q}+MLP([x_{q}|m_{q}])

b)交叉注意力模块

        图像AB相互交换信息并更新向量x,公式如下:

x_{q}^{I}\leftarrow x_{q}^{I}+MLP([x_{q}^{I}|m_{q}^{I\leftarrow S}])

2)深度置信分数回归器

        深度置信分数回归器预测的置信分表示每个特征点的匹配预测与地面实况匹配的置信度。

        在Lightglue中仅使用了一个Sigmoid层和一个线性层组合来预测置信度得分;文中认为一个线性计算层不足以分析经过神经网络许多步骤的每个状态的复杂表示。为此,文中增加了线性层,如下公式所示;经过文中实验,在训练和推理方面都更快,没有变慢,并且能够更好地理解上下文中的层次和抽象含义。

c_{q}=Sigmoid(MLP(d\rightarrow \frac{d}{2}\rightarrow \frac{d}{4}\rightarrow 1)(x_{q}))

3)Exit Test机制

        文中针对置信度分数进行下列计算得到是否退出推理:

        其中,g(c_{n})=(1/|k_{n}|)\sum _{q=1}^{|k_{n}|}[[c_{q}>\lambda _{n}]];[[·]] 代表艾弗森算子;

        这意味着,当图像对上所有点的比率 \alpha 足够大时,我们就会停止迭代。

3、损失函数

        文中分两个阶段训练 MambaGlue,与 LightGlue 的训练过程类似。首先,监督模型预测的匹配对与真实匹配对的一致性,而不进行退出测试,然后只训练深度置信度回归因子。第二步不会影响各层的性能。

        匹配损失:

\sigma _{i}=Sigmoid(Linear(x_{i}))

        其中\sigma _{i}为匹配度得分,表示第 i 个点有对应点的可能性;S_{ij}为匹配矩阵,表示每对点对应关系的概率得分;

        置信损失:

        训练深度置信度平分回归器中,使用的是最小化二元交叉熵损失函数,使匹配预测与地面实况匹配相同。

四、实验结果

与Lightglue训练对比:

        文中使用官方预训练的权重,将 MambaGlue SuperGlueSGMNet LightGlue 等基于变换器的稀疏特征匹配方法进行了比较,评估了 MambaGlue 在同构估计、相对姿态估计和室外视觉定位这三个视觉任务上的表现。

        在Homography Estimation方面,文中使用了 HPatches 数据集,该数据集提供了具有挑战性的条件,如光照变化、遮挡或视点变化。在相对姿态估计方面,我们使用了 MegaDepth-1500 数据集中的 1,500 对图像,该数据集包括具有结构和视觉变化的室外场景,并通过视觉重叠率调整了难度级别。在室外视觉定位方面,文中采用了 Aachen Day-Night 基准,沿用了 Sarlin 等人提出的基准。

1、Homography Estimation

Lo-RANSAC稳健性,利用随机抽样和局部优化来有效处理异常值,鲁棒性较高(适合有异常值的环境中)Poselib -minimal solvers for camera pose estimation

DLT非稳健性,直接计算单应性变换矩阵,在有噪声的情况下容易出错Multiple View Geometry in Computer Vision

PR3px误差阈值下的精度

        通过上表可以看出,文中的方法与稀疏匹配器相比,文中方法最优;与密集匹配器相比,在5px阈值误差下更优

2、Relative Pose Estimation

        文中方法大多数展现出了良好的性能,与Lightglue相比,精度有了一定的提升;文中方法实现了稳健性和效率之间的平衡。

3、Outdoor Visual Localization

        在室外视觉定位方面,使用了RANSAC和透视点求解器(PnP)估算相机的姿势。根据上表可以看出文中方法性能有了大幅度提升,在速度上略有折衷。

4、Ablation Study

        文中使用homography数据集比较的MambaGlue和LightGlue的退出测试行为,可见,文中模型在所有场景下的表现都优于LightGlue。

        如图(a)所示,当模型的层数受到限制不进行退出测试时,从第一层开始,MambaGlue在每层的准确率方面优于LightGlue,而且随着层数的增加,MambaGlue表现更加稳定。

        如图(b)所示,通过在LightGlue上的应用,可以看到文中提出的深度置信度评分回归器可以在更精确的时刻停止,从而以更少的迭代提高了性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21557.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Office word打开加载比较慢处理方法

1.添加safe参数 ,找到word启动项,右击word,选择属性 , 添加/safe , 应用并确定 2.取消加载项,点击文件,点击选项 ,点击加载项,点击转到,取消所有勾选,确定。

Denoising Diffusion Restoration Models论文解读

论文要点 恢复的线性逆问题可以使用预训练的DDPM完成:1. 将降质矩阵使用SVD,得到分解矩阵;2. 使用分解矩阵将图像投影到降质类型间共享的谱空间;3. 谱空间中执行DDPM。 评价 同Track的方法同样很多,比如后续的DDNM、…

【JMeter使用-2】JMeter中Java Request采样器的使用指南

Apache JMeter 是一款功能强大的性能测试工具,支持多种协议和测试场景。除了内置的采样器(如HTTP请求、FTP请求等),JMeter还允许通过 Java Request采样器 调用自定义的Java代码,从而实现更复杂的测试逻辑。本文将详细介…

教学资料档案管理系统

本系统构建 JAVA 体系的后端系统,围绕以安全,可靠,高速,健壮,易于扩展为目标的方向进行开发,在阿里等开源库的基础上实现提供教学资料档案的管理系统的后端接口的微服务架构系统。 功能包含:系…

蓝桥杯(B组)-每日一题(1093字符逆序)

c中函数&#xff1a; reverse(首位置&#xff0c;尾位置&#xff09; reverse(s.begin(),s.end()) 头文件&#xff1a;<algorithm> #include<iostream> #include<algorithm>//运用reverse函数的头文件 using namespace std; int main() {string s;//定义一…

每日一题——矩阵最长递增路径

矩阵最长递增路径问题 题目描述数据范围&#xff1a;进阶要求&#xff1a;示例示例 1示例 2 题解思路算法步骤&#xff1a;代码实现代码解释复杂度分析总结 题目描述 给定一个 n 行 m 列的矩阵 matrix&#xff0c;矩阵内所有数均为非负整数。你需要在矩阵中找到一条最长路径&a…

vscode 配置 Copilot 提示GHE.com连接失败

步骤一&#xff1a;打开设置并进入 settings.json 点击菜单栏中的 “文件” -> “首选项” -> “设置”。 在搜索设置栏中输入 “Copilot: Advanced”。 点击搜索结果下方的 “在 settings.json 中编辑” 链接&#xff0c;这会打开 settings.json 文件。 步骤二&#…

DEX-EE三指灵巧手:扩展AI与机器人研究的边界

DEX-EE三指灵巧手&#xff0c;由Shadow Robot与Google DeepMind合作开发&#xff0c;以其先进技术和设计&#xff0c;正在引领AI与机器人研究的新趋势。其高精度传感器和灵活的机械手指&#xff0c;能够捕捉复杂的环境数据&#xff0c;为强化学习实验提供了可靠支持。 Shadow R…

cornerstone3D学习笔记-MPR

最近在研究如何利用cornerstone3D (v1.70.13) 来实现MPR功能&#xff0c;找到它的一个demo -- volumeBasic, 运行效果如下图 看了下主程序的示例代码&#xff0c;非常简单&#xff0c;可以说corestone3D这个库把很多细节都封装起来了&#xff0c;使得调用者可以很简单的快速实…

基于YOLO11深度学习的果园苹果检测与计数系统设计与实现【python源码+Pyqt5界面+数据集+训练代码】

《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…

数据中心储能蓄电池状态监测管理系统 组成架构介绍

安科瑞刘鸿鹏 摘要 随着数据中心对供电可靠性要求的提高&#xff0c;蓄电池储能系统成为关键的后备电源。本文探讨了蓄电池监测系统在数据中心储能系统中的重要性&#xff0c;分析了ABAT系列蓄电池在线监测系统的功能、技术特点及其应用优势。通过蓄电池监测系统的实施&#…

Ubuntu 安装 OpenCV (C++)

版本详情&#xff1a; Ubuntu: 22.04 5.15.0-133-generic gcc: 11.4.0 g: 11.4.0 OpenCV: 4.7.0 1. 卸载 OpenCV 进入原先编译 opencv 的 build 目录&#xff0c;在该目录下打开终端&#xff0c;执行以下代码&#xff08;如果 build 已经删除了&#xff0c;可以重新编译一…

【AI工具之Deepseek+Kimi一键免费生成PPT】

1.打开Deepseek网页&#xff1a;DeepSeek 2.使用Deepseek获得一份PPT大纲&#xff08;输入背景需求约束条件进行提问&#xff09;如下图&#xff1a; 3.复制Deepseek输出的PPT大纲 4.打开Kimi网页&#xff1a;Kimi.ai - 会推理解析&#xff0c;能深度思考的AI助手 5.在Kimi中…

flutter在安卓模拟器上运行

目录 下载android studio&#xff0c;然后把其中的模拟器设为环境变量&#xff0c;然后在vscode/cursor中使用插件&#xff0c;打开安卓模拟器一、下载android studio网址mac 下载64位 ARM 二、启动android studio三、设置SDK四、打开文件 打开模拟器五、运行程序六、在vscode/…

POI pptx转图片

前言 ppt页面预览一直是个问题&#xff0c;office本身虽然有预览功能但是收费&#xff0c;一些开源的项目的预览又不太好用&#xff0c;例如开源的&#xff1a;kkfileview pptx转图片 1. 引入pom依赖 我这个项目比较老&#xff0c;使用版本较旧 <dependency><gro…

数仓搭建(hive):DWB层(基础数据层)

维度退化: 通过减少表的数量和提高数据的冗余来优化查询性能。 在维度退化中&#xff0c;相关的维度数据被合并到一个宽表中&#xff0c;减少了查询时需要进行的表连接操作。例如&#xff0c;在销售数据仓库中&#xff0c;客户信息、产品信息和时间信息等维度可能会被合并到一…

vue3 在element-plus表格使用render-header

在vue2中 element表格render-header 源码是有返回h()函数的 在vue3 element-plus 表格源码 render-header函数没有返回h函数了 所以需要用render-header方法中创建虚拟DOM节点的话需要引用h方法 <el-table-column header-align"right" align"right" …

前端带样式导出excel表格,html表格生成带样式的excel表格

众所周知&#xff0c;前端生成表格通常是用xlsx、excel.js等js库&#xff0c;但这些库想要生成时增加excel样式会很麻烦。 有这么一个js库把html表格连样式带数据一并导出为excel表格: html-table-to-excel npm install html-table-to-excel 使用 html表格&#xff1a; <…

ASP.NET JWT认证失败响应:从默认到自定义的优雅改造

本文主要介绍如何通过ASP.NET Core的JwtBearerEvents机制&#xff0c;实现JWT认证失败响应的深度定制。 1. 背景 在之前的文章《一个简单的ASP.NET一致性返回工具库》 中&#xff0c;我们介绍了 Sang.AspNetCore.CommonLibraries 这一通用库&#xff0c;它通过统一API响应模型…

AI工作流+专业知识库+系统API的全流程任务自动化

我有点悲观&#xff0c;甚至很沮丧&#xff0c;因为AI留给普通人的机会不多了&#xff0c;这既是人类之间权力的斗争&#xff0c;也是硅基生命和碳基生命的斗争。AI自动化是无法避免的趋势&#xff0c;如果人类不能平权&#xff0c;那就只能跪下接受审判。 通过整合AI工作流、专…