介绍
这是一篇多模态的GS-SLAM,也已经被IROS2024录用。由于多传感器融合的GS-SLAM还是比较少的,所以应该仔细阅读一篇。
文章目录
- 介绍
- 1.背景介绍
- 2.关键内容
- 2.1 跟踪
- 2.2 重定位
- 2.3 建图
- 2.4总体流程
- 3.文章贡献
1.背景介绍
- 传统的SLAM方法往往受到地图表示的限制,如点云,surfel和voxel,它们只能以固定的分辨率重建地图。这一限制阻碍了对场景复杂纹理的捕捉,并阻碍了SLAM实现合成新视点等功能.此外,户外场景由于其无界特性,带来的挑战呈现出特别的复杂性。
- 现存方法通常是基于RGB-D或单目相机。单目相机中深度数据的缺失会导致三维高斯分布的不准确。同时,RGB-D相机捕获的深度信息范围有限,使其在广阔的户外场景中的使用变得复杂。
- 我们观察到现实世界中退化的场景,如无纹理的地面和墙壁,会导致定位错误,从而可能导致地图构建失败。
2.关键内容
2.1 跟踪
由于图像中缺乏3D信息,直接求解相机的姿势可能具有挑战性或不准确。所以作者首先使用点云配准算法估计激光雷达在时刻T的姿态。具体来说,对于三维高斯地图中的每个高斯点 G i G_i Gi,作者将标记它是来自激光雷达还是密度的结果。只保留LiDAR起源点的位置属性,将其视为一个正常的点云,然后在时刻t与LiDAR点 P t L P^ L_ t PtL进行配准,以获得LiDAR的姿态 T L , t W T^W_{ L,t} TL,tW。
随后,相机的姿态被导出为 T C , t W = T L , t W . C L , C W T^W_{ C,t}=T^W_{ L,t}.C^W_{ L,C} TC,tW=TL,tW.CL,CW 。利用这个姿势,我们之前的公式从3D高斯图G中渲染RGB,深度和轮廓图像。接下来,我们通过比较渲染的RGB和深度图像与投影生成的捕获的RGB图像和深度图像之间的差异,进一步优化相机的姿态。由于图像中包含了尚未重构的部分,为了避免该部分的损失累积而影响位姿优化,我们按照splatam的方法,建立阈值 θ s θs θs。我们认为轮廓图像中超过这个阈值的区域已经被重建,因此,我们只计算这些区域内的损失。参考了splatam的策略。
我们的损失函数由颜色损失和深度损失组成,两者都利用L1范数。通过施加一个权重因子λc,我们将颜色损失和深度损失结合起来,并使用Adam优化器进行梯度下降,以确定当前帧的估计姿态。公式如下:
2.2 重定位
跟踪失败会严重影响三维高斯图的重建,为了解决这个问题,我们首先引入跟踪失败检测模块,然后通过重定位模块将不正确的姿态重置回正确的轨迹。
在跟踪失败检测中,我们评估每帧使用公式(8)计算的损失是否超过阈值 θ f a i l θfail θfail。当损耗值超过 θ f a i l θfail θfail时,MM-Gaussian系统将进入跟踪失效状态。在这种状态下,跟踪模块被认为无法继续输出正确的姿态,并停止接受新的数据。因此,地图扩展和地图更新过程也停止了。同时,重新定位模块被激活。
如上图所示,跟踪在第t帧失败。我们使用t - m帧作为恢复点来执行查找操作。通过求解PnP问题,成功估计了第t + i帧的姿态。
具体来说,在第t帧失败时,我们从之前的m帧中检索相机的姿势 T C , t − m W T^W_{ C,t-m} TC,t−mW,这被认为是正确的姿势。我们保持 T C , t − m W T^W_{ C,t-m} TC,t−mW的平移部分不变,并对旋转进行“look-around”操作,即均匀采样n次旋转,形成n个新姿态。 同时渲染n个姿态对应的RGB、深度和silhouette图像。然后,对于跟踪失败后相机捕获的每一帧 I t + i I_{t+i} It+i,我们使用SuperPoint进行特征提取,使用LightGlue进行当前帧与n张渲染的RGB图像之间的特征匹配。
我们在超过阈值 θ f e a t u r e θ_{feature} θfeature的n幅图像中选择匹配点数量最多的一张作为候选图像。利用候选的姿态,我们通过公式(7)的逆将渲染的深度图投影回3D空间,然后基于特征的对应性,使用Perspective-n-Point (PnP)计算当前帧的姿态 T C , T + i W T ^W _{C, T +i} TC,T+iW。通过这个结果,我们再次渲染相应的RGB、深度和silhouette图像,并通过公式(8)评估其损失。如果损失低于阈值 θ f a i l θ_{fail} θfail,则认为重新定位成功。追踪、地图扩展和地图更新模块将恢复。失败的第t帧和成功重新定位的第t+i帧之间的帧将被丢弃,以避免影响3D高斯j建图。
2.3 建图
1)地图扩展: 在跟踪阶段之后,我们得到了当前帧的估计姿态。基于此姿态,我们将当前帧的LiDAR点云转换为3D高斯点云,并将其添加到地图中进行扩展。具体来说,对于 p t L p^L_t ptL中传入的N个点,我们将它们转化为N个高斯点,并使用改进的LiDAR姿态将它们添加到地图中:
添加到三维高斯图G中的高斯点G的位置µ由p在 P t W P^W_t PtW中的对应位置决定。通过将点云投影到像素平面上,我们可以使用投影像素的颜色作为高斯函数的初始颜色。之后对高斯的其他属性进行赋值。
2)地图更新:我们保持一个持续增长的关键帧序列 Q k e y Q_{key} Qkey,在一定数量的输入帧后添加一个新的帧到序列中。在建图阶段之前,我们从 Q k e y Q_{key} Qkey中选择k−2帧与当前帧和该建图阶段最新的关键帧一起进行优化。为了选择与当前帧最相关的关键帧,我们将当前帧的点云转换成世界坐标系,然后投影到每个关键帧上。选择是基于投影到像素平面上的点的数量。
在建图阶段,我们的目标是更新三维高斯的属性,而不优化相机姿势。因此,我们设置了固定的迭代次数,每次从之前选择的k帧中随机选择一帧。根据所选帧估计的相机姿态,渲染RGB图像,然后根据输入图像计算损失函数。
由于我们已经将输入LiDAR点云转换成高斯数据并添加到地图中,因此我们不再在建图阶段的损失函数中包含深度损失。相反,我们添加了SSIM损失,并继续使用Adam优化器。
在优化过程中,一些无用的高斯函数可能变得透明,或者太大。因此,根据三维高斯溅射,我们在建图阶段结束时增加一个对高斯分布的剪枝步骤,去除这些无用的高斯分布。除此之外,为了更精细地表示物体表面的细节,我们采用了致密化过程,其中包括基于梯度复制高斯函数以生成新的高斯函数。(参考的是高斯原论文的策略)
2.4总体流程
整个系统以多模态数据为输入,即LiDAR的点云和相机的图像,最终输出一个大尺度的三维高斯图G,便于无界场景下的高质量图像渲染。具体来说,激光雷达和相机都以10Hz的频率捕获点云和图像。在时刻t,得到点云pt,图像It。利用在LiDAR和相机之间使用EdgeCalib预校准的外部参数C C L,将点云投影到图像平面上,形成稀疏深度图像DGT。
MM-Gaussian算法主要包括跟踪、重新定位、地图扩展和地图更新四个部分。在跟踪阶段,使用完善的点云配准来获得初始姿态估计,随后通过将相机图像与渲染图像进行比较来改进姿态估计,以提高姿态估计的精度。此外,为了防止跟踪失败对建图造成的灾难性后果,采用了重定位模块将错误位置重置到正确轨迹上,增强了MM-Gaussian处理各种场景的鲁棒性。在建图阶段,激光雷达的点云被处理成三维高斯点并合并到地图中。随后,使用维护的图像关键帧序列来优化地图中3D高斯点的属性,从而实现更好的渲染。
3.文章贡献
- 本文介绍了一种基于三维高斯的多传感器融合SLAM方法,该方法利用了激光雷达和相机的数据。我们的系统能够在无边界场景和室外场景增量地构建三维高斯图,还可以实时渲染高质量的图像。
- 本文开发了一个重新定位模块,用于在定位失败的情况下纠正系统的轨迹,从而提高系统的鲁棒性。