题目:Fourier-Deformable Convolution Network for Road Segmentation From Remote Sensing Images
期刊:IEEE Transactions on Geoscience and Remote Sensing
论文:https://ieeexplore.ieee.org/document/10707598/
代码:https://github.com/zhoucharming/FDNet
年份:2024
单位:南京理工
背景:
道路从遥感图像中的分割是一个关键任务,对于许多应用领域来说都非常重要,包括城市规划、智能交通系统、自动驾驶、车辆导航、道路监控和紧急管理等。然而,这一任务面临几个挑战:
- 不规则道路网络:道路网络可能非常复杂和不规则,这使得自动化的分割变得困难。
- 复杂背景和遮挡:树木和建筑物等造成的遮挡,以及背景的复杂性,都给道路的识别带来了挑战。
- 传统方法的局限性:早期的研究依赖于传统的图像分析方法,这些方法依赖于专家知识和手动参数调整,通常依赖于结构特征(如纹理、对比度和形状)或光谱特征。这些传统方法在某些特定场景下表现良好,但通常需要更多的先验知识和专家经验,难以泛化到更一般的情况。
- 深度学习方法的发展:深度神经网络(如SegNet、UNet及其变体)通过参数共享和强大的特征捕获能力,提高了道路分割的性能。
文章中提到,尽管深度学习方法在遥感图像分析上取得了显著成果,但在可靠的道路分割方面仍存在一些挑战,包括:
- 道路在大小、形状、纹理和周围环境上的差异使得固定卷积模式的分割变得具有挑战性。
- 道路常与周围特征(如建筑物、植被和阴影)混合,使得在空间域中难以区分。
- 遥感图像可能受到噪声、模糊或低对比度的影响,道路对象通常微弱且难以分割。
- 道路与河流和沟渠在几何上相似,容易导致误分类。
这些挑战促使研究者探索新的方法来提高道路分割的准确性和鲁棒性,这也是本文提出FDNet模型的背景和动机。
解决的问题:
文章针对的主要问题是如何在遥感图像中准确分割道路,这在城市规划、智能交通系统、自动驾驶、车辆导航、道路监控和紧急管理等多个领域都有重要应用。
贡献:
- 提出了一种新的网络架构,称为U形傅里叶可变形卷积网络(FDNet),它结合了可变形卷积(DCs)和傅里叶卷积的优势。
- 提出了一种新的基于迭代动态偏移学习机制的显著性感知可变形卷积(SD-Conv)层,用于追踪显著的道路特征。
- 引入了一种基于谱卷积的轻量级全局特征提取模块,称为自适应傅里叶卷积(AFConv)层,用于学习长距离依赖关系,提取长且连续的道路结构。
- 提出了一种基于Hausdorff距离(HD)在持久图(PD)上的拓扑导向损失函数,并结合softDice损失组件,以全监督的方式训练模型。
- 在两个基准数据集上进行了训练和评估,实验结果表明FDNet达到了最先进的性能。
具体的方法和网络结构:
FDNet遵循经典的U-Net架构,包括对称的编码器和解码器部分,以及阶段间跳跃连接,用于浅层到深层特征融合。网络的核心是FD-Conv块,它并行地结合了SD-Conv层和AF-Conv层。
图1为 FDNet的整体结构和FD-Conv模块的组成,
- 图1(a) 展示了FDNet的整体结构,它遵循经典的U-Net架构,包括对称的编码器和解码器部分,以及阶段间跳跃连接,用于从浅层到深层的特征融合。
- 图1(b) 展示了FD-Conv模块的组成,其中SD-Conv代表显著性感知的可变形卷积,AF-Conv代表自适应频率卷积。这个模块是FDNet的核心,设计为并行处理,用于精细和弱小道路对象提取以及长且连续道路结构的把握。
- 图1(c) 展示了ResBlock-D和ResBlock-U的组成,这些是在编码器和解码器中使用的残差块。
SD-Conv层:
SD-Conv(Saliency-Aware Deformable Convolution)是一种新型的可变形卷积层,它在文章中被提出用于道路分割任务,特别是在遥感图像中。SD-Conv的设计旨在捕捉细微、脆弱和多样化的道路结构。以下是SD-Conv的一些关键特点和工作原理:
关键特点:
-
动态偏移学习机制:SD-Conv层通过学习动态偏移量来调整卷积核的采样位置,这些偏移量可以根据输入特征图中的显著性进行调整。
-
显著性感知:SD-Conv能够识别并追踪显著的道路特征,如道路边缘和纹理,这使得它能够更准确地捕捉到道路的细微结构。
-
迭代策略:SD-Conv使用迭代策略来更新偏移量,这允许卷积核在多个方向(上、下、左、右)上顺序追踪显著特征。
-
多方向采样:SD-Conv不仅在水平和垂直方向上调整偏移,还能够在对角线方向上进行调整,以捕获更多方向上的道路特征。
工作原理:
-
卷积核偏移:在标准的卷积操作中,卷积核的采样位置是固定的。而在SD-Conv中,卷积核的采样位置可以根据学习到的偏移量进行调整,以适应输入特征图中的道路特征。
-
特征追踪:SD-Conv通过迭代地更新偏移量,使得卷积核能够沿着显著性特征从中心向外围追踪采样坐标,从而捕获长且连续的道路特征。
-
坐标计算:SD-Conv计算每个卷积核切片在不同方向上的采样坐标,这些坐标是基于学习到的偏移量和卷积核的中心坐标计算得出的。
-
双线性插值:由于学习到的偏移量可能是非整数,SD-Conv使用双线性插值来计算实际的采样点值,这有助于保持特征图的空间分辨率。
-
特征融合:SD-Conv将空间域和频率域的特征并行获取,并将这些特征在通道维度上进行拼接,然后通过1×1卷积层进行融合,以输出最终的特征图。
AFConv层(自适应傅里叶卷积):
AFConv层的灵感来自于自适应频率滤波神经网络(AFFNet),使用快速傅里叶变换(FFT)和逆快速傅里叶变换(IFFT)来实现全局特征提取。具体步骤如下:
- 使用FFT将输入特征图X转换到频域。
- 学习一个自适应的频谱掩码M,该掩码与输入特征图在频域中具有相同的维度。
- 在频域中,通过Hadamard积(即逐元素乘积)将掩码和特征图相乘,以提取显著的频谱分量。
- 使用IFFT将频域特征转换回空间域。
AFConv层通过这种自适应频率滤波操作,结合频域中的轻量级操作(如软掩码和轻量级卷积),旨在捕获精细的全局特征以检测长且连续的道路对象。
图3 展示了自适应频率滤波器(AF-Conv)的架构。这个架构使用了两个连续的1×1深度卷积层和一个ReLU激活函数来生成动态的频谱掩码,用于提取显著的频谱分量。图中的⊙代表Hadamard积操作。
损失函数:
文章中提出的损失函数是一种拓扑导向的损失函数,它基于持久同调(Persistent Homology,PH)理论,结合了Hausdorff距离(HD)和softDice损失。这个损失函数旨在训练过程中保持道路特征的连续性,特别是在复杂的道路条件下。以下是损失函数的详细描述:
拓扑导向损失函数(LSH)
组成部分:
-
SoftDice损失(softDice):
- SoftDice损失是一种用于不平衡分割任务的统计学损失函数,它衡量预测分割区域和真实标注区域之间的重叠程度。
- SoftDice的计算公式为:
- 其中,MPMP 是预测掩码,MGMG 是真实标注掩码。
-
Hausdorff距离(HD):
- Hausdorff距离是一种衡量两个点集之间距离的度量,用于比较持久图(PD)之间的相似性。
- 在持久同调的上下文中,HD用于衡量预测结果和真实标注之间的拓扑差异。
-
结合HD和softDice的加权损失(LSH):
- 最终的损失函数是一个加权损失函数,结合了softDice损失和基于PH理论的拓扑损失。
- 加权损失函数的计算公式为: LSH=(1−softDice)+λ×disHD∗其中,λλ 是一个用于平衡两个损失项的权重参数,disHD∗ 是基于HD的拓扑损失。
拓扑损失(基于PH理论):
- 持久同调(PH)是一种拓扑数据分析工具,用于计算空间中不同尺度下的拓扑特征。
- 在道路分割任务中,PH可以用来捕捉道路的连通性特征,如0-D特征(连通分量)和1-D特征(环状结构)。
- 基于PH生成的持久图(PD)包含了这些拓扑特征的“出生”和“死亡”时间,形成了一个点集,用于描述道路结构的演变。
- Hausdorff距离(HD)用于衡量预测结果和真实标注之间的PD的相似性,从而提供了一种拓扑约束,帮助模型在训练过程中保持道路特征的连续性。