摘要
为了解决小对象检测问题,提出了一个叫做 Focus-and Detect 的检测框架,它是一个两阶段的框架。 第 一阶段包括由高斯混合模型监督的对象检测器网络,生成构成聚焦区域的对象簇 。 第二阶段 也是一个物体探测器网络,预测聚焦区域内的物体 。 为了克服区域搜索方法的截断效应,还提出了不完全盒抑制 ( IBS )方法。
1、介绍
一般来说,检测网络由主干网、颈部和头部组成。在这种情况下,主干网模型是为检测任务提取特征的网络,头部是预测边界框和类的实际检测模型,颈部位于主干网和头部网络之间,并融合来自主干网模型不同阶段的特征图。
航空目标检测是一个新兴领域,近年来取得了很大的进展。早些时候,几项研究提出了将为自然图像建立的方法适应航空图像[8 , 9] 。然而,由于这种方法,出现了各种困难 [10] 。首先, 在航空图像中,方位 和纵横比可能与自然图像显著不同 。其次, 类内和类间样本的航空图像中的尺度变化非常严重 [11] 。例如,[12] 报告了 MS COCO 和 VisDrone[13] 数据集中 “ 汽车 ” 类的统计数据。结果表明,在 VisDrone 数据集中,“ 汽车 ” 对象大小的方差几乎是 MS COCO 数据集的五倍。 第三, 航空图像中的物体小而密集 。例如,VisDrone检测数据集中的单个图像中可能存在多达 902 个对象 [14] 。此外,航空图像中存在类不平衡问题[14] ,这使得样本数量较少的类的小目标检测问题更加困难。因此,小物体检测任务需要解决上述问题的专用方法。
为此,我们提出了一个由两个阶段组成的框架,即聚焦阶段和检测阶段。 在第 一 阶段中,通过 由高斯混 合模型监督的检测器来确定要聚焦的区域 。第 二 阶段由这些 主要是物体集群的区域提供,预测这些区域 内的物体 。在 合并这些区域的预测时,利用 NMS 和所提出的 IBS 方法来消除重叠和截断的边界框。
贡献
提出了一个基于区域搜索的航空图像小目标检测框架,即 “ 聚焦与检测 ” 。我们提出了一个使用高斯模型生成目标聚类的方法,其中生成的聚类是尺度归一化的。我们还提出了“ 不完全盒抑制 ” ( IBS )方法来抑制由重叠焦区引起的不完全盒。
总结
针对航空图像中存在的问题,提出了一个两阶段的检测框架,即聚焦阶段和检测阶段。
第一阶段:由高斯混合模型监督的检测器来确定要聚焦的区域。
第二阶段:主要由物体集群的区域提供,预测这些区域内的物体。在合并区域的预测时,利用 NMA 和所提出的IBS 方法来消除重叠和截断的边界框。
2、相关工作
由于图像上小物体覆盖区域的信息不足、小对象定位的可能性高以及适用于中大型物体等问题,大多数物体检测方法都难以处理小物体。
航空图像检测困难是因为, 它们大多包括小物体、不同类别的样本数量之间的大差异以及类别间和类别 内的高尺度方差。 为了缓解这些困难,以前提出了许多方法。例如, [45] 中针对类不平衡问题提出了一种自适应增强方法,称为AdaResampling 。在 [46] 中,提出了一种硬芯片挖掘方法作为航空图像的数据增强。此外,[11] 提出了对获得多尺度特征的改进,以减少尺度方差对目标检测的影响。由于航空图像大多由小而密集的物体组成,一些方法侧重于改进区域搜索[46 , 47 , 48 , 49 , 16 , 50 ,15, 51] 。例如, [48] 提出了基于 平铺的方法来实时检测航空图像中的行人和车辆 。在 [16] 中, 使用均值 偏移算法来确定困难的聚类区域 ,以提供对象检测器。 [50] 为基于裁剪的方法提出了三种增强方法,即 镶嵌增强、自适应裁剪和掩模重采样 。在 [12] 中,提出了一种 基于 FPN[20] 的自适应图像裁剪方法 来解决航空图像中的尺度挑战。[47] 构造密度图以确定要裁剪的区域 。然后由这些作物以及整个图像提供对象检测器。[15] 利用聚类获得图像裁剪。
我们的方法仅使用预测区域,而不使用对整个图像的检测 。另一方面, 高斯混合模型提供了跨预测区域 的尺度归一化 ,而无需额外计算,因为 将预测区域调整为固定大小,产生了每个混合分量的平均值的偏 移,并产生了边界框的归一化。
与以往的研究不同,我们 提出使用高斯混合模型( GMM )进行区域搜索 。此外,我们 提出了不完全盒抑 制( IBS ),以抑制由 GMM 监督下的第一检测器生成的重叠区域内的不完全盒 。图 2 展示了所提出的 IBS方法的贡献。
总结
航空图像检测困难是因为,它们大多包括小物体、不同类别的样本数量之间的大差异以及类别间和类别内的高尺度方差。
本文仅使用预测区域,而不使用对整个图像的检测 。另一方面, 高斯混合模型提供了跨预测区域的尺度归一化,而无需额外计算,因为 将预测区域调整为固定大小,产生了每个混合分量的平均值的偏移,并产生了边界框的归一化。提出了不完全盒抑制( IBS ),以抑制由 GMM 监督下的第一检测器生成的重叠 区域内的不完全盒 。
3、 Focus-and-Detect
3.1 Overview
如图 1 所示,对航空图像的检测由两个阶段组成: 检测由物体簇组成的焦点区域的焦点网络 , 检测焦点区 域中物体的检测网络 。在 合并预测之后应用后处理方法 。具体而言,我们提出了 不完全盒抑制( IBS )机 制来抑制重叠焦区的不完全盒 。我们还 使用标准的非最大值抑制( NMS )来抑制合并预测后的重叠框。
3.2 Focus satge
Focus stage 阶段 由一个物体检测网络组成,经过训练可以检测焦点区域 。 焦点区域是通过 GT 边界框使 用高斯模糊模型生成的。选择广义聚焦损失( GFL )作为基本检测方法 。该模型的 backbone 是具有可 变形卷积层的 ResNet-50 网络 [52] 。
模型的 第二部分,是 FPN ,旨在开发和细化从 ResNet-50 的不同阶段获得的特征图, 最后一部分是预测 焦点区域边界框的模型的检测头。可变形卷积用于主干的最后三个阶段 。
传统的网络架构不能很好地转移焦点区域检测任务。焦点特征的可迁移性不如传统物体特征的可转移性。
为了提高学习特征的可转移性,可变形卷积层 [52] 已在 ResNet-50 中使用,因为可变形卷积可以动态地改变接收场。拟议的改变有助于更好地代表重点区域。
整体框架的性能主要取决于聚焦阶段 。理想情况下,预测的焦点区域必须包括所有对象边界框,而不进行任何截断。但是,这些区域中可能存在重叠的区域和截断的对象。这些问题通过采用 IBS 方法作为后处 理阶段 来解决。
总结
Focus stage 有一个物体检测网络组成。 焦点区域是通过 GT 边界框使用高斯模糊模型生成 。
在 backbone 部分由可变形卷积层的 Resnet-50 网络构成,第二部分是 FPN ;最后一部分是 预测聚焦区域 边界框的模型的检测头 。可变形卷积用于主干的最后三个阶段。
3.2.1用高斯混合模型生成聚焦区域的GT盒
在物体定位问题中,同一类物体的区域可以用高斯分布建模,因为物体的大小变化不大。高斯混合模型不是单个高斯模型,而是更好的选择,而与单个高斯模型相反,当对象位置被用作混合模型的输入时, 混合模型由具有较小偏差的高斯组成 。
在这种情况下, 焦点区域可以被定义为使用高斯混合模型获得的物体簇 , 该高斯混合模型将 GT 框的位置 信息作为输入。位置信息由边界框到图像中均匀采样点网络的距离矢量组成 ,如图 3 所示, 与直接使用方 框坐标相比,这种方法产生了更好的结果 。
物体簇
根据相应图像的 GT 框的数量来选择聚焦区域的数量。聚焦区域的数量( Nf) 可以写成 :
其中是 是GT框的数量,设 是图像中第i个GT框的1xM大小的距离向量,X是特征向量 的大小矩阵。 高斯混合模型可以定义为:
其中 是 第 j 个聚类的均值和方差。
使用期望最大化算法对模型进行拟合。一旦 EM 算法运行完成,拟合的模型就可以用于对 GT 边界框进行聚类。给定模型的参数,GT 边界框属于集群的概率计算为:
在计算聚类之后,焦点区域被选择为最小尺寸的框,该模型包括各个聚类中每侧具有 20 像素间隙的所有边界框。由于间隙的原因,焦点区域可能存在被截断的物体。生成的焦点区域被用作焦点阶段的 ground truth 的 GT 边界框 ,如图 4 所示。
3.3 Detection stage
在获得焦点区域之后,使用专用检测器对这些区域进行物体检测。所获得的区域被调整大小以获得更高的分辨率。这种方法提高了小物体检测的性能。
在这一阶段,采用广义聚焦损耗( GFL )作为基本探测器。模型的主干被选择为具有可变形卷积层的ResNeXt-101网络。在 neck 中,使用 FPN ,最后是预测对象边界框的模型的检测头。可变形卷积层用于最后三个阶段。
在 检测阶段,用 GMM 获得的焦点区域被裁剪并调整大小,作为一个新的数据集 。获得 GT 边界框,并将其细化为焦点区域作物。如果至少30% 的 GT 框位于裁剪区域内,则包括裁剪后的 GT 框。
3.4 后处理
为了获得物体边界框的最终预测,必须将检测阶段的预测合并为焦点区域的模型输出预测。用于提高性能的后处理步骤包括不完全盒抑制(IBS )和非最大值抑制( NMS )。
不完全盒抑制( IBS ) 利用区域搜索的模型存在某些问题 。例如,合并目标区域的检测可能很困难,因为可能存在重叠的区域和截断的对象。这个问题在同一个对象上产生多个边界框预测。由于截断、预测的边界框没有完全重叠。因此,非极大值抑制不能抑制这些类型的错误预测。但是 ,这些预测会降低AP 得分。通常,非极大值抑制用于消除高度重叠的方框。但是,在大多数区域搜索方法中,最后一步是合并目标区域的预测。这就产生了一个新的问题,这些区域中的重叠区域和阻断对象降低了整体性能,因为检测器可能会预测完整版本的边界框,以及相同对象的截断版本的边界盒,如图5 所示。通常,这些边界框并集上的交集很小。因此,他们能够逃离NMS 。截断的对象本身也是一个问题。错误的类预测对于截断的对象很常见。结果,假阳性增加,AP 得分降低。不完全盒抑制( IBS )是为了减少这类问题而提出的。从本质上说,IBS 与 NMS 算法具有相同的原理:找到重叠的边界框,选择具有最高置信度值的框,并抑制其他框。虽然NMS 使用简单的并集交集( IoU) 阈值来寻找重叠,但 在 IBS 中,重叠的焦点区域和对象
边界框都被用来决定要抑制哪个框 。
设 是该区域 中的第 i 个焦点区域坐标和第 j 个框坐标 。
第一步:计算聚焦区域 Ci 和其他聚焦区域之间的 IoU ,以找到 Ci 的重叠。再将阈值应用于所计算的 IoU之后,获得重叠的聚焦区域。
第二步是 将重叠焦点区域中的对象框坐标裁剪到第 i 个焦点区域的坐标,并收集面积大于零的框 。
最后一步是计算裁剪框和 之间的 IoU 。如果任何 IoU分数大于所选阈值,则抑制 焦点区域 的 IoU 阈值被实验性地选择为 0.05 ,边界框的 IoU 门限再次被实验性的选择为 0.5。