【CVPR 2024】【遥感目标检测】Poly Kernel Inception Network for Remote Sensing Detection

在这里插入图片描述

0.论文摘要

摘要

遥感图像（RSIs）中的目标检测经常面临几个日益增加的挑战，包括目标尺度的巨大变化和不同范围的背景。现有方法试图通过大核卷积或扩张卷积来扩展主干的空间感受野来解决这些挑战。然而，前者通常会引入相当大的背景噪声，而后者会产生过于稀疏的特征表示。在本文中，我们引入了多核inception网络（PKINet）来应对上述挑战。PKINet采用无膨胀的多尺度卷积核来提取不同尺度的特征并捕获局部上下文。此外，还并行引入了上下文锚注意力（CAA）模块来捕获远程上下文信息。这两个组件协同工作，以提高PKINet在四个具有挑战性的遥感检测基准（即DOTA-v1.0、DOTA-v1.5、HRSC2016和DIOR-R）上的性能。

论文代码地址

论文地址
代码地址

1.研究背景

近年来，遥感图像（RSIs）中的目标检测受到了广泛关注[11, 56, 64]。这项任务致力于辨别RSI中特定目标的存在，并随后确定它们的类别和精确位置。与通常产生水平边界框的一般目标检测相反，遥感目标检测旨在产生与目标的取向精确对准的边界框。因此，许多先前的努力致力于开发各种定向边界框（OBB）检测器[10, 20, 31, 65, 67, 71]和提高OBB的角度预测精度[68, 70, 72–74]。然而，当涉及到改进用于目标检测的特征提取时，RSI的独特特性仍然相对未被充分探索。

RSI，包括航空和卫星图像，是典型的从鸟瞰的角度获得，提供了地球表面的高分辨率视图。因此，RSI中描绘的目标表现出广泛的尺度，从像足球场这样的广阔目标到像车辆这样相对较小的实体。此外，这些目标的准确识别不仅依赖于它们的外观，还依赖于它们的上下文信息，即它们所处的周围环境。为了解决目标尺度的大变化，一些方法采用显式数据增强技术[2, 54, 82]来提高特征对尺度变化的鲁棒性。有些求助于多尺度特征集成[37, 81]或金字塔特征层次[33, 61]来提取富含尺度信息的特征。然而，这些方法的局限性在于不同尺度的目标的感受野保持相同，从而不能为较大的目标提供足够的上下文信息。

最近，LSKNet[32]提出选择性地扩大较大目标的空间感受野，以捕捉更多的场景上下文信息。这是通过将大核卷积[12, 18, 38, 43]和扩张卷积合并到主干网络中来实现的。然而，值得注意的是，使用大核卷积可能会引入大量的背景噪声，这可能不利于小目标的准确检测。另一方面，扩张卷积虽然在扩大感受野方面有效，但可能会无意中忽略该野内的细粒度细节，潜在地导致过度稀疏的特征表示。

为了解决RSI中目标尺度的巨大变化和不同范围的环境所带来的挑战，在本文中，我们提出了一种强大的轻量级特征提取主干网络，称为多核inception网络（PKINet），用于遥感目标检测。与以往依靠大核或扩张卷积来扩展感受野的方法不同，PKINet并行排列多个不同大小的深度方向卷积核而不进行扩张，并提取跨越不同感受野的密集纹理特征。这些纹理特征沿着通道维度自适应地融合，使得能够收集局部上下文信息。为了进一步包含远程上下文信息，我们引入了上下文锚注意力（CAA）机制，该机制利用全局平均池化和1D条带卷积来捕获远处像素之间的关系，并增强中心区域内的特征。这两个组件协同工作，有助于提取具有局部和全局上下文信息的自适应特征，从而提高遥感目标检测的性能。

据我们所知，PKINet代表了探索inception式卷积和全局上下文注意在遥感目标检测中的应用的开创性努力，旨在有效应对目标规模和上下文多样性的巨大变化所带来的挑战。在广泛使用的遥感基准DOTA-v1.0[64]、DOTA-v1.5[64]、HRSC2016[41]和DIOR-R[3]上进行的广泛实验证明了我们方法的有效性。除了其出色的特征提取能力之外，由于战略性地使用了深度和1D卷积，与以前的方法相比，我们的模型是轻量级的。

2.相关工作

遥感目标检测面临的挑战主要源于具有任意方向和巨大尺度变化的目标[3, 11, 40, 56, 64, 75]。大多数先前的方法都集中在定向边界框（OBB）检测上。尽管如此，一个新兴的趋势是设计适合遥感图像（RSIs）特征的有效特征提取主干。

用于遥感目标检测的OBB

为了解决RSI中目标任意方向的挑战，一个研究方向集中于开发专门的OBB探测器。这包括将特征细化技术引入检测器颈部[69, 71]，提取旋转的感兴趣区域（RoI）[10, 65],，为OBB设计特定的检测头[21, 26, 48]，等等。尽管这些方法比一般水平边界框(HBB)检测器有所改进，但由于它们通过用附加角度参数增强水平目标表示而获得的相对不灵活的目标表示，这些方法通常遭受诸如边界不连续性的问题。为了缓解上述问题，另一条研究线致力于开发用于检测OBB的新目标表示[15, 31, 62, 67, 70, 76]。例如，Xu等人[67]提出通过在经典HBB表示中添加四个滑动偏移变量来描述多方向目标。Li等[31]使用一组点来表征定向目标，以实现更准确的定向估计。其他一些[4, 27, 72, 73]利用高斯分布来模拟目标检测的OBB，并设计新的损失函数 [51] 来指导学习过程。

尽管这些方法在解决与任意取向相关的挑战方面是有希望的，但是它们通常依赖于用于特征提取的标准主干，这通常忽略了对于目标检测至关重要的RSI的独特特征，例如，大的目标比例变化和不同的上下文信息。相比之下，我们提出了一个特征提取主干来应对大目标尺度变化带来的挑战。

遥感目标检测中的特征提取

为了更好地处理独特的挑战，如RSI中的大目标尺度变化，某些方法强调通过数据增强[2, 54, 82]、多尺度特征集成[39, 61, 81, 83]、特征金字塔网络（FPN）增强[16, 25, 35, 80]或多尺度锚生成[19, 24, 52]等方法提取多尺度特征。最近，在专门用于遥感目标检测的特征提取主干的设计方面有了值得注意的发展。一些[21, 50]专注于提取适用于具有等效感受野的不同方向的目标的特征。一些[32]使用大核[12,38,43]扩大了较大目标的空间感受野，这不可避免地会为较小目标引入背景噪声。一些[8, 17, 79]采用多尺度卷积核来应对各个领域的挑战，但遥感检测方面的研究仍然很少。

与[32]类似，我们提出了一种新的特征提取主干PKINet，以解决RSI中目标规模的巨大变化和不同上下文所带来的挑战。这两种方法有两个关键区别。

首先，PKINet不是依靠大核或扩张卷积来扩展感受野，而是利用没有扩张的inception式深度卷积来提取不同感受野的多尺度纹理特征。其次，我们的方法结合了上下文锚注意力（CAA）机制来捕捉远程上下文信息。这两个组件协同工作，有助于提取具有局部和全局上下文信息的自适应特征，从而提高遥感目标检测的性能。

3.主要工作&核心思想

如图2（a）所示，我们的PKINet是一个类似于VGG[55]和ResNet[22]的特征提取主干，由四个阶段组成。每个级（3.1）意味着一个跨级部分（CSP）结构[60]，其中级输入被分割并馈送到两个路径中。一种路径是简单的前馈网络（FFN）。另一条路径由PKI块序列组成，每个PKI块包含一个PKI模块（§3.2）和一个CAA模块（§3.3）。两个路径的输出被级联以产生级的输出。PKINet可以与各种定向目标检测器（如定向RCNN[65]）结合，以产生RSI的最终目标检测结果。

3.1 PKI阶段

PKINet中有四个顺序排列的阶段。阶段 $l$ 的输入和输出分别为 $\mathbf{F}_{l−1} ∈ \mathbb{R}^{C_{l−1}×H_{l−1}×W_{l−1}}$ 和 $\mathbf{F}_{l} ∈ \mathbb{R}^{C_{l}×H_{l}×W_{l}}$ 。 $l$ 级的结构如图2（b）所示，这意味着跨级部分（CSP）结构[60]。具体地，inception处理后的级输入 $\mathbf{F}_{l−1}$ 沿着通道尺寸被分成两半，并被馈送到两个路径中：

在这里插入图片描述

其中DS表示下采样操作。一条路径是简单前馈网络（FFN），它接收 $\mathbf{X}^{(1)}_{l−1}∈ \mathbb{R}^{ \frac{1}{2}C_l×H_l×W_l}$ ，然后输出 $\mathbf{X}^{(1)}_{l}∈ \mathbb{R}^{ \frac{1}{2}C_l×H_l×W_l}$ 。另一条路径由 $N_l$ PKI块序列组成，其处理 $\mathbf{X}^{(2)}_{l-1}∈ \mathbb{R}^{ \frac{1}{2}C_l×H_l×W_l}$ 并产生 $\mathbf{X}^{(2)}_{l}∈ \mathbb{R}^{ \frac{1}{2}C_l×H_l×W_l}$ 。如图2©所示，PKI块包含PKI模块和CAA模块，这将分别在§3.2和§3.3中详细描述。阶段l的最终输出为：

在这里插入图片描述

其中Concat指的是连接操作。

3.2 PKI模块

PKINet块由PKI模块和CAA模块组成。在本节中，我们将深入了解PKI模块的细节。我们将在3.3中介绍CAA模块。

如§1所述，与一般目标检测不同，遥感目标检测旨在定位和识别单个图像内不同大小的目标。为了解决与目标尺度大变化相关的挑战，我们引入了PKI模块来捕获多尺度纹理特征。如图2（d）所示，PKI模块是一个inception风格的模块[57, 77]，其包括一个小核卷积来抓取局部信息，随后是一组并行的深度卷积来抓取多个尺度的上下文信息。形式上，第 $l$ 级的第 $n$ 个PKI块内的PKI模块可以数学地表示如下：

在这里插入图片描述
这里， $\mathbf{L}_{l−1, n}∈ \mathbb{R}^{ \frac{1}{2}C_l×H_l×W_l}$ 是由 $k_s × k_s$ 卷积提取的局部特征，并且 $\mathbf{Z}^{(m)}_{l−1, n}∈ \mathbb{R}^{ \frac{1}{2}C_l×H_l×W_l}$ 是由第 $m$ 个 $k^{(m)} × k^{(m)}$ 深度卷积（DWConv）提取的上下文特征。在我们的实验中，我们设置 $k_s = 3$ 且 $k^{(m)} = (m + 1) × 2 + 1$ 。对于 $n = 0$ ，我们有 $\mathbf{X}^{(2)}_{l-1, n} = \mathbf{X}^{(2)}_{l-1}$ 。请注意，我们的PKI模块不使用扩张卷积，从而防止提取过于稀疏的特征表示。

然后，通过大小为1 × 1的卷积融合局部和上下文特征，表征各种通道之间的相互关系：

在这里插入图片描述

其中 $\mathbf{P}_{l−1, n}∈ \mathbb{R}^{ \frac{1}{2}C_l×H_l×W_l}$ 表示输出特征。1 × 1卷积用作通道融合机制，以整合具有不同感受野大小的特征。通过这种方式，我们的PKI模块可以捕获广泛的上下文信息，而不会损害局部纹理特征的完整性。

3.3 上下文锚注意力CAA

如上所述，PKI块中的inception式PKI模块集中于提取多尺度本地上下文信息。为了捕获远程上下文信息，受[32, 58]的启发，我们进一步将上下文锚注意力（CAA）模块集成到PKI块中。CAA旨在掌握远处像素之间的上下文相互依赖性，同时增强中心特征。CAA的图示如图2(e)所示。以第 $l$ 阶段第 $n$ 个PKI块中的CAA模块为例，我们采用平均池化后1 × 1卷积来获得局部区域特征：

在这里插入图片描述
其中 $\mathcal{P}_{avg}$ 表示平均池化操作。对于 $n = 0$ ，我们有 $\mathbf{X}^{(2)}_{l-1, n} = \mathbf{X}^{(2)}_{l-1}$ 。然后，我们应用两个深度条带卷积作为标准大核深度卷积的近似：

在这里插入图片描述
我们基于两个主要考虑选择深度条带卷积。首先，条带卷积是轻量级的。与传统的 $k_b ×k_b$ 2D深度卷积相比，我们可以用一对1D深度核实现类似的效果，参数减少为 $k_b/2$ 。其次，条带卷积可以方便地识别和提取具有细长形状的目标，如桥梁。为了随着CAA模块所属的PKI块的深入而增加CAA模块的感受野，我们设置 $k_b = 11 + 2 × l$ ，即，我们计算内核大小 $k_b$ 作为PKI块深度 $n$ 的函数。这种设计增强了PKINet建立远程像素之间的关系的能力，并且由于带深度设计而不会显著增加计算成本。

最后，我们的CAA模块产生注意力权重 $\mathbf{A}_{l−1, n}∈ \mathbb{R}^{ \frac{1}{2}C_l×H_l×W_l}$ ，其进一步用于增强PKI模块的输出（参见等式（4））：

在这里插入图片描述
这里，Sigmoid函数确保注意力图 $\mathbf{A}_{l−1, n}$ 在范围 $(0, 1)$ 内， $⊙$ 表示逐元素乘法， $\oplus$ 表示逐元素求和，并且 $\mathbf{F}^{attn}_{l−1, n}∈ \mathbb{R}^{ \frac{1}{2}C_l×H_l×W_l}$ 是增强特征。第 $l$ 级中的第 $n$ 个PKI块的输出通过以下方式获得：

在这里插入图片描述

对于 $n = N_l −1$ ，我们有 $\mathbf{X}^{(2)}_{l, n} = \mathbf{X}^{(2)}_{l}$ ，即，我们将最后一个PKI块的输出表示为 $\mathbf{X}^{(2)}_{l}$ 。

3.4 实现细节

在本文中，我们提出了所提出的主干的两个变体，即PKINet-T和PKINet-S，其中“T”代表“微小”，“S”代表“小”。Stem结构由三个 $3 \times 3$ 卷积层组成，步长分别为 $(2, 1, 1)$ 。对于PKINet-T和PKINet-S，对于 $l = 0, ..., 4$ 和 $H_l = H/2^{(l+1)}, W_l = W/2^{(l+1)}$ $H 、 W$ 分别是输入的高度和宽度。对于PKINet-T， $C_0 = 32$ , $C_l = 2^{l−1} × C_0$ 对于 $l = 1, ..., 4$ ，四个阶段的PKI块的数量分别为 $(4, 14, 22, 4)$ 。对于PKINet-S， $C_0 = 64$ ， $C_l = 2^{l−1} × C_0$ 对于 $l = 1, ..., 4$ ，四个阶段的PKI块的数量分别为 $(4, 12, 20, 4)$ 。请注意，尽管与PKINet-S相比，PKINet-T包含更多的PKI块，但由于中间特征中的通道数减半，它包含的参数明显更少。PKINet的两个变体的详细配置列于表1中。

在这里插入图片描述
表1。PKINet两种变体的配置。这里，“T”表示“微小”，“S”表示“小”。详见§3.4。

4.实验

4.1 实验设置

数据集。我们对四个流行的遥感目标检测数据集进行了广泛的实验：

•DOTA-v1.0[64]是一个用于遥感检测的大规模数据集，包含2806幅图像、188,282个实例和15个具有各种方向和比例的类别。该数据集分别由用于训练、val和测试的1,411、458和937幅图像组成。
•DOTA-v1.5[64]是基于DOTA-v1.0的更具挑战性的数据集，该数据集是为2019年DOAI挑战赛发布的。此迭代包括添加一个名为Container Crane(CC)的新类别，并大幅增加小于10个像素的微小实例的数量，总共包含403,318个实例。
•HRSC2016[41]是一个用于船舶探测的遥感数据集，包含1061幅航空图像，其大小范围为300 × 300和1500 × 900。图像分为436/181/444用于训练/验证/测试。
•DIOR-R[3]基于遥感数据集DIOR[30]数据集提供OBB注释。它包含23,463尺寸为800 × 800的图像和192,518个注释。

训练。我们的训练过程包含ImageNet[9]预训练和遥感目标检测器训练。对于ImageNet预训练，我们的PKINet是在MMPretrain[6]工具箱下的ImageNet-1K上训练的。在主要实验中，我们训练它300个epochs，以获得更高的性能，就像以前的工作一样[32, 50, 65, 71]。在预训练过程中，我们采用动量为0.9、权重衰减为0.05的AdamW[29]优化器。采用余弦调度[45]和预热策略来调整学习速率。我们使用8个GPU，批量大小为1024。对于遥感目标探测器训练，实验在MMRotate[84]框架上进行。与其他方比较，我们使用这些基准的trainval集及其测试集进行测试。按照之前方法[21, 65, 71, 78]的设置，对于DOTA-v1.0和DOTA-v1.5数据集，我们将原始图像裁剪成1024 × 1024重叠为200的patch。对于HRSC2016和DIOR-R数据集，输入大小设置为800 × 800。对于DOTA-v1.0、DOTA-v1.5、HRSC2016和DIOR-R，用30个epochs、30个epochs、60个epochs和36个epochs训练模型。我们采用权重衰减为0.05的AdamW[29]优化器。inception学习率设置为0.0002。当输入图像大小为1024 × 1024时，计算报告的所有flops。为了防止过度拟合，图像在训练过程中按照以前的方法进行随机调整大小和翻转[21, 65, 71, 78]。报告了HRSC2016和DIOR-R的我们方法的五次运行平均mAP。

检测。测试阶段的图像分辨率与训练阶段保持一致。为了公平起见，我们不应用任何测试时数据扩充。

评估指标。报告了平均精密度（mAP）和0.5阈值下的平均精密度（AP50）。

重现性。我们的算法是在PyTorch中实现的。我们使用八个NVIDIA RTX 4090 GPU进行ImageNet预训练，四个NVIDIA Tesla V100 GPU进行下游训练和测试。

4.2 定量结果

DOTA-v1.0上的性能[64]。首先，我们与表3中DOTA-v1.0上的Oriented RCNN[65]框架内构建的ResNet[22]进行了比较。PKINetT仅使用ResNet-18所需的36.7%的参数和59.6%的计算，性能高出3.67%。PKINet-S也表现出色，仅使用ResNet-50的58.8%的参数和81.53%的计算，提高了2.52%。

在这里插入图片描述

当与表2所示的多种检测架构配对时，我们的PKINet主干网始终优于ResNet-50和更多为遥感检测任务设计的网络（即ARC[50]和LSKNet[32]）。对于单级架构，与ResNet-50相比，我们的主干网络能够分别为Rotated FCOS[59]、R3Det[71]和S2ANet[20]带来2.41%/6.19%/3.71%的mAP改进。即使与经典的S2ANet[20]集成，我们的方法也超过了以前的方法，实现了77.83%的性能。对于两级架构，PKINet也实现了显著的增益（3.12%/3.28%/2.23%）。当配备先进的检测器的 Oriented RCNN[65]时，与之前的最佳方法LSKNet[32]相比，性能达到了78.39%，小类别的性能显著提高（SV/LV为5.3%/5.76%）。对于需要更多上下文信息的RA类别，PKINet相比LSKNet也实现了6.46%的增强。

在这里插入图片描述
表2.DOTA-v1.0数据集[64]在单尺度训练和测试设置下的实验结果。PKINet-S在ImageNet-1K[9]上预训练300个时期，类似于比较的方法[10, 65, 71]。详见§4.2。

HRSC2016上的表现[41]。我们的PKINet-S在HRSC2016数据集上以更少的参数超过了12种领先的方法，如表5所示。相对于LSKNet[32]的轻微优势主要源于HRSC2016将31个子类合并为一个单一的“ship”类别进行训练和测试。这个协议没有完全展示我们的方法在管理类间目标大小变化方面的优势。

在这里插入图片描述
表5.HRSC2016数据集上的实验结果[41]。PKINet-S在ImageNet-1K[9]上预训练了300个时期，这与以前的方法[21, 32, 46]一致，并建立在Oriented RCNN [65]的框架内。mAP (07/12)：VOC 2007[13]/2012[14]指标。详见§4.2。

DIOR-R 上的表现[3]。我们给出了DIOR-R的比较结果，如表6所示。我们以67.03%实现了最佳性能。

在这里插入图片描述
表6.DIOR-R数据集上的实验结果[30]。遵循以前的方法[28, 65, 66]，PKINet-S在ImageNet-1K[9]上预训练300个时期，并在Oriented RCNN [65]的框架内构建。详见§4.2。

COCO 2017上的表现[34]。为了评估PKINet作为一个适用于各种形式的边界框的通用框架的多功能性，我们在广泛使用的通用检测基准COCO上评估了我们的方法。从表7中可以看出，PKINet优于几个具有相似参数的著名主干网络，从而进一步肯定了我们的方法作为不限于RSI的通用主干的功效。

在这里插入图片描述

表7.COCO 2017数据集上的实验结果[34]。所有模型都在ImageNet-1K[9]上预训练了300个时期，并基于Mask R-CNN[23]。详见§4.2。

4.3 定性结果

图3描绘了DOTA[64]上的代表性视觉结果。如图所示，与之前仅依赖于大核的最佳性能方法LSKNet[32]相比，我们的PKINet展示了适应场景中目标目标的显著大小变化的强大能力，确保检测较大的项目（例如，PL、TC、ST和BD），同时保持对较小项目（例如，SV和LV）的关注。

在这里插入图片描述
图3.DOTA-v1.0数据集的可视化结果[64]。上图：LSKNet[32]；下图：我们的PKINet。详见§4.3。

4.4 诊断实验

为了更深入地了解PKINet，使用Oriented RCNN [65]作为检测器对DOTA-v1.0进行了一组消融研究。为了提高效率，本节中提到的所有主干都在ImageNet-1K[9]上训练了100个时期。

多尺度卷积核设计。首先，在表8a中研究了PKINet中的关键多尺度卷积核设计（参见3.2）。它表明，由于有限的纹理信息提取，仅使用小的3 × 3内核会产生较差的性能。然后采用多尺度核结构，其核大小范围为3 × 3~11 × 11，步长为2。在此设置下，模型显示出最佳性能。接下来，当内核大小增加时，测试步长为4，其性能是次优的。仅使用大型内核的进一步试验导致计算增加但性能下降，下降了0.49%和0.84%，表明大型内核可能会引入背景噪声并带来性能下降（参见1）。

在这里插入图片描述
表8.一组关于DOTA-v1.0的消融研究[64]。采用的网络设计用红色标出。所有网络都在ImageNet-1K[9]上预训练了100个时期，并用Oriented RCNN [65]的框架构建。详见§4.4。

然后，我们研究了多尺度内核设计中的内核数，详见3.2。如表8b所示，在只有两个核（仅保留3 × 3和5 × 5内核）的情况下，网络无法捕获远距离像素关系。随着核数量的增加，网络性能会提高，在五个核的情况下实现最佳结果。

膨胀卷积核。然后，我们在PKI模块中检查膨胀的影响（参见3.2）。如表8d所示，尽管与没有膨胀卷积核相比感受野增加，但性能下降（-1.09%）。当我们进一步增加膨胀程度时，性能会进一步下降。这证明仅仅应用扩张来扩展感受野是不起作用的。

上下文锚定注意力。接下来，证明了CAA模块（参见3.3）的有效性。首先，CAA与不同的核大小一起应用，以检查表8f中的影响。第一列中的三个核大小表示平均池化和两个条带卷积中的大小。可以看出，较小的核无法捕获远程依赖关系，从而降低了性能，而较大的核通过包含更多上下文来改善这一点。我们的扩展内核大小策略增加了条带卷积的核大小随着块的加深，解决方案实现了最佳性能。

之后，由于我们的PKINet中有四个阶段，研究了实现位置如何影响最终性能。如表8c所示，CAA模块（参见§3.3）在任何阶段实施时都可以带来性能改进。因此，当在所有阶段部署CAA模块时，性能增益达到1.03%。跨级部分结构。表8e进一步探讨了跨级部分（CSP）结构的影响。消除CSP会导致参数和计算成本呈指数增长（分别增长211%和159%）。将阶段块从 $(4, 12, 20, 4)$ 减少到 $(2, 2, 4, 2)$ 允许没有CSP结构的模型实现与前一个相似的参数计数，但由于块较少而导致次优性能。

4.5 分析

为了测量模型对不同类别大小的检测灵敏度，我们利用皮尔逊相关系数（PCC）[5]来量化每个类别的平均边界框面积和DOTA-v1.0[64]的每个类别的平均检测分数之间的线性相关性。

首先，我们计算第 $k$ 个类别的所有注释的平均面积，命名为 $S_k$ 。所有类别的平均面积计算 $\bar{S}= \frac{1}{K} \sum_{k=1}^KS_k$ ，其中 $k$ 是类别的数量。每个类别 $Q_k$ 和所有类 $\bar{Q}$ 的平均分数以类似的方式计算。其次，我们计算类别平均面积 $\{S_k\}^K_{k=1}$ 和类别平均分数 $\{Q_k\}^K_{k=1}$ 之间的协方差为 $\frac{1}{(K−1)} \sum_{k=1}^K(S_k− \bar{S})×(Q_k− \bar{Q})$ .最后，PCC计算为：

在这里插入图片描述

这里， $σ_S$ 和 $σ_Q$ 分别是类别平均面积 $\{S_k\}^K_{k=1}$ 和类别平均分数 $\{Q_k\}^K_{k=1}$ 的标准偏差。PCC绝对值 $∣ r ∣$ 接近0表明线性相关性最小，表明模型的检测性能很少受到影响根据目标的大小。如表9所示，我们的PKINet实现了最高的mAP和最低的PCC绝对值 $∣ r ∣$ ，表明PKINet对不同类别的大小变化最不敏感。

5.讨论与结论

在本文中，我们提出了用于遥感目标检测的多核inception网络（PKINet），旨在解决遥感图像中目标尺度和上下文多样性的巨大变化所带来的挑战。PKINet采用各种大小的并行深度卷积核来有效地捕获不同尺度的密集纹理特征。还引入了上下文锚注意力机制来进一步捕获远程上下文信息。我们通过实验表明，PKINet在四个著名的遥感基准数据集上实现了最先进的性能。

局限性和未来的工作。虽然PKINet-T和PKINet-S都表现出了优于以前方法的检测性能，但我们计算资源的限制限制了PKINet扩大模型容量以实现其最大潜力。如Swin Transformer[42]和ConvNeXt[43]中所强调的，关于模型可伸缩性的类似研究在一般目标检测中引起了极大的兴趣。我们把对PKINet可扩展性的进一步研究留给未来的研究。

6.引用文献

[1] Kai Chen, Jiangmiao Pang, Jiaqi Wang, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jianping Shi, Wanli Ouyang, et al. Hybrid task cascade for instance segmentation. In CVPR, pages 4974–4983, 2019. 6
[2] Yukang Chen, Peizhen Zhang, Zeming Li, Yanwei Li, Xiangyu Zhang, Gaofeng Meng, Shiming Xiang, Jian Sun, and Jiaya Jia. Stitcher: Feedback-driven data provider for object detection. arXiv preprint arXiv:2004.12432, 2(7):12, 2020. 1, 2
[3] Gong Cheng, Jiabao Wang, Ke Li, Xingxing Xie, Chunbo Lang, Yanqing Yao, and Junwei Han. Anchor-free oriented proposal generator for object detection. IEEE TGRS, 60:111, 2022. 2, 5, 6, 7
[4] Gong Cheng, Yanqing Yao, Shengyang Li, Ke Li, Xingxing Xie, Jiabao Wang, Xiwen Yao, and Junwei Han. Dualaligned oriented detector. IEEE TGRS, 60:1–11, 2022. 2
[5] Israel Cohen, Yiteng Huang, Jingdong Chen, Jacob Benesty, Jacob Benesty, Jingdong Chen, Yiteng Huang, and Israel Cohen. Pearson correlation coefficient. Noise Reduction in Speech Applications, pages 1–4, 2009. 8
[6] MMPreTrain Contributors. Openmmlab’s pre-training toolbox and benchmark. https://github.com/openmmlab/mmpretrain, 2023. 5
[7] Linhui Dai, Hong Liu, Hao Tang, Zhiwei Wu, and Pinhao Song. Ao2-detr: Arbitrary-oriented object detection transformer. IEEE TCSVT, 2022. 5
[8] Yingpeng Dai, Chenglin Li, Xiaohang Su, Hongxian Liu, and Jiehao Li. Multi-scale depthwise separable convolution for semantic segmentation in street–road scenes. Remote Sensing, 15(10):2649, 2023. 2
[9] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In CVPR, pages 248–255, 2009. 5, 6, 7, 8
[10] Jian Ding, Nan Xue, Yang Long, Gui-Song Xia, and Qikai Lu. Learning roi transformer for oriented object detection in aerial images. In CVPR, pages 2849–2858, 2019. 1, 2, 5, 6
[11] Jian Ding, Nan Xue, Gui-Song Xia, Xiang Bai, Wen Yang, Michael Ying Yang, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, et al. Object detection in aerial images: A large-scale benchmark and challenges. IEEE TPAMI, 44(11):7778–7796, 2021. 1, 2
[12] Xiaohan Ding, Xiangyu Zhang, Jungong Han, and Guiguang Ding. Scaling up your kernels to 31x31: Revisiting large kernel design in cnns. In CVPR, pages 11963–11975, 2022. 2
[13] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes Challenge 2007 (VOC2007) Results. http://www.pascalnetwork.org/challenges/VOC/voc2007/workshop/index.html, .6
[14] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes Challenge 2012 (VOC2012) Results. http://www.pascalnetwork.org/challenges/VOC/voc2012/workshop/index.html, .6
[15] Kun Fu, Zhonghan Chang, Yue Zhang, and Xian Sun. Pointbased estimator for arbitrary-oriented object detection in aerial images. IEEE TGRS, 59(5):4370–4387, 2020. 2 [16] Haoyuan Guo, Xi Yang, Nannan Wang, Bin Song, and Xinbo Gao. A rotational libra r-cnn method for ship detection. IEEE TGRS, 58(8):5772–5781, 2020. 2
[17] Meng-Hao Guo, Cheng-Ze Lu, Qibin Hou, Zhengning Liu, Ming-Ming Cheng, and Shi-Min Hu. Segnext: Rethinking convolutional attention design for semantic segmentation. NeurIPS, 35:1140–1156, 2022. 2
[18] Meng-Hao Guo, Cheng-Ze Lu, Zheng-Ning Liu, Ming-Ming Cheng, and Shi-Min Hu. Visual attention network. CVM, 9 (4):733–752, 2023. 2
[19] Wei Guo, Wen Yang, Haijian Zhang, and Guang Hua. Geospatial object detection in high resolution satellite images based on multi-scale convolutional neural network. Remote Sensing, 10(1):131, 2018. 2
[20] Jiaming Han, Jian Ding, Jie Li, and Gui-Song Xia. Align deep features for oriented object detection. IEEE TGRS, 60: 1–11, 2021. 1, 5, 6, 8
[21] Jiaming Han, Jian Ding, Nan Xue, and Gui-Song Xia. Redet: A rotation-equivariant detector for aerial object detection. In CVPR, pages 2786–2795, 2021. 2, 5, 6
[22] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016. 3, 5, 6, 7
[23] Kaiming He, Georgia Gkioxari, Piotr Doll ́ ar, and Ross Girshick. Mask r-cnn. In ICCV, pages 2961–2969, 2017. 6, 7
[24] Jie-Bo Hou, Xiaobin Zhu, and Xu-Cheng Yin. Self-adaptive aspect ratio anchor for oriented object detection in remote sensing images. Remote Sensing, 13(7):1318, 2021. 2
[25] Liping Hou, Ke Lu, and Jian Xue. Refined one-stage oriented object detection method for remote sensing images. IEEE TIP, 31:1545–1558, 2022. 2
[26] Liping Hou, Ke Lu, Jian Xue, and Yuqiu Li. Shape-adaptive selection and measurement for oriented object detection. In AAAI, pages 923–932, 2022. 2, 5, 8
[27] Liping Hou, Ke Lu, Xue Yang, Yuqiu Li, and Jian Xue. Grep: Gaussian representation for arbitrary-oriented object detection. Remote Sensing, 15(3):757, 2023. 2
[28] Zhanchao Huang, Wei Li, Xiang-Gen Xia, and Ran Tao. A general gaussian heatmap label assignment for arbitraryoriented object detection. IEEE TIP, 31:1895–1910, 2022. 6
[29] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. 5, 6
[30] Ke Li, Gang Wan, Gong Cheng, Liqiu Meng, and Junwei Han. Object detection in optical remote sensing images: A survey and a new benchmark. ISPRS J. P&RS, 159:296–307, 2020. 5, 6
[31] Wentong Li, Yijie Chen, Kaixuan Hu, and Jianke Zhu. Oriented reppoints for aerial object detection. In CVPR, pages 1829–1838, 2022. 1, 2, 5, 6
[32] Yuxuan Li, Qibin Hou, Zhaohui Zheng, Ming-Ming Cheng, Jian Yang, and Xiang Li. Large selective kernel network for remote sensing object detection. In ICCV, pages 1679416805, 2023. 2, 4, 5, 6, 7, 8
[33] Xi Liang, Jing Zhang, Li Zhuo, Yuzhao Li, and Qi Tian. Small object detection in unmanned aerial vehicle images using feature fusion and scaling-based single shot detector with spatial context analysis. IEEE TCSVT, 30(6):17581770, 2019. 1
[34] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll ́ ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV, pages 740–755, 2014. 7
[35] Tsung-Yi Lin, Piotr Doll ́ ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In CVPR, pages 2117–2125, 2017. 2
[36] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Doll ́ ar. Focal loss for dense object detection. In ICCV, pages 2980–2988, 2017. 6
[37] Zhao Lin, Kefeng Ji, Xiangguang Leng, and Gangyao Kuang. Squeeze and excitation rank faster r-cnn for ship detection in sar images. IEEE GRSL, 16(5):751–755, 2018. 1
[38] Shiwei Liu, Tianlong Chen, Xiaohan Chen, Xuxi Chen, Qiao Xiao, Boqian Wu, Mykola Pechenizkiy, Decebal Mocanu, and Zhangyang Wang. More convnets in the 2020s: Scaling up kernels beyond 51x51 using sparsity. arXiv preprint arXiv:2207.03620, 2022. 2
[39] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg. Ssd: Single shot multibox detector. In ECCV, pages 21–37, 2016. 2
[40] Zikun Liu, Hongzhen Wang, Lubin Weng, and Yiping Yang. Ship rotated bounding box space for ship extraction from high-resolution optical satellite images with complex backgrounds. IEEE GRSL, 13(8):1074–1078, 2016. 2
[41] Zikun Liu, Liu Yuan, Lubin Weng, and Yiping Yang. A high resolution optical satellite image dataset for ship recognition and some new baselines. In ICPRAM, pages 324–331, 2017. 2, 5, 6, 7
[42] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In ICCV, pages 10012–10022, 2021. 8
[43] Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, and Saining Xie. A convnet for the 2020s. In CVPR, pages 11976–11986, 2022. 2, 7, 8
[44] Yang Long, Gui-Song Xia, Shengyang Li, Wen Yang, Michael Ying Yang, Xiao Xiang Zhu, Liangpei Zhang, and Deren Li. On creating benchmark dataset for aerial image interpretation: Reviews, guidances, and million-aid. IEEE J-STARS, 14:4205–4230, 2021. 5, 6
[45] Ilya Loshchilov and Frank Hutter. Sgdr: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983, 2016. 5
[46] Chengqi Lyu, Wenwei Zhang, Haian Huang, Yue Zhou, Yudong Wang, Yanyi Liu, Shilong Zhang, and Kai Chen. Rtmdet: An empirical study of designing real-time object detectors. arXiv preprint arXiv:2212.07784, 2022. 6
[47] Teli Ma, Mingyuan Mao, Honghui Zheng, Peng Gao, Xiaodi Wang, Shumin Han, Errui Ding, Baochang Zhang, and David Doermann. Oriented object detection with transformer. arXiv preprint arXiv:2106.03146, 2021. 5
[48] Qi Ming, Zhiqiang Zhou, Lingjuan Miao, Hongwei Zhang, and Linhao Li. Dynamic anchor learning for arbitraryoriented object detection. In AAAI, pages 2355–2363, 2021. 2
[49] Xingjia Pan, Yuqiang Ren, Kekai Sheng, Weiming Dong, Haolei Yuan, Xiaowei Guo, Chongyang Ma, and Changsheng Xu. Dynamic refinement network for oriented and densely packed object detection. In CVPR, pages 1120711216, 2020. 6
[50] Yifan Pu, Yiru Wang, Zhuofan Xia, Yizeng Han, Yulin Wang, Weihao Gan, Zidong Wang, Shiji Song, and Gao Huang. Adaptive rotated convolution for rotated object detection. In ICCV, pages 6589–6600, 2023. 2, 5, 6
[51] Wen Qian, Xue Yang, Silong Peng, Junchi Yan, and Yue Guo. Learning modulated loss for rotated object detection. In AAAI, pages 2458–2466, 2021. 2
[52] Heqian Qiu, Hongliang Li, Qingbo Wu, Fanman Meng, King Ngi Ngan, and Hengcan Shi. A2rmnet: Adaptively aspect ratio multi-scale network for object detection in remote sensing images. Remote Sensing, 11(13):1594, 2019. 2
[53] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. NeurIPS, 28, 2015. 5, 6
[54] Pourya Shamsolmoali, Masoumeh Zareapoor, Jocelyn Chanussot, Huiyu Zhou, and Jie Yang. Rotation equivariant feature image pyramid network for object detection in optical remote sensing imagery. IEEE TGRS, 60:1–14, 2021. 1, 2
[55] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 3
[56] Xian Sun, Peijin Wang, Zhiyuan Yan, Feng Xu, Ruiping Wang, Wenhui Diao, Jin Chen, Jihao Li, Yingchao Feng, Tao Xu, et al. Fair1m: A benchmark dataset for fine-grained object recognition in high-resolution remote sensing imagery. ISPRS J. P&RS, 184:116–130, 2022. 1, 2
[57] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. In CVPR, pages 2818–2826, 2016. 3
[58] Yehui Tang, Kai Han, Jianyuan Guo, Chang Xu, Chao Xu, and Yunhe Wang. Ghostnetv2: enhance cheap operation with long-range attention. NeurIPS, 35:9969–9982, 2022. 4
[59] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Fcos: Fully convolutional one-stage object detection. In ICCV, pages 9627–9636, 2019. 1, 5, 6
[60] Chien-Yao Wang, Hong-Yuan Mark Liao, Yueh-Hua Wu, Ping-Yang Chen, Jun-Wei Hsieh, and I-Hau Yeh. Cspnet: A new backbone that can enhance learning capability of cnn. In CVPRW, pages 390–391, 2020. 3
[61] Guanqun Wang, Yin Zhuang, He Chen, Xiang Liu, Tong Zhang, Lianlin Li, Shan Dong, and Qianbo Sang. Fsod-net: Full-scale object detection from optical remote sensing imagery. IEEE TGRS, 60:1–18, 2022. 1, 2
[62] Jinwang Wang, Jian Ding, Haowen Guo, Wensheng Cheng, Ting Pan, and Wen Yang. Mask obb: A semantic attentionbased mask oriented bounding box representation for multicategory object detection in aerial images. Remote Sensing, 11(24):2930, 2019. 2
[63] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In ICCV, pages 568–578, 2021. 7
[64] Gui-Song Xia, Xiang Bai, Jian Ding, Zhen Zhu, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, and Liangpei Zhang. Dota: A large-scale dataset for object detection in aerial images. In CVPR, pages 3974–3983, 2018. 1, 2, 5, 6, 7, 8
[65] Xingxing Xie, Gong Cheng, Jiabao Wang, Xiwen Yao, and Junwei Han. Oriented r-cnn for object detection. In ICCV, pages 3520–3529, 2021. 1, 2, 3, 5, 6, 7, 8
[66] Chang Xu, Jian Ding, Jinwang Wang, Wen Yang, Huai Yu, Lei Yu, and Gui-Song Xia. Dynamic coarse-to-fine learning for oriented tiny object detection. In CVPR, pages 73187328, 2023. 6
[67] Yongchao Xu, Mingtao Fu, Qimeng Wang, Yukang Wang, Kai Chen, Gui-Song Xia, and Xiang Bai. Gliding vertex on the horizontal bounding box for multi-oriented object detection. IEEE TPAMI, 43(4):1452–1459, 2020. 1, 2, 5, 6
[68] Xue Yang and Junchi Yan. Arbitrary-oriented object detection with circular smooth label. In ECCV, pages 677–694, 2020. 1
[69] Xue Yang, Jirui Yang, Junchi Yan, Yue Zhang, Tengfei Zhang, Zhi Guo, Xian Sun, and Kun Fu. Scrdet: Towards more robust detection for small, cluttered and rotated objects. In ICCV, pages 8232–8241, 2019. 2, 5
[70] Xue Yang, Liping Hou, Yue Zhou, Wentao Wang, and Junchi Yan. Dense label encoding for boundary discontinuity free rotation detection. In CVPR, pages 15819–15829, 2021. 1, 2
[71] Xue Yang, Junchi Yan, Ziming Feng, and Tao He. R3det: Refined single-stage detector with feature refinement for rotating object. In AAAI, pages 3163–3171, 2021. 1, 2, 5, 6
[72] Xue Yang, Junchi Yan, Qi Ming, Wentao Wang, Xiaopeng Zhang, and Qi Tian. Rethinking rotated object detection with gaussian wasserstein distance loss. In ICML, pages 1183011841, 2021. 1, 2, 5, 6
[73] Xue Yang, Xiaojiang Yang, Jirui Yang, Qi Ming, Wentao Wang, Qi Tian, and Junchi Yan. Learning high-precision bounding box for rotated object detection via kullbackleibler divergence. NeurIPS, 34:18381–18394, 2021. 2, 5
[74] Xue Yang, Yue Zhou, Gefan Zhang, Jirui Yang, Wentao Wang, Junchi Yan, Xiaopeng Zhang, and Qi Tian. The kfiou loss for rotated object detection. arXiv preprint arXiv:2201.12558, 2022. 1
[75] Yazhou Yao, Tao Chen, Hanbo Bi, Xinhao Cai, Gensheng Pei, Guoye Yang, Zhiyuan Yan, Xian Sun, Xing Xu, and Hai Zhang. Automated object recognition in high-resolution optical remote sensing imagery. NSR, 10(6):nwad122, 2023. 2
[76] Jingru Yi, Pengxiang Wu, Bo Liu, Qiaoying Huang, Hui Qu, and Dimitris Metaxas. Oriented object detection in aerial images with box boundary-aware vectors. pages 2150–2159, 2021. 2
[77] Weihao Yu, Pan Zhou, Shuicheng Yan, and Xinchao Wang. Inceptionnext: When inception meets convnext. arXiv preprint arXiv:2303.16900, 2023. 3
[78] Ying Zeng, Xue Yang, Qingyun Li, Yushi Chen, and Junchi Yan. Ars-detr: Aspect ratio sensitive oriented object detection with transformer. arXiv preprint arXiv:2303.04989, 2023. 5, 6
[79] Ke Zhang, Inuwa Mamuda Bello, Yu Su, Jingyu Wang, and Ibrahim Maryam. Multiscale depthwise separable convolution based network for high-resolution image segmentation. IJRS, 43(18):6624–6643, 2022. 2
[80] Wenhua Zhang, Licheng Jiao, Yuxuan Li, Zhongjian Huang, and Haoran Wang. Laplacian feature pyramid network for object detection in vhr optical remote sensing images. IEEE TGRS, 60:1–14, 2021. 2
[81] Yuanlin Zhang, Yuan Yuan, Yachuang Feng, and Xiaoqiang Lu. Hierarchical and robust convolutional neural network for very high-resolution remote sensing object detection. IEEE TGRS, 57(8):5535–5548, 2019. 1, 2
[82] Wei Zhao, Wenping Ma, Licheng Jiao, Puhua Chen, Shuyuan Yang, and Biao Hou. Multi-scale image block-level f-cnn for remote sensing images object detection. IEEE Access, 7: 43607–43621, 2019. 1, 2
[83] Zhuo Zheng, Yanfei Zhong, Ailong Ma, Xiaobing Han, Ji Zhao, Yanfei Liu, and Liangpei Zhang. Hynet: Hyper-scale object detection network framework for multiple spatial resolution remote sensing imagery. ISPRS J. P&RS, 166:1–14, 2020. 2
[84] Yue Zhou, Xue Yang, Gefan Zhang, Jiabao Wang, Yanyi Liu, Liping Hou, Xue Jiang, Xingzhao Liu, Junchi Yan, Chengqi Lyu, Wenwei Zhang, and Kai Chen. Mmrotate: A rotated object detection benchmark using pytorch. In ACM MM, 2022. 5