【详细版】DETR系列之Deformable DETR（2021 ICLR）

论文标题	Deformable DETR: Deformable Transformers for End-to-End Object Detection
论文作者	Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai
发表日期	2021年03月01日
GB引用	> Xizhou Zhu, Weijie Su, Lewei Lu, et al. Deformable DETR: Deformable Transformers for End-to-End Object Detection.[J]. CoRR, 2020, abs/2010.04159. >
DOI	https://arxiv.org/abs/2010.04159

摘要

Deformable DETR是一种端到端的目标检测器，通过引入可变形注意力机制来解决DETR在处理图像特征图时收敛慢和特征空间分辨率低的问题。该模型仅关注参考点周围的少量关键采样点，从而实现比DETR更好的性能（尤其是在小目标检测上），并且只需其十分之一的训练周期。实验表明，Deformable DETR在COCO数据集上的表现优于DETR，并且具有更快的收敛速度和更高的运行效率。

这篇论文的主要内容可以总结如下：

问题背景：DETR作为一种端到端的目标检测方法，虽然在消除手工设计组件方面取得了进展，但存在收敛速度慢和小目标检测性能有限的问题。
Deformable DETR提出：为了解决这些问题，论文提出了Deformable DETR，这是一种改进的Transformer模型，它通过引入可变形注意力模块来增强模型对关键特征点的聚焦能力。
核心创新：
- 可变形注意力模块：只关注参考点周围的一小部分关键采样点，减少计算量，加快收敛速度。
- 多尺度可变形注意力：自然扩展到多尺度特征图，无需依赖FPN等结构。
方法细节：
- 编码器和解码器：使用多尺度可变形注意力模块替换DETR中的Transformer注意力模块。
- 迭代边界框细化：在解码器中引入迭代机制，逐层细化预测的边界框。
- 两阶段Deformable DETR：第一阶段生成区域提议，第二阶段进行细化。
实验验证：
- 在COCO数据集上进行了广泛的实验，证明了Deformable DETR在检测性能、特别是小目标检测上的优势。
- 收敛速度显著提升，训练周期大大减少。
消融实验：对可变形注意力模块的不同设计选择进行了消融实验，展示了多尺度输入和采样点数量对性能的影响。
与最先进方法的比较：使用不同骨干网络的Deformable DETR与其他最先进目标检测方法进行了比较，展示了其竞争力。
可视化分析：通过可视化分析，展示了Deformable DETR在最终检测结果中关注图像的哪些部分，以及多尺度可变形注意力模块的学习情况。
结论：Deformable DETR作为一种高效且快速收敛的端到端目标检测方法，为探索更多有趣的端到端目标检测变体提供了新的可能性。
未来工作：论文最后提出了一些可能的研究方向，包括注意力机制的改进、多尺度特征融合策略、模型泛化能力等。整体而言，这篇论文通过引入可变形注意力机制，有效地提升了目标检测的性能和效率，特别是在小目标和快速收敛方面取得了显著的进展。

研究问题

如何设计一种高效的注意力机制来解决基于Transformer的端到端目标检测器在处理图像特征图时遇到的收敛慢和特征空间分辨率低的问题？

研究方法

实验研究： 该研究通过提出Deformable DETR模型，并在COCO 2017数据集上进行了广泛的实验，验证了其有效性。研究中使用了预训练的ResNet-50作为主干网络，并且没有使用FPN。模型在不同的训练策略和参数设置下进行了测试，以评估其性能。

比较研究： 研究对比了Deformable DETR与DETR、Faster R-CNN + FPN等其他检测模型的性能。结果显示，Deformable DETR在检测小物体方面表现更优，且所需的训练轮数仅为DETR的十分之一。

混合方法研究： 研究结合了迭代边界框细化机制和两阶段检测框架，进一步提高了检测精度。通过引入这两种改进措施，Deformable DETR在COCO 2017验证集上的性能得到了显著提升。

研究思路与解决方案

解决方案： 通过引入变形注意力模块，Deformable DETR解决了传统DETR在处理图像特征图时遇到的收敛慢和高复杂度的问题。该模块只关注参考点周围的少量关键采样点，而不是整个空间位置，从而提高了处理效率和性能。

研究思路：

设计并实现变形注意力模块，用于替代DETR中处理特征图的传统Transformer注意力模块。
- Deformable Attention Module（可变形注意力模块）： - 受到可变形卷积的启发，Deformable DETR引入了可变形注意力模块，该模块只关注参考点周围的一小部分关键采样点，而不是像传统Transformer那样关注所有可能的空间位置。这减少了计算量，并加快了收敛速度。
探索多尺度变形注意力模块，允许不同尺度特征之间的信息交换。
- Multi-scale Deformable Attention Module（多尺度可变形注意力模块）： - 为了利用多尺度特征图，Deformable DETR扩展了可变形注意力模块，使其能够在不同尺度的特征图上进行采样，从而更有效地表示不同尺寸的物体。
- Deformable Transformer Encoder and Decoder（可变形Transformer编码器和解码器）： - 用提出的多尺度可变形注意力模块替换DETR中的Transformer注意力模块，以处理多尺度特征图。编码器和解码器的输入和输出都是具有相同分辨率的多尺度特征图。
- Efficient and Fast Converging Detection System（高效且快速收敛的检测系统）： - 通过替代DETR中的注意力模块，Deformable DETR建立了一个高效且快速收敛的检测系统，减少了训练周期，提高了小目标的检测性能。
引入迭代边界框细化机制以进一步提高检测性能。
- Iterative Bounding Box Refinement（迭代边界框细化）： - 受到光流估计中迭代细化的启发，Deformable DETR实现了一种简单的迭代边界框细化机制，每个解码器层都基于前一层的预测来细化边界框。
探索两阶段变形DETR模型，生成区域建议作为第一阶段，然后将这些区域建议送入解码器进行进一步细化。
- Two-Stage Deformable DETR（两阶段Deformable DETR）： - 借鉴两阶段目标检测器的思想，Deformable DETR的一个变体在第一阶段生成区域提议，然后在第二阶段对这些提议进行细化，形成一个两阶段的检测流程。
- Implementation Details（实现细节）： - 论文还提供了实现细节，包括网络结构、训练策略、损失函数选择等，确保了Deformable DETR的有效实现和性能提升。

可变形Transformer用于端到端目标检测

可变形注意力模块。应用 Transformer 注意力在图像特征图上的核心问题在于它会查看所有可能的空间位置。为了解决这个问题，我们提出了一种可变形注意力模块。受到可变形卷积（Dai等人，2017；Zhu等人，2019年b）的启发，可变形注意模块只关注参考点周围的一组关键采样点，而不考虑特征图的空间大小，如图2所示。通过为每个查询分配一小部分固定的键，可以缓解收敛性和特征空间分辨率的问题。

给定输入特征图 $x\in\mathbb{R}^{C\times H\times W}$ ，令 $q$ 索引具有内容特征 $z_q$ 和二维参考点 $p_q$ 的查询元素，则可变形注意力特征由计算得出：

$\text{DeformAttn}(\boldsymbol{z}_q,\boldsymbol{p}_q,\boldsymbol{x})=\sum_{m=1}^M\boldsymbol{W}_m\left[\sum_{k=1}^KA_{mqk}\cdot\boldsymbol{W}_m^{\prime}\boldsymbol{x}(\boldsymbol{p}_q+\Delta\boldsymbol{p}_{mqk})\right],\ \ \ \ \ \ \ \ \mathrm{(2)}$

其中， $m$ 索引注意头， $k$ 索引采样键， $K$ 是总采样键数（ $K\ll HW$ ）。 $\Delta\boldsymbol{p}_{mqk}$ 和 $A_{mqk}$ 分别表示在第 $m$ 个注意头上第 $k$ 个采样点的采样偏移量和注意力权重。 $A_{mqk}$ 的标量注意力权重位于 $[0, 1]$ 范围内，并通过归一化