DETRs Beat YOLOs on Real-time Object Detection

NMS是目标检测后处理算法，用于消除检测器输出的重叠预测框。操作中，低于阈值的框直接过滤掉，当两个预测框的LoU超过阈值时，得分较低的预测框被舍弃，迭代执行这一过程，直到所以类别的盒子被处理完毕。因此NML的执行时间主要取决于预测框个数和两个阈值超参数。

1、模型架构

在这里插入图片描述
rt - detr概述。我们首先利用主干{S3, S4, S5}的最后三个阶段的特性作为编码器的输入。高效的混合编码器通过尺度内特征交互(AIFI)和跨尺度特征融合模块(CCFM)将多尺度特征转化为图像特征序列。iou感知的查询选择被用来选择固定数量的图像特征作为解码器的初始目标查询。最后，带辅助预测头的解码器迭代优化目标查询，生成框和置信度评分。

1.1高效混合编码器

提高训练收敛速度&性能–>多尺度特征&可变形注意力–>减少计算量

虽然注意力机制改进降低了计算开销，但输入序列长度的增加—》编码器计算量增大，阻碍了DETR的实时实现

高级特征是从具有丰富语义信息的低级特征中提取出来的。直观上看，多尺度特征间的交互是多余的。
在这里插入图片描述
两个模块组成，即基于注意力的尺度内特征交互模块(AIFI)和基于cnn的跨尺度特征融合模块(CCFM)。

1.1.1 尺度内特征交互模块AIFI

AIFI减少了计算冗余，该变量仅在S5上进行尺度内交互。

作者认为对语义特征更丰富的高层特征进行自注意操作，可以捕捉图像中概念实体的关系，用于后续的检测识别。同时认为低级特征与高级特征有交互重复和混淆的风险，所以认为低级特征的尺度内交互是不必要的。（ap值提高了0.4%，快了35%速度

1.1.2 跨尺度特征融合CCFM

在融合路径中插入多个卷积层组成的融合块，融合块的作用是将相邻的特征融合成一个新的特征
在这里插入图片描述
融合块包含N个RepBlocks，两条输出通过主元素添加的方式进行融合，过程如下

Attn是多头自注意力，reshape与flaten是逆操作

1.2IoU感知查询选择

DETR中的目标查询是一组可学习的嵌入，由解码器优化，并通过预测头映射到分类分数和边界框。然而，这些目标查询很难解释和优化，因为它们没有明确的物理意义。

但由于分类分数和位置置信度分布的不一致，部分预测盒分类分数高但与GT盒不接近，导致分类分数高、IoU分数低的预测盒被选中，而分类分数低、IoU分数高的预测盒被丢弃。这降低了检测器的性能。

为了解决这一问题，我们提出了基于IoU感知的查询选择方法，通过约束模型，在训练过程中对IoU分数高的特征产生高分类分数，对IoU分数低的特征产生低分类分数。因此，模型根据分类分数选择的前K个编码器特征对应的预测框，其分类分数和IoU分数都很高。我们重新制定探测器的优化目标如下:
在这里插入图片描述
其中:y‘和y分别表示预测和真实标记的图像，y’ = {c‘, b’}和y = {c, b}， c和b分别表示类别和边界框。我们将IoU分数引入到分类分支的目标函数中(类似于VFL[47])来实现对阳性样本分类和定位的一致性约束。