DEYOv2: Rank Feature with Greedy Matchingfor End-to-End Object Detection

摘要

与前代类似， DEYOv2 采用渐进式推理方法 来加速模型训练并提高性能。该研究深入探讨了一对一匹配在优化器中的局限性，并提出了有效解决该问题的解决方案，如Rank 特征和贪婪匹配 。这种方法使DEYOv2的第三阶段能够最大限度地从第一和第二阶段获取信息，而无需 NMS ，实现端到端优化 。通过组合密集查询、稀疏查询、一对多匹配和一对一匹配，DEYOv2 充分利用了每种方法的优势。与端到端模型DINO 相比， DEYOv2 在两个 epoch 设置中提供了 2.1AP 和 1.4AP 的显著性能提升。据我们所知，DEYOv2是第一个完全端到端的对象检测器，它结合了经典检测器和基于查询的检测器的各自优势。

1、介绍

经典检测器有一个共同点，它们严重依赖手工制作的组件，如非极大值抑制（ NMS ）。因为这些检测算法通常输出多个候选边界框，每个边界框对应于可能存在对象的区域。然而，这些候选框之间往往存在重叠或冗余，需要进行筛选和优化。

尽管 NMS 是一种有用的对象检测算法，但它确实有一些局限性。有一个问题是，他 可能会无意中删除与 得分最高的边界框明显重叠的边界框 ， 尤其是在对象密集或大小相似的区域 。此外， NMS 的有效性可能会受到所选IoU 阈值的影响，这可能会导致检测结果的显著变化。在稀疏场景中，它可能会成为经典检测器的性能瓶颈。

检测转换器 DETR 提出了一种创新的基于转换器的对象检测器，该检测器利用了基于转换器的编码器 - 解码器框架。DETR 不依赖 NMS 的手动组件，而是使用匈牙利损失来预测一对一的对象集 ，带来端到端优化。NMS 在拥挤场景中表现不佳，因为它只根据 IoU 和类别简单信息对对象进行集群， 可能会将大小相 似的不同对象分组为一组 。相反， DETR 利用查询之间的交互来利用更复杂的信息并区分它们之间的关系。与NMS 相比，这种方法使 DETR 预测一对一对象集的策略更加合理， 从而在拥挤场景中比使用 NMS 的经典检测器具有更好的性能。

尽管 DETR 引起了研究界的极大兴趣，但它也存在许多问题。首先，应该注意的是， DETR 的收敛速度很慢，需要500 个训练 epoch 才能获得可接受的性能。然而， DEYO 算法从循序渐进的思想中获得了灵感，

为改进 DETR 提供了一个新的视角。 DEYO 使用低成本和高质量 YOLO 预测作为第二阶段 DETR-like 模型 的输入，以降低 DETR-like 模式预测一对一对象集的难度。 DEYO 结合了经典检测和基于查询的检测器各自的优势，从而提高了整体性能。同时， DEYO 也发现了一对一标签分配的局限性 。由于 DETR 使用一对一匹配，因此采用了建立分数差距的策略来抑制冗余的边界框 。这意味着 解码器需要对查询之间的关系 进行建模，并区分最佳和冗余边界框 。 DEYO 的实验表明，解码器在处理大量几乎相似的冗余边界框方面非常弱。随着proposal 查询的拥塞增加，性能逐渐降低，甚至在不使用 NMS 时训练崩溃。如图 3 所示，随着IoU 阈值的升高，这意味着拥塞增加的查询被输入解码器，性能也会下降，并且当不使用 NMS时，AP 会骤降至 0 。我们发现，在后处理中使用具有低 IoU 阈值的 NMS 并不能缓解这种性能下降。这表明影响最终性能的不仅仅是冗余边界框，但是丰富的bounding box 也严重阻碍了探测器在训练过程中的训练和优化。上述现象表明，基于查询的检测器的过滤能力有限，其对边界框的抑制策略不好，并且对查询初始化有严格要求，这在一定程度上限制了基于查询检测器的设计。DEYO 简单地通过使用 NMS 过 滤掉冗余的边界框来解决这个问题 ，但如图 9 所示，由于 NMS-IoU 阈值的降低，第一阶段的有效信息损失更大，这不仅破坏了DETR 的端到端优势，还限制了第一阶段的高效信息传输。就像经典的探测器一样，这个问题在拥挤的场景中会加剧。那么，有没有一种方法可以减少信息丢失，实现更优雅，并避免冗余边界框引起的优化？DEYOv2 通过引入 Rank 特征和贪婪匹配 来解决上述问题。 Rank 特征是指通过 置信度对边界框进行排序并通过嵌入进行编码后的 Rank 特征。将其添加到解码器的查询中，可以使检测器更容易地学习到非极大值抑制策略，从而使检测器面临拥挤的环境。边界框仍然可以保持良好的过滤效果。贪婪匹配可以不使用额外的标签，使用 GT 作为基准，对每个边界框进行聚类和监督，并引导模型 从每个类中选择具有最大 Rank 的边界框来保留 。 Rank 特征和贪婪匹配启用 DEYOv2 在从一对多标签分配到一对一标签分配的过度过程中摆脱对NMS 的依赖，它解决了 Transformer 编码器在过滤冗余边界框以实现端到端优化时遇到的优化问题。

在本文中，我们提出了一种称为 DEYOv2 的三阶段对象检测网络的新范式，据我们所知，它是第一个完全端到端的检测器，它结合了经典检测器和基于查询的对象检测器的各自优势。因此，我们的DEYOv2成为端到端目标检测器的新技术。

贡献

（ 1 ）我们 提出了第一个完全端到端的对象检测器 ，该检测器结合了经典检测器和基于查询的对象检测器各自的优点，它不仅优于目前最好的端到端检测器，而且不需要依赖手动组件NMS 来过滤掉阶段 1 的冗余边界框，因此推理速度不会延迟并保持稳定。

（ 2 ）我们深入分析了冗余 bounding boxes 对端到端优化的影响，并 提出了 Rank 特征和贪婪匹配 ，以使用更合理的策略来过滤掉大量密集的冗余bounding box 。

2、动机

结合前面的讨论，我们认为 DETR 的解码器在建立每个边界框之间的关系非常成功，和拥挤的边界框相比，应该更难区分稀疏边界框，并且DEYO 在低 IoU 阈值上实现了良好的性能，这表明 DETR 可以很好的处理稀疏边界盒的聚类，因此，DETR 也应该能够很好地处理拥挤的边界框的聚类，后者的难度明显低于前者。这启发我们重新审视当前的滤波策略，分析拥挤的边界盒阻碍检测器优化的原因，并提出有效的解决方案。我们猜测，对于几乎相似的边界框，尽管检测器可以很好地对他们进行聚类，但很难学习到从聚类中选择并保留边界框的有效策略。在极端情况下，对于n 个相同的边界框，使用一对一的标签分配，DETR 不可能从原始数据中学习有效的过滤策略。同时，当边界框过于相似时，也可能导致二进制匹配的不稳定性。进一步阻碍优化,DEYO 简单地使用 NMS 来通过建立 IoU 间隙来避免优化问题。我们认为，建立分数差距也应该取得类似的效果。

3、方法

3.1 Rank 特征

如图 4 所示，当遇到几乎相同的边界框时，检测器很难学习有效的策略来选择要保留的边界框，而这正是NMS擅长的。非极大值策略可以使 NMS 从大量几乎相同的冗余边界框中选择一个边界框，而不会导致性能损失。我们尝试了几种策略，让模型直接从原始数据中学习非最大值抑制策略 ，但都以失败告终。为了降低模型的训练难度，受[12] 的启发，引入了 Rank 特征来解决这个问题。研究发现，添加 Rank 特征 比直接将置信度传递给模型表现得更好 。我们认为性能更好的原因是 Rank 特征可以使模型更容易地学习 非最大值抑制策略 。这是因为 Rank 特征可以迫使几乎相同的边界框之间存在差距 ，因为即使置信度相同，排名仍然存在顺序差距。根据这个阶差模型，很容易学会选择排名靠前的边界框来保持，这样对于n个相同的边界框，模型仍然可以根据rank 特征区分它们之间的区别，并选择保留的顶级边界框。

3.2 贪婪匹配

在处理几乎相同的冗余边界框时，由于一对一匹配的局限性，与一对一的匹配一样， 基于最小化二分匹 配矩阵的代价来确定边界框保留是不合理的 。我们 提出了一种称为贪婪匹配的标签分配方法 ，其中为每个边界框分配一个具有最小匹配损失的基本事实标签，并且成本矩阵计算方法与阶段3 的一对一匹配一致。我们根据基本事实对边界框进行聚类，并只保留每个聚类中排名最高的边界框，为保留的边界框分配标签1 ，为过滤掉的边界框指定标签 0 。由于很难用电流检测器实现置信度和 IoU 之间的严格正相关，这导致了如图5 所示的情况，其中高 rank 并不一定意味着良好的定位。仅仅靠 rank 进行选择会影响模型选择更好边界框的能力，导致选择位置不佳的高分红色边界框，最终损害模型性能。为了解决这一现象，引入了一个 $\theta$ 值来调整标签分配。具体来说，我们将rank-1 分配给 IoU 小于 y 且 rank 小于的对象，并且只保留rank 大于 1 的对象。这种方法允许更合理的标签分配和更高的性能。此外，通过基于边界框各自的基本事实对其进行聚类。我们的方法引导模型放弃局部对象较差的聚类，降低了任务难度大，加强了过滤策略的学习。

4、DEYOv2

4.1 model概述

我们的模型使用 YOLOv5x 作为第一阶段， DINO 作为第三和第二阶段，提供了一个新的基于渐进推理的三阶段模型。YOLOv5x 是经典 YOLO 系列的探测器；它包含一个主干，一个包含 FPN+PAN 的颈部，以及一个输出三尺度预测的头部。作为一个类似DETR 的模型， DINO 包含主干、多层变换编码器、多层变换解码器和多个预测头。它使用锚边界框的静态查询和动态初始化，并涉及用于比较去噪训练的额外CDN分支。DEYOv2 和 DINO 最大的区别在于， DEYOv2 的第三阶段使用来自第二阶段的高质量建议查询来初始化查询，整个DEYOv2 模型如图 6 所示。

4.2 密集查询到稀疏查询

由于变换器的计算复杂度随着查询数量的增加而二次增加，因此基于查询的数量通常为 300900 ，并以YOLOv5为例，它可以提供数以万计的查询，这比基于查询的检测器多了几个数据集，并且与基于查询的检测设备相比，维护单个查询的成本要低。我们认为，密集查询中包含的信息可以大大减轻后续稀疏查询检测的负担，从而使stage2 和 stage3 在密集场景中可以实现更好的性能。然而，由于转换器的计算复杂度与序列呈二次关系，这限制了第2 阶段和第 3 阶段的查询数量。因此，我们使用查询选择器来选择高质量的查询，并在有限的查询中尽可能多地保留原始密集查询中包含的信息。因此，我们使用查询选择器来选择高质量的查询，并在有限的查询中尽可能保留原始密集查询中包含的信息。第3 阶段的查询比第1 阶段少，这使得我们可以对查询之间的关系进行建模，并且我们可以像稀疏查询中注入更多信息；即使维护单个稀疏查询的成本高于密集查询的成本，该成本也可以是准确性和速度之间的良好权衡。我们使用一个简单的top-k 和适配器模块来完成从密集查询到稀疏查询的转换。我们相信适配器模块可以最大限度地保留原始密集查询的信息，并是不同输出层查询的维度与稀疏查询的维度一致。

4.3查询选择器

对于端到端优化，我们只需要使用 top-k 来完成从密集查询到稀疏查询的替换。然而，应该注意的是，NMS仍然是最大程度地保留阶段 1 信息的过渡方法。如图 7 所示，由于 stage1 中存在大量冗余边界框，因此直接使用top-k 选择策略会导致所选查询中存在大量信息溶于。 NMS 可以解决这个问题， DEYOv2 中采用NMS 的动机与 DEYOv2 不同，只是为了尽可能地过滤掉冗余信息。由于查询过滤器的存在，我们不必担心IoU 阈值的设置不合理，这使得模型的优化变得困难。这使我们能够基于 PRE-Matching 快速调整IoU阈值参数，而不像 DEYO 那样只有在得道训练的最终结果后才能评估 IoU 阈值的质量。

4.4 查询筛选器

DEYOv2 使用查询过滤器，放弃了 NMS 对过滤冗余边界框的依赖，完全实现了端到端。查询筛选器只需要设置一个置信阈值过滤候选边界框像大多数端到端检测器一样，以完成冗余边界框的过滤。在DEYOv2中，我们将置信阈值设置为 0.1 ，我们使用贪婪匹配为查询过滤器的输出分配标签。我们使用焦点损失来监督查询过滤器对冗余边界框的过滤。通过一个简单的策略：0 表示过滤掉的， 1 表示保留的，

并将大量高置信度的类似冗余对象返回到低置信度。基于这种策略，可以将建立的分数差距传递给阶段

3 ，这便于阶段 3 进一步过滤边界框。由于过滤查询的数量不是恒定的，如图 8 所示，我们将过滤查询插入解码器的init 查询中，可以保证批量培训。

4.5一对多与一对一匹配

正如本文前面多分析的， IoU 和置信度之间的严格正相关是当前检测器的一个困难条件。在贪婪匹配中，我们用实际边界框过滤掉IoU<0.6 的所有边界框，使模型获得更好的性能。其次，贪婪匹配聚类围绕基本事实，这两者都会导致一些定位不佳的边界框进行过滤。查询过滤过滤掉一些冗余的边界框，代价是一些定位不好的边界框的召回率，这在一定程度上影响了最终的性能，所以我们使用具有一对一匹配的stage3来补偿这部分性能损失。