yolov7论文翻译

YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

论文:https://arxiv.org/abs/2207.02696
代码:https://github.com/WongKinYiu/yolov7

摘要

  • YOLOv7 在速度和准确性方面均超越了所有已知的目标检测器,在 5 FPS 到 160 FPS 的范围内表现卓越,并且在 V100 GPU 上,以 30 FPS 或更高的实时性能达到了所有已知目标检测器中的最高准确率 56.8% AP。YOLOv7-E6 目标检测器(V100 上 56 FPS,55.9% AP)在速度上比基于 Transformer 的检测器 SWINL Cascade-Mask R-CNN(A100 上 9.2 FPS,53.9% AP)快 509%,准确率高 2%;在速度上比基于卷积的检测器 ConvNeXt-XL Cascade-Mask R-CNN(A100 上 8.6 FPS,55.2% AP)快 551%,准确率高 0.7%。此外,YOLOv7 也在速度和准确性上优于 YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、DETR、Deformable DETR、DINO-5scale-R50、ViT-Adapter-B 等多种目标检测器。此外,我们仅在 MS COCO 数据集上从头训练 YOLOv7,没有使用任何其他数据集或预训练权重。源代码已发布在 https://github.com/WongKinYiu/yolov7。
    在这里插入图片描述

1. 介绍

  • 实时目标检测是计算机视觉中的一个重要课题,因为它通常是计算机视觉系统中的必要组成部分。例如,多目标跟踪 [94, 93]、自动驾驶 [40, 18]、机器人技术 [35, 58]、医学图像分析 [34, 46] 等。执行实时目标检测的计算设备通常是一些移动 CPU 或 GPU,以及各大厂商开发的神经处理单元 (NPU)。例如,Apple 神经引擎 (Apple)、神经计算棒 (Intel)、Jetson AI 边缘设备 (Nvidia)、Edge TPU (Google)、神经处理引擎 (Qualcomm)、AI 处理单元 (MediaTek)、AI SoCs (Kneron) 等,都是 NPU 设备。上述一些边缘设备主要关注加速不同的操作,例如标准卷积、深度卷积或 MLP 操作等。本文提出的实时目标检测器主要希望能够支持从边缘到云端的移动 GPU 和 GPU 设备。
  • 近年来,实时目标检测器仍在为不同的边缘设备进行开发。例如,MCUNet [49, 48] 和 NanoDet [54] 的开发侧重于实现低功耗单芯片,并提升边缘 CPU 上的推理速度。而 YOLOX [21] 和 YOLOR [81] 等方法则专注于提高各种 GPU 的推理速度。最近,实时目标检测器的开发更多地集中在设计高效的架构上。用于 CPU 的实时目标检测器 [54, 88, 84, 83] 大多基于 MobileNet [28, 66, 27]、ShuffleNet [92, 55] 或 GhostNet [25],而另一主流的 GPU 实时目标检测器 [81, 21, 97] 则主要基于 ResNet [26]、DarkNet [63] 或 DLA [87],并采用 CSPNet [80] 策略来优化架构。本文提出的方法的开发方向不同于当前主流的实时目标检测器。除了架构优化外,本文的方法还将关注训练过程的优化,重点在于一些优化模块和优化方法,这些方法可能会增加训练成本以提高目标检测的准确率,但不会增加推理成本。我们将这些模块和优化方法称为可训练的免费增益 (trainable bag-of-freebies)。
  • 最近,模型重参数化 [13, 12, 29] 和动态标签分配 [20, 17, 42] 已成为网络训练和目标检测中的重要话题。尤其是在上述新概念提出之后,目标检测器的训练出现了许多新的问题。本文将介绍我们发现的一些新问题,并设计有效的方法来解决它们。针对模型重参数化,我们通过梯度传播路径的概念,分析了适用于不同网络层的模型重参数化策略,并提出了计划性重参数化模型。此外,我们发现采用动态标签分配技术时,多输出层模型的训练会产生新的问题,即:“如何为不同分支的输出分配动态目标?”针对该问题,我们提出了一种新的标签分配方法,称为粗到精引导的标签分配(coarse-to-fine lead guided label assignment)。
  • 本文的主要贡献总结如下
    • 1)我们设计了若干可训练的BOF方法,以使实时目标检测在不增加推理成本的情况下大幅提高检测精度;
    • 2)在目标检测方法的演变过程中,我们发现了两个新问题,即如何用重参数化模块替换原模块,以及动态标签分配策略如何处理不同输出层的分配问题。此外,我们还提出了针对这些问题的解决方法;
    • 3)我们提出了“扩展”和“复合缩放”方法,用于有效利用实时目标检测器的参数和计算资源;
    • 4)我们提出的方法可有效减少约 40% 的参数量和 50% 的计算量,相比于当前最先进的实时目标检测器,具有更快的推理速度和更高的检测精度。

2. 相关研究

2.1 实时目标检测

  • 目前,最先进的实时目标检测器主要基于 YOLO [61, 62, 63] 和 FCOS [76, 77],包括 [3, 79, 81, 21, 54, 85, 23]。成为最先进的实时目标检测器通常需要具备以下特性:(1)更快且更强的网络架构;(2)更有效的特征整合方法 [22, 97, 37, 74, 59, 30, 9, 45];(3)更精确的检测方法 [76, 77, 69];(4)更稳健的损失函数 [96, 64, 6, 56, 95, 57];(5)更高效的标签分配方法 [99, 20, 17, 82, 42];以及(6)更高效的训练方法。本文不打算探讨需要额外数据或大模型的自监督学习或知识蒸馏方法,而是针对上述提到的(4)、(5)和(6)相关的先进方法所产生的问题,设计新的可训练的BOF方法。

2.2 模型重参数化

  • 模型重参数化技术 [71, 31, 75, 19, 33, 11, 4, 24, 13, 12, 10, 29, 14, 78] 在推理阶段将多个计算模块合并为一个。模型重参数化技术可以被视为一种集成方法,我们可以将其分为模块级集成和模型级集成两类。模型级重参数化有两种常见的实现方式以获得最终的推理模型。一种是使用不同的训练数据训练多个相同的模型,然后对多个训练好的模型的权重进行平均;另一种是对模型在不同迭代次数下的权重进行加权平均。模块级重参数化最近成为了更受关注的研究问题,这种方法在训练时将一个模块拆分为多个相同或不同的模块分支,在推理阶段将多个分支模块整合为一个完全等效的模块。然而,并非所有提出的重参数化模块都能完美地应用于不同的架构。基于此,我们开发了新的重参数化模块,并设计了适用于各种架构的相关应用策略。

2.3 模型缩放

  • 模型缩放 [72, 60, 74, 73, 15, 16, 2, 51] 是一种对已有设计模型进行放大或缩小,使其适配于不同计算设备的方法。模型缩放通常使用不同的缩放因子,如分辨率(输入图像大小)、深度(层数)、宽度(通道数)和阶段(特征金字塔数量),从而在网络参数量、计算量、推理速度和精度之间取得良好的平衡。网络架构搜索(NAS)是常用的模型缩放方法之一,NAS 可以在搜索空间中自动寻找合适的缩放因子,而无需定义过于复杂的规则。NAS 的缺点在于其搜索模型缩放因子所需的计算成本非常高。在文献 [15] 中,研究者分析了缩放因子与参数量和计算量之间的关系,尝试直接估算某些规则,以获得模型缩放所需的缩放因子。通过查阅文献,我们发现几乎所有模型缩放方法都是独立分析各个缩放因子的,即使是复合缩放类方法也通常是独立优化缩放因子。这是因为大多数流行的 NAS 架构处理的缩放因子相关性较低。我们观察到,所有基于连接的模型(如 DenseNet [32] 或 VoVNet [39])在缩放深度时会改变某些层的输入宽度。由于我们提出的架构基于连接,我们必须为该模型设计一种新的复合缩放方法。

3. 结构

3.1 E-ELAN(Extended efficient layer aggregation networks)

  • 在大多数关于设计高效架构的文献中,主要考虑的因素通常只有参数数量、计算量和计算密度。从内存访问成本的特点出发,Ma 等人 [55] 还分析了输入/输出通道比、架构的分支数量以及逐元素操作对网络推理速度的影响。Dollar 等人 [15] 在进行模型缩放时额外考虑了激活函数,即更多地考虑卷积层输出张量中元素的数量。图 2 (b) 中的 CSPVoVNet [79] 是 VoVNet [39] 的一种变体。除了考虑上述基本设计问题外,CSPVoVNet [79] 的架构还分析了梯度路径,以使不同层的权重能够学习到更多样化的特征。上述梯度分析方法使得推理速度更快,精度更高。图 2 © 中的 ELAN [1] 考虑了以下设计策略——“如何设计一个高效的网络?”。他们得出了一个结论:通过控制最短最长梯度路径,一个更深的网络可以有效地学习和收敛。在本文中,我们提出了基于 ELAN 的 Extended-ELAN(E-ELAN),其主要架构如图 2 (d) 所示。
    图2
  • 不管是在大规模 ELAN 中梯度路径的长度和计算块的堆叠次数,ELAN 已经达到一个稳定状态。如果无限堆叠更多的计算块,这个稳定状态可能会被破坏,导致参数利用率降低。我们提出的 E-ELAN 通过扩展、混洗和合并基数的方法,能够持续增强网络的学习能力,同时不破坏原有的梯度路径。在架构方面,E-ELAN 仅改变了计算块中的架构,而过渡层的架构完全保持不变。我们的策略是通过组卷积来扩展计算块的通道和基数。我们将相同的组参数和通道倍数应用于计算层中所有计算块。然后,计算出的特征图将按照设定的组参数 g,将每个计算块的特征图混洗成 g 组,再将它们拼接在一起。此时,每个组的特征图中的通道数与原架构中的通道数相同。最后,我们将 g 组特征图进行合并基数。通过这种方式,除了保持原有的 ELAN 设计架构,E-ELAN 还可以引导不同组的计算块学习更多样化的特征。

3.2 Model scaling for concatenation-based models

  • 模型缩放的主要目的是调整模型的某些属性,并生成不同规模的模型,以满足不同推理速度的需求。例如,EfficientNet 的缩放模型 [72] 考虑了宽度、深度和分辨率。对于缩放后的 YOLOv4 [79],其缩放模型则是调整阶段的数量。在 [15] 中,Dollar 等人分析了普通卷积和分组卷积在进行宽度和深度缩放时对参数数量和计算量的影响,并用此设计了相应的模型缩放方法。这些方法主要应用于如 PlainNet 或 ResNet 等架构。当这些架构进行上缩放或下缩放时,每一层的输入度(in-degree)和输出度(out-degree)不会改变,因此我们可以独立分析每个缩放因子对参数数量和计算量的影响。然而,如果将这些方法应用于基于拼接的架构,我们会发现,当对深度进行上缩放或下缩放时,紧接在基于拼接的计算模块后的过渡层的输入度将会减少或增加,如图 3(a)和(b)所示。可以从上述现象推测,我们不能单独分析基于拼接的模型的不同缩放因子,而必须将它们一起考虑。
  • 以深度上缩放为例,这种操作会导致过渡层的输入通道和输出通道之间的比例发生变化,这可能导致模型的硬件使用效率降低。因此,我们必须为基于拼接的模型提出相应的复合模型缩放方法。当我们对计算模块的深度因子进行缩放时,还必须计算该模块输出通道的变化。然后,我们将对过渡层进行相同量级的宽度因子缩放,结果如图 3(c)所示。我们提出的复合缩放方法可以保持模型在初始设计时的属性,并维持其最优结构。
    图3

4. 可训练的BOF(bag-of-freebies)

4.1 Planned re-parameterized convolution

  • 虽然 RepConv [13] 在 VGG [68] 上表现出色,但当我们将其直接应用于 ResNet [26]、DenseNet [32] 等架构时,其准确性会显著降低。我们使用梯度流传播路径分析了重新参数化卷积如何与不同的网络进行结合。基于此分析,我们还设计了相应的计划性重新参数化卷积方法。
  • RepConv 实际上将 3 × 3 卷积、1 × 1 卷积和恒等连接结合在一个卷积层中。在分析了 RepConv 与不同架构的组合及其对应的性能后,我们发现 RepConv 中的恒等连接破坏了 ResNet 中的残差连接,以及 DenseNet 中的拼接连接,后者为不同特征图提供了更多梯度多样性。基于这些原因,我们使用没有恒等连接的 RepConv(即 RepConvN)来设计计划性重新参数化卷积的架构。在我们的设想中,当带有残差或拼接的卷积层被重新参数化卷积替代时,应该去除恒等连接。图 4 展示了我们设计的“计划性重新参数化卷积”在 PlainNet 和 ResNet 中的应用示例。至于在基于残差模型和基于拼接模型中的完整计划性重新参数化卷积实验,将在消融研究部分展示。
    在这里插入图片描述

4.2 Coarse for auxiliary and fine for lead loss

  • 深度监督 [38] 是一种常用于训练深度网络的技术。其主要概念是在网络的中间层添加额外的辅助头,并通过浅层网络权重与辅助损失作为引导。即使是像 ResNet [26] 和 DenseNet [32] 这样通常能很好收敛的架构,深度监督 [70, 98, 67, 47, 82, 65, 86, 50] 仍然能够显著提高模型在许多任务上的表现。图 5 (a) 和 (b) 分别展示了“没有”和“有”深度监督的物体检测器架构。在本文中,我们将负责最终输出的头称为主头 (lead head),而用于辅助训练的头称为辅助头 (auxiliary head)。
    在这里插入图片描述
  • 接下来,我们讨论标签分配的问题。在过去,深度网络的训练中,标签分配通常是直接参考真实标签,并根据给定规则生成硬标签。然而,近年来,如果以物体检测为例,研究人员常常使用网络预测输出的质量和分布,并结合真实标签,采用一些计算和优化方法生成可靠的软标签 [61, 8, 36, 99, 91, 44, 43, 90, 20, 17, 42]。例如,YOLO [61] 使用预测的边界框回归与真实标签的 IoU 作为物体存在的软标签。本文中,我们称这种结合网络预测结果与真实标签,然后分配软标签的机制为“标签分配器” (label assigner)。
  • 无论是辅助头还是主头,深度监督都需要在目标任务上进行训练。在软标签分配器相关技术的发展过程中,我们偶然发现了一个新的衍生问题,即“如何为辅助头和主头分配软标签?”据我们所知,相关文献至今尚未探讨这一问题。目前最流行的方法如图 5 © 所示,即将辅助头和主头分开,分别使用它们自己的预测结果和真实标签执行标签分配。本文提出的方法是一种新的标签分配方法,通过主头的预测来引导辅助头和主头的训练。换句话说,我们使用主头的预测作为引导,生成粗到细的层次化标签,分别用于辅助头和主头的学习。两种提出的深度监督标签分配策略分别如图 5 (d) 和 (e) 所示。
  • 主头引导标签分配器主要是基于主头的预测结果和真实标签,通过优化过程生成软标签。这组软标签将作为辅助头和主头的训练目标。这样做的原因是因为主头具有相对较强的学习能力,因此从主头生成的软标签应该更能代表源数据和目标之间的分布与关联。此外,我们可以将这种学习视为一种广义的残差学习。通过让较浅的辅助头直接学习主头已经学习到的信息,主头将能更好地专注于学习尚未学习到的残差信息。
  • 粗到细主头引导标签分配器同样使用主头的预测结果和真实标签生成软标签。然而,在这个过程中,我们生成了两组不同的软标签,即粗标签和细标签,其中细标签与主头引导标签分配器生成的软标签相同,而粗标签则通过放宽正样本分配过程的约束,使更多的网格被视为正目标。这样做的原因是,辅助头的学习能力不如主头强,为了避免丢失需要学习的信息,我们将重点优化辅助头在物体检测任务中的召回率。至于主头的输出,我们可以从高召回结果中筛选出高精度的结果作为最终输出。然而,我们必须注意,如果粗标签的额外权重接近细标签的权重,可能会在最终预测中产生不良的先验。因此,为了使这些额外的粗正样本网格影响较小,我们在解码器中施加了限制,使得额外的粗正样本网格不能完美地生成软标签。上述机制使得细标签和粗标签在学习过程中能够动态调整重要性,并确保细标签的优化上限始终高于粗标签。

4.3 Other trainable bag-of-freebies

  • 在本节中,我们将列出一些可训练的“bag-offreebies”(trainable freebies)。这些bag-offreebies是我们在训练过程中使用的一些技巧,但这些原始概念并不是由我们提出的。关于这些自由的训练细节将在附录中详细阐述,包括:(1)在卷积-批归一化-激活拓扑中的批归一化:这部分主要将批归一化层直接连接到卷积层。其目的是将批归一化的均值和方差整合到卷积层的偏置和权重中,从而在推理阶段进行计算。(2)YOLOR中隐式知识与卷积特征图的加法和乘法结合:YOLOR中的隐式知识可以通过在推理阶段进行预计算来简化为一个向量。这个向量可以与前一个或后一个卷积层的偏置和权重结合。(3)EMA模型:EMA是一种在均值教师(mean teacher)中使用的技术,在我们的系统中,EMA模型纯粹用作最终的推理模型。

5. 实验

5.1 实验设置

  • 我们使用 Microsoft COCO 数据集进行实验,验证我们的目标检测方法。所有实验均未使用预训练模型,即所有模型都是从头开始训练的。在开发过程中,我们使用了 train 2017 数据集进行训练,然后使用 val 2017 数据集进行验证并选择超参数。最后,我们展示了在 test 2017 数据集上的目标检测性能,并将其与最新的目标检测算法进行比较。详细的训练参数设置在附录中描述。
  • 我们为边缘 GPU、普通 GPU 和云 GPU 设计了基本模型,分别称为 YOLOv7-tiny、YOLOv7 和 YOLOv7-W6。同时,我们还利用基本模型进行了模型扩展,以满足不同服务需求,获得了不同类型的模型。对于 YOLOv7,我们在 neck 部分进行堆叠扩展,并使用我们提出的复合扩展方法对整个模型的深度和宽度进行扩展,从而获得 YOLOv7-X。对于 YOLOv7-W6,我们使用新提出的复合扩展方法获得 YOLOv7-E6 和 YOLOv7-D6。此外,我们为 YOLOv7-E6 使用了提出的 EELAN,从而完成了 YOLOv7-E6E。由于 YOLOv7-tiny 是面向边缘 GPU 的架构,因此它将使用 leaky ReLU 作为激活函数;其他模型则使用 SiLU 作为激活函数。我们将在附录中详细描述每个模型的扩展因子。

5.2 Baseline

  • 我们选择了 YOLO 的前一版本 [3, 79] 和最先进的目标检测器 YOLOR [81] 作为我们的基准。表 1 显示了我们提出的 YOLOv7 模型与这些基准模型的比较,所有模型都在相同设置下进行训练。
    在这里插入图片描述

  • 从结果可以看出,与 YOLOv4 相比,YOLOv7 在参数数量上减少了 75%,计算量减少了 36%,同时提高了 1.5% 的 AP。与最先进的 YOLOR-CSP 相比,YOLOv7 的参数减少了 43%,计算量减少了 15%,AP 提高了 0.4%。在 tiny 模型的性能方面,与 YOLOv4-tiny-31 相比,YOLOv7-tiny 减少了 39% 的参数和 49% 的计算量,但 AP 保持不变。在云 GPU 模型中,我们的模型仍能在减少 19% 参数和 33% 计算量的同时,获得更高的 AP。

5.3 Comparison with state-of-the-arts

  • 我们将所提出的方法与最先进的目标检测器在通用 GPU 和移动 GPU 上进行了比较,结果如表 2 所示。从表 2 中的结果可以看出,所提出的方法在速度与准确度的权衡方面表现最好。如果将 YOLOv7-tiny-SiLU 与 YOLOv5-N (r6.1) 进行比较,我们的方法在 AP 上提高了 10.7%,且比 YOLOv5-N 快了 127 fps。此外,YOLOv7 在 161 fps 的帧率下达到 51.4% 的 AP,而具有相同 AP 的 PPYOLOE-L 仅有 78 fps 的帧率。在参数使用方面,YOLOv7 比 PPYOLOE-L 少了 41%。如果将 YOLOv7-X 与 YOLOv5-L (r6.1) 进行比较,YOLOv7-X 在 114 fps 的推理速度下,AP 提高了 3.9%。与同规模的 YOLOv5-X (r6.1) 比较,YOLOv7-X 的推理速度提高了 31 fps。此外,在参数量和计算量方面,YOLOv7-X 减少了 22% 的参数和 8% 的计算量,但 AP 提高了 2.2%。在这里插入图片描述
  • 如果将 YOLOv7 与 YOLOR 在输入分辨率 1280 下进行比较,YOLOv7-W6 的推理速度比 YOLOR-P6 快 8 fps,同时检测精度(AP)也提高了 1%。在 YOLOv7-E6 与 YOLOv5-X6 (r6.1) 的比较中,YOLOv7-E6 比后者的 AP 提高了 0.9%,同时参数量减少了 45%,计算量减少了 63%,推理速度提高了 47%。YOLOv7-D6 的推理速度接近 YOLOR-E6,但 AP 提高了 0.8%。YOLOv7-E6E 的推理速度接近 YOLOR-D6,但 AP 提高了 0.3%。

5.4 消融实验

5.4.2 Proposed compound scaling method
  • 表 3 显示了使用不同模型缩放策略进行放大时得到的结果。其中,我们提出的复合缩放方法是将计算块的深度放大 1.5 倍,并将过渡块的宽度放大 1.25 倍。如果将我们的方法与仅放大宽度的方式进行比较,我们的方法在减少参数量和计算量的情况下,能够提升 AP 0.5%。如果与仅放大深度的方式进行比较,我们的方法只需要增加 2.9% 的参数量和 1.2% 的计算量,但 AP 提高了 0.2%。从表 3 的结果可以看出,我们提出的复合缩放策略能够更高效地利用参数和计算资源。
    在这里插入图片描述
5.4.2 Proposed planned re-parameterized model
  • 为了验证我们提出的计划重参数化模型的普适性,我们分别在基于拼接的模型和基于残差的模型上进行了验证。我们选择的验证模型分别是 3 层堆叠的 ELAN 和 CSPDarknet。
  • 在基于拼接的模型实验中,我们将 3 层堆叠 ELAN 中不同位置的 3 × 3 卷积层替换为 RepConv,具体配置如图 6 所示。从表 4 显示的结果可以看出,我们提出的计划重参数化模型在所有情况下都取得了更高的 AP 值。
  • 在处理基于残差的模型实验中,由于原始的 dark block 并没有符合我们设计策略的 3 × 3 卷积块,我们为实验额外设计了一个反向 dark block,其架构如图 7 所示。由于 CSPDarknet 中的 dark block 和反向 dark block 在参数量和计算量上完全相同,因此进行比较是公平的。表 5 中的实验结果充分证明了我们提出的计划重参数化模型在基于残差的模型上同样有效。我们发现,RepCSPResNet [85] 的设计也符合我们的设计模式。
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述
5.4.3 Proposed assistant loss for auxiliary head
  • 在辅助头实验中的助手损失(assistant loss)比较中,我们比较了常规的独立标签分配方法与两个提出的引导标签分配方法(lead guided label assignment)。所有的比较结果如表 6 所示。从表 6 中列出的结果可以清楚地看出,任何增加助手损失的模型都能显著提高整体性能。此外,我们提出的引导标签分配策略(lead guided label assignment)在 AP、AP50 和 AP75 上都优于常规的独立标签分配策略。至于我们提出的“粗标签用于辅助头,精标签用于引导头”策略,在所有情况下都得到了最好的结果。在图 8 中,我们展示了不同方法在辅助头和引导头的目标置信度图(objectness map)。从图 8 中可以看到,如果辅助头学习引导标签(lead guided soft label),确实有助于引导头从一致的目标中提取剩余信息(residual information)。

在这里插入图片描述
在这里插入图片描述

  • 在表 7 中,我们进一步分析了提出的粗到精引导标签分配方法对辅助头解码器的影响。也就是说,我们比较了引入与不引入上限约束(upper bound constraint)的方法的结果。从表中的数字可以看出,通过根据物体中心距离来约束物体置信度的上限,可以获得更好的性能。
    在这里插入图片描述
  • 由于提出的 YOLOv7 使用多个金字塔联合预测物体检测结果,我们可以直接将辅助头连接到中间层的金字塔进行训练。这种训练方式能够弥补在下一层金字塔预测中可能丢失的信息。基于上述原因,我们在提出的 E-ELAN 架构中设计了部分辅助头。我们的方法是在合并基数之前,将辅助头连接到特征图的某一组集上,这种连接方式可以使得新生成的特征图集的权重不会直接受到辅助损失的更新。我们的设计使得每个金字塔的主头仍然能够从不同大小的物体中获取信息。表 8 展示了使用两种不同方法得到的结果,即粗到精引导主头方法和部分粗到精引导主头方法。显然,部分粗到精引导方法在辅助效果上表现更好。
    在这里插入图片描述

6. Conclusions

  • 本文提出了一种新的实时物体检测器架构及相应的模型缩放方法。此外,我们发现物体检测方法的演变过程产生了新的研究课题。在研究过程中,我们发现了重新参数化模块的替换问题和动态标签分配的分配问题。为了解决这些问题,我们提出了可训练的“bag-of-freebies”方法,以增强物体检测的准确性。基于上述工作,我们开发了 YOLOv7 系列物体检测系统,取得了最先进的成果。

7. 更多比较

  • YOLOv7 超越了所有已知的物体检测器,在速度和准确性方面均表现突出,特别是在 5 FPS 至 160 FPS 范围内,并且在 GPU V100 上以 30 FPS 或更高帧率运行时,拥有最高的 56.8% AP(test-dev)和 56.8% AP(min-val)准确率。YOLOv7-E6 物体检测器(56 FPS V100,55.9% AP)在速度上比基于变换器的检测器 SWIN-L Cascade-Mask R-CNN(9.2 FPS A100,53.9% AP)快了 509%,在准确性上提高了 2%;比基于卷积的检测器 ConvNeXt-XL Cascade-Mask R-CNN(8.6 FPS A100,55.2% AP)快了 551%,且准确性提高了 0.7%。此外,YOLOv7 在速度和准确性上也超越了:YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、DETR、Deformable DETR、DINO-5scale-R50、ViT-Adapter-B 以及其他许多物体检测器。而且,YOLOv7 仅在 MS COCO 数据集上从头开始训练,未使用任何其他数据集或预训练权重。
  • YOLOv7-E6E 的最大准确率为 56.8% AP,比当前最准确的 Meituan/YOLOv6-s 模型(43.1% AP)高出 13.7% AP,且在 COCO 数据集上进行测试。与此同时,我们的 YOLOv7-tiny(35.2% AP,0.4 ms)模型在相同条件下,较 Meituan/YOLOv6-n(35.0% AP,0.5 ms)更快 25% 并且准确率提高了 0.2%(在 COCO 数据集和 V100 GPU 上,batch=32)。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

参考文献

1. anonymous. Designing network design strategies. anonymous submission, 2022. 3  
2. Irwan Bello, William Fedus, Xianzhi Du, Ekin Dogus Cubuk, Aravind Srinivas, Tsung-Yi Lin, Jonathon Shlens, and Barret Zoph. Revisiting ResNets: Improved training and scaling strategies. Advances in Neural Information Processing Systems (NeurIPS), 34, 2021. 2  
3. Alexey Bochkovskiy, Chien-Yao Wang, and HongYuan Mark Liao. YOLOv4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934, 2020. 2, 6, 7  
4. Yue Cao, Thomas Andrew Geddes, Jean Yee Hwa Yang, and Pengyi Yang. Ensemble deep learning in bioinformatics. Nature Machine Intelligence, 2(9):500–508, 2020. 2  
5. Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In Proceedings of the European Conference on Computer Vision (ECCV), pages 213–229, 2020. 10  
6. Kean Chen, Weiyao Lin, Jianguo Li, John See, Ji Wang, and Junni Zou. AP-loss for accurate one-stage object detection. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 43(11):3782–3798, 2020. 2  
7. Zhe Chen, Yuchen Duan, Wenhai Wang, Junjun He, Tong Lu, Jifeng Dai, and Yu Qiao. Vision transformer adapter for dense predictions. arXiv preprint arXiv:2205.08534, 2022. 10  
8. Jiwoong Choi, Dayoung Chun, Hyun Kim, and Hyuk-Jae Lee. Gaussian YOLOv3: An accurate and fast object detector using localization uncertainty for autonomous driving. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 502–511, 2019. 5  
9. Xiyang Dai, Yinpeng Chen, Bin Xiao, Dongdong Chen, Mengchen Liu, Lu Yuan, and Lei Zhang. Dynamic head: Unifying object detection heads with attentions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 7373–7382, 2021. 2  
10. Xiaohan Ding, Honghao Chen, Xiangyu Zhang, Kaiqi Huang, Jungong Han, and Guiguang Ding. Reparameterizing your optimizers rather than architectures. arXiv preprint arXiv:2205.15242, 2022. 2  
11. Xiaohan Ding, Yuchen Guo, Guiguang Ding, and Jungong Han. ACNet: Strengthening the kernel skeletons for powerful CNN via asymmetric convolution blocks. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 1911–1920, 2019. 2  
12. Xiaohan Ding, Xiangyu Zhang, Jungong Han, and Guiguang Ding. Diverse branch block: Building a convolution as an inception-like unit. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10886–10895, 2021. 2  
13. Xiaohan Ding, Xiangyu Zhang, Ningning Ma, Jungong Han, Guiguang Ding, and Jian Sun. RepVGG: Making VGG-style convnets great again. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 13733–13742, 2021. 2, 4  
14. Xiaohan Ding, Xiangyu Zhang, Yizhuang Zhou, Jungong Han, Guiguang Ding, and Jian Sun. Scaling up your kernels to 31x31: Revisiting large kernel design in CNNs. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022. 2  
15. Piotr Dollar, Mannat Singh, and Ross Girshick. Fast and accurate model scaling. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 924–932, 2021. 2, 3  
16. Xianzhi Du, Barret Zoph, Wei-Chih Hung, and Tsung-Yi Lin. Simple training strategies and model scaling for object detection. arXiv preprint arXiv:2107.00057, 2021. 2  
17. Chengjian Feng, Yujie Zhong, Yu Gao, Matthew R Scott, and Weilin Huang. TOOD: Task-aligned one-stage object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 3490–3499, 2021. 2, 5  
18. Di Feng, Christian Haase-Schutz, Lars Rosenbaum, Heinz Hertlein, Claudius Glaeser, Fabian Timm, Werner Wiesbeck, and Klaus Dietmayer. Deep multi-modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges. IEEE Transactions on Intelligent Transportation Systems, 22(3):1341–1360, 2020. 1  
19. Timur Garipov, Pavel Izmailov, Dmitrii Podoprikhin, Dmitry P Vetrov, and Andrew G Wilson. Loss surfaces, mode connectivity, and fast ensembling of DNNs. Advances in Neural Information Processing Systems (NeurIPS), 31, 2018. 2  
20. Zheng Ge, Songtao Liu, Zeming Li, Osamu Yoshie, and Jian Sun. OTA: Optimal transport assignment for object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 303–312, 2021. 2, 5  
21. Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun. YOLOX: Exceeding YOLO series in 2021. arXiv preprint arXiv:2107.08430, 2021. 1, 2, 7, 10  
22. Golnaz Ghiasi, Tsung-Yi Lin, and Quoc V Le. NAS-FPN: Learning scalable feature pyramid architecture for object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 7036–7045, 2019. 2  
23. Jocher Glenn. YOLOv5 release v6.1. https://github.com/ultralytics/yolov5/releases/tag/v6.1, 2022. 2, 7, 10  
24. Shuxuan Guo, Jose M Alvarez, and Mathieu Salzmann. ExpandNets: Linear over-parameterization to train compact convolutional networks. Advances in Neural Information Processing Systems (NeurIPS), 33:1298–1310, 2020. 2  
25. Kai Han, Yunhe Wang, Qi Tian, Jianyuan Guo, Chunjing Xu, and Chang Xu. GhostNet: More features from cheap operations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1580–1589, 2020. 1  
26. Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 770–778, 2016. 1, 4, 5  
27. Andrew Howard, Mark Sandler, Grace Chu, Liang-Chieh Chen, Bo Chen, Mingxing Tan, Weijun Wang, Yukun Zhu, Ruoming Pang, Vijay Vasudevan, et al. Searching for MobileNetV3. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1314–1324, 2019. 1  
28. Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. MobileNets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017. 1  
29. Mu Hu, Junyi Feng, Jiashen Hua, Baisheng Lai, Jianqiang Huang, Xiaojin Gong, and Xiansheng Hua. Online convolutional re-parameterization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022. 2  
30. Miao Hu, Yali Li, Lu Fang, and Shengjin Wang. A2-FPN: Attention aggregation based feature pyramid network for instance segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 15343–15352, 2021. 2  
31. Gao Huang, Yixuan Li, Geoff Pleiss, Zhuang Liu, John E Hopcroft, and Kilian Q Weinberger. Snapshot ensembles: Train 1, get m for free. International Conference on Learning Representations (ICLR), 2017. 2  
32. Gao Huang, Zhuang Liu, Laurens Van Der Maaten, and  Kilian Q Weinberger. Densely connected convolutional networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 4700–4708, 2017. 2, 5
33. Pavel Izmailov, Dmitrii Podoprikhin, Timur Garipov, Dmitry Vetrov, and Andrew Gordon Wilson. Averaging weights leads to wider optima and better generalization. In Conference on Uncertainty in Artificial Intelligence (UAI), 2018. 2  
34. Paul F Jaeger, Simon AA Kohl, Sebastian Bickelhaupt, Fabian Isensee, Tristan Anselm Kuder, Heinz-Peter Schlemmer, and Klaus H Maier-Hein. Retina U-Net: Embarrassingly simple exploitation of segmentation supervision for medical object detection. In Machine Learning for Health Workshop, pages 171–183, 2020. 1  
35. Hakan Karaoguz and Patric Jensfelt. Object detection approach for robot grasp detection. In IEEE International Conference on Robotics and Automation (ICRA), pages 4953–4959, 2019. 1  
36. Kang Kim and Hee Seok Lee. Probabilistic anchor assignment with iou prediction for object detection. In Proceedings of the European Conference on Computer Vision (ECCV), pages 355–371, 2020. 5  
37. Alexander Kirillov, Ross Girshick, Kaiming He, and Piotr Dollar. Panoptic feature pyramid networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 6399–6408, 2019. 2  
38. Chen-Yu Lee, Saining Xie, Patrick Gallagher, Zhengyou Zhang, and Zhuowen Tu. Deeply-supervised nets. In Artificial Intelligence and Statistics, pages 562–570, 2015. 5  
39. Youngwan Lee, Joong-won Hwang, Sangrok Lee, Yuseok Bae, and Jongyoul Park. An energy and GPU-computation efficient backbone network for real-time object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pages 0–0, 2019. 2, 3  
40. Buyu Li, Wanli Ouyang, Lu Sheng, Xingyu Zeng, and Xiaogang Wang. GS3D: An efficient 3d object detection framework for autonomous driving. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1019–1028, 2019. 1  
41. Feng Li, Hao Zhang, Shilong Liu, Jian Guo, Lionel M Ni, and Lei Zhang. DN-DETR: Accelerate detr training by introducing query denoising. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 13619–13627, 2022. 10  
42. Shuai Li, Chenhang He, Ruihuang Li, and Lei Zhang. A dual weighting label assignment scheme for object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 9387–9396, 2022. 2, 5  
43. Xiang Li, Wenhai Wang, Xiaolin Hu, Jun Li, Jinhui Tang, and Jian Yang. Generalized focal loss v2: Learning reliable localization quality estimation for dense object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 11632–11641, 2021. 5  
44. Xiang Li, Wenhai Wang, Lijun Wu, Shuo Chen, Xiaolin Hu, Jun Li, Jinhui Tang, and Jian Yang. Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection. Advances in Neural Information Processing Systems (NeurIPS), 33:21002–21012, 2020. 5  
45. Yanghao Li, Hanzi Mao, Ross Girshick, and Kaiming He. Exploring plain vision transformer backbones for object detection. arXiv preprint arXiv:2203.16527, 2022. 2  
46. Zhuoling Li, Minghui Dong, Shiping Wen, Xiang Hu, Pan Zhou, and Zhigang Zeng. CLU-CNNs: Object detection for medical images. Neurocomputing, 350:53–59, 2019. 1  
47. Tingting Liang, Xiaojie Chu, Yudong Liu, Yongtao Wang, Zhi Tang, Wei Chu, Jingdong Chen, and Haibin Ling. CBNetV2: A composite backbone network architecture for object detection. arXiv preprint arXiv:2107.00420, 2021. 5, 10  
48. Ji Lin, Wei-Ming Chen, Han Cai, Chuang Gan, and Song Han. Memory-efficient patch-based inference for tiny deep learning. Advances in Neural Information Processing Systems (NeurIPS), 34:2346–2358, 2021. 1  
49. Ji Lin, Wei-Ming Chen, Yujun Lin, Chuang Gan, Song Han, et al. MCUNet: Tiny deep learning on IoT devices. Advances in Neural Information Processing Systems (NeurIPS), 33:11711–11722, 2020. 1  
50. Yuxuan Liu, Lujia Wang, and Ming Liu. YOLOStereo3D: A step back to 2D for efficient stereo 3D detection. In IEEE International Conference on Robotics and Automation (ICRA), pages 13018–13024, 2021. 5
[51] Ze Liu, Han Hu, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, Jia Ning, Yue Cao, Zheng Zhang, Li Dong, et al. Swin transformer v2: Scaling up capacity and resolution. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022. 2
[52] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 10012–10022, 2021. 10
[53] Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, and Saining Xie. A ConvNet for the 2020s. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 11976–11986, 2022. 10
[54] Rangi Lyu. NanoDet-Plus. https://github.com/RangiLyu/nanodet/releases/tag/v1.0.0-alpha-1, 2021. 1, 2
[55] Ningning Ma, Xiangyu Zhang, Hai-Tao Zheng, and Jian Sun. ShuffleNet V2: Practical guidelines for efficient CNN architecture design. In Proceedings of the European Conference on Computer Vision (ECCV), pages 116–131, 2018. 1, 3
[56] Kemal Oksuz, Baris Can Cam, Emre Akbas, and Sinan Kalkan. A ranking-based, balanced loss function unifying classification and localisation in object detection. Advances in Neural Information Processing Systems (NeurIPS), 33:15534–15545, 2020. 2
[57] Kemal Oksuz, Baris Can Cam, Emre Akbas, and Sinan Kalkan. Rank & sort loss for object detection and instance segmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 3009–3018, 2021. 2
[58] Shuvo Kumar Paul, Muhammed Tawfiq Chowdhury, Mircea Nicolescu, Monica Nicolescu, and David FeilSeifer. Object detection and pose estimation from rgb and depth data for real-time, adaptive robotic grasping. In Advances in Computer Vision and Computational Biology, pages 121–142. 2021. 1
[59] Siyuan Qiao, Liang-Chieh Chen, and Alan Yuille. DetectoRS: Detecting objects with recursive feature pyramid and switchable atrous convolution. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10213–10224, 2021. 2
[60] Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, and Piotr Dollar. Designing network design spaces. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10428–10436, 2020. 2
[61] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look once: Unified, real-time object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 779–788, 2016. 2, 5
[62] Joseph Redmon and Ali Farhadi. YOLO9000: better, faster, stronger. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 7263–7271, 2017. 2
[63] Joseph Redmon and Ali Farhadi. YOLOv3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018. 1, 2
[64] Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid, and Silvio Savarese. Generalized intersection over union: A metric and a loss for bounding box regression. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 658–666, 2019. 2
[65] Byungseok Roh, JaeWoong Shin, Wuhyun Shin, and Saehoon Kim. Sparse DETR: Efficient end-to-end object detection with learnable sparsity. arXiv preprint arXiv:2111.14330, 2021. 5
[66] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. MobileNetV2: Inverted residuals and linear bottlenecks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 4510–4520, 2018. 1
[67] Zhiqiang Shen, Zhuang Liu, Jianguo Li, Yu-Gang Jiang, Yurong Chen, and Xiangyang Xue. Object detection from scratch with deep supervision. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 42(2):398–412, 2019. 5
[68] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 4
[69] Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, Masayoshi Tomizuka, Lei Li, Zehuan Yuan, Changhu Wang, et al. Sparse R-CNN: End-to-end object detection with learnable proposals. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 14454–14463, 2021. 2
[70] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1–9, 2015. 5
[71] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2818–2826, 2016. 2
[72] Mingxing Tan and Quoc Le. EfficientNet: Rethinking model scaling for convolutional neural networks. In International Conference on Machine Learning (ICML), pages 6105–6114, 2019. 2, 3
[73] Mingxing Tan and Quoc Le. EfficientNetv2: Smaller models and faster training. In International Conference on Machine Learning (ICML), pages 10096–10106, 2021. 2
[74] Mingxing Tan, Ruoming Pang, and Quoc V Le. EfficientDet: Scalable and efficient object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10781–10790, 2020. 2, 10
[75] Antti Tarvainen and Harri Valpola. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results. Advances in Neural Information Processing Systems (NeurIPS), 30, 2017. 2, 6
Here is the list of references in the order you provided:
[76] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. FCOS: Fully convolutional one-stage object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 9627–9636, 2019. 2
[77] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. FCOS: A simple and strong anchor-free object detector. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 44(4):1922–1933, 2022. 2
[78] Pavan Kumar Anasosalu Vasu, James Gabriel, Jeff Zhu, Oncel Tuzel, and Anurag Ranjan. An improved one millisecond mobile backbone. arXiv preprint arXiv:2206.04040, 2022. 2
[79] Chien-Yao Wang, Alexey Bochkovskiy, and HongYuan Mark Liao. Scaled-YOLOv4: Scaling cross stage partial network. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 13029–13038, 2021. 2, 3, 6, 7
[80] Chien-Yao Wang, Hong-Yuan Mark Liao, Yueh-Hua Wu, Ping-Yang Chen, Jun-Wei Hsieh, and I-Hau Yeh. CSPNet: A new backbone that can enhance learning capability of CNN. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pages 390–391, 2020. 1
[81] Chien-Yao Wang, I-Hau Yeh, and Hong-Yuan Mark Liao. You only learn one representation: Unified network for multiple tasks. arXiv preprint arXiv:2105.04206, 2021. 1, 2, 6, 7, 10
[82] Jianfeng Wang, Lin Song, Zeming Li, Hongbin Sun, Jian Sun, and Nanning Zheng. End-to-end object detection with fully convolutional network. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 15849–15858, 2021. 2, 5
[83] Bichen Wu, Chaojian Li, Hang Zhang, Xiaoliang Dai, Peizhao Zhang, Matthew Yu, Jialiang Wang, Yingyan Lin, and Peter Vajda. FBNetv5: Neural architecture search for multiple tasks in one run. arXiv preprint arXiv:2111.10007, 2021. 1
[84] Yunyang Xiong, Hanxiao Liu, Suyog Gupta, Berkin Akin, Gabriel Bender, Yongzhe Wang, Pieter-Jan Kindermans, Mingxing Tan, Vikas Singh, and Bo Chen. MobileDets: Searching for object detection architectures for mobile accelerators. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 3825–3834, 2021. 1
[85] Shangliang Xu, Xinxin Wang, Wenyu Lv, Qinyao Chang, Cheng Cui, Kaipeng Deng, Guanzhong Wang, Qingqing Dang, Shengyu Wei, Yuning Du, et al. PPYOLOE: An evolved version of YOLO. arXiv preprint arXiv:2203.16250, 2022. 2, 7, 8, 10
[86] Zetong Yang, Yin Zhou, Zhifeng Chen, and Jiquan Ngiam. 3D-MAN: 3D multi-frame attention network for object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1863–1872, 2021. 5
[87] Fisher Yu, Dequan Wang, Evan Shelhamer, and Trevor Darrell. Deep layer aggregation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2403–2412, 2018. 1
[88] Guanghua Yu, Qinyao Chang, Wenyu Lv, Chang Xu, Cheng Cui, Wei Ji, Qingqing Dang, Kaipeng Deng, Guanzhong Wang, Yuning Du, et al. PP-PicoDet: A better realtime object detector on mobile devices. arXiv preprint arXiv:2111.00902, 2021. 1
[89] Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M Ni, and Heung-Yeung Shum. DINO: DETR with improved denoising anchor boxes for end-to-end object detection. arXiv preprint arXiv:2203.03605, 2022. 10
[90] Haoyang Zhang, Ying Wang, Feras Dayoub, and Niko Sunderhauf. VarifocalNet: An IoU-aware dense object detector. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 8514–8523, 2021. 5
[91] Shifeng Zhang, Cheng Chi, Yongqiang Yao, Zhen Lei, and Stan Z Li. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 9759–9768, 2020. 5
[92] Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and Jian Sun. ShuffleNet: An extremely efficient convolutional neural network for mobile devices. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 6848–6856, 2018. 1
[93] Yifu Zhang, Peize Sun, Yi Jiang, Dongdong Yu, Zehuan Yuan, Ping Luo, Wenyu Liu, and Xinggang Wang. BYTETrack: Multi-object tracking by associating every detection box. arXiv preprint arXiv:2110.06864, 2021. 1
[94] Yifu Zhang, Chunyu Wang, Xinggang Wang, Wenjun Zeng, and Wenyu Liu. FAIRMOT: On the fairness of detection and re-identification in multiple object tracking. International Journal of Computer Vision, 129(11):3069–3087, 2021. 1
[95] Zhaohui Zheng, Ping Wang, Wei Liu, Jinze Li, Rongguang Ye, and Dongwei Ren. Distance-IoU loss: Faster and better learning for bounding box regression. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), volume 34, pages 12993–13000, 2020. 2
[96] Dingfu Zhou, Jin Fang, Xibin Song, Chenye Guan, Junbo Yin, Yuchao Dai, and Ruigang Yang. IoU loss for 2D/3D object detection. In International Conference on 3D Vision (3DV), pages 85–94, 2019. 2
[97] Xingyi Zhou, Dequan Wang, and Philipp Krahenbühl. Objects as points. arXiv preprint arXiv:1904.07850, 2019. 1, 2
[98] Zongwei Zhou, Md Mahfuzur Rahman Siddiquee, Nima Tajbakhsh, and Jianming Liang. UNet++: A nested UNet architecture for medical image segmentation. In Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support, 2018. 5
[99] Benjin Zhu, Jianfeng Wang, Zhengkai Jiang, Fuhang Zong, Songtao Liu, Zeming Li, and Jian Sun. AutoAssign: Differentiable label assignment for dense object detection. arXiv preprint arXiv:2007.03496, 2020. 2, 5
[100] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable DETR: Deformable transformers for end-to-end object detection. In Proceedings of the International Conference on Learning Representations (ICLR), 2021. 10

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/470004.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java基于SpringBoot+Vue的宠物共享平台的设计与实现(附源码,文档)

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

对称加密与非对称加密:密码学的基石及 RSA 算法详解

对称加密与非对称加密:密码学的基石及 RSA 算法详解 在当今数字化的时代,信息安全至关重要。对称加密和非对称加密作为密码学中的两种基本加密技术,为我们的数据安全提供了强大的保障。本文将深入探讨对称加密和非对称加密的特点、应用场景&…

43.第二阶段x86游戏实战2-提取游戏里面的lua

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 本人写的内容纯属胡编乱造,全都是合成造假,仅仅只是为了娱乐,请不要…

基于matlab的CNN食物识别分类系统,matlab深度学习分类,训练+数据集+界面

文章目录 前言🎓一、数据集准备🎓二、模型训练🍀🍀1.初始化🍀🍀2.加载数据集🍀🍀3.划分数据集,并保存到新的文件夹🍀🍀4.可视化数据集&#x1f34…

【webrtc】 RTP 中的 MID(Media Stream Identifier)

RTP 中的 MID(Media Stream Identifier) RID及其与MID的区别 cname与mid的对比【webrtc】CNAME 是rtprtcp中的Canonical Name(规范化名称) 同样都是RTP头部扩展: 基于mediasoup的最新的代码,学习,发现mid在创建RtpSendStream时是必须传递的参数: 例如 D:\XTRANS\soup\…

Node.Js+Knex+MySQL增删改查的简单示例(Typescript)

数据库: CREATE DATABASE MyDB; CREATE TABLE t_users (user_id int(11) NOT NULL,user_name varchar(10) NOT NULL ) ENGINEInnoDB DEFAULT CHARSETutf8; 项目结构: package.json如下,拷贝并替换你们本地的package.json后运行 npm install 命令安装所需要的依赖。…

【MATLAB代码】二维平面上的TDOA,使用加权最小二乘法,不限制锚点数量,代码可复制粘贴

本文所述的MATLAB代码实现了一个基于两步加权最小二乘法的二维目标定位算法,利用多个锚点(基站)和时间差到达(TDOA)数据来估计未知目标的位置。 订阅专栏后可以看到完整代码,复制到MATLAB空脚本上面即可直接运行。若需要单独下载,可通过下面的链接:https://download.cs…

python数据写入excel文件

主要思路:数据 转DataFrame后写入excel文件 一、数据格式为字典形式1 k e , v [‘1’, ‘e’, 0.83, 437, 0.6, 0.8, 0.9, ‘好’] 1、这种方法使用了 from_dict 方法,指定了 orient‘index’ 表示使用字典的键作为行索引,然…

【深度学习】LSTM、BiLSTM详解

文章目录 1. LSTM简介:2. LSTM结构图:3. 单层LSTM详解4. 双层LSTM详解5. BiLSTM6. Pytorch实现LSTM示例7. nn.LSTM参数详解 1. LSTM简介: LSTM是一种循环神经网络,它可以处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM通…

使用ookii-dialogs-wpf在WPF选择文件夹时能输入路径

在进行WPF开发时,System.Windows.Forms.FolderBrowserDialog的选择文件夹功能不支持输入路径: 希望能够获得下图所示的选择文件夹功能: 于是,通过NuGet中安装Ookii.Dialogs.Wpf包,并创建一个简单的工具类: …

【leetcode练习·二叉树】用「分解问题」思维解题 II

本文参考labuladong算法笔记[【强化练习】用「分解问题」思维解题 II | labuladong 的算法笔记] 技巧一 类似于判断镜像二叉树、翻转二叉树的问题,一般也可以用分解问题的思路,无非就是把整棵树的问题(原问题)分解成子树之间的问…

Qt 编写插件plugin,支持接口定义信号

https://blog.csdn.net/u014213012/article/details/122434193?spm1001.2014.3001.5506 本教程基于该链接的内容进行升级,在编写插件的基础上,支持接口类定义信号。 环境:Qt5.12.12 MSVC2017 一、创建项目 新建一个子项目便于程序管理【…

PaaS云原生:分布式集群中如何构建自动化压测工具

场景 测试环境中,压测常常依赖环境中的各种工具获取基础信息,而这些工具可能集中在某个中控机上,此时想打造的自动化工具的运行模式是: 通过中控机工具获取压测所需的基本信息在中控机部署压测工具,实际压测任务分发…

关于sass在Vue3中编写bem框架报错以及警告问题记录

在编写完bem框架后 在vite.config.ts文件进行预编译处理时,报错的错误 1. 处理方式:使用新版api, 如图: 2. 处理方式:使用 use 替换掉 import, 如图: 3. 处理方式:使用路径别名&am…

内置RTK北斗高精度定位的4G执法记录仪、国网供电服务器记录仪

内置RTK北斗高精度定位的4G执法记录仪、国网供电服务器记录仪BD311R 发布时间: 2024-10-23 11:28:42 一、 产品图片: 二、 产品特性: 4G性能:支持2K超高清图传,数据传输不掉帧,更稳定。 独立北…

【前端】深入浅出的React.js详解

React 是一个用于构建用户界面的 JavaScript 库,由 Facebook 开发并维护。随着 React 的不断演进,官方文档也在不断更新和完善。本文将详细解读最新的 React 官方文档,涵盖核心概念、新特性、最佳实践等内容,帮助开发者更好地理解…

【Elasticsearch入门到落地】1、初识Elasticsearch

一、什么是Elasticsearch Elasticsearch(简称ES)是一款非常强大的开源搜索引擎,可以帮助我们从海量数据中快速找到需要的内容。它使用Java编写,基于Apache Lucene来构建索引和提供搜索功能,是一个分布式、可扩展、近实…

扫雷游戏代码分享(c基础)

hi , I am 36. 代码来之不易👍👍👍 创建两个.c 一个.h 1:test.c #include"game.h"void game() {//创建数组char mine[ROWS][COLS] { 0 };char show[ROWS][COLS] { 0 };char temp[ROWS][COLS] { 0 };//初始化数…

ORA-01092 ORA-14695 ORA-38301

文章目录 前言一、MAX_STRING_SIZE--12C 新特性扩展数据类型 varchar2(32767)二、恢复操作1.尝试恢复MAX_STRING_SIZE参数为默认值2.在upgrade模式下执行utl32k.sql 前言 今天客户发来一个内部测试库数据库启动截图报错,描述是“上午出现服务卡顿,然后重…

ODOO学习笔记(3):Odoo和Django的区别是什么?

Odoo和Django都是基于Python的开源框架,但它们的设计目标和用途有所不同: 设计目标和用途: Odoo:Odoo是一个企业资源规划(ERP)系统,它提供了一套完整的商业管理软件,包括会计、库存…