YOLOv12 ——基于卷积神经网络的快速推理速度与注意力机制带来的增强性能结合

概述

实时目标检测对于许多实际应用来说已经变得至关重要，而Ultralytics公司开发的YOLO（You Only Look Once，只看一次）系列一直是最先进的模型系列，在速度和准确性之间提供了稳健的平衡。注意力机制的低效阻碍了它们在像YOLO这样的高速系统中的应用。YOLOv12旨在通过将注意力机制集成到YOLO框架中来改变这一现状。

1.新特性

大多数目标检测架构传统上依赖于卷积神经网络（CNN），因为注意力机制效率低下，面临着二次计算复杂度和低效的内存访问操作问题。因此，在对推理速度要求很高的YOLO框架中，基于CNN的模型通常比基于注意力的系统表现更好。

YOLOv12通过引入三个关键改进来克服这些限制：

区域注意力模块（A2）：

YOLOv12引入了一个简单而高效的区域注意力模块（A2），该模块将特征图分割成多个片段，在保留大感受野的同时降低了传统注意力机制的计算复杂度。这种简单的修改使模型在保持较大视野的同时提高了速度和效率。

残差高效层聚合网络（R - ELAN）：

YOLOv12利用R - ELAN来解决注意力机制带来的优化挑战。R - ELAN对之前的ELAN架构进行了改进，具体如下：
- 块级残差连接和缩放技术，以确保训练的稳定性。
- 重新设计的特征聚合方法，提高了性能和效率。

架构改进：

快速注意力（Flash Attention）：快速注意力的集成解决了注意力机制的内存访问瓶颈问题，优化了内存操作并提高了速度。
去除位置编码：通过消除位置编码，YOLOv12简化了模型，使其更快、更简洁，同时不牺牲性能。
调整多层感知机（MLP）比率：多层感知机的扩展比率从4降低到1.2，以平衡注意力网络和前馈网络之间的计算负载，提高效率。
减少块深度：通过减少架构中堆叠块的数量，YOLOv12简化了优化过程并提高了推理速度。
卷积算子：YOLOv12广泛使用卷积操作以利用其计算效率，进一步提高性能并降低延迟。

注：

由于两个因素，注意力机制本质上比卷积神经网络（CNN）慢：

复杂性。首先，自注意力操作的计算复杂度随输入序列长度 L 呈二次方增长。此外，另一个重要因素是，大多数基于注意力的视觉变压器由于其复杂的设计（例如，Swin 变压器中的窗口划分/反转
）和额外模块的引入（例如，位置编码），逐渐积累了速度开销。
计算。其次，在注意力计算过程中，与 CNN 相比，内存访问模式效率较低，例如注意力图和 softmax 图。此外，与 CNN 相比，注意力中的不规则内存访问模式会引入更多的延迟。

2.YOLOv12的架构概述

图1：YOLOv12的主干网络和头部网络架构

3.区域注意力模块

图2：区域注意力可视化

为了解决普通注意力机制相关的计算成本问题，YOLOv12利用了局部注意力机制，如移位窗口注意力、十字交叉注意力和轴向注意力。虽然这些方法通过将全局注意力转换为局部注意力来降低复杂度，但由于感受野减小，它们在速度和准确性方面存在局限性。

提出的解决方案：YOLOv12引入了一个简单而高效的区域注意力模块。该模块将分辨率为（H，W）的特征图分割成L个大小为（H/L，W）或（H，W/L）的片段。它不是使用显式的窗口划分，而是应用了一个简单的重塑操作。
优点：这将感受野减小到原来的四分之一，但与其他局部注意力方法相比，仍然保持了较大的感受野。通过将计算成本从传统的（2n²hd）降低到（n²hd）/2，模型在不牺牲准确性的情况下变得更加高效。

4.残差高效层聚合网络（R - ELAN）

图3：YOLOv12中使用的R - ELAN

ELAN概述：

高效层聚合网络（ELAN） 在早期的YOLO模型中用于改进特征聚合。ELAN的工作方式如下：

对1×1卷积层的输出进行分割。
通过多个模块处理这些分割后的部分。
在应用另一个1×1卷积以对齐最终维度之前，将输出进行拼接。

ELAN存在的问题：

梯度阻塞：由于从输入到输出缺乏残差连接，导致训练不稳定。
优化挑战：注意力机制和架构可能会导致收敛问题，L规模和X规模的模型即使使用Adam或AdamW优化器也无法收敛或保持不稳定。

提出的解决方案——R - ELAN：

残差连接：引入了从输入到输出的残差捷径，带有一个缩放因子（默认值为0.01），以提高稳定性。
层缩放类比：类似于深度视觉Transformer中使用的层缩放，但避免了将层缩放应用于每个区域注意力模块而导致的速度下降。

新的聚合方法：

修改后的设计：新方法不是在过渡层之后分割输出，而是调整通道维度并创建单个特征图。
瓶颈结构：在拼接之前通过后续块处理特征图，形成更高效的聚合方法。

5.架构改进

快速注意力（Flash Attention）：YOLO12利用了快速注意力，它最大限度地减少了内存访问开销。这解决了注意力机制的主要内存瓶颈问题，缩小了与CNN的速度差距。
MLP比率调整：前馈网络的扩展比率从Transformer中通常的4降低到YOLOv12中的约1.2。这防止了MLP在运行时占据主导地位，从而提高了整体效率。
去除位置编码：YOLOv12在其注意力层中省略了显式的位置编码。这使得模型“快速且简洁”，同时在检测性能上没有损失。
减少堆叠块：最近的YOLO主干网络在最后一个阶段堆叠了三个注意力/CNN块；而YOLOv12在该阶段只使用了一个R - ELAN块。较少的顺序块简化了优化过程并提高了推理速度，尤其是在更深的模型中。
卷积算子：该架构还使用了带有批量归一化的卷积，而不是带有层归一化的线性层，以充分利用卷积算子的效率。

6.基准测试

图4：YOLOv12的比较

数据集：所有模型均在MS COCO 2017目标检测基准上进行评估。

YOLOv12 - N的性能：最小的YOLOv12 - N模型实现了40.6%的更高平均精度均值（mAP），相比之下，YOLOv10 - N为38.5%，YOLOv11 - N为39.4%，同时保持了相似的推理延迟。

YOLOv12 - S与RT - DETR的比较：YOLOv12 - S模型也优于RT - DETR模型。值得注意的是，它的运行速度比RT - DETR - R18模型快约42%，同时只使用了RT - DETR - R18模型约36%的计算量和约45%的参数。

每个YOLOv12模型（从N到X）在与YOLOv8、YOLOv9、YOLOv10、YOLOv11等类似大小的模型相比时，在相当或更低的延迟下实现了更好的mAP。这种优势从小型模型到大型模型都存在，证明了YOLOv12改进的可扩展性。

7. 最先进技术比较

例如：对于N 规模的模型，YOLOv12 - N 在平均精度均值（mAP）上分别比 YOLOv6–3.0 - N [32]、 YOLOv8-N [58]、 YOLOv10-N [53] 和 YOLOv11 [28] 高出 3.6%、3.3%、2.1% 和 1.2%，同时保持相似甚至更少的计算量和参数，并实现了1.64 毫秒/图像的快速延迟速度。

对于S 规模的模型，YOLOv12 - S 具有 21.4G 浮点运算量（FLOPs）和 9.3M 参数，在 2.61 毫秒/图像的延迟下实现了 48.0 mAP。它在平均精度均值（mAP）上分别比 YOLOv8-S [24]、YOLOv9-S [58]、YOLOv10-S [53] 和 YOLOv11 - S [28] 高出 3.0%、1.2%、1.7% 和 1.1%，同时保持相似或更少的计算量。
对于M 规模的模型，YOLOv12 - M 具有 67.5G 浮点运算量（FLOPs）和 20.2M 参数，实现了 52.5 mAP 的性能和 4.86 毫秒/图像的速度。
对于L 规模的模型，YOLOv12 - L 甚至比 YOLOv10-L [53] 少 31.4G 浮点运算量（FLOPs）。
对于X 规模的模型，YOLOv12 - X 在平均精度均值（mAP）上分别比 YOLOv10-X [53] / YOLOv11 - X [28] 高出 0.8% 和 0.6%，同时具有相当的速度、浮点运算量（FLOPs）和参数。