论文分享·简介
本推文详细介绍了一篇实验室的最新论文成果《DS MYOLO: A Reliable Object Detector Based on SSMs for Driving Scenarios》,该论文已被第27届国际模式识别大会(ICPR)接收,论文的第一作者为李杨。论文提出了一种基于状态空间模型(SSM)的实时目标检测器(DS MYOLO)来精确检测驾驶场景下的多尺度变化目标,从而增强自动驾驶辅助系统的安全性。通过在交通标志数据集CCTSDB 2021和车辆标志数据集VLD-45上的实验比较,验证了DS MYOLO能够更加可靠的检测多尺度目标,与类似规模的YOLO系列实时目标检测器(YOLOv5-v10)相比,DS MYOLO表现出显著的潜力和竞争优势。本推文由李杨撰写,审校为陆新颖和朱旺。
原文链接:
http://arxiv.org/abs/2409.01093
1. 会议介绍
第27届国际模式识别大会(ICPR)将于2024年12月1日至5日在印度加尔各答隆重举行。ICPR起始于1972年,是国际模式识别联合会(IAPR)组织的模式识别领域的旗舰学术会议,每两年召开一次,主办国家或地区由国际模式识别联合会的理事会提前四年经无记名投票决定。大会涵盖了计算机视觉、机器学习、图像、语音、传感器模式处理等多个热门研究领域。ICPR为中国人工智能学会(CAAI)B类会议,中国计算机学会(CCF)C类会议。
2. 研究背景及主要贡献
近年来,深度学习的快速发展不断为计算机视觉提供新的见解。在自动驾驶场景中,实时检测和准确识别交通标志和车辆身份对于提高辅助驾驶系统的安全性至关重要。然而,驾驶场景中的目标尺度和大小往往差异较大,导致视觉特征不显著,且容易受到噪声干扰,这将对辅助驾驶系统造成潜在的安全隐患。近年来,基于卷积神经网络(CNN)的YOLO网络因其损耗小且性能高而受到学术界和工业界的广泛关注。然而,CNN的局部关注性导致难以有效检测不同尺度的目标。虽然Transformer的自注意力具有全局建模效应,但其二次计算复杂度导致计算成本较大。最近,基于状态空间模型的Mamba凭借其线性复杂度和全局选择性扫描机制,在自然语言、视觉等领域受到了许多研究人员的关注。鉴于Mamba的出色表现,我们提出了一种新颖可靠的目标检测器:称为DS MYOLO。我们的贡献可以概括为:
1)我们设计了一种简化的扫描融合模块(SimVSS Block),该模块主要由Mamba块与前馈网络串联组成,并通过残差连接增强梯度通信,在享受较低的计算成本下促进深层特征的进一步融合。
2)提出了一种高效通道注意力卷积算子(ECAConv),通过解耦卷积的输出通道并执行跨通道的注意力交互,ECAConv显著建立了通道之间的依赖关系并增强表示,同时保持与标准卷积类似的计算复杂度。
3)我们基于提出的SimVSS Block和ECAConv,进一步设计了不同规模的DS MYOLO(-N/-S/-M)实时目标检测器。在CCTSDB 2021和VLD-45上与最先进的实时目标检测器相比,DS MYOLO表现出强大的竞争力。
3. 方法
图1 DS MYOLO的整体架构
DS MYOLO的整体架构如图1所示。在主干网络中,Stem由SC、批量归一化和SiLU激活函数组成,顺序堆叠并下采样两次,产生大小为H/4和W/4,通道为C1的特征向量。为了有效提取主干网络中丰富的特征,采用ECAConv进行步幅为2的下采样,并利用ECACSP进一步捕获丰富的局部特征。我们在颈部网络之前引入了融合层,该融合层使用三个SimVSS Block来实现特征层{P3, P4, P5}的深度融合,同时享受较低的计算复杂度。在颈部网络中,我们遵循PAFPN的架构并通过ECACSP来提取不同尺度的特征。我们使用了最新的无NMS的解耦头设计(YOLOv10),它有效地解码输入中的小、中、大型目标,并高效地执行检测。
4. 实验
(1)实施细节
我们在PyTorch框架内使用单个NVIDIA 4090GPU进行实验。所有实验均从头开始训练200个Epoch,不使用任何预训练权重。使用SGD优化器,并有3个Epoch的预热期,将初始学习率从0.01降到0.0001,动量大小为0.937。输入大小固定为640×640,批量大小为16。数据增强策略包括随机缩放、平移和Mosaic等,并在最后10个Epoch禁用Mosaic。
(2)实验结果
我们将所提出的DS MYOLO与YOLO系列中其他最新最先进的实时目标检测器进行比较,其中包括YOLOv5-v10,以及Gold-YOLO,使用的指标包括模型参数量(M),计算量(G),mAP(%),检测框精度(%)和召回率(%)。
如表1所示,我们在CCTSDB 2021上将不同版本的DS MYOLO与最先进的YOLO实时目标检测器进行了比较。总体来说,DS MYOLO在多个指标上都表现出色,在轻量级模型中,DS MYOLO-N以4M参数量和9G计算量实现了52.22%的最高准确率和88.1%的检测框精度。进一步扩大模型规模时,DS MYOLO(-S/-M)仍然保证了可靠的检测性能,并明显超越了现有最先进的实时目标检测器。
表1 在CCTSDB 2021上与最先进的YOLO实时目标检测器的性能比较
如表2所示,我们在VLD-45上对轻量级的实时目标检测器进行了对比评估。几种轻量级模型的检测精度均达到了95%以上。在mAP方面,我们的DS MYOLO取得了最高的mAP、mAP50和mAP75。在检测框精度和召回率方面,DS MYOLO仍然表现最优,分别达到 97.7% 和 93.2%。总体而言,DS MYOLO 在整体性能方面表现较好,这表明在目标尺度变化剧烈的驾驶场景中,DS MYOLO具有更加可靠的性能。
表2 在VLD-45上与最先进的YOLO实时目标检测器的性能比较
(3)CAM可视化
图2展示了YOLOv5,YOLOv8,YOLOv10和DS MYOLO在CCTSDB 2021上的CAM可视化结果。可以看出,我们的DS MYOLO能够准确地检测到目标位置,并为检测区域分配更高的权重。此外,DS MYOLO能够聚焦不同尺度的目标,从而降低误检率。
图2 在CCSTDB 2021上的CAM可视化结果
5. 总结
论文提出了一种基于SSM的实时目标检测器(DS MYOLO)来精确检测驾驶场景下的多尺度变化目标,从而增强自动驾驶辅助系统的安全性。设计的SimVSS Block有效增强了深度网络中的特征融合。此外,所提出的高效通道注意力卷积(ECAConv)显著增强了跨通道特征交互。在CCTSDB 2021交通标志数据集和VLD-45车辆标志数据集上进行的大量实验表明,我们的DS MYOLO在同等规模的YOLO系列实时目标检测器中实现了最高性能,并表现出强大的竞争力。