目录
论文信息
背景
摘要
YOLOv8模型结构
模型改进
FFC3 模块
CSPPF 模块
数据集增强策略
实验结果
消融实验
对比实验
结论
论文信息
《科学技术与工程》2024年第24卷第32期刊载了中国民用航空飞行学院空中交通管理学院孔建国, 张向伟, 赵志伟, 梁海军的论文——“基于改进 YOLOv8 的机场飞鸟实时目标检测方法”。
题目:基于改进YOLOv8的机场飞鸟实时目标检测方法
作者:孔建国、张向伟、赵志伟、梁海军
论文链接:
http://www.stae.com.cn/jsygc/article/abstract/2309930?st=article_issue
背景
鸟击是指飞行器在起降或飞行过程中与鸟类相撞而引发的飞行安全或事故征候。根据美国联邦航空局(Federal Aviation Administration, FAA)公布的野生动物撞击数据库的数据显示,与飞机撞击的野生动物种类主要为鸟类。1990—2022 年,该数据库共记录了276846起鸟击事件报告,其中272016起发生在美国本土。数据库还显示鸟击件数量呈逐年上升趋势。鸟类对航空器的飞行事构成严重威胁,是民航安全领域一项难以控制却又不可忽视的安全风险因素。因此,对机场附近飞鸟的准确实时监测显得至关重要。这种监测能够为机场的驱鸟工作提供决策支持,有助于保障民航运营。
摘要
飞鸟对航空器的安全运行有着严重的威胁。常用探鸟方法中,人工探测精度较低,雷达探测成本较高。为解决上述问题,对中小型机场而言,本文提出基于改进YOLOv8的机场飞鸟实时检测方法。利用视频监控设备来检测飞鸟能以较低的成本实现高效的检测精度及速度。首先,设计了特征融合C3 (feature fusion C3, FFC3)模块,该模块在更细粒度的层次上实现多尺度特征融合,然后为模型选择合适的通道数,实现了检测速度和精度的平衡。其次,设计了CSPPF (CBAM-spatial pyramid pooling fast)模块,在SPPF中引入CBAM (convolutional block attention module)模块,实现检测精度和速度的进一步提升。最后,发现了原AirBirds数据集的两点不足之处,对此改进了机场飞鸟数据集,同时利用了数据集增强技术。结果表明,改进YOLOv8的mAP@50达到0.820,相比原YOLOv8提升了0.015;改进YOLOv8的速度达到32 帧/s。改进YOLOv8满足机场鸟类检测实时性和精确性的要求,为复杂环境下中小机场飞鸟检测提供了一种新思路。
YOLOv8模型结构
YOLOV8s的模型结构如图1所示。YOLOv8s由 Backbone、Neck、Head 组成。Backbone 的主要作用是提取图像特征;Neck 使用 PANet 特征金字塔网络处理不同大小的目标,主要融合来自多个层级的特征图;Head 用于执行最终的目标检测,它使用从骨干网络及Neck提取的特征图来预测边界框和目标的类别。YOLOv8是一种Anchor free的目标检测模型,这表明YOLOv8 的检测速度会更快。
模型改进
改进后的 YOLOv8s 目标检测模型如图 2 所示。首先,设计 FFC3模块,该模块在模块内部充分利用了不同层级的特征图,以实现融合不同层级特征图,增强了网络的小目标检测性能。随后,由于观察到在本数据集内存在大量特征较为单一的鸟类实例,具体表现为鸟类实例所占像素比较少、颜色较为单一、绝大部分鸟类均为飞鸟且其背景颜色即为天空的颜色。由此可知,在 YOLOv8s 网络的每层特征图中可能存在着冗余特征,于是便探究网络的宽度对模型整体性能的影响。其次,提出 CSPPF 模块,该模块是由空间金字塔池化模块( SPPF) 改进而来。CSPPF 模块有效避免了对图像区域裁剪、缩放而导致图像失真的问题;同时解决了卷积神经网络对图相关重复特征提取的问题,提高了生产候选框的速度,节省计算成本。通过引入 CBAM 注意力机制,使得网络将注意力放在更加感兴趣的区域上,从而提高模型检测性能。最后,使用数据集增强策略缓解了数据集较为紧张的问题,提高了目标检测性能。
-
FFC3 模块
在小目标检测领域中,多尺度表示特征非常重要。在众多特征融合(即多尺度特征)方法中,较常见的方法为 FPN、PANet、BiFPN 等,这些方法往往将卷积神经网络的不同层连接以实现特征融合。本研究寻求在更加细粒度的层次上提高多尺度特征表示能力,因此舍弃了 YOLOv8 特征提取网络中原有的 C2f 模块,提出了新的 FFC3 模块,与网络尺度的多尺度特征融合方法不同的是,FFC3 能在更细粒度层次上实现多尺度特征融合。FFC3 模块的引入能够在不增加网络计算量的前提下,进一步提高网络融合多尺度特征的能力,使得网络能在更加细粒度的层次上融合多尺度特征,解决了目标检测网络经过多次卷积后小目标物体特征丢失的问题,提高机场飞鸟小目标检测性能,FFC3 模块的结构如图 3 所示。
-
CSPPF 模块
在机场鸟类检测任务中,可能会遇到阴天、多云、雨雪和沙尘暴等复杂天气的影响,此时检测鸟类容易受到复杂天气背景的影响,使用原 YOLOv8模型容易漏检或误检,为提升网络目标检测性能而引入了注意力机制。注意力机制能在复杂图像中快速确定感兴趣的区域,使该区域获取更多的权重,因此使得网络更加专注于这些区域,从而获得更有价值的细节信息。注意力机制还使得网络在算力资源不足的情况下将更多的算力分配给上述区域,从而提高网络的运行效率。在飞鸟检测中,注意力机制使得模型关注鸟类目标的关键特征,而降低图像上其他区域的权重,从而提高目标检测性能。提出融合 CBAM 注意力机制的 SPPF 模CS块,即PPF 模块。CSPPF 模块的结构如图 4 ( a) 所示。在进行空间金字塔池化操作之前,首先让特征图通过 CBAM 注意力机制,这样输出的特征图便对图像中更加关键的信息赋予更高的权重,提高网络处理图像的效率。CBAM 注意力机制结合了空间注意力模块(spatial attention module, SAM) 和通道注意力模块(channel attention module, CAM),如图 4(b)所示。特征图首先通过通道注意力模块加权,具体流程为,输出特征图首先通过并行的最大池化层和平均池化层,将特征图大小从原来的C×H×W (C为通道数,H为高,W 为宽),变为C×1×1,然后经过共享 MLP 模块,在该模块中,它先将通道数压缩为原来的1/R(其中 R 为减少率) 倍,再扩张到原通道数,经过 ReLU 激活函数得到两个激活后的结果。将这两个输出结果进行逐元素相加,再通过一个Sigmoid 激活函数得到通道注意力模块的输出结果,再将这个输出结果乘以原图,变回C×H×W的大小。
数据集增强策略
由于在机场飞鸟数据集中有一只或少数几只飞鸟的情况,存在一张图片中只,而整个数据集大小仅5354张图片,所以应用数据增强算法来扩充数据集,以增强小飞鸟目标检测模型的泛化性。本次研究应用的数据增强算法为翻转(上下、左右翻转)、旋转(可指定旋转的度数)、图像缩放(可指定缩放的尺度大小)、随机裁剪以及 Mosaic 数据增强。Mosaic 数据增强可以在模型的每次迭代之前将 4 张训练集图片进行随机裁剪,拼接为一张图片来执行本轮次的训练。这种方法极大丰富了训练数据的多样性,扩充了样本数量。最终提高模型的泛化性和鲁棒性。Mosaic 数据增强效果图如图 5所示。
实验结果
改进 YOLOv8s 模型的训练结果如图 7 所示。在训练的前50轮中,模型的 mAP@ 50 曲线震荡较为明显,在这段时间内,模型的训练集和验证集损失下降较快。在 50 轮之后模型的 mAP@ 50、P、R曲线逐渐趋于平缓,不再有明显的震荡出现,验证集和训练集损失也由剧烈震荡下降变为平缓下降。训练过程中没有出现明显的过拟合和欠拟合现象。
模型的训练过程中验证集模型上的精度进行对比,结果如图 8(a)所示。在约50个训练轮次之后,改进 YOLOv8s 在验证集上的 mAP@ 50 值要优于原模型。再用训练好的模型在4张测试集图片上进行前向推理,模型成功检测到4张图片中的全部飞鸟实例,其中,图8 ( b) 两张图片中的鸟类目标较小,图 8(c)两张图片中的鸟类目标较大。
-
消融实验
消融实验经常被应用于神经网络的实验中以用来验证某一模块或者某一改进对网络的影响,可其核心是控制变量。本次实验的消融实验结果如表3所示。从表3可以看出,引入的3项改进最终提高了模型的mAP@ 50、FPS,降低了模型的参数量及权重大小。相比于改进前的YOLOv8s模型,改进后的模型 mAP@ 50 提高了0. 015,FPS 提高的最明显,提高了 8 帧/ s,参数量从原来的11. 1 M 降低为4. 50 M,模型的权重大小也得到了很大的降低,从原来的22. 6 MB降低为9. 40 MB。仔细分析消融实验的结果发现,FFC3模块的引入对网络提升准确率有着较大的影响;降低模型的通道数使得模型在很少降低准确率的前提下,大大降低模型的参数量、计算量和权重大小,同时促进了模型推理速度的提升;而CSPPF 模块的引入,不仅提高了精度,而且进一步提升了网络的推理速度,使网络可达每秒可处理32张图片的优秀成绩。
-
对比实验
将改进后的YOLOv8s模型与其他深度学习目标检测模型做了对比,实验结果如表4所示。对比实验所用数据集为本研究改进的机场飞鸟数据集,实验过程软硬件环境配置和超参数配置与3. 2节保持一致。改进 YOLOv8s 模型在所有模型中的 mAP@ 50值最高,为0. 820。检测速度最快的是YOLOv4-tiny,其FPS值高达 67 帧/ s,但值得注意的是,其mAP@ 50值的大小仅有本文方法的60. 5% 。RT-DETR是目标检测领域较新的模型,但其mAP@50比改进YOLOv8s低 0. 159。改进YOLOv8s的模型权重大小是所有模型当中最小的,这样使得改进YOLOv8s模型容易部署在内存资源受限制的计算平台上。相比于其他模型的参数量和计算量,改进YOLOv8s的参数量和计算量也达到了不错的成绩。其参数量控制在4. 50 M;计算量最低,为12. 1。综上,改进YOLOv8s模型在下列模型中的性能表现维持在较高的水平。改进后YOLOv8s模型能够应用于机场飞鸟视觉检测系统,以辅助机场驱鸟设备进行决策。
结论
针对人工机场飞鸟检测精度低速度慢,雷达监测成本高的问题,提出基于图像的深度学习机场飞鸟检测方法,得到如下结论。
(1)在机场跑道附近部署分布式监控设备,对跑道及其附近空域进行实时监控,将改进YOLOv8s算法部署至中央处理设备上对从监控设备传来的图像数据执行目标检测任务,模型对机场飞鸟检测的正确率达到0. 820,且FPS达到32帧/ s,符合实时目标检测任务的要求。改进YOLOv8s模型相比其他模型,准确率更高,检测速度也相对较快。并且模型大小和参数量较低,达到模型轻量化的目的。后续研究应当设计更精确、更快速的目标检测算法,同时将目标跟踪算法应用到鸟类探测中去,以提高对飞鸟的精确感知能力。
(2)为了在更细粒度层次上进行特征融合,提出了FFC3模块,该方法增强了网络特征融合能力,提高了模型的检测精度。
(3)改进了机场飞鸟数据集并使用多种数据增强算法。讨论了机场飞鸟数据集中鸟类实例大小、颜色、背景特征,针对网络宽度做了改进,降低了模型的参数量、权重大小与计算量。
(4)将CBAM注意力机制引入到快速空间金字塔池化模块 SPPF 中,使网络更加专注于重要信息,提高网络检测性能。
(5)将改进YOLOv8算法与机场防鸟设备相结合,形成自动化的防鸟系统。这种集成能使得设备能够更精确、更快速地跟踪和定位鸟类目标,提供对鸟类行为和习性的洞察。分析这些数据甚至可以更精准地了解机场附近鸟类的活动习性,从而能够采取更有效的鸟类威慑措施。目标探测和驱鸟工作的结合是当下民用航空领域的一个重要趋势,它通过更快速和准确的检测飞鸟,加速了防鸟工作的进行,确保了民用航空运行的安全和效率。
如果您有兴趣了解更多关于先进的算法模型的使用方法等,欢迎关注我们,我们将继续为大家带来更多干货内容!