原创不易,转载请标明本文地址
目标检测一直是计算机视觉领域的核心问题之一,它就像是让计算机拥有了一双“鹰眼”,能在复杂的图像中迅速锁定和识别出各种有趣的目标,比如人、汽车、动物或者任何其他特定物体。在这一章,将会介绍并实际部署目标检测。
本章主要涉及到的知识点有:
- 目标检测概念:介绍目标检测的发展历史和基本概念,包括它的技术演变、关键算法以及在各种实际应用中的应用。
- 目标检测模型的分类:了解两类目标检测模型,理解它们的区别和实际应用。
目标检测中的YOLO模型深入解析:全面掌握YOLO模型的结构、工作原理以及如何在实际情况中高效应用。 - 模型部署:从环境部署开始,理解并学会搭建属于自己的YOLO模型,训练自己的数据集,并将结果应用到日常生活中。
一、目标检测技术概述
本节将从目标检测的重要性与应用出发,详尽地介绍目标检测的核心原理与方法,目的是帮助读者了解目标检测的工作机制和实现技术。通过本节的学习,读者将能够掌握目标检测的基本分类与关键概念,为后续模型的实际部署做准备。
1.1 目标检测的重要性与应用
目标检测,也称为目标提取,属于计算机视觉的四大核心任务之一,包括分类、定位、检测和分割。这项技术通过分析目标的几何和统计特征,实现图像的有效分割和识别。简单地说,目标检测的任务是确定图像中包含哪些元素以及这些元素的具体位置,通常通过矩形框或者分割曲线来标记这些元素,如图1所示。
-------------------------------------------------------------------------------图1------------------------------------------------------------------------------
目标检测的大致发展如表1所示。这些方法依靠简单的特征提取和模式识别技术来识别图像中的物体。虽然这些技术在处理低复杂度图像时表现良好,但在更复杂的实际场景中却效果有限,因为它们无法处理物体多尺度的变化和各种程度上的遮挡,因此目标检测技术在当时只是实验室的研究产物,距离实现生产生活中的实际应用仍有鸿沟。
年份 | 研究人员 | 主要贡献 | 描述 |
---|---|---|---|
1970s | — | 早期目标检测方法 | 基于传统图像处理方法,如边缘检测和区域生长,使用手工特征进行图像特征表示。 |
2001 | 保罗·维奥拉(Paul Viola) & 迈克尔·琼斯(Michael Jones) | Viola-Jones 检测器 | 提出了一个基于简单特征的增强级联分类器,在保持相同检测精度的情况下,运算速度显著优于当时的其他算法。 |
2005 | N. Dalal & B. Triggs | 方向梯度直方图(HOG)特征描述器 | 在图像的局部区域内统计梯度方向的出现频率。将图像分割成小的单元(cells),每个单元内的梯度方向被统计并放入直方图中。为了提高鲁棒性,通常将相邻单元组成更大的块(blocks)并进行局部归一化处理。 |
2008 | Pedro Felzenszwalb | 可变形部件模型(DPM) | 扩展了HOG检测器,提出了一种基于部件的对象检测模型,不仅考虑对象的整体特征,还考虑其局部部件的形态和相对位置,能够处理部件间的变形,提高在物体部分遮挡或姿态变化情况下的检测效果。 |
后续发展 | Ross Girshick 等研究者 | DPM 的改进与深度学习整合 | 提高了DPM的训练和检测速度,通过整合深度学习技术,进一步提升了检测的精度和鲁棒性,增强了其在计算机视觉领域的应用效果。 |
随着硬件技术的快速发展和深度学习技术的飞速进步,目标检测的准确性已显著提高,并且在复杂环境中的表现已大大超越了早期的传统方法,越来越多的学者致力于研究更高效更准确的目标算法,并将其从高成本的高算力平台移植并部署在资源受限的边缘设备,服务在我们生活中的方方面面,如图2中所示,在工业自动化领域,它助力机器人识别并操作物体;在安全监控系统中,它能自动侦测潜在的威胁或不寻常行为;而在自动驾驶领域,目标检测是确保车辆正确感知周边环境并安全行驶的关键技术。除此之外,从医疗影像分析到线下智能零售,再到智能手机等边缘设备的智能识别,目标检测技术都展现了其广泛的应用潜力和实际价值。
--------------------------------------------------(a)--------------------------------------------------------------------------------------(b)------------------------------------------ --------------------------------------------------(c)--------------------------------------------------------------------------------------(d)------------------------------------------图2(a)为应用于机器人的目标检测 (b)为在自动驾驶领域的应用(c)为癌症病灶分割(d)为智能零售概念图
1.2 基于回归的单阶段( One-stage) 目标检测模型
目前的目标检测模型主要有两大类,一类是基于候选区域的双阶段(Two-stage)目标检测模型,另一类是基于回归的单阶段(One-stage) 目标检测模型。单阶段目标检测算法中,常见的模型包括YOLO、SSD和Faster R-CNN等。尤其是YOLO(You Only Look Once)系列算法,以其高效的准确率和便捷的部署方式,在工业界广受青睐。下面我们将以YOLO为例,详细介绍单阶段目标检测算法的核心特性。
与传统的目标检测方法(如基于滑动窗口的方法)不同,YOLO将整个图像分割成一个SxS的网格。每个网格单元负责预测中心点落在该单元内的目标。每个网格负责预测B个包含类别、边界框相对坐标和置信度的One-hot向量,使得算法能够有效地在图像中检测并识别目标物体。如图3所示,为YOLO第一代版本YOLOv1的架构图,这是一种用于目标检测的深度神经网络。从输入到输出,从左到右围为各种类型的层——包括卷积层(Conv. Layer)、最大池化层(Maxpool Layer)和全连接层(Conn. Layer)。这个网络通过多次卷积和池化处理图像,逐步降低空间维度,同时增加深度,以此来提取图像的特征,最终通过全连接层输出目标的类别和位置。为了应对图像中目标尺度的多样性,YOLOv3引入了特征金字塔网络(FPN)机制。该机制通过在Darknet53-tiny基础网络上加入多级下采样和上采样层,产生三种不同分辨率的特征图,分别对应大、中、小尺度的目标。最高分辨率的特征图侧重于小目标的检测,而较低分辨率的特征图则更适合大目标的检测,从而提升了整体的检测精度和效率。考虑到原始图像到网格的映射会大幅降低分辨率,而且目标检测和识别主要在网格单元上进行,这种设计显著减少了计算量。然而,这也可能导致同一目标被多个网格单元重复预测,进而产生多个重叠的预测框。为解决这一问题,YOLO采用了非最大抑制(NMS)技术。NMS的工作原理是:首先根据预测框的置信度进行降序排列,选取置信度最高的框作为参考框,然后移除所有与此参考框交并比(IoU)超过特定阈值的框。接着从剩余的框中选取置信度最高的作为新的参考框,重复此过程,直到所有框都处理完毕。 图4(a) 是人脸检测的候选框结果,每个边界框有一个置信度得分(confidence score),如果不使用非极大值抑制,就会有多个候选框出现。 图4(b)是使用非极大值抑制之后的结果,删除了多余的检测框,使检测结果更加符合实际需要。
图3 YOLOv1的架构图
--------------------------------------------------------------------------------图4--------------------------------------------------------------------------
此外,为进一步优化YOLO算法,可以考虑多模型融合的思想,结合多个不同配置或版本的YOLO模型来进行多模型融合集成判断。这种方法可以在一定程度上集成不同模型的优势,增强目标检测的鲁棒性和准确性。例如,可以将YOLOv3与YOLOv4的检测结果进行融合,利用YOLOv4在速度和精度上的优势,与YOLOv3在特定场景下的优异表现相结合,以期达到更好的检测效果。
YOLOv5是Ultralytics团队在2020年推出的一个升级版本,相较于以往的模型在处理速度和检测精度方面都实现了显著提升。该模型结构更为轻量,整合了多种规模的卷积层与池化层来有效提取图像特征。YOLOv5的架构主要分为三大部分:骨干网络、颈部网络和预测端。骨干网络主要由卷积层、C3模块和SPPF模块构成,用于初步提取图像特征。颈部网络融合了FPN和PAN的结构,其中FPN负责将深层的高级特征向浅层传递,而PAN则增强了自底向上的信息流,改善了特征的空间定位能力。在预测端,模型输出三种不同分辨率的特征图(80×80、40×40、20×20),分别对应小型、中型和大型目标的检测。这种设计使得YOLOv5能够更精确地处理不同大小的目标。
YOLOv8 是由 Ultralytics 公司开发的最新一代目标检测模型,于 2023 年 1 月正式发布。它继承了 YOLO 系列模型的核心优势,并加入了多种创新特性和改进。YOLOv8 根据网络深度和宽度的不同分为不同的版本,包括 YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8 和 YOLOv8x,这些版本的网络结构基本相同,唯一的区别在于它们的深度和宽度,以满足不同任务和性能要求,使得用户可以根据自己的具体用例找到合适的模型,如图5所示,为YOLOv8的架构图。、
--------------------------------------------------------------------------------图5--------------------------------------------------------------------------
YOLOv9是由Chien-Yao Wang、I-Hau Yeh和Hong-Yuan Mark Liao共同提出的新一代目标检测系统,它引入了一种新的网络架构——广义高效层聚合网络(GELAN),结合了高效的层聚合模块和计算模块。此架构优化了模型的深度和宽度,以最大限度地提高精确度同时减少计算需求。GELAN的设计是模块化的,允许其在不同的模型大小和计算限制中有效地扩展。另外,它还引入了了可编程梯度信息(PGI)模块,增强了训练过程,通过确保更可靠的学习梯度。这极大提高了小型模型的训练精度,因为小型模型常常受到噪声或不可靠梯度的困扰,这会影响训练效率和模型收敛。因此,在性能上,YOLOv9上表现出色,显著超过了如YOLOv5等之前的版本,无论是在精确度还是效率上都有所提升。它在如MS COCO数据集这样的基准测试上取得了更高的平均精度,同时使用更少的参数和计算资源。例如,与YOLOv8相比,YOLOv9模型在平均精度上提高了至多1.7%,并且同时减少了参数数量和计算开销。
--------------------------------------------------------------------------------图6--------------------------------------------------------------------------
YOLOv10是YOLO系列的最新迭代版本,在实时目标检测领域实现了显著的性能提升。此版本通过引入多项创新技术,有效提高了检测速度和准确性,同时显著降低了计算成本。在架构创新和训练策略方面,YOLOv10采用了双标签分配策略,结合一对多和一对一的标签分配,提供了丰富的监督信号,并允许在不使用非最大抑制(NMS)的情况下实现端到端的部署,极大地提高了推断阶段的效率。为了平衡模型性能与计算效率,YOLOv10引入了轻量级的分类头部和空间-通道解耦的下采样技术,以及基于层级的块设计,优化了模型在各种尺度上的表现,特别是在小物体检测方面表现出色。如图7所示,在多个标准基准测试中,YOLOv10展现出比前几代YOLO版本和其他先进模型更高的效率和精确度,尤其在延迟和参数数量方面均显示出显著改进,同时在保持或提升检测性能的基础上,大幅提升了推理速度。
-----------------------------------------------------------图7 YOLOv10和其它模型的对比--------------------------------------------------------------------------
注意:YOLO系列模型是单阶段目标检测算法模型的一个典型代表,因此将重点介绍,以便更好地理解这类模型。