零基础学yolo系列

1.目标检测算法分类

基于深度学习的主流目标检测算法根据有无候选框生成阶段，分为双阶段目标检

测算法和单阶段目标检测算法两类

双阶段检测模型 将检测问题划分为两个阶段，首先产生候选区域，然后对候选区域分类并对目标位置进行精修，如R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN、Mask R-CNN等模型。

单阶段检测模型 不需要产生候选区域阶段，直接产生物体的类别概率和位置坐标值，经过单次检测即可直接得到最终的检测结果，因此它们的检测速度更快，如YOLO系列、SSD系列、Retina-Net等模型。

2.目标检测评价指标

目标检测效果的主要评价指标有mAP、IoU等，而评价检测速度的指标有FPS、 FLOPs等。

2.1 mAP

mAP（mean average precision）是各类别AP的平均值，其中AP是PR （precision-recall）曲线和坐标围起来的面积组成，用于表示不同召回率下检测的平均正确性，是对一个特定类别下目标检测器效果的评估。mAP值越高，表明该目标

检测模型在给定的数据集上的检测效果越好。

2.2 IoU

交并比（intersection over union，IoU）：针对目标检测任务，IoU度量表示的是预测的边框和原图片标注的真实边框的交叠率，是两检测框的交集比上其并集。当IoU为 1的时候则说明预测的效果达到最佳。针对检测框P 和真实边框 G ，IoU的计算公式为

2.3 FPS（frame per second）和FLOPs（floating point operations）

是常用于度量目标检测算法速度的评价指标。其中FPS代表检测器每秒可以处理的图片帧数，数值越大代表检测速度越快。FLOPs即浮点运算数是衡量算法与模型的复杂度的指标，模型FLOPs与许多因素有关，比如参数量、网络层数、选用的激活函数等。FLOPs值越大，表明神经网络所需要的浮点运算量越大，在同等硬件的条件下速度越慢

3. 目标检测常用损失函数

目标检测模型通常包含两类损失函数：

一类是分类损失，例如交叉熵损失、 Focal Loss等；
另一类是位置回归损失，例如L2损失、Smooth L1 loss、IoU loss 等。

这两类损失函数用于检测模型最后一部分，根据模型输出（类别和位置）和实际标注框（类别和位置）分别计算分类损失和位置回归损失。

3.1 交叉熵损失公式

式中， M 表示类别数量； y ic 表示符号函数（0或1），如果样本 i 的真实类别等于 c

取1，否则取0； p ic 表示观测样本 i 属于类别 c 的预测概率。

3.2Focal loss

是为了缓解样本的不平衡问题，在标准交叉熵损失基础上修改得到的。其可以通过减少易分类样本的权重，使得模型在训练时更专注于难分类的样本。 Focal loss的公式如下：

3.3 回归损失

在目标检测任务中，更多的是对真实bounding box的回归。其中，L2 损失是指均方误差损失（mean square error, MSE），表示预测值和真实值之差的平方的平均值，其计算公式如下

3.4 IoU损失类的损失函数（GIoU、DIoU、CIoU等）

都是基于预测框和真实框之间的IoU（交并比）进行计算的，记预测框为P ，真实框为 G ，则对应的IoU可表示:

即两个框的交集和并集的比值，对应的IoU损失可定义为:

4.锚框与非极大值抑制

4.1 锚框

锚框（anchor box）是以每个像素为中心，生成多个缩放比和宽高比不同的边界框。在目标检测中，锚框是一种用于表示可能包含目标的矩形框，通过在图像上生成多个锚框，可以同时检测多个目标，并将它们作为候选框进行后续处理，帮助目标检测算法在图像中准确地检测和定位目标。锚框的功能和作用如下所述。

① 多尺度检测：锚框可以在不同尺度下进行目标检测。通过在图像上生成一组不同尺度和宽高比的锚框，可以有效地检测不同大小和形状的目标。

② 候选框生成：锚框充当候选框（也称为区域提议）的角色。通过在图像上生成大量的锚框，可以覆盖图像中的各个位置，并提供候选目标区域供后续的分类和定位。

③ 匹配目标：通过计算锚框与真实目标框之间的重叠程度（如交并比），可以将锚框与真实目标进行匹配。匹配的标准可以是与真实目标框具有最高重叠程度的锚框，或者与真实目标框的重叠程度超过一定阈值的锚框。

④ 目标定位：通过与匹配的锚框关联，可以确定目标的位置和尺寸。锚框提供了目标的初始位置和尺寸的估计，后续的目标定位算法可以根据锚框的位置和尺寸信息进行精确的目标定位。

4.2 非极大值抑制

非极大值抑制（non-maximum suppression，NMS）是一种用于图像处理和

计算机视觉中的技术，用于在局部极大值点中选择最大值，并抑制其他非最大值点。

在目标检测中，非极大值抑制（NMS）被广泛应用于选择最可能的目标区域，并去

除重叠的候选框。非极大值抑制在目标检测中主要经过下面几个步骤：

提取候选框、
计算置信度得分、
对置信度得分进行排序、
选择最高得分的候选框、
非极大值抑制、
去除重叠的候选框。

直到所有候选框都被处理完毕，最终剩下的候选框就是经过非极大值抑制后的目标检测结果，它们具有高置信度得分且不会有明显的重叠。其功能效果示意图如图4-2所示。

5.YOLO

5.1 工作原理

1. 输入图像预处理

将输入图像调整到统一的大小（448×448像素）。

2. 特征提取

将预处理后的图像送入卷积神经网络（CNN），提取图像的特征表示。CNN通过卷积层、池化层等操作，将图像映射为高维特征图。

3. 图像划分与网格化

将特征图划分为S×S个单元网格（grid cell）。每个网格负责预测该区域内可能出现的目标。

4. 边界框预测

每个网格单元预测B个锚框（box），每个锚框预测以下五个回归值：
- 边框位置：(x, y, w, h)，分别表示边界框的中心点坐标（x, y）和边界框的宽度（w）与高度（h）。
- 置信度：表示边界框包含目标的概率以及边界框的准确度。置信度的计算公式为：
  置信度 = Pr(Object) × IOU(bbox, Truth)
  其中，Pr(Object)表示边界框中包含目标的概率；IOU(bbox, Truth)表示边界框与真实标注框的交并比（Intersection over Union）。

5. 类别预测

每个网格单元还会预测C个类别概率值，表示该网格中目标属于各个类别的概率。这些类别概率与边界框的置信度无关，是针对整个网格单元的预测。

6. 预测值整合

每个网格单元最终预测的值为：
5B + C
其中：
- 5B表示B个边界框的预测值（每个边界框5个值：x, y, w, h, 置信度）。
- C表示类别概率值。

7. 非极大抑制（Non-Maximum Suppression, NMS）

对于每个类别，使用非极大抑制算法过滤预测框：
- 首先根据置信度对所有预测框进行排序。
- 选择置信度最高的预测框作为当前的最优框。
- 计算该最优框与剩余预测框的交并比（IOU），如果IOU超过设定的阈值（如0.5），则将这些预测框抑制（即移除）。
- 重复上述过程，直到所有预测框处理完毕。
NMS的作用是去除重复的预测框，保留最准确的边界框。

8. 输出最终预测结果

经过NMS处理后，得到每个类别的最终预测框，包括边界框的位置、类别和置信度。

5.2 yolov3 主要改进

5.2.1 多尺度预测
- YOLOv3引入了多尺度预测机制，通过不同分辨率的特征图（13×13、26×26、52×26）来预测不同大小的物体边框：
  - 13×13：负责预测大物体。
  - 26×26：负责预测中等大小的物体。
  - 52×52：负责预测小物体。
- 每种尺度的特征图上，每个单元格预测3个锚框（共9个锚框）。这种多尺度预测机制显著提升了对小物体的检测能力。

5.2.2 基础网络Darknet-53

YOLOv3采用了Darknet-53作为基础网络，结合了残差思想：

Darknet-53通过残差模块（Residual Blocks）避免了深层网络训练中的梯度消失问题。
与ResNet相比，Darknet-53对ResNet模块进行了简化：
- 去掉了ResNet模块的最后一层（1×1×256）。
- 将倒数第二层（3×3×64）改为3×3×128。

5.2.3 二分类交叉熵损失

YOLOv3在类别预测中使用二分类交叉熵损失函数（Binary Cross-Entropy Loss），而不是YOLOv2中的Softmax损失。
这种改进使得YOLOv3能够更好地处理多标签分类问题（即一个物体可能属于多个类别的情况）

5.3 Yolov5

5.4 yolov8

6.添加模块

6.1 efficientViT替换YOLOV8主干网络结构

6.1.1 effivientvit EfficientViT 的架构特点

EfficientViT 是一种结合了 Transformer 和卷积网络优点的轻量级模型，它的设计目标是高效地提取图像特征，同时减少计算量。以下是它的关键组成部分：

（1）Transformer 编码器-解码器结构

原理：EfficientViT 使用了 Transformer 的编码器-解码器结构。简单来说，它通过一种特殊的机制（自注意力机制）来捕捉图像中长距离的依赖关系，比如图片中远处的物体和近处的物体之间的关系。
好处：这种结构可以让模型更好地理解全局信息，而不仅仅是局部的细节。

（2）MobileViT 模块

原理：在 Transformer 的编码器和解码器中，EfficientViT 使用了 MobileViT 模块。这是一种轻量级的设计，可以让模型在保持高效的同时，减少计算量。
好处：它使得模型在处理高分辨率图像时不会变得特别慢。

（3）深度可分离卷积

原理：EfficientViT 用深度可分离卷积代替了传统的卷积操作。这种卷积方式将标准卷积分解为两个更简单的操作，大大减少了计算量。
好处：它让模型在保持性能的同时，变得更轻量化。

（4）多尺度线性注意力机制

原理：EfficientViT 引入了多尺度线性注意力机制，这种机制可以在不同尺度上捕捉图像的全局上下文信息。
好处：它让模型能够更好地处理不同大小的目标，同时减少计算成本

6.1.2 将 EfficientViT 替换为 YOLOv8 主干网络的优势

（1）更强的全局特征提取能力

原因：EfficientViT 的 Transformer 结构可以捕捉图像中的全局信息，而传统的卷积网络（如 CSPDarknet）更擅长局部特征提取。
好处：在目标检测中，全局信息可以帮助模型更好地理解场景，从而提高检测精度。

（2）更高的效率和轻量化

原因：EfficientViT 使用了深度可分离卷积和线性注意力机制，这些设计大幅减少了计算量和参数量。
好处：替换后的模型可以在保持高性能的同时，运行得更快，更适合在资源受限的设备上部署。

（3）更好的泛化能力

原因：EfficientViT 的多尺度线性注意力机制可以让模型更好地处理不同大小的目标，而 YOLOv8 的主干网络在处理小目标时可能稍显不足。
好处：替换后的模型在复杂场景下（如小目标检测）表现更好

6.1.3 如何替换

第一步：首先，在yolov8官网下载代码并解压，地址如下：

https://github.com/ultralytics/ultralytics

第二步：

添加efficientVit.py文件，并导入

在ultralytics/nn/backbone目录下，新建backbone网络文件efficientVit.py，部分内容如下：

第三步：在ultralytics/nn/tasks.py中导入刚才的efficientVit模块：

from ultralytics.nn.backbone.efficientViT import *