【YOLOv8】YOLOv8改进系列（2）----替换主干网络之FasterNet（CVPR 2023）

主页：HABUO🍁主页：HABUO

🍁YOLOv8入门+改进专栏🍁

🍁如果再也不能见到你，祝你早安，午安，晚安🍁

【YOLOv8改进系列】：

【YOLOv8】YOLOv8结构解读

YOLOv8改进系列（1）----替换主干网络之EfficientViT

💯一、FasterNet介绍

1.1 简介

核心创新点

Partial Convolution（PConv，部分卷积）

2. FasterNet架构

实验结果

关键贡献

💯二、网络结构

编辑

💯三、具体添加方法

第①步：创建FasterNet.py

第②步：修改task.py

(1) 引入创建的efficientViT文件

(2)修改_predict_once函数

(3)修改parse_model函数

第③步：yolov8.yaml文件修改

第④步：验证是否加入成功

💯一、FasterNet介绍

论文题目：《EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention》
论文地址：Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks
源码地址：github.com

1.1 简介

神经网络在计算机视觉任务（如图像分类、目标检测和分割）中取得了显著的性能提升，但随着应用的普及，对低延迟和高吞吐量的需求也日益增加。为了实现更快的神经网络，研究者们通常通过减少浮点运算次数（FLOPs）来降低计算复杂度。然而，论文指出，单纯减少FLOPs并不一定能显著降低延迟，因为许多网络在运行时受到内存访问效率的限制，导致实际的浮点运算速度（FLOPS）较低。

例如，许多轻量级网络（如MobileNets、ShuffleNets等）使用深度可分离卷积（DWConv）或分组卷积（GConv）来减少FLOPs，但这些操作会增加内存访问次数，从而降低FLOPS。此外，一些网络还会引入额外的数据操作（如拼接、洗牌和池化），这些操作在小模型中会显著增加运行时间。因此，论文的核心问题是：如何在减少FLOPs的同时，提高FLOPS，从而真正实现低延迟？

核心创新点

Partial Convolution（PConv，部分卷积）
- 动机：传统卷积（Conv）和深度可分离卷积（DWConv）在计算效率和内存访问上存在冗余。例如，DWConv虽减少了计算量，但未充分利用计算设备的并行能力。
- 设计思想：PConv仅对输入特征图的部分通道进行常规卷积运算（如1/4通道），其余通道保持原样。通过这种方式，减少冗余计算和内存访问次数，同时保留足够的信息提取能力。
- 技术细节：
  - 部分通道处理：对输入特征图的连续或均匀分布的通道子集执行常规卷积。
  - 逐点卷积补充：在PConv后接一个逐点卷积（Pointwise Conv），融合所有通道的信息。
- 优势：相比DWConv，PConv在相同计算量下能提取更丰富的空间特征，同时FLOPs和内存访问次数显著降低。

FasterNet架构

基于PConv，论文提出了一个新的神经网络家族——FasterNet。FasterNet的设计目标是在各种设备（如GPU、CPU和ARM处理器）上实现高运行速度，同时不牺牲准确性。

FasterNet架构特点

分层结构：FasterNet包含四个层次，每个层次由多个FasterNet块组成。每个块包含一个PConv层和两个PWConv层，形成一个倒置残差结构。
嵌入层和合并层：每个层次之前都有一个嵌入层（用于空间下采样）或合并层（用于通道扩展）。
简单高效：FasterNet的设计尽量简单，避免过多的归一化和激活层，以减少计算开销。例如，仅在中间PWConv后使用归一化和激活层。
多种变体：为了适应不同的计算预算，FasterNet提供了多种变体（如T0、T1、T2、S、M、L），这些变体在深度和宽度上有所不同。

实验结果

速度与精度平衡
- ImageNet-1K分类任务：
  - 微型模型：FasterNet-T0在GPU、CPU、ARM上的推理速度分别比MobileViT-XXS快2.8×、3.3×、2.4×，同时Top-1精度提升2.9%。
  - 大型模型：FasterNet-L达到83.5%的Top-1精度，与Swin-B相当，但GPU推理吞吐量提升49%，CPU计算时间减少42%。
- 下游任务：在目标检测（COCO）、语义分割（ADE20K）等任务中，FasterNet在速度和精度上均优于MobileNet、ConvNeXt等模型。
硬件适应性
- 针对边缘设备（如ARM处理器）优化，显著降低内存占用和计算延迟，适合实时应用场景（如移动端图像处理）。

关键贡献

理论突破
- 提出计算效率（FLOPS）与模型速度的非线性关系，指出单纯降低FLOPs可能无法充分利用硬件算力，需优化实际计算密度。
- 通过实验证明，更高的FLOPS（合理设计下）可带来更快的实际推理速度。
工程价值
- PConv模块：可作为即插即用组件，替代传统卷积或DWConv，提升现有模型的效率。
- 开源实现：提供了FasterNet的代码和预训练模型，推动高效神经网络的实际部署。

💯二、网络结构

YOLOv8结构

修改后结构：