YOLO系列正传(二)YOLOv3论文精解(上)——从FPN到darknet-53

系列文章

YOLO系列基础

YOLO系列基础合集——小白也看得懂的论文精解-CSDN博客

YOLO系列正传

YOLO系列正传系列(一)类别损失与MSE损失函数、交叉熵损失函数-CSDN博客

背景

        随着YOLOv11版本的发布,YOLO算法在视觉检测领域独领风骚,本系列旨在从小白出发,给大家讲解清楚视觉检测算法的前世今生,并讲清楚YOLOv11版本算法的所有模块功能!

        在YOLO系列基础中,我们对所有的基础知识进行了讲解和说明。

        在上一篇内容中,我们详解了YOLOv3类别损失函数的相关内容。今天我们正式讲解YOLOv3的相关知识。

从图像金字塔出发

        图像金字塔是常用的视觉处理方法。其思路就是简单的图像的多尺度放大or缩小而已。图像金字塔的概念最早由Adelson于1984年提出。它是一种以多分辨率来解释图像的结构,通过梯次向下采样获得一系列分辨率逐步降低的图像集合。这种结构允许我们在不同尺度上处理和分析图像,为许多图像分析任务提供了便利。

图像金字塔主要分为高斯金字塔和拉普拉斯金字塔。

  • 高斯金字塔 (Gaussian Pyramid):逐步模糊图像并下采样,提取低频信息。
  • 拉普拉斯金字塔 (Laplacian Pyramid):通过高斯金字塔的差分计算高频信息。

1. 高斯金字塔

高斯金字塔是对图像进行高斯滤波和降采样得到的一系列图像集合。每一层图像都是通过对前一层图像进行高斯滤波和降采样得到的,层数越高,图像越小,分辨率越低。

高斯金字塔的构建过程:

  • 对原始图像进行高斯滤波,得到一个平滑后的图像。
  • 对平滑后的图像进行降采样,得到下一层图像。
  • 重复上述过程,直到达到某个终止条件。

一个简单的高斯金字塔可以表示为:

eq?I_%7Bi+1%7D%3DDownsample%28GaussianBlur%28I_%7Bi%7D%29%29

其中 eq?I_%7Bi%7D 是第 i 层图像,GaussianBlur 是高斯滤波器,Downsample 是下采样操作。

(1) 高斯核定义

高斯滤波器是一种平滑滤波器,其二维核函数为:

eq?G%28x%2Cy%3B%5Csigma%20%29%3D%5Cfrac%7B1%7D%7B2%5Cpi%20%5Csigma%5E%7B2%7D%7Dexp%28-%5Cfrac%7Bx%5E2+y%5E%7B2%7D%7D%7B2%5Csigma%5E%7B2%7D%7D%29

其中:

  • eq?xeq?y 是像素点相对于滤波器中心的横纵坐标;
  • eq?%5Csigma 是标准差,控制高斯核的模糊程度。

例如,使用 3×3 的高斯核(σ = 1)时,其核矩阵可以写为:

eq?G%3D%5Cfrac%7B1%7D%7B16%7D%5Cbegin%7Bbmatrix%7D%201%20%26%202%20%26%201%5C%5C%202%20%26%204%20%26%202%5C%5C%201%20%26%202%20%26%201%20%5Cend%7Bbmatrix%7D

(2) 卷积操作

假设输入图像为 eq?I%28x%2Cy%29 ,滤波后的图像 eq?%7BI%7D%27%28x%2Cy%29 的计算公式为二维卷积:

eq?%7BI%7D%27%28x%2Cy%29%20%3D%20%5Csum_%7Bi%3D-k%7D%5E%7Bk%7D%5Csum_%7Bj%3D-k%7D%5E%7Bk%7DG%28i%2Cj%3B%5Csigma%29I%28x+i%2Cy+j%29

其中:

  • eq?k为高斯核的一半尺寸(例如 3×3 核时,k=1);
  • eq?%28x+i%2Cy+j%29是邻域中的像素坐标;
  • eq?G%28i%2Cj%3B%5Csigma%29是对应的高斯权重。

(3) 下采样公式

将滤波后的图像下采样到分辨率的 1/2,操作为每隔一个像素取样:

eq?I_%7Bdown%7D%28x%2Cy%29%20%3D%20%7BI%7D%27%282x%2C2y%29

(4) 示例过程

  1. 对原始图像 eq?I%28x%2Cy%29 使用高斯核 eq?G%28i%2Cj%3B%5Csigma%29 卷积,平滑图像。
  2. 选取每隔一个像素点的值,形成分辨率为原图 1/2 的金字塔下一层。

图例如下:

59d49ed198244129bbf0462c97b81e3c.png

 图片来自:https://pic4.zhimg.com/v2-8c6640fe15ab1ecd253a4c06d3b40ddf_b.jpg

注意:请不要被图例中eq?%5Csigma逐渐变大迷惑了,并没有逐渐变大,高斯卷积核是不变的嗷。这里的原图作者的意思是和最下层的图片相比较越上层的图片是由最下层的图片用更大的卷积核得来的。

高斯金字塔的真正的生成过程如本文所述。

2. 拉普拉斯金字塔

拉普拉斯金字塔用于存储高斯金字塔中每一层图像与其上一层图像通过上采样和滤波后得到的图像之间的差异。这种差异反映了图像在不同尺度上的变化信息。拉普拉斯金字塔的构建过程如下:

  • 对高斯金字塔中的每一层图像进行上采样和滤波。
  • 计算上采样后的图像与原始图像之间的差异。
  • 将差异图像作为拉普拉斯金字塔的对应层。

(1) 上采样公式

将低分辨率图像 eq?I_%7Blow%7D%28x%2Cy%29 通过上采样恢复为原分辨率。上采样的数学表达为:

9e13e8aae51a4ab7a85b791a5a7073b1.png

(2) 高斯平滑

为避免上采样带来的锯齿效应,对上采样后的图像再次进行高斯滤波:

eq?I_%7Bsmooth%7D%28x%2Cy%29%20%3D%20%5Csum_%7Bi%3D-k%7D%5E%7Bk%7D%5Csum_%7Bj%3D-k%7D%5E%7Bk%7DG%28i%2Cj%3B%5Csigma%29I_%7Bup%7D%28x+i%2Cy+j%29

(3) 差分计算

将原始高分辨率图像减去上采样后平滑的低分辨率图像,得到高频信息:

eq?L%28x%2Cy%29%3DI%28x%2Cy%29-I_%7Bsmooth%7D%28x%2Cy%29

图例(拉普拉斯金字塔的构建过程):

dbfd5e3da0724b1bb424d416fdf35bd4.png

拉普拉斯金字塔就是图中黑色部分

图片来源:https://pic2.zhimg.com/v2-3bda496534fdd5de381a35166514c621_r.jpg

FPN特征金字塔

在现代深度学习框架中,直接使用传统的图像金字塔会带来巨大的计算开销。因此,FPN 提出了特征金字塔的概念,通过整合 CNN 提取的多层特征图,构造高效的多尺度特征。

FPN 的核心思想是构建一个 多尺度的特征表示,结合不同分辨率下的特征图,实现跨尺度目标检测与分割。

FPN 的核心结构包括:

  1. 自底向上路径 (Bottom-Up Pathway):主干网络提取的多层特征。
  2. 自顶向下路径 (Top-Down Pathway):逐步上采样并融合高层语义特征。
  3. 横向连接 (Lateral Connections):将低层特征和高层语义特征结合。

图片来自:https://pica.zhimg.com/v2-cfca8eaeff7b8e52202f9f39c68dd90e_1440w.jpg

(1) 自底向上的特征提取

主干网络(如 ResNet)逐层下采样生成特征图 {C2,C3,C4,C5},其分辨率分别为原始图像的 eq?%5Cfrac%7B1%7D%7B4%7D%2C%20%5Cfrac%7B1%7D%7B8%7D%2C%20%5Cfrac%7B1%7D%7B16%7D%2C%20%5Cfrac%7B1%7D%7B32%7D​。

(2) 自顶向下的特征融合

从最高层特征 C5 开始,通过上采样逐步向低层传播,公式如下:

eq?P_%7Bi%7D%3DUpsample%28P_%7Bi+1%7D%29%20+%20Conv_%7B1%20%5Ctimes%201%7D%28C_%7Bi%7D%29

其中:

  • eq?Upsample%28P_%7Bi+1%7D%29:将上一层 eq?P_%7Bi+1%7D​ 上采样到当前分辨率;
  • eq?%5Ctext%7BConv%7D_%7B1%5Ctimes1%7D%28C_i%29:通过 1×1 卷积减少通道数,便于融合。

(3) 最终输出特征

为消除融合过程中的噪声,使用 3×3 卷积对特征图进行平滑:

eq?P_i%5E%7B%5Ctext%7Bfinal%7D%7D%20%3D%20%5Ctext%7BConv%7D_%7B3%5Ctimes3%7D

干货环节

        一言以蔽之,在视觉检测领域,有时候我们需要检测的物体大小往往不相同。在当时,先进的视觉检测算法,采用多锚框设计思路。通过先验锚框的设定来对不同尺度物体的检测进行优化。但是锚框虽然在一定程度上改善了此问题,但是锚框的原理和作用是用于更快的拟合模型,而不是对最终的识别效果进行改善。

        也就是说最根本的问题没有解决:即不同大小的待测物体需要使用不同维度尺度的特征。简单说,一个大物体的检测,一些细节就根本不需要,我们可以把原图片进行卷积、池化操作到13*13的特征图片都能识别其中内容,而一些细小物体的检测,我们要是缩小到13*13像素大小,那就是根本毛都不剩一点,相关特征信息早就在网络中丢失了。

所以我们需要设立多头检测思路:

  • 小目标用低层特征
  • 大目标用高层特征

Darknet-53网络

论文详解

Darknet-53 是 YOLOv3 的主干网络,主要用来提取特征。它的结构灵感来源于 ResNet,通过残差连接加深网络深度,同时保持较低的计算开销。一下是YOLOv3论文中的模型结构图:

2d44a18d9ee445a89846fc6ddf6bde99.png

Darknet-53 的基本组件包括以下几部分:

卷积层 (Convolution)

  • 卷积核大小为 eq?1%20%5Ctimes%201eq?3%20%5Ctimes%203
  • 每个卷积层后接 Batch Normalization 和 Leaky ReLU 激活函数。
  • 激活函数公式:

eq?f%28x%29%3D%5Cbegin%7Bcases%7D%20x%20%26%20%5Ctext%7B%20if%20%7D%20x%20%3E%200%5C%5C%20%5Calpha%20x%20%26%20%5Ctext%7B%20if%20%7D%20x%5Cleq%200%20%5Cend%7Bcases%7D

                其中 eq?%5Calpha%20%3D%200.1 。

残差模块 (Residual Block)

  • 包含两个卷积层:
    • eq?1%20%5Ctimes%201 卷积用于减少通道数。
    • eq?3%20%5Ctimes%203 卷积用于空间特征提取。
  • 残差连接公式:

eq?F%28x%29%20%3D%20x%20+%20%5Ctext%7BConv%7D_%7B3%5Ctimes3%7D%28%5Ctext%7BConv%7D_%7B1%5Ctimes1%7D%28x%29%29

Darknet-53 特点

足够深:足足有53 层卷积。

足够高效:由于大量使用 eq?1%20%5Ctimes%201 卷积和残差连接,其计算复杂度较低。

darknet-53分类网络

在 YOLOv3 论文中,Darknet-53 本质上是一个用于特征提取的分类网络。当用于分类任务时,我使用如下分类头:

  1. 特征图提取:darknet-53主干网络输出一个全局特征图。
  2. 全局平均池化:将特征图进行全局池化得到一个向量。
  3. 全连接层:通过全连接层得到分类结果。

分类网络输出的公式为:

eq?y%3Dsoftmax%28%5Cmathbf%7BW%7D%5Ccdot%5Cmathbf%7Bf%7D+%5Cmathbf%7Bb%7D%29

其中,eq?%5Cmathbf%7Bf%7D 是特征向量,eq?%5Cmathbf%7BW%7D 和 eq?%5Cmathbf%7Bb%20%7D 是分类层的权重和偏置。

darknet-53分类模型图入如下:

d4d9493fb13e4037aa12687b3900ed13.png

darknet-53检测网络

检测网络是 YOLOv3 的核心部分,主要由 检测头 实现多尺度目标预测。其关键特点是直接在不同尺度的特征图上进行预测,确保能检测从小到大的目标。

先给出darknet-53的检测网络示意图:

788c1889cc554f3585ac183ac346fb95.png

YOLOv3 在主干网络的基础上,使用三层特征图分别进行检测:

  • eq?13%20%5Ctimes%2013:捕获大目标;
  • eq?26%20%5Ctimes%2026:捕获中等目标;
  • eq?52%20%5Ctimes%2052:捕获小目标。

通过从深层特征图逐步上采样并融合浅层特征,实现多尺度特征表达。

三个检测头实际图例如下:

蓝色为先验锚框、黄色为真值。红色为中心点。显然对于图示的狗最合适的检测头是13*13size的检测头

检测头的具体设计

(1) Anchor 机制

每个特征图上的每个单元格对应 3 个 Anchor,用于预测不同尺度的目标框。Anchor 的宽高已在训练前固定。

假设输入图像尺寸为 416×416 ,每个单元格预测以下信息:

  1. 边界框偏移量: eq?t_%7Bx%7D%2Ct_%7By%7D%2Ct_%7Bw%7D%2Ct_%7Bh%7D
  2. 检测置信度eq?P_%7B%5Ctext%7Bobj%7D%7D
  3. 类别概率eq?P_%7B%5Ctext%7Bclass%7D%7D%28c%29

边界框的位置计算公式为:

eq?b_%7Bx%7D%3D%5Csigma%28t_%7Bx%7D%29+c_%7Bx%7D

eq?b_%7By%7D%3D%5Csigma%28t_%7By%7D%29+c_%7By%7D

eq?b_%7Bw%7D%3Dp_%7Bw%7De%5E%7Bt_%7Bw%7D%7D

eq?b_%7Bh%7D%3Dp_%7Bh%7De%5E%7Bt_%7Bh%7D%7D

其中:

  • eq?c_%7Bx%7D%2Cc_%7By%7D为单元格左上角的坐标;
  • eq?p_%7Bw%7D%2Cp_%7Bh%7D为 Anchor 的宽高;
  • eq?%5Csigma%28t_x%29eq?%5Csigma%28t_y%29 将偏移量归一化到 [0,1]。
(2) 多尺度预测

每个单元格预测 3 个框,每个框输出 (4+1+C)个值:

  • 4 个坐标偏移量
  • 1 个置信度
  • C 个类别概率

总结

        综上,我们完成了YOLOv3的原理初探,从图像金字塔到FPN特征金字塔,再到YOLOv3的相关原理与网络结构,以及公式推导。我们对YOLOv3的原理有了一个较为清晰的认知。

        本文虽然在YOLO系列中起承上启下的作用,本身的创新性并没有那么高,但是依旧需要具备深入的视觉基础知识。实际上,博主光是准备此篇博客就花费了整整三天的时间。恳请广大读者不要吝啬手中的点赞哦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/487051.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

批处理读取文本第n行并赋值给变量?--遍历所有行并赋值给变量数组

::TraceLines.bat goto :test1http://www.bathome.net/thread-27229-1-1.html#批处理如何获取txt文本中某行某列的内容/指定行指定列的内容 http://www.bathome.net/thread-47304-1-1.html#如何用批处理读取文本第二行并赋值给变量? https://github.com/npocmaka/ba…

Blender中使用BlenderGIS插件快速生成城市建筑模型

导入下载 BlenderGIS 插件 去github上下载其压缩包,地址如下: https://github.com/domlysz/BlenderGIS 在BlenderGIS中导入这个插件压缩包: 点击上方菜单栏的编辑,点击偏好设置 在插件>从磁盘安装中导入刚刚下载的压缩包 可…

5G Multicast/Broadcast Services(MBS) (八) MBS多播DRX

这里简单看下多播DRX的内容。 1 MBS multicast 对于MBS多播,RRC可配置 MAC entity使其具备per G-RNTI 或per G-CS-RNTI DRX 功能,从而控制 UE 对 MAC entity的G-RNTI和G-CS-RNTI 的 PDCCH 监听活动。当处于 RRC_CONNECTED 状态时,如果为 G-RNTI 或 G-CS-RNTI 配置了多播…

Mybatis中SQL的执行过程

文章目录 Mybatis 框架SQL执行过程数据库操作映射方式SQL的执行过程- SQL解析- SQL参数映射- SQL预编译- SQL执行- 结果映射- 事务处理- 缓存处理- 日志记录与监控 扩展#与$的区别- $ 符号- # 符号总结示例 Mybatis SQL分类- 动态 SQL- 静态 SQL静态SQL和动态SQL选择${}、#{}与…

2024年深圳杯数学建模C题编译器版本的识别问题解题全过程文档及程序

2024年深圳杯数学建模 C题 编译器版本的识别问题 原题再现: 作为一种重要的工具,电子计算机自诞生以来,经历了极为快速的发展。区区百年的时间内,无论从体积、能耗、计算速度,还是应用能力等方面,电子计算…

12.09 C++作业2

利用函数重载&#xff0c;实现对整形数组的冒泡排序&#xff0c;对浮点型数组的冒泡排序 #include <iostream>using namespace std;int maopao(int(&ra)[10]) {//求数组长度int len sizeof(ra)/sizeof(ra[0]);int i,j,t;for(int i0;i<len;i){cin >>ra[i];}…

阿里云轻量应用服务器开放端口,图文教程分享

阿里云轻量应用服务器如何开放端口&#xff1f;在轻量服务器管理控制台的防火墙中添加规则即可开通端口&#xff0c;开通80端口就填80&#xff0c;开通443就填443端口&#xff0c;开通3306端口就填3306。阿里云百科网aliyunbaike.com整理阿里云轻量应用服务器端口号开通图文教程…

MySQL--》如何在SQL中巧妙运用函数与约束,优化数据处理与验证?

目录 函数使用 字符串函数 数值函数 日期函数 流程函数 约束 函数使用 函数是指一段可以直接被另一段程序调用的程序或代码&#xff0c;在mysql当中有许多常见的内置函数&#xff0c;接下来开始对这些内置函数及其作用进行简单的讲解和使用&#xff1a; 字符串函数 my…

《三角洲行动》游戏安全组件运行时发生异常1-0-0,是什么原因?以及要如何解决?

《三角洲行动》游戏安全组件异常1-0-0深度探讨 今天你们安全撤离了吗&#xff1f;在《三角洲行动》这款经典射击游戏里&#xff0c;游戏安全组件运行时发生异常1-0-0的原因及解决方案&#xff0c;并借此机会分享一些有关文件丢失、文件损坏和系统报错等问题的通用解决策略。希…

TensorFlow深度学习实战(1)——神经网络与模型训练过程详解

TensorFlow深度学习实战&#xff08;1&#xff09;——神经网络与模型训练过程详解 0. 前言1. 神经网络基础1.1 神经网络简介1.2 神经网络的训练1.3 神经网络的应用 2. 从零开始构建前向传播2.1 计算隐藏层节点值2.2 应用激活函数2.3 计算输出层值2.4 计算损失值2.4.1 在连续变…

ThinkPHP框架审计--基础

基础入门 搭建好thinkphp 查看版本方法&#xff0c;全局搜version 根据开发手册可以大致了解该框架的路由 例如访问url http://127.0.0.1:8094/index.php/index/index/index 对应代码位置 例如在代码下面添加新方法 那么访问这个方法的url就是 http://127.0.0.1:8094/index.…

哪些银行有银企直联的功能?

银企直联是指集团企业在集团内部建立自己的资金管理系统&#xff0c;通过数据接口将内部资金管理系统与商业银行核心系统、网银或者现金管理平台实现联接。 目前&#xff0c;大型商业银行大部分都开通了银企直联的功能。如民生,浦发,中国,兴业,交通,平安,招商,广发等&#xff…

2024年超大跨径钢结构桥梁创新技术论坛暨钢桥联盟年度工作会议顺利召开

12月5日&#xff0c;由中交公路规划设计院有限公司、装配化钢结构桥梁产业技术创新战略联盟主办&#xff0c;保利长大工程有限公司、中交第二航务工程局有限公司、中交第二公路工程局有限公司、中交路桥建设有限公司、中交西安筑路机械有限公司、南京现代综合交通实验室、巨力锁…

Python毕业设计选题:基于python的电影天堂数据可视化_django+hive

开发语言&#xff1a;Python框架&#xff1a;djangoPython版本&#xff1a;python3.7.7数据库&#xff1a;mysql 5.7数据库工具&#xff1a;Navicat11开发软件&#xff1a;PyCharm 系统展示 管理员登录 管理员功能界面 电影数据 看板展示 我的信息 摘要 电影天堂数据可视化是…

存内架构IR-DROP问题详解-电容电导补偿

一、总述 电容、电导补偿作为大规模数字电路的关键设计理念&#xff0c;是 CIM 架构优化的核心技术。在 CIM 中&#xff0c;平衡电容或电导并实现计算的精准映射&#xff0c;对能效提升和计算精度保障具有关键作用。本文基于近期文献探讨电容、电导补偿在 CIM 中的具体补偿策…

Java 环境配置 + IntelliJ IDEA 使用指南

文章目录 一、Java 程序的运行必须经过3 个步骤&#xff1a;编写、编译、运行&#xff08;1&#xff09;Java 和 JavaScript 的区别&#xff08;2&#xff09;JDK、JRE、JVM 的关系&#xff08;3&#xff09;是否需要 Maven&#xff1f; 二、软件下载2.1、JDK下载与安装 —— 是…

【力扣】409.最长回文串

问题描述 思路解析 因为同时包含大小写字母&#xff0c;直接创建个ASCII表大小的桶来标记又因为是要回文子串&#xff0c;所以偶数个数的一定可以那么同时&#xff0c;对于出现奇数次数的&#xff0c;我没需要他们的次数-1&#xff0c;变为偶数&#xff0c;并且可以标记出现过…

从零开始的使用SpringBoot和WebSocket打造实时共享文本应用

在现代应用中&#xff0c;实时协作已经成为了非常重要的功能&#xff0c;尤其是在文档编辑、聊天系统和在线编程等场景中。通过实时共享文档&#xff0c;多个用户可以同时对同一份文档进行编辑&#xff0c;并能看到其他人的编辑内容。这种功能广泛应用于 Google Docs、Notion 等…

【opencv入门教程】1.vs2017 + cmake 编译Opencv4.8.1 Sample

文章选自&#xff1a; 【一.准备工作】 1.opencv: https://opencv.org/releases/ 2.cmake &#xff1a;https://cmake.org/download/ 【二.编译配置】 1.解压下载后的opencv压缩包 2.打开cmake&#xff0c;将opencv sample路径及自定义的文件夹路径填入其中 3.按照1&…

五天SpringCloud计划——DAY3之服务治理(Nacos+OpenFeign+OKHttp)

一、引言 在微服务架构中&#xff0c;一个项目通常会被分为多个模块来降低耦合&#xff0c;但是通常情况下&#xff0c;一个项目中总会出现一种情况——一个模块内的方法需要调用另一个模块内的方法。本文就来使用NacosOpenFeignOKHttp帮助大家解决这个问题。 二、Nacos的使用…