【YOLOv8】损失函数

学习视频:

yolov8 | 损失函数 之 5、类别损失_哔哩哔哩_bilibili

yolov8 | 损失函数 之 6、定位损失 CIoU + DFL_哔哩哔哩_bilibili

2.13、yolov8损失函数_哔哩哔哩_bilibili


YOLOv8 的损失函数由类别损失和定位损失构成

类别损失:BCE Loss

定位损失:CIoU Loss + DFL(Distribution Focal Loss)

损失函数计算公式如下:

YOLOv8 损失函数 

注意:YOLOv8 只需要计算正样本的损失值,负样本不参数损失计算 


目录

1.类别损失

1.1 YOLOv5

1.2 YOLOv8:

2.定位损失

2.1 CIoU Loss

2.2 Distribution Focal Loss

2.2.1 前言

2.2.2 为什么使用Distribution Focal Loss?

2.2.3 原理

2.2.4 关于reg_max取值的补充


1.类别损失

 YOLOv8 的类别损失使用的依旧是 BCE Loss ,与  YOLOv5 一致,但类别的 one-hot 标签值的设置有区别,下面会作两者的对比

BCE Loss 的计算公式如下:

BCE Loss

1.1 YOLOv5

\hat{p}_{i}(c) c 类别在 one-hot 向量中的标签值,如果未使用标签平滑技术就是非0即1

p_i(c):正样本预测框的对于 c 类别的预测概率值应用 Sigmoid 函数后的值

对于\hat{p}_{i}(c),p_i(c)的理解可以看下图:

YOLOv5类别损失

1.2 YOLOv8:

下面同样举的例子是未使用标签平滑技术

 YOLOv8类别损失

  \hat{p}_{i}(c):看该正样本预测框匹配到的 gt_box 的真实类别是什么,将其他类别的\hat{p}_{i}(c)置为 0 ,而正确类别的\hat{p}_{i}(c)的计算方法:先计算出该正样本预测框与匹配到的 gt_box align_metric,然后再对得到的 align_metric 作归一化, align_metric 值的计算公式如下:

align_metric计算公式

上式中的 bbox_score 是正样本预测框对于正确类别的预测概率, CIoU 值即该正样本预测框与匹配到的 gt_box 计算得到

align_metric 的归一化方法: YOLOv8 源码中是取出当前 batch 中所有正样本预测框中的最大CIoU  max_CIoU 和最大 align_metric max_align_metric ,对上面得到的原始 align_metric 值先乘以 max_CIoU 再除以 max_align_metric 完成归一化处理

 p_i(c):正样本预测框的对于 c 类别的预测概率值应用 Sigmoid 函数后的值

2.定位损失

2.1 CIoU Loss

CIoU Loss的计算公式如下:

CIoU Loss = 1 - CIoU

2.2 Distribution Focal Loss

论文名称:《Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection》, DFL 只是该论文中的其中一个

论文地址:https://arxiv.org/pdf/2006.04388

2.2.1 前言

在以往的目标检测任务中, bounding box 坐标的网络预测结果服从狄拉克分布,简单理解就是网络针对预测框的坐标值只会输出一个确定的值,预测出的那个值概率为 1 ,其他值的概率为 0 ,因为只输出了这一个结果。而在 YOLOv8 中,首次使用 Distribution Focal Loss 参与其损失函数计算,网络模型针对(l、t、r、b)输出多个值,这多个值服从一般分布和任意分布,每个值都有它们自己对应的概率,不像狄拉克分布只预测出一个值,概率为 1

2.2.2 为什么使用Distribution Focal Loss?

先看下面两张图片。左图中,滑板被海水给模糊掉了,所以导致滑板边界模糊不确定;右图中,第一只大象的身体被严重遮挡了,所以导致大象的边界也不是很清晰

在复杂的场景中,通常会存在边界模糊和不确定的情况。在这种前提情况下,如果目标检测模型使用狄拉克分布,即针对预测框的坐标值只输出一个确定值是非常不灵活和不准确的,没有考虑真实框边界的模糊性和不确定性,因此可以使用 Distribution Focal Loss ,这也是 Distribution Focal Loss 提出的原因

2.2.3 原理

作者提出直接回归一个任意分布,对边界框的坐标进行建模。后面我们按照 YOLOv8 的源码实现展开讲解

YOLOv8 中,针对每一个预测框的(l,t,r,b) 4 个值,网络输出 4 个值对应的长度为reg_max(YOLOv8中默认为16)的向量,下面已 l 举例:

需要注意的是, 4 个值各自的长度为 16 的向量是做了Softmax处理的, 16 个值的和为

损失函数设计

思路:作者发现对于那些非常清晰明确的边界,它们的分布会像上图中的 top、right、bottom 比较尖锐和集中。而对于那些比较模糊不确定的边界,它们的分布会像上图中的 left 比较平,而且有时候会出现双峰的情况。所以作者想要模型来学习像上图中的 top、right、bottom 比较集中的、尖锐的分布


实现:设计损失函数时,尽可能增加真实值左边和右边两个值的概率,使得网络快速的聚焦于这个真实值附近的值,这样就可以把分布给学习成集中的、尖锐的样子,所以设计 DFL 损失函数时只有标签值左右两个值的概率参与计算,其他值的概率不参与计算

DFL损失函数设计

注意:

(1)S_i:标签值左边值应用Softmax后的值,S_{i+1}:标签值右边值应用Softmax后的值

(2)计算DFL Loss损失函数时 left、top、right、bottom 标签值需要将其转换为在 feature map 尺度下的值,并且需要作长度限制,0< ltrb < reg_max (YOLOv8中为 reg_max = 16)

YOLOv8 DFL 损失函数的代码实现在 ultralytics/utils/loss.py Class DFLoss

DFL源码实现 

#DFL Loss计算
class DFLoss(nn.Module):"""Criterion class for computing DFL losses during training."""def __init__(self, reg_max=16) -> None:"""Initialize the DFL module."""super().__init__()self.reg_max = reg_maxdef __call__(self, pred_dist, target):'''Args:pred_dist: {Tensor:(6448,16)},存放1612个正样本的 ltrb 4个值对应的16个概率分布值6448 = 1612 x 416 :概率分布target: {Tensor:(1612,4)},存放1612个正样本对应的真实框的ltrb,其值已缩放到各自的feature map尺度下Returns:out:{Tensor:(1612,1)},存放每个正样本的DFL损失值'''#对正样本对应的真实框的ltrb作长度限制处理,限制在0-15target = target.clamp_(0, self.reg_max - 1 - 0.01)tl = target.long()#tl:{Tensor:(1612,4)},标签值左边的值tr = tl + 1#tr:{Tensor:(1612,4)},标签值右边边的值wl = tr - target#wl:{Tensor:(1612,4)},左边值的权重wr = 1 - wl#wr:{Tensor:(1612,4)},右边值的权重#损失值计算,{Tensor:(1612,4)} -> mean(-1) ->{Tensor:(1612,1)}return (F.cross_entropy(pred_dist, tl.view(-1), reduction="none").view(tl.shape) * wl+ F.cross_entropy(pred_dist, tr.view(-1), reduction="none").view(tl.shape) * wr).mean(-1, keepdim=True)

2.2.4 关于reg_max取值的补充

参考笔记:https://zhuanlan.zhihu.com/p/702085780

由于 Softmax 的取值范围为 [0,1] ,所以根据上面提到的计算公式可以发现 l,t,r,b ∈[0,reg_max−1] ,如果 reg_max = 16 ,在特征图上所能预测的最大预测框是 l,t,r,b 都取 15 时,此时预测框的高度和宽度是 w_max = 30,h_max = 30 ,由于特征图相对于原始 image 的下采样倍数 stride ∈ [8,16,32],如果取最大下采样倍数 stride = 32 ,则在原图上所能预测的最大 bbox 高度和宽度为 w_max,h_max = 30 * 32 = 960 ,那么如果图像中的原始目标的宽度或者高度过大,则会出现预测框小于原始目标的情况。下面举个例子理解

目标过大时的YOLOv8的GT框与预测框

图片中有一个目标其 gt_box 的宽度为 1000 ,但我们实际能预测的最大宽度是 w_max = 960 ,这就会导致预测不精准,此时则需要根据具体情况对 reg_max 作调整

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21995.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1.14作业

1 if($x[scheme]http||$x[scheme]https){ $ip gethostbyname($x[host]); echo </br>.$ip.</br>; if(!filter_var($ip, FILTER_VALIDATE_IP, FILTER_FLAG_NO_PRIV_RANGE | FILTER_FLAG_NO_RES_RANGE)) {die(ip!); }echo file_get_contents($_POST[url]);可以DNS重…

【工具篇】【深度解析 DeepAI 工具:开启 AI 应用新体验】

一、DeepAI 基本信息 嘿,咱先来说说 DeepAI 这工具到底是啥。DeepAI 是一个综合性的人工智能平台,就像是一个装满各种 AI 魔法的百宝箱。它把好多先进的人工智能技术整合到一起,让咱们普通人也能轻松用上这些高大上的 AI 功能。 这个平台背后有一群超厉害的技术人员,他们…

Java八股文(下)

Java八股文下篇 八、JVM高级篇1、JVM的内存模型以及分区介绍一下&#xff1f;2、四种引用方式有什么&#xff1f;3、判断是否为垃圾算法&#xff1f;4、垃圾回收算法介绍一下&#xff1f;5、类的生命周期以及类加载过程6、加载器种类有什么&#xff1f;7、什么是双亲委派模型以…

OpenGL开发杂谈

Renderdoc 调试 OpenGL 前言 在做 OpenGL 练习时常常苦恼于无法调试shader&#xff0c;故在网上查询方法。得知 renderdoc 这一东西&#xff0c;所以在这里做一下记录&#xff0c;如何使用 renderdoc 来调试 OpenGL 程序。 配置 下载比较简单&#xff0c;不必多说&#xff…

C++,设计模式,【工厂方法模式】

文章目录 如何用汽车生产线理解工厂方法模式?一、传统生产方式的困境二、工厂方法模式解决方案三、模式应用场景四、模式优势分析五、现实应用启示✅C++,设计模式,【目录篇】 如何用汽车生产线理解工厂方法模式? 某个早晨,某车企CEO看着会议室里堆积如面的新车订单皱起眉…

我的AI工具箱Tauri版-CustomCardLayoutforH2Panel自定义描述Q版卡通大头照

本教程基于自研的AI工具箱Tauri版进行ComfyUI工作流CustomCardLayoutforH2Panel自定义描述Q版卡通大头照。 CustomCardLayoutforH2Panel 自定义描述Q版卡通大头照 特别面向需要生成个性化卡通大头照的用户需求。基于先进的Stable Diffusion&#xff08;SD&#xff09;模型技术…

Three.js 快速入门教程【六】相机控件 OrbitControls

系列文章目录 Three.js 快速入门教程【一】开启你的 3D Web 开发之旅 Three.js 快速入门教程【二】透视投影相机 Three.js 快速入门教程【三】渲染器 Three.js 快速入门教程【四】三维坐标系 Three.js 快速入门教程【五】动画渲染循环 Three.js 快速入门教程【六】相机控件 Or…

MySQL数据库(7)—— 内置函数

目录 一&#xff0c;时间函数 二&#xff0c;字符串函数 三&#xff0c;数学函数 四&#xff0c;其它函数 一&#xff0c;时间函数 函数名功能current_date()获取当前日期current_time()获取当前时间current_timestamp()获取当前时间戳now()获取当前日期时间date(datetime…

uni-app(位置1)

文章目录 一、获取当前的地理位置、速度 uni.getLocation(OBJECT)二、打开地图选择位置 uni.chooseLocation(OBJECT)三、使用应用内置地图查看位置。uni.openLocation(OBJECT) 一、获取当前的地理位置、速度 uni.getLocation(OBJECT) App平台 manifest中配置好自己的地图厂商k…

【数据库系统概论】第第12章 并发控制

12.1 并发控制概述 并发控制是指数据库管理系统&#xff08;DBMS&#xff09;通过控制多个事务同时执行&#xff0c;保证数据的一致性和隔离性&#xff0c;避免事务间的相互干扰。 事务串行执行不能充分利用系统资源 并发执行的优点&#xff1a;能够减少处理机的空闲 时间&a…

滚珠花键在使用时需注意什么?

滚珠花键是一种直线运动系统&#xff0c;当花键套利用其中的钢球在经过精密磨削的花键轴上直线运动时&#xff0c;可以传递扭矩。在使用滚珠花键时&#xff0c;需要注意以下几个重要的事项&#xff1a; 1、不要擅自拆卸滚珠花键的各部分&#xff0c;因为这样可能会导致异物进入…

Jenkins 视图(View)

Jenkins 视图(View) 一、视图是什么 Jenkins 视图(View) 如下图中 All、Apps 都是 Jenkisn 中的 View 左侧如果有 New View 或者 点击 All 这一行最右侧的 号&#xff0c;都可以创建视图 二、视图(View)的作用 点击最左侧的 All 可以看到所有的任务 随着项目不断发展&am…

蓝桥杯刷题2.21|笔记

参考的是蓝桥云课十四天的那个题单&#xff0c;不知道我发这个有没有问题&#xff0c;如果有问题找我我立马删文。&#xff08;参考蓝桥云课里边的题单&#xff0c;跟着大佬走&#xff0c;应该是没错滴&#xff0c;加油加油&#xff09; 一、握手问题 #include <iostream&g…

从零开始学习PX4源码9(部署px4源码到gitee)

目录 文章目录 目录摘要1.gitee上创建仓库1.1 gitee上创建仓库PX4代码仓库1.2 gitee上创建子仓库2.固件在gitee部署过程2.1下载固件到本地2.2切换本地分支2.3修改.gitmodules内容2.4同步子模块仓库地址2.5同步子模块仓库地址更新(下载)子模块3.一级子模块和二级子模块的映射关…

微服务SpringCloudAlibaba组件sentinel教程【详解sentinel的使用以及流量控制、熔断降级、热点参数限流等,附有示例+代码】

文章目录 四.Sentinel限流熔断4.1 sentinel介绍4.2 Sentinel 的历史4.3 Sentinel 基本概念资源规则 4.4 Sentinel 功能和设计理念4.4.1 流量控制4.4.2熔断降级什么是熔断降级熔断降级设计理念系统负载保护 4.5 Sentinel 是如何工作的4.6 Sentinel使用4.7 Sentinel 控制台4.8 Sp…

webmin配置终端显示样式,模仿UbuntuDesktop终端

webmin配置终端显示样式&#xff0c;模仿UbuntuDesktop终端 在webmin中&#xff0c;默认情况下是没有图形化桌面的&#xff0c;因此终端界面也不会像 Ubuntu Desktop 那样有预设的紫色背景和颜色主题。不过&#xff0c;你可以通过修改 ~/.bashrc 文件&#xff0c;并结合安装和…

PyTorch-基础(CUDA、Dataset、transforms、卷积神经网络、VGG16)

PyTorch-基础 环境准备 CUDA Toolkit安装&#xff08;核显跳过此步骤&#xff09; CUDA Toolkit是NVIDIA的开发工具&#xff0c;里面提供了各种工具、如编译器、调试器和库 首先通过NVIDIA控制面板查看本机显卡驱动对应的CUDA版本&#xff0c;如何去下载对应版本的Toolkit工…

AWS-SAA中文版题库

一家公司收集多大洲城市的温度、湿度和大气压数据。该公司每天从每个站点收集的平均数据量为500GB。每个站点都有高速互联网连接。该公司希望尽快将所有这些全球站点的数据聚合到一个AmazonS3存储桶中。解决方案必须将操作复杂性降至最低。哪种解决方案满足这些要求&#xff1f…

Git操作整体流程

文章目录 1.Git创建个人仓库2、Git全局配置3、Git本地管理4. Git本地管理常用命令汇总5、使用Git命令将项目提交到远程码云管理6.使用IDEA进行管理7、Idea里面的终端8、关于提交总结 1.Git创建个人仓库 打开https://gitee.com/&#xff0c;登录个人账号&#xff0c;右上角加号…

微相E316实现FM电台监听

前面介绍了基于Matlab、矢量信号器或微相E316、HackRF One实现AM和FM调制解调&#xff0c;今天分享的内容是用微相E316、上位机和Matlab实现FM电台信号监听。注意本文仅用于科研和学习&#xff0c;私自搭建电台属于违法行为。 1.概述 微相E316、上位机和Matlab实现FM电台信号…