语义分割(3):损失函数解析

文章目录

    • 1. 常见语义分割损失
      • 1.1 Cross Entropy
      • 1.2 dice Loss
        • 1.2.1 为什么使用Dice loss
        • 1.2.2 公式
        • 1.2.3 Dice loss 和 F1-score代码
      • 1.3 focal loss
        • 1.3.1 公式:
        • 1.3.2 代码
    • 2. 语义分割损失应用
    • 参考

语义分割任务实际上是一种像素层面上的分类,需要识别图像中存在的内容和位置,同样也存在与分类类似问题-样本类别不平衡,对于语义分割更多的是前景区域的样本远小于背景区域。针对类别不平衡问题,在loss层面上有不同的选择。

1. 常见语义分割损失

1.1 Cross Entropy

用于图像语义分割任务的最常用损失函数是像素级别的交叉熵损失,这种损失会逐个检查每个像素,将对每个像素类别的预测结果(概率分布向量)与我们的one-hot标签向量进行比较。
p i x e l − l o s s = − ∑ c l a s s e s y t r u e l o g ( y p r e d ) pixel-loss=- \sum_{classes}y_{true}log(y_{pred}) pixelloss=classesytruelog(ypred)
整个图像的损失就是对每个像素的损失求平均值

PytorchCrossEntropyLoss()函数的主要是将log_softmax NLLLoss最小化负对数似然函数)合并到一块得到的结果

CrossEntropyLoss()=log_softmax() + NLLLoss() 

在这里插入图片描述

  • (1) 首先对预测值pred进行softmax计算:其中softmax函数又称为归一化指数函数,它可以把一个多维向量压缩在(0,1)之间,并且它们的和为1
    在这里插入图片描述
  • (2) 然后对softmax计算的结果,再取log对数。
  • (3) 最后再利用NLLLoss() 计算CrossEntropyLoss, 其中NLLLoss() 的计算过程为:将经过log_softmax计算的结果与target 相乘并求和,然后取反。

其中(1),(2)实现的是log_softmax计算,(3)实现的是NLLLoss(), 经过以上3步计算,得到最终的交叉熵损失的计算结果。

详见: 深度学习loss总结:nn.CrossEntropyLoss,nn.MSELoss,Focal_Loss,nn.KLDivLoss等

1.2 dice Loss

  • Dice Loss 最先是在VNet 这篇文章中被提出,后来被广泛的应用在了医学影像分割之中。
  • Dice Loss,也叫Soft Dice Coefficient,是一种广泛用于图像分割任务的损失函数。它基于目标分割图像模型输出结果之间的重叠区域的比例计算出分数。与交叉熵损失函数相比,它更适合于处理难分割的目标
  • Dice Loss是由Dice系数而得名的,Dice系数是一种用于评估两个样本集合相似性的度量函数,其值越大意味着这两个样本集越相似。
1.2.1 为什么使用Dice loss

Dice Loss在处理类别不平衡目标小但多的图像分割任务时有着很好的性能。交叉熵损失函数忽略了预测值和目标值之间的相似性,并且对于极端的像素值不够敏感。而Dice Loss是基于相似性的评价指标,它看重相同的像素值,可以很好地处理像素值不平衡的情况。

1.2.2 公式

D i c e = 2 ∣ X ∩ Y ∣ ∣ X ∣ + ∣ Y ∣ Dice =\frac{2|X\cap{Y}|}{|X|+|Y|} Dice=X+Y2∣XY

其中 ∣ X ∩ Y ∣ |X\cap{Y}| XY表示X和Y之间交集元素的个数, ∣ X ∣ |X| X ∣ Y ∣ |Y| Y分别表示X、Y中元素的个数。分子乘2为了保证分母重复计算后取值范围在$[0,1]之间, D i c e L o s s Dice Loss DiceLoss表达式如下:
D i c e l o s s = 1 − D i c e = 1 − 2 ∣ X ∩ Y ∣ ∣ X ∣ + ∣ Y ∣ Dice loss= 1-Dice =1-\frac{2|X\cap{Y}|}{|X|+|Y|} Diceloss=1Dice=1X+Y2∣XY

  • Dice Loss常用于语义分割问题中,X表示真实分割图像的像素标签,Y表示模型预测分割图像的像素类别, ∣ X ∩ Y ∣ |X\cap Y| XY 近试为预测图像的像素与真实标签图像的像素之间的点乘,并将点乘结果相加, ∣ X ∣ |X| X ∣ Y ∣ |Y| Y分别近似为他们各自对应图像像素相加。

D i c e L o s s = 1 − 2 ∑ i = 1 N y i y 1 ^ ∑ i = 1 N y i + ∑ i = 1 N y i ^ DiceLoss = 1-\frac{2\sum_{i=1}^{N}y_{i}\hat{y_1}}{\sum_{i=1}^N y_i +\sum_{i=1}^N \hat{y_i}} DiceLoss=1i=1Nyi+i=1Nyi^2i=1Nyiy1^

可以说Dice Loss是直接优化F1 score而来的,是对F1 score的高度抽象,可用于多分类分割问题上。F1 score就被提出,其公式如下:

F 1 s c o r e = 2 P R P + R = 2 T P 2 R P + F P + F N F1 score = \frac{2PR}{P+R} = \frac {2TP}{2RP+FP+FN} F1score=P+R2PR=2RP+FP+FN2TP

在二分类问题中,Dice系数也可以写成 D i c e = 2 T P 2 T P + F P + F N = F 1 s c o r e Dice = \frac {2TP}{2TP+FP+FN}=F1score Dice=2TP+FP+FN2TP=F1score

D i c e L o s s = 1 − D i c e = 1 − F 1 s c o r e Dice_{Loss} =1- Dice= 1 - F1_{score} DiceLoss=1Dice=1F1score

1.2.3 Dice loss 和 F1-score代码

(1) F1-score

def f_score(inputs, target, beta=1, smooth = 1e-5, threhold = 0.5):n, c, h, w = inputs.size()nt, ht, wt, ct = target.size()if h != ht and w != wt:inputs = F.interpolate(inputs, size=(ht, wt), mode="bilinear", align_corners=True)temp_inputs = torch.softmax(inputs.transpose(1, 2).transpose(2, 3).contiguous().view(n, -1, c),-1)temp_target = target.view(n, -1, ct)#--------------------------------------------##   计算dice系数#--------------------------------------------#temp_inputs = torch.gt(temp_inputs, threhold).float()tp = torch.sum(temp_target[...,:-1] * temp_inputs, axis=[0,1])fp = torch.sum(temp_inputs                       , axis=[0,1]) - tpfn = torch.sum(temp_target[...,:-1]              , axis=[0,1]) - tpscore = ((1 + beta ** 2) * tp + smooth) / ((1 + beta ** 2) * tp + beta ** 2 * fn + fp + smooth)score = torch.mean(score)return score
  • 上述是F-score的代码,F1-ScoreF-score的一种特殊形式,即当 beta=1, F-score等价于F1-Score
    在这里插入图片描述
  • inputs为分割模型的推理预测输出shape为(n,h,w,c), 其中c为cls_nums,未经过softmax处理, 因此在计算F1-score时,需要进行softmax处理。target为 为真实的分割标签one-hot编码格式,shape为(n,h,w,c)
  • 可以利用如下代码,将标签mask图片png转为one-hot编码seg_labels
#-------------------------------------------------------#
#   转化成one_hot的形式
#   在这里需要+1是因为voc数据集有些标签具有白边部分
#   我们需要将白边部分进行忽略,+1的目的是方便忽略。
#-------------------------------------------------------#
seg_labels  = np.eye(self.num_classes + 1)[png.reshape([-1])]
seg_labels  = seg_labels.reshape((int(self.input_shape[0]), int(self.input_shape[1]), self.num_classes + 1))
  • png.reshape([-1])得到shape大小为(h*w,1), 其中每个元素值为类别的索引, 然后根据类别索引从np.eye(self.num_classes + 1)取对应的行,这样就将mask转化为one-hot形式的seg_labels
  • 然后将seg_labels reshape为(h,w,self.num_classes + 1)
  • 在这里需要+1是因为voc数据集有些标签具有白边部分, +1的目的是方便忽略
    (2) Dice loss
def Dice_loss(inputs, target, beta=1, smooth = 1e-5):n, c, h, w = inputs.size()nt, ht, wt, ct = target.size()if h != ht and w != wt:inputs = F.interpolate(inputs, size=(ht, wt), mode="bilinear", align_corners=True)temp_inputs = torch.softmax(inputs.transpose(1, 2).transpose(2, 3).contiguous().view(n, -1, c),-1)temp_target = target.view(n, -1, ct)#--------------------------------------------##   计算dice loss#--------------------------------------------#tp = torch.sum(temp_target[...,:-1] * temp_inputs, axis=[0,1])fp = torch.sum(temp_inputs                       , axis=[0,1]) - tpfn = torch.sum(temp_target[...,:-1]              , axis=[0,1]) - tpscore = ((1 + beta ** 2) * tp + smooth) / ((1 + beta ** 2) * tp + beta ** 2 * fn + fp + smooth)dice_loss = 1 - torch.mean(score)return dice_loss
  • inputs分割模型的推理预测输出shape为(n,h,w,c), target为 为真实的分割标签one-hot编码格式shape为(n,h,w,c)

  • 可以看到dice_loss的实现,跟F1-score基本上是一模一样的, 将torch.mean(score)求得的F1-soce, 然后通过dice_loss = 1- F1-score 来实现。

1.3 focal loss

上面针对不同类别的像素数量不均衡提出了改进方法,但有时还需要将像素分为难学习容易学习这两种样本。

容易学习的样本模型可以很轻松地将其预测正确,模型只要将大量容易学习的样本分类正确,loss就可以减小很多,从而导致模型不怎么顾及难学习的样本,所以我们要想办法让模型更加关注难学习的样本

1.3.1 公式:

(1) 交叉熵损失:
L c e − ∑ q t l o g 2 ( p t ) = − l o g ( p t ) L_{ce} - \sum q_t log_2(p_t)= -log(p_t) Lceqtlog2(pt)=log(pt)

  • 其中:log一般以e或者2为底都是可以的。参考:KL散度、CrossEntropy详解,
  • 因为对于分类或者分割任务, q t q_t qtone-hot编码,只在真实类别处为1,其他都是0, 所以交叉熵等效为 − l o g ( p t ) -log(p_t) log(pt)

(2) Focal Loss
F L ( p t ) = − a t ( 1 − p t ) r l o g ( p t ) FL(p_t)=-a_t(1-p_t)^rlog(p_t) FL(pt)=at(1pt)rlog(pt)

  • a t a_t at 是用来平衡正负样本数量的:基于样本非平衡造成的损失函数倾斜,一个直观的做法就是在损失函数中添加权重因子,提高少数类别在损失函数中的权重,平衡损失函数的分布。 p t p_t pt 表示预测的概率值或者置信度 p t p_t pt越大说明预测越接近focal loss 设置了一个modulating factor: ( 1 − p t ) r (1-p_t)^r (1pt)r用来区分样本预测的难易程度, 当预测的概率 p t p_t pt越接近于1,说明样本容易预测,此时 ( 1 − p t ) r (1-p_t)^r (1pt)r趋近于0;当预测概率 p t p_t pt越接近于0时,说明样本比较难预测,此时 ( 1 − p t ) r (1-p_t)^r (1pt)r趋近于1。 整体而言,通过modulating factor因子的调节,相当于增加了难分样本在损失函数中的权重

可以看出Focal Loss是在交叉熵Cross Entropy基础上演进而来的,相比于交叉熵损失,多了一个类别平衡系数 a t a_t at,以及区分样本难分程度的因子modulating factor: ( 1 − p t ) r (1-p_t)^r (1pt)r

1.3.2 代码
def Focal_Loss(inputs, target, cls_weights, num_classes=21, alpha=0.5, gamma=2):n, c, h, w = inputs.size()nt, ht, wt = target.size()if h != ht and w != wt:inputs = F.interpolate(inputs, size=(ht, wt), mode="bilinear", align_corners=True)temp_inputs = inputs.transpose(1, 2).transpose(2, 3).contiguous().view(-1, c)temp_target = target.view(-1)logpt  = -nn.CrossEntropyLoss(weight=cls_weights, ignore_index=num_classes, reduction='none')(temp_inputs, temp_target)pt = torch.exp(logpt)if alpha is not None:logpt *= alphaloss = -((1 - pt) ** gamma) * logptloss = loss.mean()return loss
  • inputs为分割模型的推理预测输出shape为(n,h,w,c)
  • 由于 nn.CrossEntropyLoss内部已经包含了Softmax处理,因此不需要对模型的预测输出inputs进行Softmax计算。
  • 对于分类、分割任务而言,focal loss相比于交叉熵损失CE − l o g ( p t ) -log(p_t) log(pt),多了一个类别平衡系数 a t a_t at,以及区分样本难分程度的因子modulating factor: ( 1 − p t ) r (1-p_t)^r (1pt)r,因此可以先求CrossEntropyLoss,然后乘以类别平衡系数以及区分样本难分程度的因子modulating factor: ( 1 − p t ) r (1-p_t)^r (1pt)r, 就可以求出focal loss
logpt  = -nn.CrossEntropyLoss(weight=cls_weights, ignore_index=num_classes, reduction='none')(temp_inputs, temp_target)pt = torch.exp(logpt)if alpha is not None:logpt *= alphaloss = -((1 - pt) ** gamma) * logptloss = loss.mean()
  • cls_weights: 衡量每个类别的重要程度, cls_weights数组元素个数与类别数一样。代码中默认设置各个类别重要度一样:
cls_weights     = np.ones([num_classes], np.float32)
  • 在计算CrossEntropyLoss, target可以是one-hot格式,也可以直接输出类别不需要进行one-hot处理(此时pytorch 内部会自动帮忙进行one-hot编码)
temp_inputs = inputs.transpose(1, 2).transpose(2, 3).contiguous().view(-1, c)
temp_target = target.view(-1)logpt  = -nn.CrossEntropyLoss(weight=cls_weights, ignore_index=num_classes, reduction='none')(temp_inputs, temp_target)
  • CrossEntropyLoss根据预测输出和真实的target,就可以计算出交叉熵损失, 注意预测的输出需要reshape到(-1,c), target需要reshape[-1](一维),每个元素为像素的类别索引

2. 语义分割损失应用

  • 在语义分割中,focal_lossCross entropy loss以及dice_loss,通常需要结合一起使用。代码参考:https://github.com/bubbliiiing/deeplabv3-plus-pytorch/blob/main/train.py
  • 可以看到作者定义语义分割的损失中,结合了这三类损失,默认只使用的是Cross entropy loss, 如果存在素类别不平衡,以及难分的像素类别,可以将focal_lossdice_loss两个损失一起叠加使用。
dice_loss       = False
focal_loss      = Fals
cls_weights     = np.ones([num_classes], np.float32)for iteration, batch in enumerate(train_dataloader):imgs, pngs, labels = batchwith torch.no_grad():weights = torch.from_numpy(cls_weights)if cuda:imgs    = imgs.cuda(local_rank)pngs    = pngs.cuda(local_rank)labels  = labels.cuda(local_rank)weights = weights.cuda(local_rank)#----------------------##   清零梯度#----------------------#optimizer.zero_grad()outputs = model_train(imgs)#----------------------##   计算损失#----------------------#if focal_loss:loss = Focal_Loss(outputs, pngs, weights, num_classes = num_classes)else:loss = CE_Loss(outputs, pngs, weights, num_classes = num_classes)if dice_loss:main_dice = Dice_loss(outputs, labels)loss      = loss + main_dice
  • 其中imgs为图片数据,shape大小为(n,c,h,w) ,
  • pngs 为mask标签图片,shape大小为(n,h,w), 为8位单通道图像,每个像素值对应类别信息
    利用imgspngs可以计算focal_loss 和 CE_Loss
  • labels 为标签pngs的one-hot形式,shape大小为(n,h,w,c+1), 在计算Dice_loss时,需要将标签转换为one_hot格式。
  • weights是用来,给各个类别附加权重的,weight数组元素需要和类别数一样

参考

https://github.dev/bubbliiiing/deeplabv3-plus-pytorch
https://zhuanlan.zhihu.com/p/101773544?utm_id=0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/246271.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

跨平台Recorder录音插件:支持多种格式、音频可视化、实时上传、语音识别

视频教程地址:【跨平台Recorder录音插件:支持多种格式、音频可视化、实时上传、语音识别】 https://www.bilibili.com/video/BV1jQ4y1c7e4/?share_sourcecopy_web&vd_sourcee66c0e33402a09ca7ae1f0ed3d5ecf7c /** 先引入Recorder ( 需先…

2024-01-26-redis集群

为什么要搭建集群 高可用性:Redis集群可以提供高可用性,即使其中的一台节点发生故障,其他节点仍然可以继续提供服务。当一个节点下线时,集群会自动将负载均衡到其他可用节点上,从而保证系统的稳定性和可用性。 扩展性…

移动端打包成功后禁止生成 report.html 文件,并不自动打开该文件

目录 【问题】移动端 npm run build 打包后生成并打开 report.html 文件package.json 文件vue.config.js 代码 【解决】打包后去除 report.html 文件vue.config.js 代码 参考 【问题】移动端 npm run build 打包后生成并打开 report.html 文件 package.json 文件 {"name&…

大数据安全 | 期末复习(中)

文章目录 📚感知数据安全⭐️🐇传感器概述🐇传感器的静态特性🐇调制方式🐇换能攻击🐇现有防护策略 📚AI安全⭐️🐇智能语音系统——脆弱性🐇攻击手段🐇AI的两…

springboot快速写接口

1. 建proj形式 name会变成文件夹的名字,相当于你的项目名称 基础包 2. 基础依赖 3. 配置数据库 这里要打开mysql,并且创建数据库 方法: 安装好数据库,改好账号密码用navicat来建表和账号配置properties.yml文件即可 4.用res…

实现负载均衡

1.安装依赖 sudo apt insta11 libgd-dev 2.下载nginx wget http://nginx.org/download/nginx-1.22.1.tar.gz 3.解压nginx tar -zvxf nginx-1.22.1.tar.g2 4.编译安装 cd nginx-1.22.1 5.编译并指定安装位置,执行安装之后会创建指定文件夹/www/env/nginx ./configure…

【阻塞队列】阻塞队列的模拟实现及在生产者和消费者模型上的应用

文章目录 📄前言一. 阻塞队列初了解🍆1. 什么是阻塞队列?🍅2. 为什么使用阻塞队列?🥦3. Java标准库中阻塞队列的实现 二. 阻塞队列的模拟实现🍚1. 实现普通队列🍥2. 实现队列的阻塞功…

掌握Pyecharts:绘制炫酷词云图的参数解析与实战技巧【第36篇—python:词云图】

文章目录 安装Pyecharts基本的词云图绘制自定义词云图样式多种词云图合并高级词云图定制与交互1. 添加背景图片2. 添加交互效果 使用自定义字体和颜色从文本文件生成词云图总结: 在数据可视化领域,词云图是一种极具表现力和趣味性的图表,能够…

【DevOps】Jenkins Extended E-mail 邮件模板添加自定义变量

文章目录 1、配置Jenkins邮箱2、配置告警模板1、配置Jenkins邮箱 略 2、配置告警模板 自定义变量:DYSK_PYTEST_STATUS // Uses Declarative syntax to run commands inside a container. pipeline {agent {kubernetes {cloud "kubernetes" //选择名字是kuberne…

vivado DDS学习

实现DDS通常有两种方式,一种是读取ROM存放的正弦/余弦信号的查表法,另一种是用DDS IP核。这篇学习笔记中,我们要讲解说明的是VIVADO DDS IP核的应用。 目前本篇默认Phase Generator and SIN/COS LUT(DDS)的standard模式…

10.Elasticsearch应用(十)

Elasticsearch应用(十) 1.为什么需要聚合操作 聚合可以让我们极其方便的实现对数据的统计、分析、运算,例如: 什么品牌的手机最受欢迎?这些手机的平均价格、最高价格、最低价格?这些手机每月的销售情况如…

SpringCloud-Knife4j文档聚合

在微服务架构下,如果给每个微服务都配置文档,那么每个微服务的接口文档都有自己独立的访问地址,这样要一个个打开每个微服务的文档非常麻烦。一般我们会采用聚合的办法,将所有微服务的接口整合到一个文档中,具体做法有…

web前端项目-五子棋【附源码】

五子棋(人机对弈) 本项目【五子棋】是一款人机对弈的策略型棋类游戏。可以选择落子方;游戏难度和是否显示落子次序。游戏双方分别使用黑白两色的棋子,在棋盘直线与横线的交叉点上进行对弈。五子棋可以促进大脑发育、提高思维能力…

openlayers+vue实现缓冲区

文章目录 前言一、准备二、初始化地图1、创建一个地图容器2、引入必须的类库3、地图初始化4、给地图增加底图 三、创建缓冲区1、引入需要的工具类库2、绘制方法 四、完整代码总结 前言 缓冲区是地理空间目标的一种影响范围或服务范围,是对选中的一组或一类地图要素(点、线或面…

华为三层交换机之基本操作

Telnet简介 Telnet是一个应用层协议,可以在Internet上或局域网上使用。它提供了基于文本的远程终端接口,允许用户在本地计算机上登录到远程计算机,然后像在本地计算机上一样使用远程计算机的资源。Telnet客户端和服务器之间的通信是通过Telnet协议进行的…

[蓝桥杯]真题讲解:冶炼金属(暴力+二分)

蓝桥杯真题视频讲解&#xff1a;冶炼金属&#xff08;暴力做法与二分做法&#xff09; 一、视频讲解二、暴力代码三、正解代码 一、视频讲解 视频讲解 二、暴力代码 //暴力代码 #include<bits/stdc.h> #define endl \n #define deb(x) cout << #x << &qu…

C语言第十弹---函数(上)

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】 函数 1、函数的概念 2、库函数 2.1、标准库和头文件 2.2、库函数的使用方法 2.2.1、功能 2.2.2、头文件包含 2.2.3、实践 2.2.4、库函数文档的⼀般格式 …

PWM调光 降压恒流LED芯片FP7127:为照明系统注入新能量(台灯、GBR、调光电源、汽车大灯)

目录 一、降压恒流LED芯片FP7127 二、降压恒流LED芯片FP7127具有以下特点&#xff1a; 三、降压恒流LED芯片FP7127应用领域&#xff1a; LED照明和调光的新纪元随着LED照明技术的不断发展&#xff0c;人们对于照明调光的需求也越来越高。PWM调光技术作为一种常用的调光方法&…

RUST笔记:candle使用基础

candle介绍 candle是huggingface开源的Rust的极简 ML 框架。 candle-矩阵乘法示例 cargo new myapp cd myapp cargo add --git https://github.com/huggingface/candle.git candle-core cargo build # 测试&#xff0c;或执行 cargo ckeckmain.rs use candle_core::{Device…

设计模式—行为型模式之责任链模式

设计模式—行为型模式之责任链模式 责任链&#xff08;Chain of Responsibility&#xff09;模式&#xff1a;为了避免请求发送者与多个请求处理者耦合在一起&#xff0c;于是将所有请求的处理者通过前一对象记住其下一个对象的引用而连成一条链&#xff1b;当有请求发生时&am…