机器学习——损失函数、代价函数、KL散度

🌺历史文章列表🌺

  1. 机器学习——损失函数、代价函数、KL散度
  2. 机器学习——特征工程、正则化、强化学习
  3. 机器学习——常见算法汇总
  4. 机器学习——感知机、MLP、SVM
  5. 机器学习——KNN
  6. 机器学习——贝叶斯
  7. 机器学习——决策树
  8. 机器学习——随机森林、Bagging、Boosting、集成学习
  9. 机器学习——聚类算法(Kmeans、GMM-使用EM优化)
  10. 机器学习——降维

文章目录

  • 损失函数
    • 一、回归问题中的损失函数
      • 1. 均方误差(Mean Squared Error, MSE)
      • 2. 平均绝对误差(Mean Absolute Error, MAE)
      • 3. 对数余弦损失(Log-Cosh Loss)
      • 4. Huber 损失(Huber Loss)
      • 5. 平均平方对数误差(Mean Squared Logarithmic Error, MSLE)
      • 总结
    • 二、分类问题中的损失函数
      • 1. 0-1 损失(0-1 Loss)
      • 2. 对数损失(Log Loss)或交叉熵损失(Cross-Entropy Loss)
      • 3. Focal 损失(Focal Loss)
      • 4. Hinge 损失(合页损失)
      • 5. Kullback-Leibler 散度(KL Divergence)
      • 总结
  • 代价函数
      • 1. 回归问题中的代价函数
      • 2. 分类问题中的代价函数
  • 损失函数和代价函数的选择
    • 1. 如何选择适当的损失函数?
    • 2. 损失函数和代价函数的优化
  • KL散度
    • 描述
    • KL散度的特点
      • KL散度的常见应用场景
      • 1. 变分自编码器(Variational Autoencoder, VAE)中的损失函数
      • 2. 分类问题中的交叉熵损失
      • 3. 强化学习中的策略优化
      • 4. 生成模型中的正则化项
      • 5. 多任务学习中的权衡损失
      • 6. T-SNE
      • 总结


在机器学习中,损失函数代价函数是评估模型性能的重要工具。

  • 损失函数衡量单个样本的预测值与真实值之间的差异。
  • 代价函数则是所有样本的损失的平均值或总和,用于衡量模型在整个数据集上的表现。

不同的任务和模型选择不同的损失函数和代价函数,以反映其特定的优化目标。

损失函数

一、回归问题中的损失函数

1. 均方误差(Mean Squared Error, MSE)

定义
在这里插入图片描述

  • 描述:MSE 衡量的是预测值和真实值之间的平方误差的平均值。对较大的误差会进行更大的惩罚,因此它对异常值(outliers)非常敏感。
  • 应用场景:线性回归、岭回归等模型的损失函数。
  • 优点:简单易于理解,容易求导和计算。
  • 缺点对异常值敏感,可能导致模型被少数异常样本主导。

2. 平均绝对误差(Mean Absolute Error, MAE)

定义
在这里插入图片描述

  • 描述:MAE 衡量的是预测值和真实值之间的绝对误差的平均值。它对每个误差的惩罚是线性的,因此对异常值的惩罚不如 MSE 严重。
  • 应用场景:在对异常值不敏感的回归任务中使用。
  • 优点对异常值不敏感,能够更加稳定地反映模型性能。
  • 缺点:在优化过程中,绝对值函数不可导,求解困难。

3. 对数余弦损失(Log-Cosh Loss)

定义
在这里插入图片描述

  • 描述:对数余弦损失是Huber 损失的变体,它的行为类似于 MAE,同时对大误差有更小的增长率。
  • 应用场景:适用于异常值影响较大的回归任务。
  • 优点:具有平滑性,易于求导对小误差敏感对大误差鲁棒
  • 缺点:相比其他损失函数计算复杂度较高。

4. Huber 损失(Huber Loss)

定义
在这里插入图片描述

  • 描述:Huber 损失是MSE 和 MAE 的折中。对于小误差,使用 MSE;对于大误差,使用 MAE,从而对异常值有一定的鲁棒性。
  • 应用场景:回归问题中存在异常值,但又不希望过于忽略异常值的场景。
  • 优点对小误差敏感,同时对大误差具有一定的抗干扰性
  • 缺点:参数 ( δ \delta δ) 需要手动调节,不同数据集效果不同。

5. 平均平方对数误差(Mean Squared Logarithmic Error, MSLE)

定义
在这里插入图片描述

  • 描述:MSLE 用于处理目标值差异较大有显著指数增长趋势的情况。它更关注相对误差,而非绝对误差。
  • 应用场景:如人口增长预测、市场销量预测等场景。
  • 优点:对大数值的预测更稳定,对目标值的比例关系有更好的衡量。
  • 缺点:当目标值非常小时,惩罚效果不明显。

总结

损失函数描述应用场景优点缺点
均方误差 (MSE)衡量预测值和真实值之间平方误差的平均值,对较大误差进行更大惩罚。线性回归、岭回归等简单易于理解,容易求导。对异常值敏感
平均绝对误差 (MAE)衡量预测值和真实值之间绝对误差的平均值对异常值不敏感的回归任务对异常值不敏感,反映模型性能更稳定。优化困难,绝对值函数不可导
对数余弦损失 (Log-Cosh)Huber 损失的变体,既能捕捉小误差,也对大误差有更小的增长率异常值影响较大的回归任务平滑性好,易于求导,适应大误差和小误差。计算复杂度高。
Huber 损失 (Huber Loss)结合MSE和MAE,小误差时使用 MSE,大误差时使用 MAE,平衡异常值的影响。存在异常值但不希望完全忽略的场景对小误差敏感,对大误差有抗干扰性。需调节参数 (delta)。
平均平方对数误差 (MSLE)衡量目标值差异大且有指数增长趋势的情况,关注相对误差而非绝对误差。人口增长预测、市场销量预测等对大数值预测更稳定,适应有比例关系的数据对极小值目标效果不佳。

二、分类问题中的损失函数

1. 0-1 损失(0-1 Loss)

定义
在这里插入图片描述

  • 描述:0-1 损失表示分类是否正确0 为正确分类,1 为错误分类。它无法直接用于模型优化,只能用于评价模型性能。
  • 应用场景:模型性能的评估,如准确率(Accuracy)的计算。
  • 优点:简单直观,能够清晰判断分类是否正确。
  • 缺点不可导,无法用于梯度优化

2. 对数损失(Log Loss)或交叉熵损失(Cross-Entropy Loss)

在这里插入图片描述

  • 描述:交叉熵损失衡量的是预测分布和真实分布之间的距离。在二分类与 Sigmoid 函数结合;在多分类与 Softmax 函数结合
  • 应用场景:广泛用于逻辑回归、神经网络等分类任务。
  • 优点:能够很好地度量概率分布之间的差异,梯度计算简单。
  • 缺点对数据不平衡较为敏感

在这里插入图片描述
在这里插入图片描述

3. Focal 损失(Focal Loss)

定义
在这里插入图片描述

注:t 是该样本的真实类别标签
在这里插入图片描述

  • 描述:Focal 损失是对交叉熵损失的改进,用于解决类别不平衡问题。通过调节参数 ( γ \gamma γ ) 和 ( α \alpha α ),它增加了对困难样本的关注,降低了对易分类样本的影响。
  • 应用场景:目标检测中的单阶段检测器(如 RetinaNet),以及其他类别不平衡的分类问题。
  • 优点:有效解决类别不平衡问题,增强模型对困难样本的关注。
  • 缺点:参数选择复杂,训练时间较长。

4. Hinge 损失(合页损失)

在这里插入图片描述

  • 描述:Hinge 损失用于支持向量机(SVM)中。它在样本被正确分类且间隔大于 1 时,损失为 0;否则损失为 1。旨在最大化样本的分类间隔。
  • 应用场景:线性支持向量机、核支持向量机等。
  • 优点:有助于最大化分类间隔,提高模型的泛化能力。
  • 缺点:对于误差大的样本损失增长过快。

5. Kullback-Leibler 散度(KL Divergence)

定义
在这里插入图片描述

  • 描述:KL 散度衡量两个概率分布之间的差异,常用于无监督学习中的聚类分析
  • 应用场景:概率模型的优化,如变分自编码器(VAE)、生成对抗网络(GAN)中的判别模型。
  • 优点:对概率分布之间的微小差异非常敏感
  • 缺点:对稀疏分布的概率模型不稳定

总结

损失函数描述应用场景优点缺点
0-1 损失 (0-1 Loss)分类正确为 0,错误为 1,用于衡量分类是否正确。准确率等分类性能评估简单直观。不可导,无法用于优化
交叉熵损失 (Cross-Entropy)衡量预测分布和真实分布之间的距离,二分类结合 Sigmoid,多分类结合 Softmax。逻辑回归、神经网络等分类任务很好地衡量概率分布差异,梯度计算简单。对数据不平衡敏感
Focal 损失 (Focal Loss)交叉熵的改进,通过调节 ( gamma ) 和 ( alpha ),增加对困难样本的关注,减少易分类样本影响,解决类别不平衡问题。类别不平衡问题,如目标检测 (RetinaNet)增强对困难样本的关注,解决类别不平衡参数选择复杂,训练时间较长。
Hinge 损失 (合页损失)用于 SVM,正确分类且间隔大于 1 时损失为 0,旨在最大化分类间隔。线性 SVM、核 SVM提高泛化能力,有助于最大化分类间隔对误差大的样本损失增长快。
KL 散度 (KL Divergence)衡量两个概率分布的差异,常用于无监督学习中的聚类分析。概率模型优化,如 VAE、GAN概率分布的差异敏感稀疏分布不稳定

代价函数

代价函数是损失函数在整个训练集上的平均或总和,用于衡量模型在整个数据集上的表现

代价函数 = 所有样本的损失函数的平均值或总和。因此,代价函数通常是通过对每个样本的损失函数进行求和或求平均得到的。

1. 回归问题中的代价函数

均方误差代价函数(Cost Function for MSE)
在这里插入图片描述

  • 描述:均方误差代价函数用于衡量模型预测值与真实值之间的总体误差。
  • 应用场景:线性回归、岭回归等回归任务。

2. 分类问题中的代价函数

对数损失代价函数(Cost Function for Log Loss)
在这里插入图片描述

  • 描述:对数损失代价函数用于二分类任务,衡量模型预测概率与真实分布之间的差异。
  • 应用场景:逻辑回归、神经网络的二分类问题。

损失函数和代价函数的选择

1. 如何选择适当的损失函数?

  • 回归问题
    • 数据中存在异常值时,可以选择 MAEHuber 损失
    • 如果异常值较少误差分布相对均匀,【对大误差容忍度低时】可以选择 MSE
    • 数据有显著的指数增长趋势时,选择 MSLE

MAE 和 Huber 损失减少异常值对损失和模型的过度影响,所以适合存在较多异常值的情况。它们的目标是在存在异常值的情况下,保持模型对大多数数据的稳定性和准确性。

  • 分类问题
    • 二分类问题:常用 交叉熵损失
    • 多分类问题:使用 Softmax + 交叉熵损失
    • 类别不平衡时:选择 Focal 损失

2. 损失函数和代价函数的优化

  • 梯度下降法:用于最小化代价函数,找到模型参数的最优解。
  • 正则化:在代价函数中加入正则化项(L1 或 L2)防止模型过拟合。

总结来说,损失函数和代价函数是机器学习模型优化的核心工具,选择合适的损失函数能够帮助模型更好地学习数据的特性,并提高模型的性能和鲁棒性。

KL散度

描述

KL散度是一种用于衡量两个概率分布之间差异的度量。在信息论中,它也称为相对熵,用于表达当我们用分布 ( Q Q Q ) 来近似真实分布 ( P P P ) 时,所损失的信息量。
在这里插入图片描述

KL散度的特点

KL 散度的三个性质:非负性、非对称性和无界性。

  1. 非负性
    KL 散度始终非负,( D K L ( P ∥ Q ) ≥ 0 D_{KL}(P \parallel Q) \geq 0 DKL(PQ)0 ),并且仅当 ( P = Q P = Q P=Q ) 时,KL 散度为 0。这意味着两个分布越相似,KL 散度越小。当两个分布完全相同时,KL 散度为零,即没有信息损失。

  2. 非对称性
    KL 散度不是对称的,( D K L ( P ∥ Q ) ≠ D K L ( Q ∥ P D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P DKL(PQ)=DKL(QP) ),因此它并不是一个真正的距离度量。KL 散度衡量的是使用分布 ( Q Q Q ) 来近似分布 ( P P P ) 的信息损失,因此方向性很重要,交换两个分布后,信息损失会不同。

  3. 无界性
    KL 散度可以趋向无穷大,特别是在 ( Q ( i ) = 0 Q(i) = 0 Q(i)=0 ) 且 ( P ( i ) > 0 P(i) > 0 P(i)>0 ) 的情况下。因为 ( log ⁡ ( 0 ) \log(0) log(0) ) 趋于负无穷,这意味着如果 ( Q Q Q ) 对某个事件的概率估计为零,而 ( P P P ) 认为这个事件是可能的,那么使用 ( Q Q Q ) 来近似 ( P P P ) 的信息损失会非常大,导致 KL 散度无限大。


KL散度的常见应用场景

KL散度常在处理概率分布的模型中作为损失函数的一部分。通过在损失函数中加入KL散度,模型可以在多个任务中有效地优化预测分布与真实分布之间的差异。以下是KL散度作为损失函数一部分的几种常见应用:

1. 变分自编码器(Variational Autoencoder, VAE)中的损失函数

在VAE中,损失函数包含两部分:

  • 重构误差:衡量重建的输出和输入数据的差异(通常是均方误差或二元交叉熵)。
  • KL散度:衡量潜在变量的后验分布先验分布(通常是标准正态分布) 之间的差异
    在这里插入图片描述
    KL散度项确保潜在空间的分布接近于标准正态分布,从而提高生成数据的连续性和多样性。

2. 分类问题中的交叉熵损失

分类问题中的交叉熵损失实际上可以看作是KL散度的一种形式。在分类问题中,真实标签通常表示为one-hot向量,模型输出的则是一个预测概率分布。最小化交叉熵损失就是最小化真实分布和预测分布之间的KL散度。
在这里插入图片描述

由于真实分布 ( P ) 是one-hot形式,所以 H( P ) 是常数,最小化交叉熵损失等价于最小化KL散度。

3. 强化学习中的策略优化

在强化学习中,KL散度可以作为策略更新中的约束确保新策略 ( π’ ) 和旧策略 ( π ) 不偏离太远。这种方法通过将KL散度作为损失函数的一部分进行优化,以确保策略的平稳更新。

在这种情况下,目标是通过最小化以下损失函数进行策略更新:
在这里插入图片描述

4. 生成模型中的正则化项

KL散度也常用于生成对抗网络(GAN)和其他生成模型中的正则化项。通过引入KL散度,模型可以保持生成分布与某个目标分布的接近度。这通常用于引导生成样本的多样性和稳定性。

5. 多任务学习中的权衡损失

在某些多任务学习场景中,KL散度可以用来衡量某一任务的输出分布与其他任务输出分布的差异,从而引入额外的正则化约束,以便各任务在共享网络中的学习互不冲突。

6. T-SNE

总结

KL散度是一种广泛应用于机器学习和深度学习中的度量工具,尤其是在涉及概率分布的场景中。其主要用于衡量模型预测的分布与真实分布的差异,并通过最小化KL散度来优化模型表现。具体应用场景包括:

  • 变分自编码器中的潜在分布优化
  • 分类任务中的交叉熵损失
  • 强化学习中的策略更新约束
  • 生成模型中的分布正则化

通过将KL散度引入损失函数,模型可以在复杂任务中更好地平衡生成质量、分布匹配以及策略优化的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/470366.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vxe-table 3.10+ 进阶高级用法(一),根据业务需求自定义实现筛选功能

vxe-table 是vue中非常强大的表格的,公司项目中复杂的渲染都是用 vxe-table 的,对于用的排序。筛选之类的都能支持,而且也能任意扩展,非常强大。 默认筛选功能 筛选的普通用法就是给对应的列指定参数: filters&#…

推荐一款好用的postman替代工具2024

Apifox 是国内团队自主研发的 API 文档、API 调试、API Mock、API 自动化测试一体化协作平台,是非常好的一款 postman 替代工具。 它通过一套系统、一份数据,解决多个系统之间的数据同步问题。只要定义好接口文档,接口调试、数据 Mock、接口…

MTSET可溶于DMSO、DMF、THF等有机溶剂,并在水中有轻微的溶解性,91774-25-3

一、基本信息 中文名称:[2-(三甲基铵)乙基]甲硫基磺酸溴;MTSET巯基反应染料 英文名称:MTSET;[2-(Trimethylammonium)ethyl]methanethiosulfonate Bromide CAS号:91774-25-3 分子式:C6H16BrNO2S2 分子量…

如何为电子课程创造创意

为电子课程创造一个想法,首先要深刻理解是什么让知识对学习者既相关又吸引人。第一步是专注于可以分解为可教部分的特定技能或专业领域。通常,人们从他们熟悉的东西开始,但真正的挑战在于将这些知识转化为一种可访问且引人入胜的学习体验。这…

安全生产管理的重要性:现状、痛点与改进之路

当前,安全生产管理已经成为企业管理中的关键环节,但现实中仍然存在诸多痛点。近年来,随着工业化和现代化的快速推进,企业在追求效益的同时,忽视安全管理的现象屡见不鲜。据统计,安全事故的发生频率仍然较高…

深度学习之 LSTM

1.1 LSTM的产生原因 ​ RNN在处理长期依赖(时间序列上距离较远的节点)时会遇到巨大的困难,因为计算距离较远的节点之间的联系时会涉及雅可比矩阵的多次相乘,会造成梯度消失或者梯度膨胀的现象。为了解决该问题,研究人…

机器学习基础02_特征工程

目录 一、概念 二、API 三、DictVectorize字典列表特征提取 四、CountVectorize文本特征提取 五、TF-IDF文本1特征词的重要程度特征提取 六、无量纲化预处理 1、MinMaxScaler 归一化 2、StandardScaler 标准化 七、特征降维 1、特征选择 VarianceThreshold 底方差…

Linux第四讲:Git gdb

Linux第四讲:Git && gdb 1.版本控制器Git1.1理解版本控制1.2理解协作开发1.3Git的历史1.4Git的操作1.4.1仓库创建解释、仓库克隆操作1.4.2本地文件操作三板斧1.4.3文件推送详细问题 2.调试器 -- gdb/cgdb使用2.1调试的本质是什么2.2watch命令2.3set var命令…

react的创建与书写

一:创建项目 超全面详细一条龙教程!从零搭建React项目全家桶(上篇) - 知乎 1.创建一个文件夹,shift鼠标右键选择在此处打开powershell 2.为了加速npm下载速度,先把npm设置为淘宝镜像地址。 npm config s…

黄色校正电容102j100

1. 普通电容主要用于交流回路中的信号耦合或滤波。它们通常没有极性,容量较小,通常在几百皮法拉范围内。普通电容在电路中用于信号耦合或直流电路的电源滤波,而电解电容一般用于直流电路,容量较大,从几微法到数千微法…

DApp开发:定制化解决方案与源码部署的一站式指南

去中心化应用(DApp)随着区块链技术的发展,成为众多行业探索与创新的重要方向。无论是金融、供应链、游戏,还是社交和艺术市场,DApp都为传统业务模式带来了全新可能。然而,开发一款DApp并非易事,…

单元测试、集成测试、系统测试有什么区别

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 单元测试、集成测试、系统测试有什么区别 1、粒度不同 集成测试bai粒度居中,单元测试粒度最小,系统du测试粒度最大。 2、测试方式不同…

学Linux的第八天

目录 管理进程 概念 程序、进程、线程 进程分类 查看进程 ps命令 unix 风格 bsd风格 GNU风格 top命令 格式 统计信息区 进程信息区:显示了每个进程的运行状态 kill命令 作用 格式 管理进程 概念 程序、进程、线程 程序: 二进制文件&…

Xshell,Shell的相关介绍与Linux中的权限问题

目录 XShell的介绍 Shell的运行原理 Linux当中的权限问题 Linux权限的概念 Linux权限管理 文件访问者的分类(人) 文件类型和访问权限(事物属性) 文件权限值的表示方法 文件访问权限的相关设置方法 如何改变文件的访问权…

RS®SZM 倍频器

_XLT_ R&SSZM 倍频器 R&SSZM 系列倍频器在 50 GHz 至 170 GHz 的频率范围内具有简便的操作性和精确的输出电平。它们可用于多种应用,例如在汽车领域使用测距雷达,在天文学中使用精密望远镜,在雷达干涉测量中用于分析地球表面。 特…

Unity3D学习FPS游戏(11)敌人AI巡逻(NavMesh)

前言:前面两篇博客已经实现了简单的敌人,但是呢,这样很无趣。因为敌人只会站在原地被攻击,所以本篇我们将实现敌人AI巡逻,让敌人动起来。 敌人AI巡逻 场景丰富一下导航网格NavMesh构建导航网格导航网格优化玩家被当作…

去地面算法——depth_clustering算法调试(1)

1 源码下载 论文: 《2016-Fast Range Image-Based Segmentation of Sparse 3D Laser Scans for Online Operation》 《2017-Efficient Online Segmentation for Sparse 3D Laser Scans》 代码:git链接 2 问题记录 2.1 无法找到qt问题 问题截图&…

NUXT3学习日记一(在我git中拉取代码、文件讲解)

Nuxt 3 是一个基于 Vue 3 的现代框架,用于构建服务器端渲染(SSR)和静态生成的应用程序。它提供了一种简化的方式来创建高性能的 Vue 应用,具有许多强大的功能和优点。以下是 Nuxt 3 的一些主要应用和优点: 一、应用场…

vue3项目中内嵌vuepress工程两种实现方式

目录 一、示例二、创建vuepress工程三、配置vue项目的打包命令四、 通过iframe嵌套实现过程五、 将vue项目打包,启本地服务运行index.html 一、示例 vue项目,点击用户手册按钮,通过a标签跳转到vuepress框架搭建的页面。点击后者通过路由跳转…

简述 synchronized 和 java.util.concurrent.locks.Lock 的异同?

大家好,我是锋哥。今天分享关于【简述 synchronized 和 java.util.concurrent.locks.Lock 的异同?】面试题。希望对大家有帮助; 简述 synchronized 和 java.util.concurrent.locks.Lock 的异同? 在Java编程中,synchro…