卷积神经网络评价指标

1.评价指标的作用

1. 性能评估:评价指标提供了一种量化的方式来衡量CNN模型的性能。通过这些指标,我们可以了解模型在特定任务上的表现,比如图像分类、目标检测或图像分割等。

2. 模型比较:不同的模型架构或训练策略可能会产生不同的性能结果。评价指标允许我们在同一标准下比较不同模型的性能,从而选择最适合特定任务的模型。

3. 超参数调优:在模型训练过程中,评价指标可以帮助我们选择最佳的超参数设置。例如,通过调整学习率、批量大小、网络深度等超参数,我们可以观察到评价指标的变化,从而找到最优的模型配置。

4. 模型选择:在有多个预训练模型可供选择时,评价指标可以帮助我们决定哪个模型最适合我们的特定任务。例如,在迁移学习中,我们可能会根据评价指标来选择一个预训练的CNN模型作为特征提取器。

5. 问题诊断:评价指标可以帮助我们识别模型在训练过程中可能遇到的问题,如过拟合或欠拟合。例如,如果模型在训练集上表现很好,但在验证集上表现不佳,这可能表明模型过拟合了。

6. 平衡性能:在多分类问题中,不同的类别可能具有不同的样本数量,这可能导致模型对某些类别的预测性能较好,而对其他类别的预测性能较差。评价指标如F1-Score和mIOU可以帮助我们平衡不同类别的性能,确保模型对所有类别都有良好的预测能力。

7. 泛化能力评估:评价指标不仅可以用来评估模型在训练集上的表现,还可以用来评估模型在未见过的数据上的泛化能力。通过在独立的测试集上计算评价指标,我们可以了解模型在实际应用中可能的表现。

8. 研究进展跟踪:在学术研究和工业应用中,评价指标是跟踪技术进步的重要工具。通过比较不同研究或产品中报告的评价指标,我们可以了解领域内的最新进展和趋势

评价指标按任务类型分类有两大部分 一部分是分类任务 一部分是回归任务

2.分类任务


分类任务又可以分为两部分: 单项分类问题和多项分类问题

它们的主要区别在于输出类别的数量和处理方式:

1. 输出类别的数量:
   - 单项分类问题:只有两个可能的输出类别,通常标记为正类(Positive)和负类(Negative),或者1和0。例如,判断一封邮件是否为垃圾邮件,一个人是否患有某种疾病等。
   - 多项分类问题:有三个或更多的可能输出类别。例如,识别图片中的物体是猫、狗还是鸟,或者对新闻文章进行分类到不同的主题类别。

2. 模型输出:
   - 单项分类问题:模型通常输出一个概率值,表示输入样本属于正类的概率,或者直接输出一个二元标签(0或1)。
   - 多项分类问题:模型输出一个概率分布,每个类别对应一个概率值,表示输入样本属于该类别的概率。通常使用softmax函数来生成这个概率分布。

3. 损失函数:
   - 单项分类问题:常用的损失函数是二元交叉熵损失(Binary Cross-Entropy Loss)。
   - 多项分类问题:常用的损失函数是多类别交叉熵损失(Categorical Cross-Entropy Loss)。

4. 评价指标:
   - 单项分类问题:常用的评价指标包括准确率、精确率、召回率、F1-Score、ROC曲线和AUC值等。
   - 多项分类问题:除了上述指标外,还可以使用混淆矩阵(Confusion Matrix)来更详细地评估模型在各个类别上的性能。

5. 数据不平衡问题:
   - 单项分类问题:在数据不平衡的情况下,可能需要特别关注精确率和召回率的平衡,以及使用一些技术如重采样或调整类权重来处理不平衡问题。
   - 多项分类问题:当类别不平衡时,同样需要关注数据不平衡问题,可能需要使用类似的技术来提高模型在少数类别上的性能。

6. 模型复杂度:
   - 单项分类问题:模型通常较简单,因为只需要区分两个类别。
   - 多项分类问题:模型可能更复杂,因为需要区分多个类别,并且可能需要更多的数据来训练模型以获得良好的性能。

7. 应用场景:
   - 单项分类问题:适用于需要二元决策的场景,如垃圾邮件检测、信用评分等。
   - 多项分类问题:适用于需要多类别决策的场景,如图像识别、文本分类等。

TP:正样本被正确的分类成正样本 实际上是正样本数

FN:正样本被错误的分类成负样本 实际上是负样本数

FP:负样本被错误的分类成正样本 实际上是负样本数

TN:负样本被正确的分类成负样本 实际上是负样本数

1.单项分类问题

1.准确率(accuracy)

     

TP + TN:被正确分类的样本数

P + N:全部样本数

2.错误率(error rate)

FP + FN:被错误分类的样本数

P + N:全部样本数

3.精度(precision)

TP:被正确分类的正样本数

TP + FP:被正确分类的正样本数和被错误分类成正样本的负样本数

4.召回率(recall)

 TP:被正确分类的正样本数

TP + FN:被正确的分类的正样本数和被错误分类的正样本数(就是实际上的正样本数)

2.多项分类问题

1.F1分数(F1 score)

F1分数(F1 Score)是统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的准确率(Precision)和召回率(Recall)。F1分数可以看作是模型准确率和召回率的一种加权平均,其最大值是1,最小值是0,值越大意味着模型的精确度越高

F1分数的计算公式是: 

其中:

  • Precision(精确率)是指预测为正类别中实际为正类别的比例,计算公式为:

  • 其中TP是真正例(True Positive),FP是假正例(False Positive)。

  • Recall(召回率)是指所有实际为正类别中被预测为正类别的比例,计算公式为:

  • 其中FN是假负例(False Negative)。

F1分数特别适用于那些正负样本数量不均衡的情况,因为它不像准确率那样容易受到样本数量分布的影响。

2.ROC曲线

ROC曲线(Receiver Operating Characteristic Curve)是一种用于评估分类模型性能的工具,尤其在二分类问题中非常常见。它通过不同的阈值设置,展示了模型的真正率(TPR)与假正率(FPR)之间的关系。ROC曲线的横轴是假正例率(False Positive Rate, FPR),纵轴是真正例率(True Positive Rate, TPR)。

ROC曲线的关键属性包括:
1. 真正率(TPR):又称召回率,是指模型正确预测的正样本数与所有实际为正的样本数的比例。TPR: TP / (TP+FN)
2. 假正率(FPR):又称误报率,是指模型错误预测为正的负样本数与所有实际为负的样本数的比例。 FP / (FP+TN)
3. AUC值:ROC曲线下面积的大小,介于0.5到1.0之间,用于衡量模型的整体性能。AUC值越高,表示模型的分类性能越好。

AUC为1时,表示模型具有完美的分类能力

AUC介于1与0.5之间时,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值

AUC为0.5时,表示模型的性能与随机猜测相同

AUC介于0.5与0之间时,比随机猜测还差;但只要总是反预测而行,就优于随机猜测

ROC曲线与模型性能的关系如下:
- 理想模型:理想的模型会在ROC曲线的左上角有一个点,表示TPR接近1而FPR接近0。
- 随机猜测:如果模型的预测完全是随机的,那么ROC曲线将接近于从左下角到右上角的对角线。
- 性能比较:通过比较不同模型的ROC曲线,可以判断哪个模型的性能更好。曲线越接近左上角,模型的性能越好。

在实际应用中,ROC曲线不仅可以用来比较不同模型的性能,还可以用来选择最佳的分类阈值,以及在类别不平衡的情况下评估模型的稳定性和有效性。


 

3.回归任务

1.MAE(平均绝对误差)

MAE(Mean Absolute Error),即平均绝对误差,是衡量预测值与实际值之间差异的一种常用指标。它通过计算预测值和实际值之间差的绝对值的平均数来得出。MAE的优点在于它对异常值(outliers)不敏感,并且其结果的单位与原始数据一致,这使得结果更容易解释。

MAE的计算公式 是:

yi是实际值,y尖i是预测值

其中:

  • n是样本数量。
  • yi是第 i 个样本的实际值。
  • yi​尖是第 i 个样本的预测值。

MAE的特点 包括:
1. 它是一个非负值,MAE越小表示模型的预测准确性越高。
2. 它对异常值的影响较小,因此更加稳健。

MAE的应用场景 包括:
- 异常值敏感度较低的应用,如金融市场预测、气象预报等。
- 简单性和可解释性重要的领域,如商业分析和社会科学。
- 实时系统和快速反馈环境,如实时交易系统或在线学习环境。

MAE的局限性 包括:
- 在对大误差敏感的场景中,如安全关键系统,MAE可能不是最佳选择。
- 在分布极度不平衡的数据中,MAE可能无法提供充分的信息。
 

总的来说,MAE是一个广泛应用的误差度量方法,适用于各种需要准确反映预测误差且对异常值有一定抵抗力的应用场景。然而,在需要对大误差敏感、处理极不平衡数据或强调异常值的情况下,不适合运用MAE

2.MSE(均方误差)

MSE,即均方误差(Mean Squared Error),是一种常用的评价指标,用于衡量模型预测值与实际值之间的差异。MSE 通过计算预测值与实际值之差的平方的平均值来衡量误差,其公式如下:

其中:

  • n是样本数量。
  • yi是第 i 个样本的实际值。
  • yi​尖是第 i 个样本的预测值。

MSE 的特点包括:

  1. 敏感性:MSE 对较大的误差给予更大的惩罚,因为它对误差进行了平方处理。这意味着一个较大的预测误差会对 MSE 产生较大的影响。
  2. 非负性:MSE 总是非负的,MSE 为 0 表示预测完全准确。
  3. 可解释性:MSE 的单位是预测值单位的平方,这可能使得其数值难以直观理解。

MSE 的应用场景包括:

  • 在回归分析中,MSE 是一种常用的损失函数,用于衡量模型的预测性能。
  • 在机器学习中,MSE 常用于训练模型,特别是在最小化损失函数的过程中。

MSE 的局限性:

  • MSE 对异常值(outliers)非常敏感,因为异常值会导致 MSE 显著增加。
  • 在某些情况下,MSE 可能不是最佳选择,特别是当数据中存在异常值或者我们希望对所有误差给予相同权重时。

MSE 与其他MAE的比较:

  • 与 MAE(平均绝对误差)相比,MSE 对大误差更敏感,因为误差被平方了。

在选择评价指标时,应根据具体问题的需求和数据的特性来决定是否使用 MSE。例如,如果异常值不是问题,或者我们希望模型对大误差给予更多关注,那么 MSE 可能是一个合适的选择。

3.MAE与MSE的比较

MAE的图像:

其中目标值是100,预测值的范围从-10000到10000,Y轴代表的MSE取值范围是从0到正无穷,并且在预测值为100处达到最小。

MSE的图像:

其中目标值是100,预测值的范围从-10000到10000,Y轴代表的MSE取值范围是从0到正无穷,并且在预测值为100处达到最小。

观察MAE和RMSE(即MSE的平方根,同MAE在同一量级中)在两个例子中的计算结果。第一个例子中,预测值和真实值很接近,而且误差的方差也较小。第二个例子中,因为存在一个异常点,而导致误差非常大

如果训练数据被异常点所污染,那么MAE损失就更好用(比如,在训练数据中存在大量错误的反例和正例标记,但是在测试集中没有这个问题)。

MAE存在一个严重的问题(特别是对于神经网络):更新的梯度始终相同,也就是说,即使对于很小的损失值,梯度也很大。这样不利于模型的学习。为了解决这个缺陷,我们可以使用变化的学习率,在损失接近最小值时降低学习率。
而MSE在这种情况下的表现就很好,即便使用固定的学习率也可以有效收敛。MSE损失的梯度随损失增大而增大,而损失趋于0时则会减小。这使得在训练结束时,使用MSE模型的结果会更精确。


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/457207.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SSM考研助手系统的设计

管理员账户功能包括:系统首页,个人中心,学生管理,教学秘书管理,考研资讯管理,考研名师管理,考研信息管理,系统管理 教学秘书账号功能包括:系统首页,个人中心…

如何快速解决游戏提示系统中的emp.dll缺失问题

emp.dll是一个动态链接库(Dynamic Link Library, DLL)文件,这类文件在Windows操作系统中扮演着至关重要的角色。它们包含了可由多个程序同时使用的代码和数据,其主要目的是实现模块化,以便于程序的更新和动态链接。emp…

es实现自动补全

目录 自动补全 拼音分词器 安装拼音分词器 第一步:下载zip包,并解压缩 第二步:去docker找到es-plugins数据卷挂载的位置,并进入这个目录 第三步:把拼音分词器的安装包拖到这个目录下 第四步:重启es 第…

RV1126音视频学习(二)-----VI模块

文章目录 前言2.RV1126的视频输入vi模块2.1什么是VI模块2.3RV1126VI模块主要APIRK_MPI_SYS_Init()RK_MPI_VI_SetChnAttrRK_MPI_VI_EnableChnRK_S32 RK_MPI_VI_DisableChnRK_MPI_VI_StartStreamRK_MPI_SYS_GetMediaBufferRK_MPI_MB_GetPtrRK_MPI_MB_GetSizeRK_MPI_MB_ReleaseBuf…

【NOIP提高组】加分二叉树

【NOIP提高组】加分二叉树 💐The Begin💐点点关注,收藏不迷路💐 设一个n个节点的二叉树tree的中序遍历为(l,2,3,…,n),其中数字1,2,3,…,n为节点编号。每个节点都有一个分数(均为正整…

读《认知觉醒》:浅谈费曼技巧

最近在阅读《认知觉醒》这本书,封面如下: 读到了里面对于费曼技巧的介绍(在第八章),感觉受到了一些启发,在这里分享给大家。 其实之前很早就接触过了费曼技巧,但是并没有很好的应用起来&#x…

零代码快速开发智能体 |甘肃旅游通

零代码快速开发智能体 |甘肃旅游通 本文仅用于文心智能体的活动征文 参与人:mengbei_admin 文心智能体平台是人工智能领域的佼佼者。它拥有强大的语言理解与生成能力,能精准回应各种问题,出色完成文本创作、知识问答和翻译等任…

线性表之双向链表

链表花里胡哨,一应俱全 前言 在这之前,我们已经学习了单链表。我们发现这些链表都是一个接一个朝一个方向接下去,有时,我们想要查找某个结点的时候还得从头开始遍历查找,尽管我们已经学习了顺序表,查找某个…

免费PDF页面提取小工具

下载地址 https://download.csdn.net/download/woshichenpi/89922797 使用说明:PDF页面提取工具 1. 启动应用程序 双击程序的启动图标或者通过命令行运行程序。 2. 选择PDF文件 在应用程序窗口中找到“选择PDF”按钮并点击它。在弹出的文件选择对话框中&#x…

Windows server 2003服务器的安装

Windows server 2003服务器的安装 安装前的准备: 1.镜像SN序列号 图1-1 Windows server 2003的安装包非常人性化 2.指定一个安装位置 图1-2 选择好安装位置 3.启动虚拟机打开安装向导 图1-3 打开VMware17安装向导 图1-4 给虚拟光驱插入光盘镜像 图1-5 输入SN并…

Linux系统安装Redis详细操作步骤(二进制发布包安装方式)

安装方式介绍 在Linux系统中,安装软件的方式主要有四种,这四种安装方式的特点如下: 安装方式特点二进制发布包安装软件已经针对具体平台编译打包发布,只要解压,修改配置即可rpm安装软件已经按照redhat的包管理规范进…

Redis 集群 总结

前言 相关系列 《Redis & 目录》(持续更新)《Redis & 集群 & 源码》(学习过程/多有漏误/仅作参考/不再更新)《Redis & 集群 & 总结》(学习总结/最新最准/持续更新)《Redis & 集群…

计算机网络:网络层 —— IPv4 地址与 MAC 地址 | ARP 协议

文章目录 IPv4地址与MAC地址的封装位置IPv4地址与MAC地址的关系地址解析协议ARP工作原理ARP高速缓存表 IPv4地址与MAC地址的封装位置 在数据传输过程中,每一层都会添加自己的头部信息,最终形成完整的数据包。具体来说: 应用层生成的应用程序…

Java--反射机制

前言: 反射与之前的知识的区别 1.面向对象中创建对象,调用指定结构(属性、方法)等功能,可以不使用反射,也可以使用反射。请问有什么区别? 不使用反射,我们需要考虑封装性。比如:出了自定义类之后,就不能…

WPF+MVVM案例实战(六)- 自定义分页控件实现

文章目录 1、项目准备2、功能实现1、分页控件 DataPager 实现2、分页控件数据模型与查询行为3、数据界面实现 3、运行效果4、源代码获取 1、项目准备 打开项目 Wpf_Examples,新建 PageBarWindow.xaml 界面、PageBarViewModel.cs ,在用户控件库 UserControlLib中创建…

电池的主被动均衡

只有串联的电池需要进行电压均衡,并联的电池由于电压一致,所以并不需要进行均衡: 被动均衡有一个很明显的特征就是会看到很多大电阻,串联在MOS和电池之间:下图中的保护板就是被动均衡板子以及它的原理图: …

软硬件开发面试问题大汇总篇——针对非常规八股问题的提问与应答

软硬件开发,从微控制器编程到复杂的嵌入式系统开发,离不开下位机、操作系统、上位机等,涵盖范围很广。 如何快速一行代码操作硬件寄存器 直接操作硬件寄存器的代码通常依赖于特定平台和编程语言。在 C 或 C 中,常见的方法是使用指…

WORFBENCH:一个创新的评估基准,目的是全面测试大型语言模型在生成复杂工作流 方面的性能。

2024-10-10,由浙江大学和阿里巴巴集团联合创建的WORFBENCH,一个用于评估大型语言模型(LLMs)生成工作流能力的基准测试。它包含了一系列的测试和评估协议,用于量化和分析LLMs在处理复杂任务时分解问题和规划执行步骤的能力。WORFBE…

智慧停车场导航系统架构及反向寻车系统解决方案

一、系统概述: 随着当前室内定位导航技术在大型公共场所如政务中心、商业综合体、车站中的应用越来越多,人们对智慧停车场的需求也日益凸显出来,并且智慧停车场对大型公共场所智慧化的整体建设起到重要作用。如何更有效提高停车效率&#xf…

如何加密电脑磁盘?电脑本地磁盘加密方法介绍

随着信息技术的不断发展,电脑磁盘加密已经成为保护个人隐私和数据安全的重要手段。本文将介绍几种常见的电脑本地磁盘加密方法,帮助用户保护自己的数据安全。 文件夹只读加密专家 文件夹只读加密专家不仅可以加密电脑中的文件夹,还可以加密保…