【笔记】深度学习模型评估指标

推荐链接:
(0)多分类器的评价指标

(1)泛化误差的评价方法:【机器学习】模型评估与选择(留出法、交叉验证法、查全率、查准率、偏差、方差)

(2)机器学习:数据分布的漂移问题及应对方案

(3)机器学习:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线

0.背景+名词解释

在这里插入图片描述名词解释:
(1)过拟合:是指学习模型对训练样本预测得很好,但对新样本预测很差的现象。这通常是由于学习模型能力过于强大,以至于把训练样本自身的一些特点当做了一般性质。过拟合是无法彻底避免的,只能缓解。模型选择就是要旨在避免过拟合并提高模型的预测能力。
(2) 准确性:模型在训练数据集上的性能。
(3)泛化能力:模型在新数据集上的性能。
(4)过拟合:模型在训练数据集上表现良好,但在新数据集上表现差。
(5)欠拟合:模型在训练数据集和新数据集上表现差。
(6)验证集:用于评估模型性能的数据集,与训练集和测试集不同。
(7)交叉验证:在多个子集上进行验证,以减少验证集的随机性。

1.训练效果(泛化能力)评价指标

在这里插入图片描述

机器学习模型评估指标(有大量错误,需核对)

1.1.名词解释

  • 损失函数(Loss Function):深度学习模型在训练过程中使用损失函数来衡量预测值与真实值之间的差异。通常,通过优化算法(如梯度下降)最小化损失函数来调整模型的权重和参数。较低的损失值通常表示模型在训练数据上的拟合程度较好。
  • 准确率(Accuracy):准确率是评估深度学习模型分类性能的常见指标。它衡量模型在所有样本中正确分类的比例。准确率可以通过在测试集上计算正确分类的样本数除以总样本数得到。
  • 验证集(Validation Set):在训练过程中,可以将一部分数据集分离出来作为验证集,用于评估模型在未见过的数据上的性能。通过在验证集上计算损失和准确率等指标,可以判断模型的泛化能力。
  • 混淆矩阵(Confusion Matrix):混淆矩阵是用于评估分类模型性能的工具。它展示了模型在不同类别上的分类结果,包括真正例(True Positive,TP)、真负例(True Negative,TN)、假正例(False Positive,FP)和假负例(False Negative,FN)。基于混淆矩阵,可以计算出精确度(Precision)、召回率(Recall)和F1值等指标。
  • ROC曲线和AUC值:ROC曲线和AUC是用于评估二分类模型性能的指标。ROC曲线是以不同阈值下真正例率(True Positive Rate,TPR)和假正例率(False Positive Rate,FPR)为横纵轴绘制的曲线。AUC(Area Under Curve)是ROC曲线下的面积,用于衡量模型在所有可能阈值下的平均性能。
  • 平均精确度(Average Precision):平均精确度是用于评估目标检测和图像分割等任务的指标。它基于不同阈值下的精确度-召回率曲线,计算出曲线下的平均精确度。特定任务的指标:对于特定任务,可以选择适合的指标来评估模型的性能。例如,对于语言生成任务,可以使用BLEU(Bilingual Evaluation Understudy)指标来衡量生成文本的质量。

1.2.名词解释

  • 准确性(Accuracy):准确性是最常用的性能指标之一,用于衡量模型在整体数据集上的预测准确率。它可以通过计算正确预测的样本数量与总样本数量的比例来得到。

  • 损失函数(Loss Function):损失函数衡量了模型的预测输出与实际标签之间的差异。常见的损失函数包括均方误差(Mean Squared Error,MSE)、交叉熵损失(Cross-Entropy Loss)等。较低的损失函数值表示模型的预测与真实标签之间的差异较小。

  • 精确率(Precision)和召回率(Recall):精确率和召回率是用于评价二分类问题的性能指标。精确率表示被正确预测为正类的样本数量占所有被预测为正类的样本数量的比例,而召回率表示被正确预测为正类的样本数量占真实正类样本数量的比例。

  • F1分数(F1 Score):F1分数综合考虑了精确率和召回率,是一个综合评价指标。它是精确率和召回率的调和平均值,可以帮助综合评估模型的性能。

  • ROC曲线(Receiver Operating Characteristic Curve)和AUC(Area Under the Curve):ROC曲线是以真阳性率(True Positive Rate)为纵轴,假阳性率(False Positive Rate)为横轴绘制的曲线。AUC表示ROC曲线下的面积,用于衡量模型在不同阈值下的分类性能。

  • 交叉验证(Cross-Validation):交叉验证是一种用于评估模型性能的技术。它将数据集分成多个子集,每次使用其中一个子集作为验证集,其余子集作为训练集,多次重复训练和验证,计算模型在不同子集上的性能指标的平均值。

  • 超参数调优(Hyperparameter Tuning):深度学习模型通常有许多超参数,例如学习率、批量大小、正则化参数等。通过尝试不同的超参数组合,并使用评估指标来比较它们的性能,可以找到最佳的超参数配置。

1.3.多分类器训练效果示例

在这里插入图片描述在这里插入图片描述

kappa一致性评价

链接

p0被称为观测精确性或一致性单元的比例;pc被称为偶然性一致或期望的偶然一致的单元的比例。kappa计算结果为-1到1,但通常kappa是落在 0到1 间,可分为五组来表示不同级别的一致性:0.0到0.20极低的一致性(slight)、0.21到0.40一般的一致性(fair)、0.41到0.60 中等的一致性(moderate)、0.61到0.80 高度的一致性(substantial)和0.81到1几乎完全一致(almost perfect)。

例子:

混淆矩阵
在这里插入图片描述在这里插入图片描述k即kappa值,为0.8228,说明一致性良好

2.训练数据评价指标

目标类别分布是指训练数据中不同目标类别的比例。均衡的目标类别分布可以促进模型的泛化能力,使其能够有效地检测各种目标。不均衡的目标类别分布可能会导致模型对某些类别目标的检测精度较低。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/493083.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MAC】深入浅出 Homebrew 下 Nginx 的安装与配置指南

硬件:Apple M4 Pro 16寸 系统: macos Sonoma 15.1.1 Nginx 是一款高性能的 Web 服务器和反向代理服务器,广泛应用于全球各地的网站和企业应用中。本文将详细介绍如何在 macOS 环境下使用 Homebrew 安装、启动、管理以及优化配置 Nginx&#x…

OpenCV 学习记录:首篇

最近在学习机器视觉,希望能通过记录博客的形式来鞭策自己坚持学完,同时也把重要的知识点记录下来供参考学习。 1. OpenCV 介绍与模块组成 什么是 OpenCV? OpenCV (Open Source Computer Vision Library) 是一个开源的计算机视觉和机器学习软…

git使用和gitlab部署

1.ci,cd,DevOps ci:持续集成:开发的代码集成到代码仓库 cd:持续交互:从代码仓库拉取代码到部署到测试环境 cd:持续部署:从代码仓库拉取代码到部署到生产环境 DevOps:开发写完的代码自动集成&#xff0c…

数据结构:B树与B+树

工具 数据结构与算法可视化在线演示 m阶 B树有以下特点: B-树,有时又写为B_树(其中的-或者_只是连字符,并不读作 B减树),一颗 m 阶(或度)的 B-树,或者本身是空树,否则必须满足以下…

CSDN数据大屏可视化【开源】

项目简介 本次基于版本3 开源 版本3开源地址:https://github.com/nangongchengfeng/CsdnBlogBoard.git 版本1开源地址:https://github.com/nangongchengfeng/CSDash.git 这是一个基于 Python 的 CSDN 博客数据可视化看板项目,通过爬虫采…

YOLOv8全解析:高效、精准的目标检测新时代——创新架构与性能提升

目录 前言 一、模型介绍 二、网络结构 Backbone改进 特征增强网络(neck) 检测头(head) 其它部分 三、Loss计算 四、性能表现 五、YOLOv8使用详解 添加模型 其它部分 创建数据集 数据标注 模型训练 模型预测 六、YOLOv8总结 前言 YOLO(You Only Lo…

重拾设计模式--模板方法模式

文章目录 一、模板方法模式概述二、模板方法模式UML图三、优点1代码复用性高2可维护性好3扩展性强 四、缺点五、使用场景六、C 代码示例1七、 C 代码示例2 一、模板方法模式概述 定义:定义一个操作中的算法骨架,而降一些步骤延迟到子类中。模板方法使得…

林子雨-大数据课程实验报告(一)

实验一:熟悉常用的Linux操作和Hadoop操作 一、实验目的 Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。 二、实验平台 操作系统…

时间序列异常值检测方法

文章目录 一、基于统计的方法1.1、标准差1.2、箱线图1.3、Z-Score法 二、基于机器学习算法的方法2.1、K-NN2.2、孤立森林 三、基于密度的方法3.1、LOF3.2、DBSCAN密度聚类 时间序列相关参考文章: 时间序列预测算法—ARIMA 时间序列预测算法—Prophet 时间序列分类任…

#渗透测试#漏洞挖掘#红蓝攻防#护网#sql注入介绍06-基于子查询的SQL注入(Subquery-Based SQL Injection)

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停…

Moretl开箱即用日志采集

永久免费: 至Gitee下载 使用教程: Moretl使用说明 使用咨询: 用途 定时全量或增量采集工控机,电脑文件或日志. 优势 开箱即用: 解压直接运行.不需额外下载.管理设备: 后台统一管理客户端.无人值守: 客户端自启动,自更新.稳定安全: 架构简单,兼容性好,通过授权控制访问. 架…

Go框架比较:goframe、beego、iris和gin

由于工作需要,这些年来也接触了不少的开发框架,Golang的开发框架比较多,不过基本都是Web"框架"为主。这里稍微打了个引号,因为大部分"框架"从设计和功能定位上来讲,充其量都只能算是一个组件&…

DB-GPT 智谱在线模型配置

LLM_MODELzhipu_proxyllm PROXY_SERVER_URLhttps://open.bigmodel.cn/api/paas/v4/chat/completions ZHIPU_MODEL_VERSIONglm-4 ZHIPU_PROXY_API_KEY70e8ec7113882ff5478fcecaa47522479.ExY2LyjcvWmqrTAf

【GCC】2015: draft-alvestrand-rmcat-congestion-03 机器翻译

腾讯云的一个分析,明显是看了这个论文和草案的 : 最新的是应该是这个 A Google Congestion Control Algorithm for Real-Time Communication draft-ietf-rmcat-gcc-02 下面的这个应该过期了: draft-alvestrand-rmcat-congestion-03

python:用 sklearn 构建线性回归模型,并评价

编写 test_sklearn_6.py 如下 # -*- coding: utf-8 -*- """ 使用 sklearn 估计器构建线性回归模型 """ import numpy as np import pandas as pd import matplotlib.pyplot as plt from matplotlib import rcParamsfrom sklearn import dataset…

系统思考—战略共识

当企业不增长的时候,是忙着救火,还是在真正解决问题? 最近遇到很多领导者,把精力放在“管理”上,希望通过抓细节提升效率,解决经营问题。结果呢?全公司上上下下忙成了一团乱麻,但不…

web3跨链桥协议-Nomad

项目介绍 Nomad是一个乐观跨链互操作协议。通过Nomad协议,Dapp能够在不同区块链间发送数据(包括rollups),Dapp通过Nomad的合约和链下的代理对跨链数据、消息进行验证、传输。其安全通过乐观验证机制和欺诈证明制约验证者实现&…

微信小程序实现画板画布自由绘制、选择画笔粗细及颜色、记录撤回、画板板擦、清空、写字板、导出绘图、canvas,开箱即用

目录 画板创建canvas绘制及渲染画笔粗细功能实现画笔颜色选择画笔痕迹撤回、板擦、画布清空canvas解析微信小程序中 canvas 的应用场景canvas 与 2D 上下文、webgl 上下文的关系图像的加载与绘制说明代码说明画板创建 canvas绘制及渲染 在wxml添加对应的canvas标签代码,并在j…

网站灰度发布?Tomcat的8005、8009、8080三个端口的作用什么是CDNLVS、Nginx和Haproxy的优缺点服务器无法开机时

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默, 忍不住分享一下给大家。点击跳转到网站 学习总结 1、掌握 JAVA入门到进阶知识(持续写作中……) 2、学会Oracle数据库入门到入土用法(创作中……) 3、手把…

解锁BL后的K40降级

1 下载刷机工具 https://miuiver.com/miflash/ 2、下载刷机包 https://xiaomirom.com/series/ 下载ROM包,12.0.8比较好 3 打开第一步下载的刷机工具 打开首次安装驱动, 接下来先选择个重要的东西,如果不想重新上BL那就选择全部删除…