【机器学习】了解 AUC - ROC 曲线

一、说明

        在机器学习中,性能测量是一项基本任务。因此,当涉及到分类问题时,我们可以依靠AUC - ROC曲线。当我们需要检查或可视化多类分类问题的性能时,我们使用AUC(曲线下面积)ROC(接收器工作特性)曲线。它是检查任何分类模型性能的最重要评估指标之一。

 本博客旨在回答以下问题:

  • 1. 什么是 AUC - ROC 曲线?
  • 2. 定义 AUC 和 ROC 曲线中使用的术语。
  • 3. 如何推测模型的性能?
  • 4. 敏感性、特异性、FPR 和阈值之间的关系。
  • 5. 如何在多类模型中使用 AUC - ROC 曲线?

二、什么是 AUC - ROC 曲线?

        AUC - ROC 曲线是各种阈值设置下分类问题的性能度量。ROC 是一条概率曲线,AUC 表示可分离性的程度或度量。它告诉模型能够区分类的程度。AUC 越高,模型在将 0 个类预测为 0 和将 1 个类预测为 1 方面越好。以此类推,AUC越高,模型在区分有疾病和无疾病患者方面就越好。

        ROC 曲线使用 TPR 与 FPR 绘制,其中 TPR 在 y 轴上,FPR 在 x 轴上。

AUC - ROC 曲线

 

三、定义 AUC 和 ROC 曲线中使用的术语。

3.1 TPR(真阳性率)/召回率/灵敏度

 

3.2 特异性

 

3.3 FPR

 

四、如何推测模型的性能?

        优秀的模型的 AUC 接近 1,这意味着它具有良好的可分离性。较差的模型的 AUC 接近 0,这意味着它的可分离性度量最差。事实上,这意味着它正在回报结果。它将 0 预测为 1,将 1 预测为 0。当 AUC 为 0.5 时,意味着模型没有任何类别分离能力。 我们来解读一下上面的说法。 众所周知,ROC是一条概率曲线。那么让我们绘制这些概率的分布: 注:红色分布曲线为正类(患病患者),绿色分布曲线为负类(无疾病患者)。

        这是一个理想的情况。当两条曲线完全不重叠时,意味着模型具有理想的可分离性度量。它完全能够区分正类和负类。

        

        当两个分布重叠时,我们引入类型 1 和类型 2 错误。根据阈值,我们可以最小化或最大化它们。当 AUC 为 0.7 时,这意味着模型有 70% 的机会能够区分正类和负类。

        

        这是最糟糕的情况。当AUC约为0.5时,模型没有区分正类和负类的判别能力。

        

        当 AUC 大约为 0 时,模型实际上是在往复类。这意味着模型将负类预测为正类,反之亦然。

五、灵敏度、特异性、FPR 和阈值之间的关系。

        敏感性和特异性成反比。因此,当我们增加灵敏度时,特异性会降低,反之亦然。

敏感性,特异性和敏感性⬆️⬇️,特异性⬇️⬆️

        当我们降低阈值时,我们得到更多的正值,从而增加敏感性并降低特异性。

        同样,当我们增加阈值时,我们会得到更多的负值,从而获得更高的特异性和更低的灵敏度。

        众所周知,FPR 是 1 - 特异性。因此,当我们增加TPR时,FPR也会增加,反之亦然。

TPR,FPR和TPR,FPR⬆️⬆️⬇️⬇️

六、如何在多类模型中使用 AUC ROC 曲线?

        在多类模型中,我们可以使用 One vs ALL 方法绘制 N 个类的 N 个 AUC ROC 曲线。例如,如果您有名为 X、Y 和 Z 的三个类,则将有一个针对 Y 和 Z 分类的 X 的 ROC,另一个针对 Y 分类的 Y 的 ROC,以及针对 Y 和 X 分类的第三个 Z。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/73233.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【TypeScript】类型声明及应用(二)

【TypeScript】类型声明及应用(二) 一、前言 TypeScript开发中需要对定义的变量指定类型,目前版本都支持哪些类型,每一个类型都有哪些含义,在这篇文章中,我们将会对其进行总结说明 二、JavaScript基本数据…

Quartz使用文档,使用Quartz实现动态任务,Spring集成Quartz,Quartz集群部署,Quartz源码分析

文章目录 一、Quartz 基本介绍二、Quartz Java 编程1、文档2、引入依赖3、入门案例4、默认配置文件 三、Quartz 重要组件1、Quartz架构体系2、JobDetail3、Trigger(1)代码实例(2)SimpleTrigger(3)CalendarI…

腾讯云从业者认证考试考点——云网络产品

文章目录 腾讯云网络产品功能网络产品概述负载均衡(Cloud Load Balancer)私有网络(Virtual Private Cloud,VPC)专线接入弹性网卡(多网卡热插拔服务)NAT网关(NAT Gateway)…

安全文件传输的重要性及其对企业的影响

在当今的信息时代,企业之间的文件传输已经成为日常工作的重要组成部分。无论是在商务合作、人力资源还是财务审计等方面,文件传输都发挥着关键的作用。然而,随着网络技术的发展,网络安全问题也日益突出,泄漏、篡改、丢…

用思维导图带你解读电子商务数据分析基本指标,产品、运营者必看

随着时代的发展,越来越多的人参与到电商之中。电商即电子商务,是依托现代信息网络技术,以商品交换为中心的新型商务贸易活动。电商可并不简单,做好电商又有哪些关键呢?别急,再此之前,需要先了解…

ViT-vision transformer

ViT-vision transformer 介绍 Transformer最早是在NLP领域提出的,受此启发,Google将其用于图像,并对分类流程作尽量少的修改。 起源:从机器翻译的角度来看,一个句子想要翻译好,必须考虑上下文的信息&…

leetcode每日一练-第102题-二叉树的层序遍历

一、思路 BFS 二、解题方法 通过广度优先搜索(BFS)的方式,按层遍历二叉树节点,并将每层的节点值保存在一个一维数组中,然后再将所有的一维数组存储在二维数组中,最后返回二维数组作为层序遍历的结果。 …

掌握无人机遥感数据预处理的全链条理论与实践流程、典型农林植被性状的估算理论与实践方法、利用MATLAB进行编程实践(脚本与GUI开发)以及期刊论文插图制作等

目录 专题一 认识主被动无人机遥感数据 专题二 预处理无人机遥感数据 专题三 定量估算农林植被关键性状 专题四 期刊论文插图精细制作与Appdesigner应用开发 近地面无人机植被定量遥感与生理参数反演 更多推荐 遥感技术作为一种空间大数据手段,能够从多时、多…

【英杰送书第三期】Spring 解决依赖版本不一致报错 | 文末送书

Yan-英杰的主 悟已往之不谏 知来者之可追 C程序员,2024届电子信息研究生 目录 问题描述 报错信息如下 报错描述 解决方法 总结 【粉丝福利】 【文末送书】 目录: 本书特色: 问题描述 报错信息如下 Description:An attempt…

重新理解 RocketMQ Commit Log 存储协议

最近突然感觉:很多软件、硬件在设计上是有 root reason 的,不是 by desgin 如此,而是解决了那时、那个场景的那个需求。一旦了解后,就会感觉在和设计者对话,了解他们的思路,学习他们的方法,思维…

【Hadoop 01】简介

目录 1 Hadoop 简介 2 下载并配置Hadoop 2.1 修改/etc/profile 2.2 修改hadoop-env.sh 2.3 修改core-site.xml 2.4 修改hdfs-site.xml 2.5 修改mapred-site.xml 2.6 修改yarn-site.xml 2.7 修改workers 2.8 修改start-dfs.sh、stop-dfs.sh 2.9 修改start-yarn.sh、s…

Spring MVC拦截器和跨域请求

一、拦截器简介 SpringMVC的拦截器(Interceptor)也是AOP思想的一种实现方式。它与Servlet的过滤器(Filter)功能类似,主要用于拦截用户的请求并做相应的处理,通常应用在权限验证、记录请求信息的日志、判断用…

小研究 - 微服务系统服务依赖发现技术综述(二)

微服务架构得到了广泛的部署与应用, 提升了软件系统开发的效率, 降低了系统更新与维护的成本, 提高了系统的可扩展性. 但微服务变更频繁、异构融合等特点使得微服务故障频发、其故障传播快且影响大, 同时微服务间复杂的调用依赖关系或逻辑依赖关系又使得其故障难以被及时、准确…

自监督去噪:Noise2Void原理和调用(Tensorflow)

文章原文: https://arxiv.org/abs/1811.10980 N2V源代码: https://github.com/juglab/n2v 参考博客: https://zhuanlan.zhihu.com/p/445840211https://zhuanlan.zhihu.com/p/133961768https://zhuanlan.zhihu.com/p/563746026 文章目录 1. 方法原理1.1 Noise2Noise回…

服务器数据恢复-raid5同步过程中又有一块磁盘报警的数据恢复案例

服务器数据恢复环境: 某研究院一台DELL存储,15块硬盘搭建的一组RAID5磁盘阵列。 该RAID5阵列只有一个卷组,该卷组占用了阵列的全部空间;该卷组只有一个起始位置为0扇区的XFS裸分区。 服务器故障&初检&分析: 该…

Spring Cloud Gateway - 新一代微服务API网关

Spring Cloud Gateway - 新一代微服务API网关 文章目录 Spring Cloud Gateway - 新一代微服务API网关1.网关介绍2.Spring Cloud Gateway介绍3.Spring Cloud Gateway的特性4.Spring Cloud Gateway的三大核心概念5.Gateway工作流程6.Gateway核心配置7.动态路由8.Predicate自定义P…

kafka第三课-可视化工具、生产环境问题总结以及性能优化

一、可视化工具 https://pan.baidu.com/s/1qYifoa4 密码:el4o 下载解压之后,编辑该文件,修改zookeeper地址,也就是kafka注册的zookeeper的地址,如果是zookeeper集群,以逗号分开 vi conf/application.conf 启…

Rust 数据类型 之 结构体(Struct)

目录 结构体(Struct) 定义与声明 结构体定义 结构体实例 结构体分类 单元结构体(Unit Struct) 元组结构体(Tuple Struct) 具名结构体(Named Struct) 结构体嵌套 结构体方法…

公网访问的Linux CentOS本地Web站点搭建指南

文章目录 前言1. 本地搭建web站点2. 测试局域网访问3. 公开本地web网站3.1 安装cpolar内网穿透3.2 创建http隧道,指向本地80端口3.3 配置后台服务 4. 配置固定二级子域名5. 测试使用固定二级子域名访问本地web站点 前言 在web项目中,部署的web站点需要被外部访问,则…

总结946

6:40起床 7:15~8:00早读,07年tex1,2 8:10~10:12 880第二章选填,题目有些综合,错的有些多呀,不要紧,拿下它,就有进步了。 10:28~11:27重做强化18讲6道题 12:10~2:15吃饭睡觉&…