11. 机器学习 - 评价指标2

文章目录

    • 混淆矩阵
    • F-score
    • AUC-ROC

在这里插入图片描述

更多内容: 茶桁的AI秘籍

Hi, 你好。我是茶桁。

上一节课,咱们讲到了评测指标,并且在文章的最后提到了一个矩阵,我们就从这里开始。

混淆矩阵

在我们实际的工作中,会有一个矩阵,这个矩阵是分析结果常用的。

Image 2023-10-18 192838.png

我们来看看具体是什么意思。

所谓的True condition, 指的是真实值, Predicted condition,指的是预测值。

其中行表示,Predicted condition positive表示预测值是1,Predicted condition negative表示预测值是0。

列表示则为:Condition positive表示真实值是1, Condition negative表示真实值是0。

这样行列交叉就组成了这样一个矩阵。这个矩阵叫做混淆矩阵, 英文名字叫做Confusion Matrix.

这个混淆矩阵是什么意思呢?

True Positive 意思就是预测值是1, 预测对了,True negative意思是预测值是0, 预测对了。那相对的, False positive意思就是预测值是1, 预测错了, False negative意思就是预测值是0, 预测错了。

混淆矩阵在常见的机器学习里边是一个很重要的分析工具:

from sklearn.metrics import confusion_matrix
confusion_matrix(true_labels, predicated_labels)—
array([[59,  6],[ 6, 29]])

我们可以直接看看这个方法的源码里有相关说明:

??confusion_matrix---
def confusion_matrix(...the count of true negatives is :math:`C_{0,0}`, false negatives is :math:`C_{1,0}`, true positives is :math:`C_{1,1}` false positives is :math:`C_{0,1}`....

tp实际上是1预测值是1,tn实际是0预测是0, fp实际是0预测是1 fn实际是1预测是0

這個時候我們再回頭來看上节课结尾处的那个公式:

P r e c i s i o n = t p t p + f p R e c a l l = t p t p + f n \begin{align*} Precision & = \frac{tp}{ tp + fp} \\ Recall & = \frac{tp}{tp + fn} \end{align*} PrecisionRecall=tp+fptp=tp+fntp

很多人看到这个就有点晕, 其实很简单. 切换成我们刚才查看源码时查询到的就就成了这样:

P r e c i s i o n = C ( 0 , 0 ) C ( 0 , 0 ) + C ( 1 , 0 ) R e c a l l = C ( 0 , 0 ) C ( 0 , 0 ) + C ( 0 , 1 ) \begin{align*} Precision & = \frac{C(0, 0)}{ C(0, 0) + C(1, 0)} \\ Recall & = \frac{C(0, 0)}{C(0, 0)+ C(0, 1)} \end{align*} PrecisionRecall=C(0,0)+C(1,0)C(0,0)=C(0,0)+C(0,1)C(0,0)

tp是实际上是positive, 预测也是positive. fp就是实际上并不是positive,但是预测的值是positive. 那么tp+fp就是所有预测为positive的值. 所以precision就是预测对的positive比上所有预测的positive.

fn指的是实际上是positive, 但是预测值并不是positive的值. 所以tp+fn就是所有实际的positive值, recall就是预测对的positive比上所有实际的positive值.

我们这样对比着矩阵和公式来理解Precision和Recall是不是就清晰了很多? 这就是position和recall根据混淆矩阵的一种定义方式.

刚刚讲了baseline, baseline是在做评估的时候要知道结果一定要比什么好才行.如果是个二分类问题, 基本上是一半一半, 准确度是50%, 那基本上就没用.

Precision和recall这两个是针对于分类问题进行评价, 那我们怎么解决回归问题的评价呢?

回归问题,它也有一个accuracy如下:

a c c ( y , y ^ ) = ∑ i ∈ N ∣ y i − y ^ i ∣ a c c ( y , y ^ ) = ∑ i ∈ N ∣ y i − y ^ i ∣ 2 a c c ( y , y ^ ) = ∑ i ∈ N ∣ y i − y i ^ ∣ ∣ y i ∣ acc(y, \hat y) = \sum_{i \in N}|y_i - \hat y_i| \\ acc(y, \hat y) = \sum_{i \in N}|y_i - \hat y_i|^2 \\ acc(y, \hat y) = \sum_{i \in N} \frac{|y_i - \hat{y_i}|}{|y_i|} acc(y,y^)=iNyiy^iacc(y,y^)=iNyiy^i2acc(y,y^)=iNyiyiyi^

除此之外, regression问题里面有一个比较重要的评价方式叫做R2-scoree:

R 2 ( y , y ^ ) = 1 − ∑ i = 1 n ( y i − y ^ i ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 R^2(y, \hat y) = 1 - \frac{\sum_{i=1}^n(y_i - \hat y_i)^2}{\sum_{i=1}^n(y_i - \bar y)^2} R2(y,y^)=1i=1n(yiyˉ)2i=1n(yiy^i)2

  • 第一种情况: 如果所有的y_i和yhat_i的值都相等, 那么R2(y, yhat) = 1
  • 第二种情况: 如果所有的yhat_i是y_i的平均值, 那么R2(y, yhat) = 0
  • 第三种情况: 如果R2的值比0还小, 就意味着它还不如我们做统计求平均值,瞎猜的结果. 也就是连baseline都没达到.

R2-scoree之所以常常会被用于进行回归问题的评测, 主要的原因就是它防止了机器作弊.

比方说我们现在有一组数据, 这组数据实际都是0.99, 0.97, 0.98…, 这些数字都很小, 而且都很密集. 那么给机器使用的时候随便做一个平均值, 感觉到准确度还挺高, 那就被骗了.

F-score

在precision和recall之外, 还有一个比较重要的内容, 叫做F-score.

首先我们要知道, precision和recall这两个值在实际工作中往往是相互冲突的. 为了做个均衡, 就有了F-score.

F − s c o r e = ( 1 + β 2 ) ∗ p r e c i s i o n × r e c a l l β 2 ∗ p r e c i s i o n + r e c a l l \begin{align*} F-score & = \frac{(1+\beta^2) * precision \times recall}{\beta^2 * precision + recall} \end{align*} Fscore=β2precision+recall(1+β2)precision×recall

β \beta β是自行定义的参数,由这个式子可见F-score能同时考虑precision和recall这两种数值。分子为precision和recall相乘,根据式子,只要precision或recall趋近于0,F-score就会趋近于0,代表着这个算法的精确度非常低。一个好的算法,最好能够平衡recall和precision,且尽量让两种指标都很高。所以有一套判断方式可以同时考虑recall和precision。当 β → 0 \beta \to 0 β0, F-score就会退化为precision, 反之, 当 β → ∞ \beta \to \infty β, F-socre就会退化为recall.

我们一般说起来, F-score没有特别定义的话, 就是说 β \beta β为1, 一般我们写成F1-score.

F 1 − s c o r e = 2 × p r e c i s i o n × r e c a l l p r e c i s i o n + r e c a l l \begin{align*} F1-score & = 2 \times \frac{precision \times recall}{precision + recall} \end{align*} F1score=2×precision+recallprecision×recall

F1-score是仅当precision和recall都为1的时候,其值才等于1. 而如果这两个值中任意一个不为1时,其值都不能等于1. 也就是说,当2*1/2 = 1时, F1-score=100%, 代表该算法有着最佳的精确度.

AUC-ROC

除了F-score之外,还有比较重要的一个概念: AUC-ROC. 这个也是为了解决样本不均衡提出来的一个解决方案.

Alt text

首先我们要先了解ROC曲线(receiveroperating characteristic), ROC曲线上的每一个点反映着对同一信号刺激的感受. AOC(Area under Curve), 是ROC曲线下的面积, 取值是在0.1 ~ 1 之间.

我们直接来看看,它在实际场景下是怎么用的.

还记得咱们在之前设定的阈值decision_boundary = 0.5, 我们就拿这个阈值来看. threshold:0.5. 在我们二分类问题中, 当预测值大于0.5的时候,也就等于1了. 也就是说,只要超过0.5, 我们就判定为positive值.

好,现在还是的请我们劳烦了无数次的警察a同志来帮帮我们. 当警察a去抓罪犯的时候,盘但一个人是不是犯了罪, 他的决策很重要. 在事实清晰之前,警察a的决策只有超过0.5的时候,才能判定这个人是positive,也就是罪犯. 这个时候呢,我们假设precision是0.7.

现在又需要警察b出场了, 这个警察b的threshold为0.1的时候, 其precision就为0.7. 也就是说,他预计出的值,只要大于0.1, 就判定为positive, 这种情况下, 警察b判定的precision为0.7.

别急,这次需要的演员有点多,所以,警察c登场了. 那么警察c的threshold为0.9. 也就是说,警察c比较谨慎, 只有非常确定的时候, 才能判定positive. 警察c的情况,判定的precision也是0.7.

好,现在我们来用脑子思考下, 这三个警察哪个警察能力最强?

必须是警察b最厉害.

就如我们上面的那四个坐标轴, X轴代表threshold, Y轴表实positive, 当threshold轴上的取值还很小的时候, positive已经很大了.那明显紫色线条和threshold轴圈住的区域面积越大, 这个面积就是越大越好.

这就是AUC for ROC curves, 这个主要就是为了解决那些样本及其不均衡的问题. 因为样本非常不均衡的时候, position和recall你有可能都会很低, 这个时候就不好对比. AUC曲线对于这种情况就比较好用一些.

其实在真实情况下, 绝大多数问题都不是很均衡的问题. 比方说预测病, 找消费者, 找高潜力用户. 换句话说, 如果高潜用户多就不用找了.

我们在研究ROC曲线实际应用的时候,依然会用到上面给大家所讲的tp, fp, fn, tn. 这里会引出另外两个东西, TPR和FPR, 如下:

T P R = t p t p + f n F P R = f p f p + t n \begin{align*} TPR & = \frac{tp}{tp+fn} \\ FPR & = \frac{fp}{fp+tn} \end{align*} TPRFPR=tp+fntp=fp+tnfp

我们来看看咱们之前的这组数据的AUC值:

from sklearn.metrics import roc_curve, aucfpr, tpr, thresholds = roc_curve(true_labels, losses)roc_auc = auc(fpr, tpr)
print('AUC: {}'.format(roc_auc))---
AUC: 0.9300356506238858

Alt text

下一节课,咱们来说一个非常重要的概念:拟合和欠拟合.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/163894.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cocos Creator3.8 项目实战(十)使用 protobuf详细教程

在 Cocos Creator 中使用 protobuf.js 库可以方便地进行协议的序列化和反序列化。 下面是使用 protobuf.js 的详细说明: 一、protobuf环境安装 1、安装 npm protobuf环境安装安装需要使用 npm 命令进行,因此首先需要安装 npm 。 如果你还没安装 npm …

mysql宋红康第一篇

mysql宋红康第一篇 索引的数据结构 为什么使用索引? 索引是存储引擎用于快速找到数据记录的一种数据结构,就好比一本教科书的目录部分,通过目录中找到对应文章的页码,便可快速定位到需要的文章。MySQL中也是一样的道理&#xf…

STM32内部flash闪存的总结

最近在做无人船和机巢远程在线升级的项目,牵扯到flash的操作,特此记录,便于以后查找。IMU也用到过,当时没记录 具体细节看 E:\Documets\AY\a-project\IMU\IMU16500\S0IMU v3.3 study\User\Driver\source eeprom.c E:\Documets\A…

SPSS|正负偏态的转换方法|限值1.96|反转后处理(对数法)|正态得分法|实战小练-SPSS学习(2)

目录 学习目的软件版本参考文档基础数据正负偏态的转换方法(引自《小白爱上SPSS》)正偏态数据转换方法负偏态数据转换 实战数据准备数据初探输出结果分析查看峰度、偏度查看峰度标准误差、偏度标准误差计算偏度系数和峰度系数Tips:为什么判断…

Vue3 + Nodejs 实战 ,文件上传项目--大文件分片上传+断点续传

目录 1.大文件上传的场景 2.前端实现 2.1 对文件进行分片 2.2 生成hash值(唯一标识) 2.3 发送上传文件请求 3.后端实现 3.1 接收分片数据临时存储 3.2 合并分片 4.完成段点续传 4.1修改后端 4.2 修改前端 5.测试 博客主页:専心_前端…

JS初步了解环境对象this

什么是环境对象? 环境对象:指的是函数内部特殊的变量this,它代表着当前函数运行时所处的环境 **作用:**弄清楚this的指向,可以让我们代码更简洁 在普通函数中: // 每个函数里面都有this 普通函数的this指向…

计网----数据包在传输中的变化过程,单播组播和广播,APR协议,APR代理,免费ARP,DNS协议,路由数据转发过程

计网----数据包在传输中的变化过程,单播组播和广播,ARP协议,ARP代理,免费ARP,DNS协议,路由数据转发过程 一.数据包在传输中的变化过程(在同一个路由器下) 1.传输数据时&#xff0c…

怎么使用LightPicture开源搭建图片管理系统并远程访问?【搭建私人图床】

文章目录 1.前言2. Lightpicture网站搭建2.1. Lightpicture下载和安装2.2. Lightpicture网页测试2.3.cpolar的安装和注册 3.本地网页发布3.1.Cpolar云端设置3.2.Cpolar本地设置 4.公网访问测试5.结语 1.前言 现在的手机越来越先进,功能也越来越多,而手机…

根据SpringBoot Guides完成进行示例学习(详细步骤)

目录 1.打开Spring | Guides官网,或者直接搜索springboot都可 2.选择要学习的内容 3.根据提示的网址,Git到本地 4.将文件用IDEA打开,根据教程完成示例,这里不做细致讲解 5.运行项目 6.在终端查看运行结果 以Scheduling Task…

Unity之ShaderGraph如何实现马赛克效果

前言 今天我们来实现一个马赛克的效果 如下所示: 关键节点 Posterize:色调分离节点 图像的色调分离或色调分离需要将色调的连续渐变转换为色调较少的几个区域,并从一种色调突然改变为另一种色调。 原理 原理就是通过色调分离节点&…

微服务负载均衡实践

概述 本文介绍微服务的服务调用和负载均衡,使用spring cloud的loadbalancer及openfeign两种技术来实现。 本文的操作是在微服务的初步使用的基础上进行。 环境说明 jdk1.8 maven3.6.3 mysql8 spring cloud2021.0.8 spring boot2.7.12 idea2022 步骤 改造Eu…

中文编程开发语言工具开发案例:多种称重方式编程实际例子

中文编程开发语言工具开发案例:多种称重方式编程实际例子 上图为 计价秤,使用串口通讯线连接电脑的主机,软件自动读取称的重量,自动计算金额。这种方式称重快速,不需再打印条码。 上图这个称重方式为 一体称称重&#…

ES6(ECMAScript 2015)有哪些新属性,如何判断当前浏览器是否支持?

ES6(ECMAScript 2015)引入了许多新的语法和特性,以增强 JavaScript 编程语言的功能。以下是一些常见的 ES6 语法和特性以及它们的解释: let 和 const 声明: let 和 const 用于声明变量,代替了旧的 var 关键…

Kubernetes基础概念及架构和组件

目录 一、kubernetes简介 1、kubernetes的介绍与作用 2、为什么要用K8S? 二、kubernetes特性 1、自我修复 2、弹性伸缩 3、服务发现和负载均衡 4、自动发布(滚动发布/更新)和回滚 5、集中化配置管理和密钥管理 6、存储编排 7、任务批…

虚拟音频设备软件 Loopback mac中文版软件介绍

创建虚拟音频设备以从应用程序和音频输入设备获取声音,然后将其发送到音频处理应用程序,它就是—Loopback for Mac,Loopback mac为您提供高端工作室混音板的强大功能,有了它在Mac上传递音频会变得很容易。 Loopback for mac中文版…

Qt ModelViewDelegate(模型-视图-代理) 介绍和使用

一、Model (模型) 介绍 Qt Model 是 Qt 的一个重要组件,用于管理和展示数据。它是 Qt 的 Model/View 架构的核心部分,用于将数据模型与其视图相分离,实现数据的高效处理和可视化呈现。 Qt Model 可以理解成一组数据结构,其中包含…

什么是软件测试? 软件测试都有什么岗位 ?软件测试和调试的区别? 软件测试和开发的区别?软件测试等相关概念入门篇

1、什么是软件测试? 常见理解: 软件测试就是找BUG,发现缺陷 真正理解: 软件测试就是验证软件产品特性是否满足用户的需求 测试定义: 测试人员验证软件是否符合需求的这个过程就是测试 2、为什么要有测试 标准情况下&a…

【Linux学习笔记】代码编辑工具vim

1. vim工具基本模式的转换2. vim命令模式下的各种编辑命令2.1. 光标行定位2.2. 光标自由定位2.3. 复制粘贴2.4. 删除2.5. 文本的大小写替换2.6. 文本的替换2.7. 文本的前删后删2.8. 撤销操作 3. vim底行模式下的命令3.1. 设置行号与取消设置行号3.2. 分屏操作3.3. 在不退出vim的…

Openssl数据安全传输平台003:Protobuf - 部署

文章目录 一、Windows环境二、Linux Centos环境三、protobuf测试3.1 新建.proto文件生成相应的类3.2 .proto生成相应的类的使用3.3 配置VS3.4 test代码 一、Windows环境 在windows下配置,无论protobuf是什么版本,IDE和编译器的版本都要保持一致。 比如…

ESP32出现喂狗失败处理办法

前言 &#xff08;1&#xff09;今天在使用ESP32S3的时候&#xff0c;做移植测试的时候&#xff0c;不知道为什么出现了看门狗报错。简单查了一下&#xff0c;测试发现是任务阻塞导致的。 报错 &#xff08;1&#xff09;报错信息如下&#xff1a; <1>E (5368) task_wdt:…