机器学习:精确率与召回率的权衡

高精度意味着如果诊断得了那种罕见病的病人,可能病人确实有,这是一个准确的诊断,高召回率意味着如果有一个还有这种罕见疾病的病人,也许算法会正确的识别他们确实患有这种疾病,事实中,在精确与召回之间往往有一个权衡。

精确率是真阳性的数量除以预测的总数,召回率是真正积极的数量除以实际阳性总数,如果用逻辑回归来做预测,然后Logistic回归模型将输出0-1之间的数字,我们通常将逻辑回归的输出阈值设置为0.5,如果高于0.5,预测为1,如果低于0.5,预测为0,假设我们要预测y=1,只有在非常有信心的情况下,这种罕见的疾病才会出现,所以如果每当我们预测病人有疾病,我们可能得送他们去接受一种可能是侵入性的昂贵治疗,所以如果疾病的后果不是那么糟糕,即使不被咄咄逼人的对待,那么我们可能想预测y只等于1,如果我们很有信心,那样的话,可以选择设置更好的阈值,只有当f(x)≥0.7时,才预测y=1,通过提高这个阈值,只有当你非常自信时,你才能预测y=1,这意味着精确度会提高,因为每当你预测一个,提高阈值将带来更高的精度,这也会导致召回率降低,因为现在很少预测一个,在这种疾病的患者总数中,我们将正确诊断更少的人,所以通过将阈值提高到0.7,最终的得到了更好的精度,更低的召回率,事实上,如果你想预测y=1,只有当你非常自信的时候,甚至可以把阈值提高到0.9,这导致了更高的精度,所以当你预测病人有疾病,你可能是对的,这将给你一个非常高的精度,另一方面,召回将进一步恶化,假设我们想避免错过太多这种罕见疾病的病例,所以如果我们想要的是在有疑问的时候预测y=1,这种情况可能是如果治疗不是太侵入性,痛苦或昂贵,但是让疾病得不到治疗对病人的后果要糟糕得多,所以在这种情况下,为了安全起见,可能会想到,预测他们有它,并考虑他们的治疗,如果对于应用程序来说,这是做出决定的更好方法,然后会接受这个阈值,而不是降低它,把它调到0.3,那样的话,只要你认为有30%的可能性,你就会预测到一个或者更好的是疾病存在,只有当你非常确定疾病不存在时,你才能预测零,可以想象,对精确度和召回率的影响将与你在这里看到的相反,降低这个阈值将导致更低的精确率,我们更愿意预测一个高阈值的数据,即使我们不确定,但是结果更高,因为所有有这种病的病人我们可能会正确的识别更多的他们,更普遍的说,只有当f高于某个阈值时,才能灵活的预测,通过选择这个阈值,我们可以在精确和召回之间做出不同的权衡,事实证明,对于大多数学习算法来说,在精确和召回之间有一个权衡,精度和召回都在0-1之间,如果设定一个很高的阈值,假设阈值为0.99,然后最终得到了非常高的精度和较低的召回,当你降低这个阈值的值时,然后你得到了一条曲线,它权衡了精确率和召回率,直到最终,如果你有一个很低的阈值,阈值等于0.01,然后你最终得到非常低的精度,但相对较高的召回率,有时通过绘制这条曲线,然后可以尝试选择一个阈值对应于在这条曲线上选择一个点,平衡了假阳性和假阴性的成本,或者平衡了高精度和高召回的好处,所以绘制不同阈值的精度和召回率允许你选择一个点,阈值并不是真正可以通过交叉验证来实现的,因为你可以为许多应用程序指定最佳点,手动选择阈值进行交易,精确率和召回率是最终要做的。

 事实证明,如果你想自动权衡精度和召回,而不是自己动手,还有一个指标叫f(score),它有时用于自动组合精确率和召回率,来帮助选择最佳值,或者两者之间最好的权衡,精确召回的一个挑战是你现在使用两个不同的度量来评估你的算法,所以如果你训练了三种不同的算法,精确召回数字是这样的,如何选择使用哪种算法并不那么明显,有一种算法在精度和召回方面都很好,那你可能想用那个,但是在这个例子中,算法二精度最高,但算法三的召回率最高,算法一在两者之间进行权衡,所以显然没有一种算法是最好的选择,所以为了帮助你决定选择哪种算法,找到一种将精确和召回结合起来的方法可能是有用的,变成一个单一的分数,所以你可以看看哪个算法得分最高,可以把精确度和召回率结合起来的一个方法是取平均值,但事实证明,计算平均值和选择算法,精确率和召回率之间的最高平均值并不那么有效,因为这个算法的精度非常低,事实上,这可能与一种算法相呼应,这种算法实际上打印“y=1"诊断,所有病人都得了这种病,这就是为什么召回率是完美的,但是精确率真的很低,所以算法三实际上不是一个特别有用的算法,即使精确率和召回率之间的平均值相当高,所以不要用精确率和召回率之间的平均值,相反,结合精确率和召回率最常见的方法是计算一些东西,称为Fscore,Fscore是一种结合p和r精度和召回的方法,但这更强调这些值中较低的一个,因为如果一个算法有很低的精确率或者很低的召回率,可能没那么有用,所以Fscore是一种计算平均值的方法,其公式如下,不是平均p和r精确召回,而是平均1/p和1/r,如果p和r很小,那么Fscore也将会很小,计算可看出,第一个算法比第二、三个算法更好,在数学方面,这个方程也称为p和r的调和平均值,它是一种取平均值的方法,更强调较小的价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/483580.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

03-13、SpringCloud Alibaba第十三章,升级篇,服务降级、熔断和限流Sentinel

SpringCloud Alibaba第十三章,升级篇,服务降级、熔断和限流Sentinel 一、Sentinel概述 1、Sentinel是什么 随着微服务的流行,服务和服务之间的稳定性变得越来越重要。Sentinel 以流量为切入点,从流量控制、熔断降级、系统负载保…

基于vite6+ vue3 + electron@33 实现的 局域网内互传文件的桌面软件

目录 项目介绍项目部分截图介绍下基础项目搭建先搭建一个vite 前端项目 再安装 electron 相关依赖依赖安装失败解决方案修改 vite配置文件和 ts 配置文件修改packjsonts相关配置项目结构介绍 项目介绍 前端 基于 vue3 ts windicss 后端 就是node 层 项目地址: h…

安装MySQL 5.7 亲测有效

前言:本文是笔者在安装MySQL5.7时根据另一位博主大大的安装教程基础上做了一些修改而成 首先在这里表示对博主大大的感谢 下面附博主大大地址 下面的步骤言简意赅 跟着做就不会出错 希望各位读者耐下心来 慢慢解决安装中出现的问题~MySQL 5.7 安装教程(全…

CSS函数

目录 一、背景 二、函数的概念 1. var()函数 2、calc()函数 三、总结 一、背景 今天我们就来说一说,常用的两个css自定义属性,也称为css函数。本文中就成为css函数。先来看一下官方对其的定义。 自定义属性(有时候也被称作CSS 变量或者级…

6.824/6.5840 Lab 1: MapReduce

宁静的夏天 天空中繁星点点 心里头有些思念 思念着你的脸 ——宁夏 完整代码见: https://github.com/SnowLegend-star/6.824 由于这个lab整体难度实在不小,故考虑再三还是决定留下代码仅供参考 6.824的强度早有耳闻,我终于也是到了挑战这座高…

MongoDB集群分片安装部署手册

文章目录 一、集群规划1.1 集群安装规划1.2 端口规划1.3 目录创建 二、mongodb安装(三台均需要操作)2.1 下载、解压2.2 配置环境变量 三、mongodb组件配置3.1 配置config server的副本集3.1.1 config配置文件3.1.2 config server启动3.1.3 初始化config …

一种多功能调试工具设计方案开源

一种多功能调试工具设计方案开源 设计初衷设计方案具体实现HUB芯片采用沁恒微CH339W。TF卡功能网口功能SPI功能IIC功能JTAG功能下行USB接口 安路FPGA烧录器功能Xilinx FPGA烧录器功能Jlink OB功能串口功能RS232串口RS485和RS422串口自适应接口 CAN功能烧录器功能 目前进度后续计…

三维测量与建模笔记 - 5.3 光束法平差(Bundle Adjustment)

此篇笔记尚未理解,先做笔记。 如上图,在不同位姿下对同一个物体采集到了一系列图像, 例子中有四张图片。物体上某点M,在四幅图像上都能找到其观测点。 上式中的f函数是对使用做投影得到的估计点位置。求解这个方程有几种方法&…

力扣hot100道【贪心算法后续解题方法心得】(三)

力扣hot100道【贪心算法后续解题方法心得】 十四、贪心算法关键解题思路1、买卖股票的最佳时机2、跳跃游戏3、跳跃游戏 | |4、划分字母区间 十五、动态规划什么是动态规划?关键解题思路和步骤1、打家劫舍2、01背包问题3、完全平方式4、零钱兑换5、单词拆分6、最长递…

ElasticSearch学习篇19_《检索技术核心20讲》搜推广系统设计思想

目录 主要是包含搜推广系统的基本模块简单介绍,另有一些流程、设计思想的分析。 搜索引擎 基本模块检索流程 查询分析查询纠错 广告引擎 基于标签倒排索引召回基于向量ANN检索召回打分机制:非精确打分精准深度学习模型打分索引精简:必要的…

Ambrus 游戏工作室将应对气候变暖与游戏变现完美结合

当 Ambrus Studio 创始人兼 CEO Johnson Yeh 计划打造他称之为“第一款伟大的 Web3 游戏”时,他设立了两个关键目标:游戏需要在传统大型工作室忽视的市场中盈利,以及它需要具备超越娱乐的意义。 在 Sui 的帮助下,Johnson 和他的团…

KAN-Transfomer——基于新型神经网络KAN的时间序列预测

1.数据集介绍 ETT(电变压器温度):由两个小时级数据集(ETTh)和两个 15 分钟级数据集(ETTm)组成。它们中的每一个都包含 2016 年 7 月至 2018 年 7 月的七种石油和电力变压器的负载特征。 traffic(交通) :描…

UEFI Spec 学习笔记---3 - Boot Manager(3)

3.2 Boot Manager Policy Protocol EFI_BOOT_MANAGER_POLICY_PROTOCOL----EFI应用程序使用该协议请求UEFI引导管理器使用平台策略连接设备。 typedef struct _EFI_BOOT_MANAGER_POLICY_PROTOCOL EFI_BOOT_MANAGER_POLICY_PROTOCOL; struct _EFI_BOOT_MANAGER_POLICY_PROTOCOL…

wordpress网站首页底部栏显示网站备案信息

一、页脚文件footer.php 例如,wordpress主题使用的是simple-life主题,服务器IP为192.168.68.89,在wordpress主题文件中有个页脚文件footer.php,这是一个包含网站页脚代码的文件。 footer.php 路径如下: /www/wwwroot/192.168.68…

QT实战-qt各种菜单样式实现

本文主要介绍了qt普通菜单样式、带选中样式、带子菜单样式、超过一屏幕菜单样式、自定义带有滚动条的菜单样式, 先上图如下: 1.普通菜单样式 代码: m_pmenu new QMenu(this);m_pmenu->setObjectName("quoteListMenu"); qss文…

数据结构实训——查找

声明: 以下是我们学校在学习数据结构时进行的实训,如涉及侵权马上删除文章 声明:本文主要用作技术分享,所有内容仅供参考。任何使用或依赖于本文信息所造成的法律后果均与本人无关。请读者自行判断风险,并遵循相关法…

指针(上)

目录 内存和地址 指针变量和地址 取地址(&) 解引用(*) 大小 类型 意义 const修饰 修饰变量 修饰指针 指针运算 指针- 整数 指针-指针 指针的关系运算 野指针 概念 成因 避免 assert断言 指针的使用 strl…

13TB的StarRocks大数据库迁移过程

公司有一套StarRocks的大数据库在大股东的腾讯云环境中,通过腾讯云的对等连接打通,通过dolphinscheduler调度datax离线抽取数据和SQL计算汇总,还有在大股东的特有的Flink集群环境,该环境开发了flink开发程序包部署,实时…

ARP表、MAC表、路由表的区别和各自作用

文章目录 ARP表、MAC表、路由表的区别和各自作用同一网络内:ARP表request - 请求reply - 响应 MAC地址在同一网络内,交换机如何工作? 不同网络路由表不同网络通信流程PC1到路由器路由器到PC2流程图 简短总结 ARP表、MAC表、路由表的区别和各自作用 拓扑图如下: 同一网络内:…

第七课 Unity编辑器创建的资源优化_UI篇(UGUI)

上期我们学习了简单的Scene优化,接下来我们继续编辑器创建资源的UGUI优化 UI篇(UGUI) 优化UGUI应从哪些方面入手? 可以从CPU和GPU两方面考虑,CPU方面,避免触发或减少Canvas的Rebuild和Rebatch&#xff0c…