分类任务中的评估指标：Accuracy、Precision、Recall、F1

概念理解
- $TP$ 、 $TN$ 、 $FP$ 、 $FN$
- 精度/正确率（ $A cc u r a cy$ ）
二分类
- 查准率 $P rec i s i o n$ ，查全率 $R ec a ll$ 和 $F 1 - score$ 的计算
- 查准率 $P rec i s i o n$ ，查全率 $R ec a ll$ 和 $F 1 - score$ 的理解
三分类
- 从特殊
- 到一般

概念理解

$TP$ 、 $TN$ 、 $FP$ 、 $FN$

在这里插入图片描述

在这个二分类模型中，只有 是「狗」 或 不是「狗」。

在这里插入图片描述

只看模型的预测为「狗」即 $P re d i c t i o n = Do g$ ，共有 7 个如绿色方格所示。其中，

真实为「狗」且被模型正确预测为「狗」的有 4 个，这就是 $True\ Positive=4$ （ $TP$ ）；
真实不为「狗」但被模型错误预测为「狗」的有 3 个，这就是 $False\ Positive=3$ （ $FP$ ）。

在这里插入图片描述

只看模型的预测不为「狗」即 $Prediction=No\ Dog$ ，共有 3 个如红色方格所示。其中，

真实不为「狗」且被模型正确预测不为「狗」的有 1 个，这就是 $True\ Negative=1$ （ $TN$ ）；
真实为「狗」但被模型错误预测不为「狗」的有 2 个，这就是 $False\ Negative=2$ （ $FN$ ）。

精度/正确率（ $A cc u r a cy$ ）

误差（ $E rror$ )：学习器的 预测输出 与样本的 真实输出 之间的差异。
错误率：错误分类的样本 占据 总样本 的比例。

精度（ $A cc u r a cy$ ）= 1- 错误率，即 正确分类的样本占总样本的比例。

在这里插入图片描述

$A cc u r a cy$ 是分类问题中最常用的指标。但是，对于不平衡数据集而言， $A cc u r a cy$ 并不是一个好指标。 $Wh y ？$

假设有 100 张图片，其中 98 张图片是「狗」，1 张是「猫」，1 张是「猪」，要训练一个三分类器，能正确识别图片里动物的类别。

其中，狗这个类别就是大多数类（ $Majority\ Class$ ）。
当大多数类中样本（狗）的数量远超过其他类别（猫、猪）时，如果采用 $A cc u r a cy$ 来评估分类器的好坏，那么即便模型性能很差（如无论输入什么图片，都预测为「狗」），也可以得到较高的 $Accuracy\ Score$ （如 98%）。
此时，虽然 $Accuracy\ Score$ 很高，但是意义不大。
当数据异常不平衡时， $A cc u r a cy$ 评估方法的缺陷尤为显著。

因此，需要引入 $P rec i s i o n$ （精准度）， $R ec a ll$ （召回率）和 $F 1 - score$ 评估指标。

考虑到二分类和多分类模型中，评估指标的计算方法略有不同，下面分开讨论。

二分类

在二分类问题中，假设该样本一共有两种类别： $P os i t i v e$ 和 $N e g a t i v e$ 。

当分类器预测结束，可以绘制出混淆矩阵（ $Confusion\ Matrix$ ），如下图，

在这里插入图片描述

其中分类结果分为如下几种：

$True\ Positive$ （ $TP$ ）：把正样本成功预测为正。
$True\ Negative$ （ $TN$ ）：把负样本成功预测为负。
$False\ Positive$ （ $FP$ ）：把负样本错误预测为正。
$False\ Negative$ （ $FN$ ）：把正样本错误预测为负。

有了混淆矩阵的 $TP$ 、 $TN$ 、 $FP$ 和 $FN$ ，下面计算 $P rec i s i o n$ 、 $R ec a ll$ 和 $F 1 - score$ 。

查准率 $P rec i s i o n$ ，查全率 $R ec a ll$ 和 $F 1 - score$ 的计算

在这里插入图片描述

准确率：关注预测的准确性，在 所有被预测为 $P os i t i v e$ 的样本 中，有多少是正确的（有多少 $T r u e$ 的 $P os i t i v e$ ）？
召回率：关注预测的全面性，在 所有实际为 $P os i t i v e$ 的样本 中，有多少被正确预测了（有多少 $P os i t i v e$ 被揪出来了）？

在二分类模型中， $A cc u r a cy$ ，查准率 $P rec i s i o n$ ，查全率 $R ec a ll$ 和 $F 1 - score$ 的定义如下：

$\frac{TP+TN}{TP+TN+FP+FN}$

$\frac{TP}{TP+FP}$

$\frac{TP}{TP+FN}$

$\frac{2×Precision×Recall}{Precision+Recall}$

代入 $TP$ 、 $TN$ 、 $FP$ 和 $FN$ 的数值计算即可，如下：

$\frac{50+20}{50+20+5+10} =14/17$

$Precision=\frac{50}{50+5}=10/11$

$Recall=\frac{50}{50+10}=5/6$

$F1-score=\frac{2×\frac{10}{11}×\frac{5}{6}}{\frac{10}{11}+\frac{5}{6}}=20/23$

查准率 $P rec i s i o n$ ，查全率 $R ec a ll$ 和 $F 1 - score$ 的理解

$P rec i s i o n$ 着重评估：在 预测为 $P os i t i v e$ 的所有数据（ $TP + FP$ ）中，真实 $P os i t i v e$ 的数据（ $TP$ ）到底占多少？
$R ec a ll$ 着重评估：在 所有真实为 $P os i t i v e$ 数据 （ $TP + FN$ ）中，被 成功预测为 $P os i t i v e$ 的数据 （ $TP$ ）到底占多少?

举个例子，一个医院新开发了一套癌症 $A I$ 诊断系统，想评估其性能好坏。把病人得了癌症定义为 $P os i t i v e$ ，没得癌症定义为 $N e g a t i v e$ 。那么，到底该用什么指标进行评估呢？

如用 $P rec i s i o n$ 对系统进行评估，那么其回答的问题就是：在诊断为癌症的一堆人中，到底有多少人真得了癌症？
如用 $R ec a ll$ 对系统进行评估，那么其回答的问题就是：在一堆得了癌症的病人中，到底有多少人能被成功检测出癌症？
如用 $A cc u r a cy$ 对系统进行评估，那么其回答的问题就是：在一堆癌症病人和正常人中，有多少人被系统给出了正确诊断结果？

$O K$ ，那啥时候应该更注重 $R ec a ll$ 而不是 $P rec i s i o n$ 呢？

$\frac{TP}{TP+FN}$

当 $F a l se N e g a t i v e$ （ $FN$ ）的成本代价很高（后果很严重），希望尽量避免产生 $FN$ 时，应该着重考虑提高 $R ec a ll$ 指标（ $FN$ 越小， $R ec a ll$ 越高）。

在上述例子里， $F a l se N e g a t i v e$ 是得了癌症的病人没有被诊断出癌症，这种情况是最应该避免的。

宁可把健康人误诊为癌症（ $FP$ ），也不能让真正患病的人检测不出癌症（ $FN$ ）而耽误治疗离世。

在这里，癌症诊断系统 的目标是：尽可能提高 $R ec a ll$ 值，哪怕牺牲一部分 $P rec i s i o n$ 。

$O h o$ ，那啥时候应该更注重 $P rec i s i o n$ 而不是 $R ec a ll$ 呢？

$\frac{TP}{TP+FP}$

当 $F a l se P os i t i v e$ （ $FP$ ）的成本代价很高（后果很严重）时，即期望尽量避免产生 $FP$ 时，应该着重考虑提高 $P rec i s i o n$ 指标（ $FP$ 越小， $P rec i s i o n$ 越高）。

以垃圾邮件屏蔽系统为例，垃圾邮件为 $P os i t i v e$ ，正常邮件为 $N e g a t i v e$ ， $F a l se P os i t i v e$ 是把正常邮件识别为垃圾邮件，这种情况是最应该避免的。

宁可把垃圾邮件标记为正常邮件（ $FN$ ），也不能让正常邮件直接进垃圾箱（ $FP$ ）。>
垃圾邮件屏蔽系统 的目标是：尽可能提高 $P rec i s i o n$ 值，哪怕牺牲一部分 $R ec a ll$ 。

而 $F 1 - score$ 是 $P rec i s i o n$ 和 $R ec a ll$ 两者的综合。

$\frac{2×Precision×Recall}{Precision+Recall}$

假设检察机关想要将罪犯逮捕归案，就需要对所有人群进行分析，判断某人是犯了罪（ $P os i t i v e$ ）还是没有犯罪（ $N e g a t i v e$ ）。
显然，检察机关希望既不错过任何一个罪犯（提高 $R ec a ll$ ），也不错判一个无辜者（提高 $P rec i s i o n$ ），因此需要同时考虑 $R ec a ll$ 和 $P rec i s i o n$ 这两个指标。

“天网恢恢，疏而不漏，任何罪犯都难逃法网” 更倾向于 $R ec a ll$ 。
“宁可放过一些罪犯，也不冤枉一个无辜者” 更倾向于 $P rec i s i o n$ 。

到底哪种更好呢？显然， $P rec i s i o n$ 和 $R ec a ll$ 都应该尽可能高，也就是说 $F 1 - score$ 应该尽可能高。