1.评价指标的作用
1. 性能评估:评价指标提供了一种量化的方式来衡量CNN模型的性能。通过这些指标,我们可以了解模型在特定任务上的表现,比如图像分类、目标检测或图像分割等。
2. 模型比较:不同的模型架构或训练策略可能会产生不同的性能结果。评价指标允许我们在同一标准下比较不同模型的性能,从而选择最适合特定任务的模型。
3. 超参数调优:在模型训练过程中,评价指标可以帮助我们选择最佳的超参数设置。例如,通过调整学习率、批量大小、网络深度等超参数,我们可以观察到评价指标的变化,从而找到最优的模型配置。
4. 模型选择:在有多个预训练模型可供选择时,评价指标可以帮助我们决定哪个模型最适合我们的特定任务。例如,在迁移学习中,我们可能会根据评价指标来选择一个预训练的CNN模型作为特征提取器。
5. 问题诊断:评价指标可以帮助我们识别模型在训练过程中可能遇到的问题,如过拟合或欠拟合。例如,如果模型在训练集上表现很好,但在验证集上表现不佳,这可能表明模型过拟合了。
6. 平衡性能:在多分类问题中,不同的类别可能具有不同的样本数量,这可能导致模型对某些类别的预测性能较好,而对其他类别的预测性能较差。评价指标如F1-Score和mIOU可以帮助我们平衡不同类别的性能,确保模型对所有类别都有良好的预测能力。
7. 泛化能力评估:评价指标不仅可以用来评估模型在训练集上的表现,还可以用来评估模型在未见过的数据上的泛化能力。通过在独立的测试集上计算评价指标,我们可以了解模型在实际应用中可能的表现。
8. 研究进展跟踪:在学术研究和工业应用中,评价指标是跟踪技术进步的重要工具。通过比较不同研究或产品中报告的评价指标,我们可以了解领域内的最新进展和趋势。
评价指标按任务类型分类有两大部分 一部分是分类任务 一部分是回归任务
2.分类任务
分类任务又可以分为两部分: 单项分类问题和多项分类问题
它们的主要区别在于输出类别的数量和处理方式:
1. 输出类别的数量:
- 单项分类问题:只有两个可能的输出类别,通常标记为正类(Positive)和负类(Negative),或者1和0。例如,判断一封邮件是否为垃圾邮件,一个人是否患有某种疾病等。
- 多项分类问题:有三个或更多的可能输出类别。例如,识别图片中的物体是猫、狗还是鸟,或者对新闻文章进行分类到不同的主题类别。
2. 模型输出:
- 单项分类问题:模型通常输出一个概率值,表示输入样本属于正类的概率,或者直接输出一个二元标签(0或1)。
- 多项分类问题:模型输出一个概率分布,每个类别对应一个概率值,表示输入样本属于该类别的概率。通常使用softmax函数来生成这个概率分布。
3. 损失函数:
- 单项分类问题:常用的损失函数是二元交叉熵损失(Binary Cross-Entropy Loss)。
- 多项分类问题:常用的损失函数是多类别交叉熵损失(Categorical Cross-Entropy Loss)。
4. 评价指标:
- 单项分类问题:常用的评价指标包括准确率、精确率、召回率、F1-Score、ROC曲线和AUC值等。
- 多项分类问题:除了上述指标外,还可以使用混淆矩阵(Confusion Matrix)来更详细地评估模型在各个类别上的性能。
5. 数据不平衡问题:
- 单项分类问题:在数据不平衡的情况下,可能需要特别关注精确率和召回率的平衡,以及使用一些技术如重采样或调整类权重来处理不平衡问题。
- 多项分类问题:当类别不平衡时,同样需要关注数据不平衡问题,可能需要使用类似的技术来提高模型在少数类别上的性能。
6. 模型复杂度:
- 单项分类问题:模型通常较简单,因为只需要区分两个类别。
- 多项分类问题:模型可能更复杂,因为需要区分多个类别,并且可能需要更多的数据来训练模型以获得良好的性能。
7. 应用场景:
- 单项分类问题:适用于需要二元决策的场景,如垃圾邮件检测、信用评分等。
- 多项分类问题:适用于需要多类别决策的场景,如图像识别、文本分类等。
TP:正样本被正确的分类成正样本 实际上是正样本数
FN:正样本被错误的分类成负样本 实际上是负样本数
FP:负样本被错误的分类成正样本 实际上是负样本数
TN:负样本被正确的分类成负样本 实际上是负样本数
1.单项分类问题
1.准确率(accuracy)
TP + TN:被正确分类的样本数
P + N:全部样本数
2.错误率(error rate)
FP + FN:被错误分类的样本数
P + N:全部样本数
3.精度(precision)
TP:被正确分类的正样本数
TP + FP:被正确分类的正样本数和被错误分类成正样本的负样本数
4.召回率(recall)
TP:被正确分类的正样本数
TP + FN:被正确的分类的正样本数和被错误分类的正样本数(就是实际上的正样本数)
2.多项分类问题
1.F1分数(F1 score)
F1分数(F1 Score)是统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的准确率(Precision)和召回率(Recall)。F1分数可以看作是模型准确率和召回率的一种加权平均,其最大值是1,最小值是0,值越大意味着模型的精确度越高。
F1分数的计算公式是:
其中:
-
Precision(精确率)是指预测为正类别中实际为正类别的比例,计算公式为:
-
其中TP是真正例(True Positive),FP是假正例(False Positive)。
-
Recall(召回率)是指所有实际为正类别中被预测为正类别的比例,计算公式为:
-
其中FN是假负例(False Negative)。
F1分数特别适用于那些正负样本数量不均衡的情况,因为它不像准确率那样容易受到样本数量分布的影响。
2.ROC曲线
ROC曲线(Receiver Operating Characteristic Curve)是一种用于评估分类模型性能的工具,尤其在二分类问题中非常常见。它通过不同的阈值设置,展示了模型的真正率(TPR)与假正率(FPR)之间的关系。ROC曲线的横轴是假正例率(False Positive Rate, FPR),纵轴是真正例率(True Positive Rate, TPR)。
ROC曲线的关键属性包括:
1. 真正率(TPR):又称召回率,是指模型正确预测的正样本数与所有实际为正的样本数的比例。TPR: TP / (TP+FN)
2. 假正率(FPR):又称误报率,是指模型错误预测为正的负样本数与所有实际为负的样本数的比例。 FP / (FP+TN)
3. AUC值:ROC曲线下面积的大小,介于0.5到1.0之间,用于衡量模型的整体性能。AUC值越高,表示模型的分类性能越好。
AUC为1时,表示模型具有完美的分类能力
AUC介于1与0.5之间时,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值
AUC为0.5时,表示模型的性能与随机猜测相同
AUC介于0.5与0之间时,比随机猜测还差;但只要总是反预测而行,就优于随机猜测
ROC曲线与模型性能的关系如下:
- 理想模型:理想的模型会在ROC曲线的左上角有一个点,表示TPR接近1而FPR接近0。
- 随机猜测:如果模型的预测完全是随机的,那么ROC曲线将接近于从左下角到右上角的对角线。
- 性能比较:通过比较不同模型的ROC曲线,可以判断哪个模型的性能更好。曲线越接近左上角,模型的性能越好。
在实际应用中,ROC曲线不仅可以用来比较不同模型的性能,还可以用来选择最佳的分类阈值,以及在类别不平衡的情况下评估模型的稳定性和有效性。
3.回归任务
1.MAE(平均绝对误差)
MAE(Mean Absolute Error),即平均绝对误差,是衡量预测值与实际值之间差异的一种常用指标。它通过计算预测值和实际值之间差的绝对值的平均数来得出。MAE的优点在于它对异常值(outliers)不敏感,并且其结果的单位与原始数据一致,这使得结果更容易解释。
MAE的计算公式 是:
yi是实际值,y尖i是预测值
其中:
- n是样本数量。
- yi是第 i 个样本的实际值。
- yi尖是第 i 个样本的预测值。
MAE的特点 包括:
1. 它是一个非负值,MAE越小表示模型的预测准确性越高。
2. 它对异常值的影响较小,因此更加稳健。
MAE的应用场景 包括:
- 异常值敏感度较低的应用,如金融市场预测、气象预报等。
- 简单性和可解释性重要的领域,如商业分析和社会科学。
- 实时系统和快速反馈环境,如实时交易系统或在线学习环境。
MAE的局限性 包括:
- 在对大误差敏感的场景中,如安全关键系统,MAE可能不是最佳选择。
- 在分布极度不平衡的数据中,MAE可能无法提供充分的信息。
总的来说,MAE是一个广泛应用的误差度量方法,适用于各种需要准确反映预测误差且对异常值有一定抵抗力的应用场景。然而,在需要对大误差敏感、处理极不平衡数据或强调异常值的情况下,不适合运用MAE
2.MSE(均方误差)
MSE,即均方误差(Mean Squared Error),是一种常用的评价指标,用于衡量模型预测值与实际值之间的差异。MSE 通过计算预测值与实际值之差的平方的平均值来衡量误差,其公式如下:
其中:
- n是样本数量。
- yi是第 i 个样本的实际值。
- yi尖是第 i 个样本的预测值。
MSE 的特点包括:
- 敏感性:MSE 对较大的误差给予更大的惩罚,因为它对误差进行了平方处理。这意味着一个较大的预测误差会对 MSE 产生较大的影响。
- 非负性:MSE 总是非负的,MSE 为 0 表示预测完全准确。
- 可解释性:MSE 的单位是预测值单位的平方,这可能使得其数值难以直观理解。
MSE 的应用场景包括:
- 在回归分析中,MSE 是一种常用的损失函数,用于衡量模型的预测性能。
- 在机器学习中,MSE 常用于训练模型,特别是在最小化损失函数的过程中。
MSE 的局限性:
- MSE 对异常值(outliers)非常敏感,因为异常值会导致 MSE 显著增加。
- 在某些情况下,MSE 可能不是最佳选择,特别是当数据中存在异常值或者我们希望对所有误差给予相同权重时。
MSE 与其他MAE的比较:
- 与 MAE(平均绝对误差)相比,MSE 对大误差更敏感,因为误差被平方了。
在选择评价指标时,应根据具体问题的需求和数据的特性来决定是否使用 MSE。例如,如果异常值不是问题,或者我们希望模型对大误差给予更多关注,那么 MSE 可能是一个合适的选择。
3.MAE与MSE的比较
MAE的图像:
其中目标值是100,预测值的范围从-10000到10000,Y轴代表的MSE取值范围是从0到正无穷,并且在预测值为100处达到最小。
MSE的图像:
其中目标值是100,预测值的范围从-10000到10000,Y轴代表的MSE取值范围是从0到正无穷,并且在预测值为100处达到最小。
观察MAE和RMSE(即MSE的平方根,同MAE在同一量级中)在两个例子中的计算结果。第一个例子中,预测值和真实值很接近,而且误差的方差也较小。第二个例子中,因为存在一个异常点,而导致误差非常大
如果训练数据被异常点所污染,那么MAE损失就更好用(比如,在训练数据中存在大量错误的反例和正例标记,但是在测试集中没有这个问题)。
MAE存在一个严重的问题(特别是对于神经网络):更新的梯度始终相同,也就是说,即使对于很小的损失值,梯度也很大。这样不利于模型的学习。为了解决这个缺陷,我们可以使用变化的学习率,在损失接近最小值时降低学习率。
而MSE在这种情况下的表现就很好,即便使用固定的学习率也可以有效收敛。MSE损失的梯度随损失增大而增大,而损失趋于0时则会减小。这使得在训练结束时,使用MSE模型的结果会更精确。