4.3.1 带有L2正则化的线性回归-岭回归
岭回归,其实也是一种线性回归,只不过在算法建立回归方程的时候·1,加上正则化的限制,从而达到解决过拟合的效果
4.3.1.1 API
4.3.1.2 观察正则化程度的变化,对结果的影响
正则化力度越大,权重系数会越小
正则化力度越小,权重系数会越大
逻辑回归是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际应用中使用广泛。
4.4.1 逻辑回归的应用场景
广告点击率
是否为垃圾邮件
是否患病
金融诈骗
虚假账号
看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断,逻辑回归就是解决二分类问题的利器。
4.4.2 逻辑回归的原理
1 输入:
线性回归的输出就是逻辑回归的输入
2 激活函数(sigmoid函数)
3 损失以及优化
逻辑回归的损失,称之为对数似然损失,公式如下:
优化:同样使用梯度下降优化算法,去减少损失函数的值,这样去更新逻辑回归前面对应算法的权重参数,提升原本属于1类别的概率,降低原本是0类别的概率。
4.4.3 逻辑回归API
4.4.4 案例:癌症分类预测-良/恶性乳腺癌肿瘤预测
流程:
1)获取数据 读取的时候加上names
2) 数据处理 处理缺失值
3)数据集划分
4)特征工程:无量纲化处理-标准化
5)逻辑回归预估器
6)模型评估
4.4.5 分类的评估方法(即真的患癌症,能够被检查出来的概率)
1 精确率与召回率
1 混淆矩阵
在分类任务下,预测结果与正确标记之间存在四种不同的组合,构成混淆矩阵(适用于多分类)
TP:True Possitive
FN:False Negative
2 精确率(Precision)与召回率(Recall)
精确率:预测结果为正例样本中真实为正例的比例
召回率:真实为正例的样本中预测结果为正例的比例(查得全,对正样本的区分能力)
还有其他的评估标准,F1-score,反映了模型的稳健型
3 分类评估报告API
问题:如何衡量样本不均衡下的评估?
使用ROC曲线和AUC指标
2 ROC曲线和AUC指标
1 知道TPR与FPR
TPR为召回率
FPR为
2 ROC曲线
ROC曲线的横轴就是FPRate,纵轴就是TPRate,当二者相等时,表示的意义则是:对于无论真实类别是1还是0的样本,分类器预测是1的概率是相等的,此时AUC为0.5
3 AUC指标
AUC的概率意义是随机取一堆正负样本,正样本得分大于负样本的概率
AUC的最小值是0.5,最大值是1,取值越高越好
AUC=1,完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测,绝大多数预测的场合,不存在完美分类器。
0.5<AUC<1,优于随机预测,这个分类器(模型)妥善设定阈值的话,能有预测价值
4 AUC计算API
5 总结
AUC只能用来评价二分类
auc非常适合评价样本不均衡中的分类器性能