流程为
- 问题建模
- 问题理解
- 业务背景
- 深入业务
- 明确目标
- 数据理解
- 数据基础层
- 数据表示层
- 评价指标
- 分类指标
- 错误率
- 精度
- 准确率,表示为 P = T P T P + F P P= \frac{TP}{TP+FP} P=TP+FPTP,即判定为正样本中,真正属于正样本的比率
- 召回率,表示为 R = T P T P + F N R = \frac{TP}{TP+FN} R=TP+FNTP,即真实正样本中,判断为正样本的比率
- F1-score,表示为 F 1 s c o r e = 2 ∗ P R P + R F1score = 2 * \frac{P R }{P + R} F1score=2∗P+RPR
- ROC曲线
- AUC
- 回归指标
- 平均绝对误差,MAE
- 均方误差,MSE
- 均方根误差RMSE
- 平均绝对百分比误差MAPE
- 分类指标
- 业务背景
- 问题理解
- 数据探索
- 特征工程
- 模型训练
- 模型融合
库
scikit-learn
lightgbm