文章目录
- 介绍
- 原理:
- 应用方向:
- 教程
- 下载数据
- 加载R包
- 导入数据
- 数据预处理
- 数据描述
- 数据切割
- 设置数据对象
- 调节参数
- 训练模型
- 预测测试数据
- 评估模型
- 模型准确性
- 混淆矩阵
- 模型评估指标
- ROC Curve
- PRC Curve
- 特征的重要性
- 模型SHAP值解释
- 保存模型
- 总结
- 系统信息
介绍
LightGBM(Light Gradient Boosting Machine)是一款基于决策树算法的分布式梯度提升框架,由微软开发。它的设计初衷是为了提供一个快速高效、低内存占用、高准确度、支持并行和大规模数据处理的数据科学工具。
原理:
- 基于Histogram的决策树算法:LightGBM使用直方图算法来构建决策树,这种方法先将连续的浮点特征值离散化成k个整数,然后构造一个宽度为k的直方图。这种方法减少了数据预排序的需要,降低了内存消耗,并且提高了计算效率。
- 带深度限制的Leaf-wise算法:大多数GBDT工具使用按层生长(level-wise)的策略,而LightGBM采用了带有深度限制的按叶子生长(leaf-wise)算法。这种策略每次从当前所有叶子中找到分裂增益最大的一个叶子进行分裂,提高了效率,但也可能增加过拟合的风险,因此引入了最大深度的限制。
- 单边梯度采样算法(GOSS):为了减少计算量,