决策树在很多公司都实际运用于风险控制,之前阐述了决策树-ID3算法和C4.5算法、CART决策树原理(分类树与回归树)、Python中应用决策树算法预测客户等级和Python中调用sklearn决策树。
本文介绍应用决策树批量自动生成效果好,非过拟合的策略集。
文章目录
- 一、什么是决策树
- 二、决策树中专有名词理解
- 三、应用决策树算法生成规则集
- 1 导入数据
- 2 看下数据基本情况
- 2.1 用head函数看下数据表头和前几行数据
- 2.2 用value_counts函数观测因变量y的数据分布
- 3 把数据集拆分成训练集和测试集
- 4 定义从决策树生成规则集的函数
- 5 训练决策树生成规则集
- 6 生成规则集数据框
- 7 生成可视化决策树
- 8 合并训练集和测试集规则数据
- 9 筛选效果好的规则
一、什么是决策树
决策树:通过对已知样本的学习,一步一步将特征进行分类,从而将整个特征空间进行划分,进而区分出不同类别的算法。我们在逻辑判断中用到的思想if, else if ,else, then,其实就是决策树的思想。
二、决策树中专有名词理解
1.根节点:包含数据集中所有数据集合的节点,即初始分裂节点。
2.叶节点/终端节点:最终的决策结果(该节点不再进行划分),被包含在该叶节点的数据属于该类别。
3.内部节点:非根节点和叶节点的节点,该节点包含数据集中从根节点到该节点所有条件的数据集合。根据内部节点的判断条件结果,其对应的数据集合被分到两个或多个子节点中。
4.父节点:划分出子节点的节点。
5.子节点:由父节点根据某一规则分裂而来的节点。
6.节点的深度:节点与决策树根节点的距离,如根节点的子节点的深度为1.
7.决策树的深度:所有叶子节点的最大深度。
借用CART决策树原理(分类树与回归树)中的简单决策树说明以上名词,用图形展示如下: