应用决策树批量化自动生成【效果好】【非过拟合】的策略集

决策树在很多公司都实际运用于风险控制，之前阐述了决策树-ID3算法和C4.5算法、CART决策树原理（分类树与回归树）、Python中应用决策树算法预测客户等级和Python中调用sklearn决策树。

本文介绍应用决策树批量自动生成效果好，非过拟合的策略集。

文章目录

- 一、什么是决策树
- 二、决策树中专有名词理解
- 三、应用决策树算法生成规则集
- - 1 导入数据
  - 2 看下数据基本情况
  - - 2.1 用head函数看下数据表头和前几行数据
    - 2.2 用value_counts函数观测因变量y的数据分布
  - 3 把数据集拆分成训练集和测试集
  - 4 定义从决策树生成规则集的函数
  - 5 训练决策树生成规则集
  - 6 生成规则集数据框
  - 7 生成可视化决策树
  - 8 合并训练集和测试集规则数据
  - 9 筛选效果好的规则

一、什么是决策树

决策树：通过对已知样本的学习，一步一步将特征进行分类，从而将整个特征空间进行划分，进而区分出不同类别的算法。我们在逻辑判断中用到的思想if, else if ,else, then，其实就是决策树的思想。

二、决策树中专有名词理解

1.根节点：包含数据集中所有数据集合的节点，即初始分裂节点。

2.叶节点/终端节点：最终的决策结果(该节点不再进行划分)，被包含在该叶节点的数据属于该类别。

3.内部节点：非根节点和叶节点的节点，该节点包含数据集中从根节点到该节点所有条件的数据集合。根据内部节点的判断条件结果，其对应的数据集合被分到两个或多个子节点中。

4.父节点：划分出子节点的节点。

5.子节点：由父节点根据某一规则分裂而来的节点。

6.节点的深度：节点与决策树根节点的距离，如根节点的子节点的深度为1.

7.决策树的深度：所有叶子节点的最大深度。

借用CART决策树原理(分类树与回归树)中的简单决策树说明以上名词，用图形展示如下：