1.对于决策树的概念:
**本质上:**决策树就是模拟树的结构基于 if-else的多层判断
2.目的:
对实例进行分类的树形结构,通过多层判断
,将所提供的数据
归纳为一种分类规则
。
3.优点:
1.计算量小,无需考虑损失函数,运行速度快
2.便于理解
4.缺点:
1.忽略了属性之间的相关性,比如我们的逻辑回归,sigmod函数它考虑了属性之间的相关性,比如是否具有学习兴趣,可能学习动力和学习时间是有一定的关联的,逻辑回归就考虑了相关性,但是决策树就没有考虑。
2.样本类别分布不均匀时,容易影响模型的表现。
2.例子:
根据特征进行判断,不同特征决定了不同的决策树;
2.1 ID3算法的学习
2.2 . 信息熵的概念:
1.决策树的难点在于找到最合适的属性作为我们所判断的信息
2.最合适的判断:在于信息熵,熵越大说明信息的不确定性就越大,而信息熵跟我们的信息增益是直接相关的,信息熵越小,信息增益就越大;
2.信息增益的概念:
信息熵尽可能小,那么我们Gain(D,a)所获取的信息增益就更大。
类别越少,Dv/D就越小,信息增益就越大
2.2 选择哪个属性作为我们的类别:
计算信息增益最大的属性作为我们的第一个节点:
决策树展示: