【Python机器学习】决策树的构造—

【Python机器学习】决策树的构造——递归构建决策树

我们可以采用递归的原则处理数据集，递归结束的条件是：程序遍历完所有划分数据集的属性，或者每个分支下的所有实例都具有相同的分类。如果所有实例具有相同的分类，则得到一个叶子节点或者终止块。任何到达叶子节点的数据必然属于叶子节点的分类。

我们可以设置算法可以划分的最大分组数目。像是其他决策树算法，比如C4.5和CART，这些算法在运行时并不总是在每次划分分组时都会消耗特征。由于特征数目并不是在每次划分数据分组时都减少，因此这些算法在实际使用时可能引起一定的问题。

目前我们并不需要考虑这些问题，只要在算法开始运行前计算列的数目，查看算法是否使用了所有属性即可。如果数据集已经处理了所有属性，但是类标签依然不是唯一的，此时我们需要决定如何定义该叶子节点，在这种情况下，我们通常会采用多数表决的方法决定该叶子节点的分类。

import operatordef majorityCnt(classList):classCount={}for vote in classList:if vote not in classCount.keys():classCount[vote]=0classCount[vote]=classCount[vote]+1sortedClassCount=sorted(classCount.iteritem(),key=operator.itemgetter(1),reverse=True)return sortedClassCount[0][0]

上述的函数使用分类名称的列表，然后创建键值为classList中唯一值的数据字典，字典对象存储了classList中每个类标签出现的频率，最后利用operator操作键值排序字典，并范围出现次数最多的分类名称。

def createTree(dataSet,labels):classList=[example[-1]for example in dataSet]if classList.count(classList[0])==len(classList):return classList[0]if len(dataSet[0])==1:return majorityCnt(classList)bestFeat=chooseBestFeatureToSplit(dataSet)bestFeatLabel=labels[bestFeat]myTree={bestFeatLabel:{}}del(labels[bestFeat])featVaues=[example[bestFeat] for example in dataSet]uniqueVals=set(featVaues)for value in uniqueVals:subLabels=labels[:]myTree[bestFeatLabel][value]=createTree(splitDataSet(dataSet,bestFeat,value),subLabels)return myTree

函数createTree()使用两个输入参数：数据集和标签列表。标签列表包含了数据集中所有特征的标签，算法本身并不需要这个变量，但是为了给出数据明确的含义，我们将它作为一个输入参数提供。此外，对数据集的要求这里依然需要满足。

上述代码首先创建了一个名为classList的列表变量，其中包含了数据集的所有类标签。递归函数的第一个停止条件是所有的类标签完全相同，则直接返回该类标签。递归函数的第二个停止条件是使用完了所有特征，仍然不能将数据集划分成仅包含唯一类别的分组。由于第二个条件无法简单地返回唯一的类标签，这里使用majorityCnt函数挑选出现次数最多的类别座位返回值。

下一步程序开始创建树，这里使用Python的字典类型存储树的信息，当然也可以声明特殊的数据类型存储树，但这里没有必要。字典变量myTree存储了树的所有信息，这对于之后绘制树状图非常重要。当前数据集选取的最好特征存储在变量bestFeat中，得到列表包含的所有属性值。

最后代码遍历当前选择特征包含的所有属性值，在每个数据及划分上递归调用函数createTree()，得到的返回值将被插入到字典变量myTree中，因此函数终止执行时，字典中将会嵌套很多代表叶子节点信息的字典数据。

测试代码：


myDat,labels=createDataSet()
print(createTree(myDat,labels))
print(myDat)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/387443.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【Python机器学习】决策树的构造——递归构建决策树

相关文章

C++(week15): C++提高:(三)计算机网络

测试人生 | 招聘严峻期从面试无力感，到一天2个offer的一些经验分享（内附美团、字节、快手等面试题）

nginx的反向代理及负载均衡

Graph RAG：知识图谱赋能大语言模型的新范式

时常在面试中被问到的JVM问题

cookie与session的关系

跨平台AI模型部署神器：FastDeploy实战Yolov5

短剧出海分销推广系统，海外短剧CPS分润机制方案介绍

2024 Java 高分面试宝典一站式搞定技术面

中间件安全：Nginx 解析漏洞测试.

git的配置使用

ubuntu 查找文件find

PHP进阶-CentOS7部署LNMP服务架构的项目

Wi-Fi、WLAN、Bluetooth、zigbee、蜂窝网络、4g5g、MQTT

【城市数据集】世界城市数据库和访问门户工具WUDAPT

SolidEdge二次开发(C#)-环境配置

JAVA零基础学习3（Scanner类，字符串，StringBuilder，StringJoinder，ArrayList成员方法）

Java代码基础算法练习-求一个3×3矩阵对角线元素之和-2024.07.27

【面向就业的Linux基础】从入门到熟练，探索Linux的秘密（十四）-租云服务器及配环境、docker基本命令

linux编写shell脚本字段部署redis6.x版本，docker使用shell脚本一键自动部署redis