ID3算法详解:构建决策树的利器

目录

引言

ID3算法概述

算法基础

信息熵

​编辑

信息增益

ID3算法步骤

决策树

概念:

核心:

节点

1. 根节点

2. 非叶子节点

3. 叶子节点


引言

在机器学习领域,决策树是一种非常流行的分类和回归方法。其中,ID3算法作为决策树算法中的经典之作,自其提出以来就备受关注。本文将详细介绍ID3算法的原理、步骤、应用以及优缺点,帮助读者深入理解这一强大的分类工具。

ID3算法概述

ID3算法(Iterative Dichotomiser 3)是由澳大利亚计算机科学家Ross Quinlan在1986年提出的一种决策树学习算法。它基于信息论中的熵和信息增益的概念,通过递归地选择最佳属性来划分数据集,从而构建决策树。ID3算法的核心思想是通过选择最能降低数据不确定性的属性来进行划分,直到所有数据都属于同一类别。

算法基础

信息熵

信息熵是度量数据集中不确定性的一个指标,其值越大,表示数据集的不确定性越高,数据集的混乱程度越高。对于具有n个类别的数据集U,其信息熵H(U)可以定义为:

其中,pi​是U中第i个类别出现的概率。

例:

信息增益

信息增益是衡量某个属性对数据集分类能力的一个指标。对于数据集D和属性A,A的信息增益Gain(U,A)可以定义为:

Gain(U,A)=H(U)−∑v∈V​∣U∣∣Uv​∣​H(Uv​)

其中,V是属性A的所有可能值,Uv​是D中在属性A上取值为v的子集。

ID3算法步骤

  1. 计算信息熵:首先计算整个数据集D的信息熵H(D)。
  2. 计算信息增益:对于每个属性A,计算其信息增益Gain(D,A)。
  3. 选择最佳属性:选择信息增益最大的属性作为当前节点的分裂属性。
  4. 划分数据集:根据选定的属性A的不同取值,将数据集D划分为若干个子集。
  5. 递归构建决策树:对每个子集递归地执行步骤1-4,直到满足停止条件(如所有实例属于同一类别或没有更多属性可供划分)。

决策树

概念:


决策树通过对训练样本的学习,并建立分类规则,然后依据分类规则,对新样本数据进行分类预测,属于有监督学习。

核心:


所有数据从根节点一步一步落到叶子节点。

节点

1. 根节点
  • 定义:决策树的根节点是整棵树的起点,也是第一个进行特征判断的节点。它代表了决策过程的开始,是后续所有分支和节点的基础。
  • 作用:根节点根据训练数据集中最具分类能力的特征进行划分,从而引导数据流向不同的子节点。
2. 非叶子节点
  • 定义:非叶子节点是决策树中除了根节点和叶子节点以外的所有节点。它们位于根节点和叶子节点之间,每个非叶子节点都代表了一个特征判断或决策规则。
  • 特点
    • 入边与出边:非叶子节点通常有一条入边(来自其父节点)和两条或多条出边(指向其子节点)。这些边代表了特征的不同取值或决策结果的不同方向。
    • 决策规则:每个非叶子节点都包含对某个特征的测试条件,用于将数据集分割成更小的子集。这些决策规则是由已知数据集计算而得的,旨在减少数据集的不确定性。
  • 作用:非叶子节点通过不断的特征判断和决策规则应用,逐步将数据集细化,为最终的分类或回归结果奠定基础。
3. 叶子节点
  • 定义:叶子节点是决策树中的末端节点,表示分类或回归的最终结果。在分类问题中,每个叶子节点都对应一个类别标签;在回归问题中,每个叶子节点则对应一个具体的数值预测。
  • 特点
    • 无出边:叶子节点只有一条入边(来自其父节点),没有出边。这意味着叶子节点是决策过程的终点,不再进行进一步的特征判断或决策规则应用。
    • 分类或回归结果:每个叶子节点都包含了一个明确的分类或回归结果,这是决策树对输入数据的最终预测。
  • 生成条件:叶子节点的生成通常基于两个条件:一是无法进一步分割数据集(即所有样本都属于同一类别或具有相同的特征值);二是达到了预设的停止条件(如节点中的样本数小于某个阈值、树的深度达到了预设的最大值等)。

综上所述,决策树的根节点、非叶子节点和叶子节点共同构成了决策树的结构,通过不断的特征判断和决策规则应用,实现了对输入数据的分类或回归预测。

import pandas as pd
from sklearn.tree import DecisionTreeClassifier, plot_tree
import matplotlib.pyplot as plt# 假设的数据集(从图片中猜测的)
data = {'Outlook': ['sunny', 'sunny', 'overcast', 'rainy', 'rainy', 'rainy', 'overcast', 'sunny', 'sunny', 'rainy', 'sunny','overcast', 'overcast', 'rainy'],'Temperature': ['hot', 'hot', 'hot', 'mild', 'cool', 'cool', 'cool', 'mild', 'cool', 'mild', 'mild', 'mild', 'hot','mild'],'Humidity': ['high', 'high', 'high', 'high', 'normal', 'normal', 'normal', 'high', 'normal', 'normal', 'normal','high', 'normal', 'high'],'Wind': ['weak', 'strong', 'weak', 'weak', 'weak', 'strong', 'strong', 'weak', 'weak', 'weak', 'strong', 'strong','weak', 'strong'],'PlayTennis': ['no', 'no', 'yes', 'yes', 'yes', 'no', 'yes', 'no', 'yes', 'yes', 'yes', 'yes', 'yes', 'no']
}# 将数据转换为DataFrame
df = pd.DataFrame(data)# 将类别数据转换为数值型数据(scikit-learn要求)
df = pd.get_dummies(df, drop_first=True)  # 使用one-hot编码# 分离特征和标签
X = df.drop('PlayTennis_yes', axis=1)
y = df['PlayTennis_yes']# 创建决策树模型
clf = DecisionTreeClassifier(criterion='entropy')  # 使用熵作为分裂标准,类似于ID3的信息增益
clf.fit(X, y)# 绘制决策树
plt.figure(figsize=(20, 10))
plot_tree(clf, filled=True, feature_names=X.columns, class_names=['no', 'yes'])
plt.show()

运行结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/404953.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

尚品汇-网关过滤用户请求、登录流程(三十五)

目录: (1)用户认证与服务网关整合 (2)server-gateway网关配置 (3)在服务网关中判断用户登录状态 (4)登录流程 (1)用户认证与服务网关整合 实…

百度 测试|测试开发 面试真题|面经 汇总

百度测开 开发测试工程师 提前批一二三面面经 事业群:MEG base:北京 一面:2022.8.12 时长:50min 自我介绍 个人项目,我的项目是围绕着学校课程的项目来的,面试官就让我介绍这门课讲了些什么 &#xf…

构建实时数据仓库:流式处理与实时计算技术解析

目录 一、流式处理 请求与响应 批处理 二、实时计算 三、Lambda架构 Lambda架构的缺点 四、Kappa架构 五、实时数据仓库解决方案 近年来随着业务领域的不断拓展,尤其像互联网、无线终端APP等行业应用的激增,产生的数据量呈指数级增长,对海量数…

前端开发攻略---彻底弄懂跨域解决方案

目录 1、浏览器的同源策略 1.1 源 1.2 同源与非同源 1.3 同源请求与非同源请求 2、跨域受到的限制 3、注意点 4、CORS解决Ajax跨域问题 4.1 CORS概述 4.2 CORS解决简单请求跨域 4.3 简单请求与复杂请求 4.4 CORS解决复杂请求跨域 4.5 借助CORS库快速完成配置 5、JS…

计算机毕业设计选什么题目好? springboot java沉浸式戏曲文化体验系统

✍✍计算机毕业编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java、…

【生物特征识别论文分享】基于深度学习的掌纹掌静脉识别

(待更新)基于深度学习的生物特征识别(手掌静脉、手背静脉、手指静脉、掌纹、人脸等)论文模型总结 。具体方法包括:基于特征表征、基于传统网络设计与优化、基于轻量级网络设计与优化、基于Transformer设计与优化、基于…

ES与MySQL数据同步实现方式

1.什么是数据同步: 1.Elasticsearch中的酒店数据来自于mysql数据库,因此mysql数据发生改变时,Elasticsearch也必须跟着改变,这个就是Elasticsearch与mysql之间的数据同步 2.数据同步实现方式: 常见的数据同步方案有三种&#x…

7.2 算法设计与分析

分治法(考的概率较低) 回溯法(考的概率较低) 动态规划法(考的概率较高) 1

Python 办公自动化 处理 Excel 数据 【1】推荐

话说学好办公自动化,走遍天下都不怕!!! 好的,现在开始。 因为是一些办公自动化的应用场景,所以需要电脑支持excel、word和ppt以及python的运行环境。 如果有电脑不支持Excel word ppt的以及python环境下载安装配置可…

交通感知与车路协同系统-计算机毕设Java|springboot实战项目

🍊作者:计算机毕设匠心工作室 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目…

QT:事件机制

一、事件机制 qt的核心机制:对象树、信号和槽、事件机制 1.1概念 就是当这件事情发生时,自动执行对应的功能代码。该某块功能代码是虚函数,只需重写该虚函数,即可执行重写的代码。 1.2事件处理简介 1. 什么是事件? (重…

【教学类-76-01】20240820书包01(图案最大化)

背景需求 通义万相生成图片,把图案最大化的方法(切掉白边) 【教学类-75-01】20240817“通义万相图片最大化透明png”的修图流程-CSDN博客文章浏览阅读1.6k次,点赞56次,收藏17次。【教学类-75-01】20240817“通义万相…

【Android 笔记】记移植OpenCV4.8图像人脸识别

前言 因业务需要,使用大屏端摄像头捕获图像,且要识别图像中人脸的数目以及从中随机抽取一人。 业务流程如下,调用摄像头预览、拍照,使用OpenCV库进行人脸识别,将识别到的人脸使用矩形框绘制出来,从识别的人…

【秋招笔试】8.18大疆秋招(第三套)-三语言题解

🍭 大家好这里是 春秋招笔试突围,一起备战大厂笔试 💻 ACM金牌团队🏅️ | 多次AK大厂笔试 | 编程一对一辅导 ✨ 本系列打算持续跟新 春秋招笔试题 👏 感谢大家的订阅➕ 和 喜欢💗 和 手里的小花花🌸 ✨ 笔试合集传送们 -> 🧷春秋招笔试合集 🍒 本专栏已收…

STM32CubeMX 配置串口通信 HAL库

一、STM32CubeMX 配置串口 每个外设生成独立的 ’.c/.h’ 文件 不勾&#xff1a;所有初始化代码都生成在 main.c 勾选&#xff1a;初始化代码生成在对应的外设文件。 如 GPIO 初始化代码生成在 gpio.c 中。 二、重写fputc函数 ​ #include <stdio.h>#ifdef __GNUC__#def…

无人机之固定翼无人机的组成

固定翼无人机是根据空气动力学原理设计机翼的形状&#xff0c;靠动力装置产生推力或者拉力&#xff0c;使无人机获得一定速度后&#xff0c;会导致空气在飞机上下表面的压力不同&#xff0c;进而产生升力&#xff0c;其升力主要来源于固定的机翼。大多数都是由机翼、机身、尾翼…

FastHTML:使用 Python 彻底改变 Web 开发

什么是 FastHTML&#xff1f;&#x1f310; FastHTML 是一个现代 Python Web 应用程序框架&#xff0c;其真正目的是让 Python 开发人员轻松进行 Web 开发。它大大减少了对 JavaScript 和 CSS 构建交互式和可扩展 Web 应用程序的依赖。FastHTML 通过使用 Python 对象来表示 HTM…

python 捕获异常

捕获指定异常 e 是保存的异常信息 捕获多个异常

全国大学生数学建模比赛——时间序列(详细解读)

全国大学生数学建模比赛中&#xff0c;时间序列分析是一种重要的方法。以下是对时间序列在该比赛中的详细解读&#xff1a; 一、时间序列的概念 时间序列是按时间顺序排列的一组数据。在数学建模中&#xff0c;时间序列数据通常反映了某个现象随时间的变化情况。例如&#xf…

使用vs配置opencv环境(属性表方法)

opencv官网&#xff1a;https://opencv.org/releases/ 老手回忆&#xff08;新建属性表&#xff09; Step1: 安装VS&#xff0c;安装openCV Step2: 新建项目&#xff0c;新建项目属性表&#xff0c;debug|x64新建属性&#xff0c;命好名字 Step3: VC目录-包含目录中添加: 安装…