机器学习(西瓜书)第 4 章 决策树

4.1 决策树基本流程

决策树模型

在这里插入图片描述

基本流程

在这里插入图片描述
在第⑵种情形下,我们把当前结点标记为叶结点,并将其类别设定为该结点所含样本最多的类别;在第⑶种情形下,同样把当前结点标记为叶结点,但将其类别设定为其父结点所含样本最多的类别.注意这两种情形的处理实质不同:情形⑵是在利用当前结点的后验分布,而情形⑶则是把父结点的样本分布作为当前结点的先验分布.

基本算法

在这里插入图片描述
由算法4 .2可看出,决策树学习的关键是第8 行,即如何选择最优划分属性.一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高.

4.2 信息增益划分

信息增益

信息论中最重要的理论——熵

信息熵度量一个集合的纯度

自信息:对于随机变量大X,它每个取值x都有它的概率p(x)
信息熵是自信息的期望
在这里插入图片描述

从公式可以看出,信息熵最小,纯度最高的情况:有一个所占比例是1,其他所占比例都是0,此时信息熵为0

当X的各个取值的概率均等时(样本中每一个的概率均等时),信息熵最大(也就是最不确定),纯度最低

为什么要使用信息熵来算?
——
在这里插入图片描述

信息增益:在已知属性(特征)a的取值后y的不确定性减少的量,也即纯度的提升

计算出D^v的信息熵,再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重|D ^v|/|D|,即样本数越多的分支结点的影响越大,于是可计算出用属性a对样本集D 进行划分所获得的“信息增益”

ID3决策树:以信息增益为准则来选择划分属性的决策树
在这里插入图片描述

可以用信息增益的方式来度量用这种方式划分的价值

信息增益 的定义:划分前的信息熵 - 划分后的信息熵

最优化的属性:要让信息增益最大,即每一步划分后的结果只要最少的信息。尽可能的干净

一个例子

在这里插入图片描述
首先求出未划分前,当前样本集合(根节点)的信息熵

在这里插入图片描述

如果以属性“色泽”划分,对于D1(色泽=青绿),3条正类,3条负类,因此信息熵公式如上
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.3 其他属性划分准则

信息增益准则对可取值数目较多的属性有所偏好,即偏好了分枝多的属性(分到每个分枝上的数目就会越少)

例如若把“编号””也作为一个候选划分属性,则根据式(4.2)可计算出它的信息增益为0.998,远大于其他候选划分属性.这很容易理解:“编号”将产生17个分支,每个分支结点仅包含一个样本,这些分支结点的纯度已达最大.然而,这样的决策树显然不具有泛化能力,无法对新样本进行有效预测.

基于ID3,C4.5现在的改进:不再以 信息增益 作为划分的准则,而是使用 增益率

增益率

在这里插入图片描述

分母IV是分支越少越好,而分子是信息增益越大越好

那么两者折中的点在哪里呢?没有一个绝对正确的权衡,无法找到一个完美的决策树

增益率准则对可取值数目较少的属性有所偏好,因此,通常在C4.5中的做法——启发式:先把信息增益做一个标准,把高于平均水平的找出来,再其中挑增益率最大的;而不是直接由增益率排序而来,因为增益率对可能取值数目较少的属性有所偏好

规范化:把原先不可比较的东西,变得可以比较了
归一化:是规范化的特殊形式,是针对数值属性的。规范化至0与1之间

基尼指数

基尼值 和 基尼指数
在这里插入图片描述
在这里插入图片描述

基尼值越小,碰到异类的概率就越小,纯度自然就越高

按属性划分后的基尼值,我们称为 基尼指数

CART决策树:选择基尼指数最小的属性作为最优划分属性在这里插入图片描述
实际操作时,CART决策树(二叉树)和前面按信息增益的决策树(不一定是二叉树)在具体选划分点时有所区别,和前面的基尼公式也有所不同:

在这里插入图片描述

划分选择 vs 剪枝

在这里插入图片描述

4.4 决策树的剪枝

为何剪枝对决策树泛化性能影响更显著?
——剪枝决策树对付“过拟合”的主要手段

在这里插入图片描述

4.5 预剪枝与后剪枝

现在我们假定使用“留出法”来在剪枝过程中评估剪枝前后决策树的优劣,即预留一部分数据用作“验证集”以进行性能评估

数据集

在这里插入图片描述

预剪枝

预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这就是预剪枝最终得到的决策树

在这里插入图片描述
在用属性“脐部”划分之后,图4.6中的结点2、3、4分别包含编号为{1,2,3,14}、{6,7,15,17}、{10,16}的训练样例,因此这3 个结点分别被标记为叶结点“好瓜”、 “好瓜”、 “坏瓜”.此时,验证集中编号为(4,5,8,11,12)的样例被分类正确,验证集精度为5/7 x 100% = 71.4% > 42.9%.于是,用 “脐部”进行划分得以确定.

对比图4.6和图4.5可看出,预剪枝使得决策树的很多分支都没有“展开”,这不仅降低了过拟合的风险,还显著减少了决策树的训练时间开销和测试时间开销.但另一方面,有些分支的当前划分虽不能提升泛化性能、甚至可
能导致泛化性能暂时下降,但在其基础上进行的后续划分却有可能导致性能显
著提高
;预剪枝基于“贪心”本质禁止这些分支展开,给预剪枝决策树带来了
欠拟合的风险
.

后剪枝

后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点.

后剪枝:先生成一颗完整的决策树,然后看中间做属性决策的结点能否用叶节点来替换它
注意是从最深的开始考虑,因为越深的越可能是受到overfitting的影响的结果
在这里插入图片描述

在这里插入图片描述
——如果剪枝了:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
对比图4.7和图4.6可看出,后剪枝决策树通常比预剪枝决策树保留了更多的分支.一般情形下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预
剪枝决策树
.但后剪枝过程是在生成完全决策树之后进行的,并且要自底向上
地对树中的所有非叶结点进行逐一考察,因此其训练时间开销比未剪枝决策树
和预剪枝决策树都要大得多
.

预剪枝 vs 后剪枝

在这里插入图片描述

4.6 连续值的处理

到目前为止我们仅讨论了基于离散属性来生成决策树.现实学习任务中常会遇到连续属性,有必要讨论如何在决策树学习中使用连续属性.由于连续属性的可取值数目不再有限,因此,不能直接根据连续属性的可取值来对结点进行划分.此时,连续属性离散化技术可派上用场.最简单的策略是采用二分法(bi-partition)对连续属性进行处理,这正是C4.5决策树算法中采用的机制[Quinlan, 1993].

给定样本集D 和连续属性a.假定a在D上出现了 n个不同的取值,将这些值从小到大进行排序
显然,对相邻的属性取值a_i与a_i+1 来说,t在区间[a^i,a ^i+1)中取任意值所产生的划分结果相同.因此,对连续属性a,我们可考察包含n- 1个元素的候选划分点集合

即把区间[a^i,a ^i+1)的中位点(a ^i,a ^i+1)/2作为候选划分点.然后,我们就可像离散属性值一样来考察这些划分点,选取最优的划分点进行样本集合的划分.例如,
可对式(4.2)(信息增益)稍加改造:
在这里插入图片描述

4.7 缺失值的处理

缺失值

在这里插入图片描述
其中“权重划分”指的是:给定划分属性,若样本在该属性上的值缺失,会按权重同时进入所有分支

一个例子

在这里插入图片描述
在这里插入图片描述

区别变化是在计算总的信息增益时前面乘上 无缺失值样例占比

在这里插入图片描述
选其中最大的信息增益:
在这里插入图片描述

把有值的样本进入各个属性的划分结果当作了没有值的样本进入的先验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/423435.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Maven私服Nexus安装及使用

前言 周末在家闲着无聊,不知道做点啥,就想着自己搭建一个Maven私服来玩玩。刚好使用自己之前在电脑上搭建的虚拟机服务器来操作体验了一把。搭建好私服后,以后自己写的一些小模块啊,工具包啥的就可以发布到自己的私服上了&#xf…

2024网络安全人才实战能力白皮书安全测试评估篇

9月10日,国内首个聚焦“安全测试评估”的白皮书——《网络安全人才实战能力白皮书-安全测试评估篇》(以下简称“白皮书”)在国家网络安全宣传周正式发布。 作为《网络安全人才实战能力白皮书》的第三篇章,本次白皮书聚焦“安全测…

上海市高等学校信息技术水平考试 C程序设计(2020D场)全解

C语言程序一定是从mian函数开始的;在主函数中,一次又一次调用了其他函数,但不代表程序是在代码行的最后一个函数结束;而是在主函数中,遇到了return 0 才会程序结束。 标识符:在编程语言中,标识符…

Ubuntu下安装最新版本Apache2文件服务器

文章目录 1.最新版本Apache2安装2. Apache2配置2.1 端口配置2.2 创建软连接,生成文件服务2.3 隐藏Apache2服务版本号2.4 添加用户,设置Apache2文件服务密码2.5 重启Apache2服务 3. 执行后效果 1.最新版本Apache2安装 注意:安装最新版本必须升级Ubuntu为2…

【鸿蒙】HarmonyOS NEXT星河入门到实战6-组件化开发-样式结构重用常见组件

目录 1、Swiper轮播组件 1.1 Swiper基本用法 1.2 Swiper的常见属性 1.3 Swiper的样式自定义 1.3.1 基本语法 1.3.2 案例小米有品 2、样式&结构重用 2.1 Extend:扩展组件(样式、事件) 2.2 Styles:抽取通用属性、事件 2.3 Builder:自定义构建函数(结构、样式、事…

CentOS 7停更官方yum源无法使用,更换阿里源

CentOS 7官方源已经停止维护,导致无法使用yum更新软件。通过尝试使用阿里云、清华大学等第三方源解决,现以阿里云第三方源进行配置: 1、备份原有的yum源配置文件 # cp -a /etc/yum.repos.d /etc/yum.repos.d.bak 2、删除原有的yum源配置文…

基于鸿蒙API10的RTSP播放器(五:拖动底部视频滑轨实现跳转)

拖动前播放位置: 拖动后播放位置: 在Slider组件中,添加onChange方法进行监听,当视频轨道拖放结束时,触发this.seekTo()函数,其中seekTo函数需要传递一个视频已播放时长作为参数 Slider({ value: this.p…

基于Neo4j知识图谱的构建及可视化

基于Neo4j知识图谱的构建及可视化 前言 手把手教你基于Neo4j构建知识图谱可视化系统。有任何疑问或者需要提供帮助都可以私信我。 一、环境搭建 1.1 安装JDK 下载和安装Neo4j之前,首先必须 安装Java JDK,因为Neo4j是基于Java的图形数据库&#xff0c…

Model for OpenAI gym‘s Lunar Lander not converging

题意:OpenAI Gym 的 Lunar Lander 模型未收敛 问题背景: I am trying to use deep reinforcement learning with keras to train an agent to learn how to play the Lunar Lander OpenAI gym environment. The problem is that my model is not conver…

内网穿透的应用-Deepin系统安装x11vnc实现任意设备无公网IP远程连接Deepin桌面

文章目录 前言1. 安装x11vnc2. 本地远程连接测试3. Deepin安装Cpolar4. 配置公网远程地址5. 公网远程连接Deepin桌面6. 固定连接公网地址7. 固定公网地址连接测试 前言 本文主要介绍在Deepin系统中安装x11vnc工具,并结合Cpolar内网穿透工具实现任意设备无公网IP也可…

HTML深度探索 :img应用与实践

HTML深度探索 &#xff1a;img应用与实践 1、定义和用法2、图像格式3、常用属性4、预加载和懒加载4.1 预加载4.2 懒加载 1、定义和用法 HTML 元素 <img>将一张图像嵌入文档。 从技术上讲&#xff0c;实际上并没有将图像插入到网页中&#xff0c;而是将图像链接到了网页。…

Maven从入门到精通(三)

一、Settings 配置 settings.xml 用来配置 maven 项目中的各种参数文件&#xff0c;包括本地仓库、远程仓库、私服、认证等信息。 全局 settings、用户 setting、pom 的区别&#xff1a; 全局 settings.xml 是 maven 的全局配置文件&#xff0c;一般位于 ${maven.home}/conf…

API数据接口:开启智能应用的钥匙

在当今数字化时代&#xff0c;数据已成为企业的核心资产。API&#xff08;应用程序编程接口&#xff09;数据接口作为连接不同软件和服务的桥梁&#xff0c;正变得越来越重要。本文将为您详细介绍API数据接口的概念、优势、使用场景以及如何高效利用API接口&#xff0c;以期帮助…

初学51单片机之IO口上下拉电阻相关

本案本来是描述一下I2C总线的&#xff0c;在此之前推荐一下B站一个UP关于时序图的讲解 I2C入门第一节-I2C的基本工作原理_哔哩哔哩_bilibili 不过在描述I2C前先简单的探讨下51单片机IO口下拉电阻的基本情况&#xff0c;事实上这个问题困扰笔者很长时间了&#xff0c;这次也是一…

Llama Factory :百种以上语言模型的统一高效微调框架

人工智能咨询培训老师叶梓 转载标明出处 大模型适应到特定下游任务时&#xff0c;传统的全参数微调方法成本高昂&#xff0c;因此&#xff0c;研究者们一直在探索更高效的微调技术。由北京航空航天大学和北京大学的研究团队提出了一个名为Llama Factory的统一框架&#xff0c;…

QT天气预报

json 理论 什么是JSON? 规则 被大括号包括的是JSON对象,被中括号包括的是JSON数组. JSON数组JSON对象 实验 构建JSON 用代码实现如下json内容: //构建JSON void WirteJson() {QJsonObject rootObject;//1.插入name字段rootObject.insert("name","china&quo…

威胁建模STRIDE框架

威胁建模STRIDE框架 1.威胁建模框架概述2.STRIDE威胁建模框架欺骗 - 冒充某人或某物篡改 - 未经授权更改数据否认性 - 不宣称对执行的操作负责信息泄露 - 查看不应查看的数据拒绝服务 - 系统繁忙权限提升 - 拥有本不应该拥有的权限 3.后续的威胁发现 1.威胁建模框架概述 威胁建…

vxe-table之复选框 设置父子节点不互相关联

通过 checkStrictly 设置父子节点不互相关联&#xff0c;默认不显示头部复选框&#xff0c;可以通过 checkbox-config{showHeader} 设置 <template><div><vxe-table:column-config"{resizable: true}":data"tableData":tree-config"{…

sharding-jdbc metadata load优化(4.1.1版本)

背景 系统启动时&#xff0c;会注意sharding-jdbc提示加载metadata 于是想看看里面做了什么事情 问题追踪 debug后可以观察走到了该类 org.apache.shardingsphere.shardingjdbc.jdbc.core.context.ShardingRuntimeContext#loadSchemaMetaData 先看这个shardingRuntimeConte…

嵌入式-QT学习-小练习

1. 实现多窗口 2. 给按键增加图标 3. 动图展示 结果演示&#xff1a; Mul_Con main.cpp #include "widget.h"#include <QApplication>int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); }一、第一个窗口展示 …