【机器学习】决策树算法理论：算法原理、信息熵、信息增益、预剪枝、后剪枝、算法选择

【机器学习】决策树算法理论：算法原理、信息熵、信息增益、预剪枝、后剪枝、算法选择

news/2024/12/23 23:41:34/文章来源:https://blog.csdn.net/qq_15719613/article/details/134402134

1. 决策树概念

通过不断的划分条件来进行分类，决策树最关键的是找出那些对结果影响最大的条件，放到前面。

我举个列子来帮助大家理解，我现在给我女儿介绍了一个相亲对象，她根据下面这张决策树图来进行选择。比如年龄是女儿择偶更看中的，那就该把年龄这个因素放在最前面，这样可以节省查找次数。收入高的话就去见，中等的话还要考虑工作怎么样。

决策树通过历史数据，找出数据集中对结果影响最大的特征，再找第二个影响最大的特征。若新来一个数，只要根据我们已经建立起的决策树进行归类即可。

2. 决策树的信息熵

用来表示随机数据不确定性的度量，信息熵越大，表示这组数据越不稳定，而信息熵越小，则数据越稳定、越接近、越类似。

信息熵公式：代表某一个特征中每一个值出现的概率
上个例子中的年龄的基尼系数是：Gini(年龄) = 1 – (5/15)^2 - (5/15)^2 - (5/15)^2

在建立决策树时，基尼系数越小的，就把它放在最前面。

5. 预剪枝和后剪枝

树的层级和叶子节点不能过于复杂，如果过于复杂，会导致过拟合现象（过拟合：训练时得分很高，测试时得分很低）。预剪枝和后剪枝都是为了防止决策树太复杂的手段

5.1 预剪枝

在决策树的建立过程中不断调节来达到最优，可以调节的条件有：

（1）树的深度：在决策树建立过程中，发现深度超过指定的值，那么就不再分了。

（2）叶子节点个数：在决策树建立过程中，发现叶子节点个数超过指定的值，那么就不再分了。

（3）叶子节点样本数：如果某个叶子结点的个数已经低于指定的值，那么就不再分了。

（4）信息增益量或Gini系数：计算信息增益量或Gini系数，如果小于指定的值，那就不再分了。

优点：预剪枝可以有效降低过拟合现象，在决策树建立过程中进行调节，因此显著减少了训练时间和测试时间；预剪枝效率比后剪枝高。

缺点：预剪枝是通过限制一些建树的条件来实现的，这种方式容易导致欠拟合现象：模型训练的不够好。

5.2 后剪枝

在决策树建立完成之后再进行的，根据以下公式：

**C = gini(或信息增益)sample(样本数) + a叶子节点个数**

C表示损失，C越大，损失越多。通过剪枝前后的损失对比，选择损失小的值，考虑是否剪枝。

a是自己调节的，a越大，叶子节点个数越多，损失越大。因此a值越大，偏向于叶子节点少的，a越小，偏向于叶子节点多的。

优点：通常比预剪枝保留更多的分支，因此欠拟合风险比预剪枝要小。

缺点：但因为后剪枝是再数建立完成之后再自底向上对所有非叶子节点进行注意考察，因此训练时间开销比预剪枝要大。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/196666.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【考研复习】二叉树的特殊存储｜三叉链表存储二叉树、一维数组存储二叉树、线索二叉树

【考研复习】二叉树的特殊存储｜三叉链表存储二叉树、一维数组存储二叉树、线索二叉树

文章目录三叉链表存储二叉树三叉链表的前序遍历（不使用栈）法一三叉链表的前序遍历（不使用栈）法二一维数组存储二叉树一维数组存储二叉树的先序遍历线索二叉树的建立中序线索二叉树的遍历真题演练三叉链表存储二叉树三叉链表…

阅读更多...

安装 eslint 配置指南及遇到的一些问题记录

安装 eslint 配置指南及遇到的一些问题记录

前端eslint配置指南背景当前前端项目风格混乱，每个人有自己的开发习惯，有自己的格式化习惯，不便于项目的风格统一，不利于代码维护有的项目eslint没有用起来，没有起到规范代码的作用，导致出现一些基础代码…

阅读更多...

操作系统秋招面试题

操作系统秋招面试题

自己在秋招过程中遇到的高频操作系统相关的面试题内存管理虚拟内存虚拟内存的⽬的是为了让物理内存扩充成更⼤的逻辑内存，从⽽让程序获得更多的可⽤内存。为了更好的管理内存，操作系统将内存抽象成地址空间。每个程序拥有⾃⼰的地址空间&#xff…

阅读更多...

受电诱骗快充取电芯片XSP08：PD+QC+华为+三星多种协议9V12V15V20V

受电诱骗快充取电芯片XSP08：PD+QC+华为+三星多种协议9V12V15V20V

目前市面上很多家的快充充电器，都有自己的私有快充协议，如PD协议、QC协议、华为快充协议、三星快充协议、OPPO快充协议等待，为了让它们都能输出快充电压，就需要在受电端也增加快充协议取电芯片XSP08，它可以和充电器通讯…

阅读更多...

Uniapp导出的iOS应用上架详解

Uniapp导出的iOS应用上架详解

目录 Uniapp导出的iOS应用上架详解摘要引言苹果审核标准苹果调试注意事项和建议总结摘要本文将探讨Uniapp导出的iOS应用能否成功上架的问题。我们将从苹果审核标准、性能影响、调试流程等多个方面进行深入分析，以及向开发者提供相关注意事项和建…

阅读更多...

os.path.join函数用法

os.path.join函数用法

os.path.join()是Python中用于拼接文件路径的函数，它可以将多个字符串拼接成一个路径，并且会根据操作系统的规则自动使用合适的路径分隔符。注：Linux用的是/分隔符，而Windows才用的是\。该函数属于os.path模块，因此在…

阅读更多...

Ajax 之XMLHttpRequest讲解

Ajax 之XMLHttpRequest讲解

一直以来都听别人说Ajax,今天终于接触到了。。。。。。。。。。一.什么是Ajax? 答: AJAX即“Asynchronous Javascript And XML”（异步JavaScript和XML），是指一种创建交互式网页应用的网页开发技术。 AJAX 异步 JavaScript和XML&#x…

阅读更多...

Intellij Idea屏蔽日志/过滤日志

Intellij Idea屏蔽日志/过滤日志

一、安装插件 Grep Console 二、设置关键词，过滤日志关键词的前后加上 .* 符号，类似： .*关键词.*设置后 ，点击 Apply 即可过滤日志。

阅读更多...

【整顿C盘】pycharm、chrome等软件，缓存移动

【整顿C盘】pycharm、chrome等软件，缓存移动

C盘爆了，特来找一下巨大的软件缓存，特此记录，跟随的各大教程，和自己的体会一、爆炸家族JetBrains 这个适用于pycharm、idea、webstorm等等，只要是JetBrains家的，2020版本以上，都是一样的方法 p…

阅读更多...

【第2章 Node.js基础】2.7 Node.js 的流(一)可写流

【第2章 Node.js基础】2.7 Node.js 的流(一)可写流

🌈可写流 🚀什么是可写流可写流是对数据被写入的目的地的一种抽象。所有可写流都实现了 stream.Writable类定义的接口。可写流的例子包括，也都是实现了可写流接口的双工流客户端的 HTTP 请求、服务器的HTTP 响应、fs 的写入流、zlib…

阅读更多...

Yolov5安装运行过程中出现的问题

Yolov5安装运行过程中出现的问题

Yolov5安装运行过程中出现的问题合集安装问题pip 安装 requirements.txtcmd下如何退出python？升级numpy protobuf版本过高AttributeError: Can’t get attribute ‘SPPF’ on <module ‘models.common’ from 地址找不到图片NameError: name warnings is not de…

阅读更多...

机器学习中的独立和同分布（IID）：假设和影响

机器学习中的独立和同分布（IID）：假设和影响

一、介绍在机器学习中，独立和同分布 （IID） 的概念在数据分析、模型训练和评估的各个方面都起着至关重要的作用。IID 假设是确保许多机器学习算法和统计技术的可靠性和有效性的基础。本文探讨了 IID 在机器学习中的重要性、其假设及其对模型开…

阅读更多...

Python武器库开发-flask篇之模板渲染(二十四)

Python武器库开发-flask篇之模板渲染(二十四)

flask篇之模板渲染(二十四) Flask 中的模板是一种将数据和 HTML 代码组合在一起的方式，使得我们可以生成动态的 HTML 页面。使用模板可以使我们的代码更加简洁、易于维护和复用。在真实的环境中，我们往往接触到的是由 html、CSS和JavaScript所做的网页&…

阅读更多...

redis运维(七)基础通用命令

redis运维(七)基础通用命令

一基础通用命令备注： 与具体数据类型无关Tab键自动补全补充： redis 命令是不区分大小写通用不到 10 个提升逼格的 redis 命令后续： slowlog、rename-command、monitor、set ① help command 需求： 显示有关redis命令的…

阅读更多...

V10 桌面版、服务器版系统加固

V10 桌面版、服务器版系统加固

V10 桌面版、服务器版系统加固一、文档说明本文档中涉及的加固方法主要包括：密码策略配置、防火墙规则配置、禁用高风险服务等。二、 V10 桌面版系统加固 2.1 密码策略配置密码策略包括密码老化控制策略和密码复杂度策略。密码老化控制策略需要配置/etc…

阅读更多...

SQL 文本函数

SQL 文本函数

前言 SQL文本函数是SQL语言中非常有用的一类函数，它们用于处理和操作字符串数据。在实际应用中，我们经常需要对数据库中的文本数据进行各种操作，比如提取子串、替换子串、拼接字符串等等。而SQL文本函数可以帮助我们轻松地完成这些任务&#…

阅读更多...

[Vue 代码模板] Vue3 中使用 Tailwind CSS + NutUI 实现侧边工具栏切换主题

[Vue 代码模板] Vue3 中使用 Tailwind CSS + NutUI 实现侧边工具栏切换主题

文章归档：https://www.yuque.com/u27599042/coding_star/vzkgy6gvcnpl3u2y 效果示例配置 src 目录别名 https://www.yuque.com/u27599042/coding_star/ogu2bhefy1fvahfv 配置 Tailwind CSS https://www.yuque.com/u27599042/coding_star/yqzi9olphko9ity1 配置…

阅读更多...

Linux系统中sh脚本编写

Linux系统中sh脚本编写

文章目录 Linux系统中sh脚本编写1.在编写sh脚本前了解一下基本语法1.1 if语句单分支双分支多分枝 1.2 for语法 2. 自己写的demo ：自动部署前端项目 （自动拉取代码，打包，部署nginx）3.定时执行 shell脚本 Linux系统中sh脚…

阅读更多...

深入理解网络协议：通信世界的基石

深入理解网络协议：通信世界的基石

💂 个人网站:【海拥】【神级代码资源网站】【办公神器】🤟 基于Web端打造的：👉轻量化工具创作平台💅 想寻找共同学习交流的小伙伴，请点击【全栈技术交流群】在当今数字化时代，网络协议是连接世…

阅读更多...

计算机科学速成课

计算机科学速成课

建议看看计算机科学速成课，一门很全面的计算机原理入门课程，短短10分钟可以把大学老师十几节课讲的东西讲清楚！整个系列一共41个视频，B站上有中文字幕版。每个视频都是一个特定的主题，例如软件工程、人工智能、操作系…

阅读更多...

最新文章

推荐文章