机器学习-04-分类算法-01决策树

机器学习-04-分类算法-01决策树

news/2024/12/23 14:39:41/文章来源:https://blog.csdn.net/m0_38139250/article/details/136505398

总结

本系列是机器学习课程的系列课程，主要介绍机器学习中分类算法，本篇为分类算法开篇与决策树部分。

参考

决策树——ID3和C4.5（理论+图解+公式推导）
策略产品经理必读系列—第七讲ID3、C4.5和CART算法详解
决策树（一）| 基础决策树 ID3、C4.5、CART 核心概要

本门课程的目标

完成一个特定行业的算法应用全过程：

懂业务+会选择合适的算法+数据处理+算法训练+算法调优+算法融合
+算法评估+持续调优+工程化接口实现

机器学习定义

关于机器学习的定义，Tom Michael Mitchell的这段话被广泛引用：
对于某类任务T和性能度量P，如果一个计算机程序在T上其性能P随着经验E而自我完善，那么我们称这个计算机程序从经验E中学习。

分类方法的定义

在这里插入图片描述

决策树算法ID3

什么是好瓜

在这里插入图片描述

熵的概念来源于热力学。在热力学中熵的定义是系统可能状态数的对数值，称为热熵。它是用来表达分子状态杂乱程度的一个物理量。热力学指出，对任何已知孤立的物理系统的演化，热熵只能增加，不能减少。
信息的基本作用就是消除人们对事物了解的不确定性。美国信息论创始人香农发现任何信息都存在冗余，冗余的大小与信息的每一个符号出现的概率和理想的形态有关。信息熵表示的是信息的混乱程度。当均匀分布时，信息熵最大。当熵除一个值之外，其他值均为0，信息熵最小。
和热力学中的熵相反的是，信息熵只能减少，不能增加。
所以热熵和信息熵互为负量。且已证明，任何系统要获得信息必须要增加热熵来补偿，即两者在数量上是有联系的。

信息熵信息量的量化过程：

例如：
事件A：明天的太阳会从东边升起。
事件B：虽然明天的太阳还是从东边升起，但是明天要下雪。
信息量没有量化

信息量的表达式应该满足的条件：

（1）信息量和事件发生的概率有关，当事件发生的概率越低或者越高，传递的信息量越大；
（2）信息量应当是非负的，必然发生的信息量为0；
（3）两个事件的信息量可以相加，并且两个独立事件的联合信息量应该是他们各自信息量的和；

信息熵的量化过程：

熵随着概率的变化为：
在这里插入图片描述

ID3的计算

在这里插入图片描述

在这里插入图片描述

再举一个例子
在这里插入图片描述

如果采用苹果编号为条件，会发现，此时信息增益最大，因为编号1的叶子节点只有yes，此时的信息熵为0，最后会导致，信息增益会选择苹果编号为分割条件。

举例：
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

决策树C4.5算法

在这里插入图片描述

决策树CART算法

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

ID3 C4.5 CART算法比较

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

确定方向过程

针对完全没有基础的同学们
1.确定机器学习的应用领域有哪些
2.查找机器学习的算法应用有哪些
3.确定想要研究的领域极其对应的算法
4.通过招聘网站和论文等确定具体的技术
5.了解业务流程，查找数据
6.复现经典算法
7.持续优化，并尝试与对应企业人员沟通心得
8.企业给出反馈

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/278560.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

高精度计算

高精度计算

主页：(*∇｀*) 咦,又好了~ xiaocr_blog （1）数据的接收方法和存储方法: 当输入的数据很长的时候，可采取字符串方式输入，这样可以输入位数很长的数，利用字符串函数和操作运算，将每一位…

阅读更多...

Linux 常见驱动框架

Linux 常见驱动框架

一、V4L2驱动框架 v4l2驱动框架主要对象： （1）video_device：一个字符设备，为用户空间提供设备节点(/dev/videox)，提供系统调用的相关操作(open、ioctl…) （2）v4l2_device&#xff1a…

阅读更多...

【大数据面试题】 018 数据仓库的分层了解吗？说说你的理解

【大数据面试题】 018 数据仓库的分层了解吗？说说你的理解

一步一个脚印，一天一道面试题。数据仓库是比较常见的考点。今天就介绍一下数据仓库的分层。本篇文章会较多的图片是来自尚硅谷的。数据仓库的背景和好处数据仓库的诞生就和大数据的诞生有很大的相似。大数据的诞生是为了处理超大的数据，并在其中探…

阅读更多...

【Java Web基础】一些网页设计基础（一）

【Java Web基础】一些网页设计基础（一）

文章目录 1. 父盒子下子盒子的左右浮动布局2. 浮动布局中，高度较小的盒子撑起整个盒子的高度3. 在2中，logo和title都是顶着放置的，让logo和title垂直居中4. 字体大小自适应5. 响应式布局 1. 父盒子下子盒子的左右浮动布局父盒子CSS&#xff…

阅读更多...

Java实现知乎热点小时榜爬虫

Java实现知乎热点小时榜爬虫

1.效果演示 1.1 热点问题列表启动程序后，自动展示热点问题，并等待终端输入 1.2 根据序号选择想看的热点问题输入问题序号，展示回答内容 1.3 退出输入q即可退出程序 2.源码 2.1 pom.xml <?xml version"1.0" enco…

阅读更多...

B端：列表页选表格还是卡片，有讲究的。

B端：列表页选表格还是卡片，有讲究的。

选择表格或卡片作为列表页的展示方式，各有其优缺点。下面是对表格和卡片的优缺点进行详细介绍： 表格的优点： 结构化展示：表格以行和列的形式展示数据，可以清晰地展示多个字段的信息，方便用户进行比较和筛选…

阅读更多...

2、高级语言的语法描述

2、高级语言的语法描述

常用的高级程序设计语言程序语言的定义语法一组规则，用它可以形成和产生合适的程序词法规则：单词符号的形成规则。单词符号的形成规则单词符号是语言中具有独立意义的最基本结构一般包括:常数、标识符、基本字、算符、界符等描述工具:有限自动机…

阅读更多...

【全网最详细】ComfyUI下，Insightface安装指南-聚梦小课堂

【全网最详细】ComfyUI下，Insightface安装指南-聚梦小课堂

🥮背景 ComfyUI下使用IP-adapter下的faceID模型的时候，大家可能会遇到如下错误： Error occurred when executing InsightFaceLoader: No module named insightface File "F:\ComfyUI-aki\execution.py", line 151, in recursive_…

阅读更多...

ElasticSearch架构设计

ElasticSearch架构设计

一、基础概念 Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 Lucene 那么简单，它不仅包括了全文搜索功能，还可以进行以下工作: 一个分布式的实时文档…

阅读更多...

微信小程序调用百度智能云API（菜品识别）

微信小程序调用百度智能云API（菜品识别）

一、注册后生成应用列表创建应用二、找到当前所需使用的api菜品识别文档三、点链接看实例代码这里需要使用到如下几个参数（如下），其他的参数可以不管 client_id ： 就是创建应用后的API Keyclient_secret： 就是创建…

阅读更多...

Docker 笔记（五）--链接

Docker 笔记（五）--链接

这篇笔记记录了Docker 的Link。官方文档： Legacy container links - Communication across links 目录参考Legacy container linksConnect using network port mappingConnect with the linking systemThe importance of naming Communication across linksEnviro…

阅读更多...

3.18 day6 C++

3.18 day6 C++

以下是一个简单的比喻，将多态概念与生活中的实际情况相联系: 比喻:动物园的讲解员和动物表演想象一下你去了一家动物园，看到了许多不同种类的动物，如狮子、大象、猴子等。现在，动物园里有一位进解员，他会为每种动物表…

阅读更多...

【闲聊】-后端框架发展史

【闲聊】-后端框架发展史

框架，是为了解决系统复杂性，提升开发效率而产生的工具，主要服务于研发人员。当然，框架还有更深层的作用，框架的沉淀是一种高级的抽象，会将人类的业务逐步抽象为统一标准又灵活可变的结构，为各行…

阅读更多...

鸿蒙 Harmony 初体验

鸿蒙 Harmony 初体验

前言看现在网上传得沸沸扬扬的鸿蒙，打算弄个 hello world 玩一下, 不然就跟不上时代的发展了环境安装我的环境 Windows 11 家庭中文版HarmonyOS SDK (API 9)DevEco Studio (3.1.1 Release)Node.js (16.19.1) 开发IDE下载官方下载链接配置 nodejs 这里帮…

阅读更多...

IT系统可观测性

IT系统可观测性

什么是可观测性可观测性（Observability）是指能够从系统的外部输出推断出系统内部状态的能力。在IT和云计算领域，它涉及使用软件工具和实践来收集、关联和分析分布式应用程序以及运行这些应用程序的硬件和网络产生的性能数据流。这样做可以更…

阅读更多...

k8s helm 删除 tiller

k8s helm 删除 tiller

kuberneter 上面装了 helm 想卸载还并不是那么简单, 参考 stackoverflow 回复 kubectl get -n kube-system secrets,sa,clusterrolebinding -o name|grep tiller|xargs kubectl -n kube-system delete kubectl get all -n kube-system -l apphelm -o name|xargs kubectl dele…

阅读更多...

Morris法解决二叉树问题，展开链表及中序遍历

Morris法解决二叉树问题，展开链表及中序遍历

问题一：二叉树展开成单链表问题二：二叉树中序遍历咋一看非常简单的两道题，但是如果我们加以一些限制，这两题就不简单了。对于这两道题，我们的空间复杂度都必须控制在O(1)。也就是说，迭代和递归全部失效…

阅读更多...

【OpenGL手册19】几何着色器

【OpenGL手册19】几何着色器

目录一、说明二、渲染管线的逻辑三、几何着色器四、使用几何着色器五、造几个房子六、几何着色器渲染爆破物体一、说明如果说用顶点和片段着色器干了什么，其实不多。加入几何着色器，能够加大渲染能力，简化数据结构，…

阅读更多...

网络管理基础

网络管理基础

Linux网络管理 1.网络管理概念网络接口和名称 ：网卡 ip地址网关主机名称路由2.管理工具 net-tools: #安装包 ifconfig netstat 准备要废掉了。iproute: #安装包 ip #提供ip命令3.认识网卡 lo网卡 :本地回环网卡，本机上的服务自己访问自…

阅读更多...

JAVA八股day1

JAVA八股day1

遇到的问题相比于包装类型（对象类型）， 基本数据类型占用的空间往往非常小为什么说是几乎所有对象实例都存在于堆中呢？静态变量和成员变量、成员变量和局部变量的区别为什么浮点数运算的时候会有精度丢失的风险？如何解…

阅读更多...

最新文章

推荐文章