集成学习-树模型

可以分为三部分学习树模型:

  1. 基本树(包括 ID3、C4.5、CART).
  2. Random Forest、Adaboost、GBDT
  3. Xgboost 和 LightGBM。

基本树

选择特征的准则

ID3:信息增益max

C4.5:信息增益比max

CART:基尼指数min

优缺点

ID3

核心思想是奥卡姆剃刀(决策树小优于大)

缺点:

  • ID3 没有剪枝策略,容易过拟合;
  • 信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1;
  • 只能用于处理离散分布的特征;
  • 没有考虑缺失值。

C4.5

有剪枝策略。最大的特点是克服了 ID3 对特征数目的偏重这一缺点,引入信息增益率来作为分类标准。

缺点:

  • C4.5 只能用于分类;
  • C4.5 使用的熵模型拥有大量耗时的对数运算,连续值还有排序运算;
  • C4.5 在构造树的过程中,对数值属性值需要按照其大小进行排序,从中选择一个分割点,所以只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时,程序无法运行。

CART

ID3 和 C4.5 虽然在对训练样本集的学习中可以尽可能多地挖掘信息,但是其生成的决策树分支、规模都比较大,CART 算法的二分法可以简化决策树的规模,提高生成决策树的效率。

集成学习/决策树

常见的集成学习框架有三种:Bagging,Boosting 和 Stacking

Bagging

投票法

随机森林random forest

RF 算法由很多决策树组成,每一棵决策树之间没有关联。建立完森林后,当有新样本进入时,每棵决策树都会分别进行判断,然后基于投票法给出分类结果。

在以决策树为基学习器构建 Bagging 集成的基础上,进一步在决策树的训练过程中引入了随机特征选择,算法包括四个部分:

  1. 随机选择样本(放回抽样);
  2. 随机选择特征;
  3. 构建决策树;
  4. 随机森林投票(平均)。

优点

  1. 在数据集上表现良好,相对于其他算法有较大的优势
  2. 易于并行化,在大数据集上有很大的优势;
  3. 能够处理高维度数据,不用做特征选择。

Boosting

每个基模型都会在前一个基模型学习的基础上进行学习,最终综合所有基模型的预测值产生最终的预测结果

AdaBoost(Adaptive Boosting,自适应增强)

核心思想是:利用错分样本来弥补模型的不足

可以加入正则化项

自适应在于:

  1. 前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器。
  2. 在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数

算法有三步:

  1. 初始化训练样本的权值分布,每个样本具有相同权重;
  2. 训练弱分类器,如果样本分类正确,则在构造下一个训练集中,它的权值就会被降低;反之提高。用更新过的样本集去训练下一个分类器;
  3. 将所有弱分类组合成强分类器,各个弱分类器的训练过程结束后,加大分类误差率小的弱分类器的权重,降低分类误差率大的弱分类器的权重。
  1. 分类精度高
  2. 可以用各种回归分类模型来构建弱学习器,非常灵活
  3. 不容易发生过拟合
对异常点敏感,异常点会获得较高权重

GBDT(Gradient Boosting Decision Tree)

核心思想是:通过算梯度来弥补模型的不足(利用残差)

GBDT 由三个概念组成:Regression Decision Tree(即 DT)、Gradient Boosting(即 GB),和 Shrinkage(一个重要演变)

  • 回归树:对于分类树而言,其值加减无意义(如性别),而对于回归树而言,其值加减才是有意义的(如说年龄)。GBDT 的核心在于累加所有树的结果作为最终结果,所以 GBDT 中的树都是回归树,不是分类树
  • 梯度迭代(Gradient Boosting):
  • Shrinkage 的思想认为,每走一小步逐渐逼近结果的效果要比每次迈一大步很快逼近结果的方式更容易避免过拟合。即它并不是完全信任每一棵残差树
  1. 可以自动进行特征组合,拟合非线性数据;
  2. 可以灵活处理各种类型的数据。
对异常点敏感

XGBoost(Extreme Gradient Boosting)

核心思想是:在GBDT的基础上,通过正则化以及更高阶的优化方法来防止过拟合;

同时通过特殊的数据存储和并行计算来提高计算效率;并且可以自动处理缺失值

GBDT在优化过程中只使用了损失函数的一阶导数信息,而XGBoost使用了损失函数的一阶和二阶导数。这使得XGBoost在优化过程中考虑了目标函数的曲率,可以更准确快速地找到最优解。

缺点:1、空间消耗大。要保存数据的特征值和特征排序的结果。2、时间开销大,遍历分割点的时候需要进行分裂增益的计算,消耗的代价大。3、对cache优化不友好。在预排序后,特征对梯度的访问是一种随机访问,并且不同的特征访问的顺序不一样,无法对cache进行优化

XGBoost、LightGBM-深度简化版 - 知乎 (zhihu.com)

LightGBM(Light Gradient Boosting Machine)

是对传统GBDT和XGBoost的优化和改进

  1. 高效率:使用了直方图优化、特征并行和数据并行,训练速度非常快。

  2. 高准确率:使用了Leaf-wise的生长策略,可以更快地降低训练误差。

  3. 低内存使用:使用了直方图优化,内存使用远低于传统GBDT。

  4. 支持类别特征:无需进行one-hot编码,更方便使用

  1. 可能过拟合:由于使用了Leaf-wise的生长策略,如果不进行深度限制,可能会过拟合。

  2. 对小数据集可能效果不佳:对于数据集数量较小的情况,可能无法充分利用LightGBM的优点,甚至可能表现不如传统的GBDT。

Stacking

  1. 先用全部数据训练好基模型
  2. 每个基模型都对每个训练样本进行的预测,其预测值将作为训练样本的特征值,最终会得到新的训练样本
  3. 基于新的训练样本进行训练得到模型,然后得到最终预测结果。

总结

偏差(Bias)描述的是预测值和真实值之差;方差(Variance)描述的是预测值作为随机变量的离散程度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/130234.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux入门教程||Linux系统目录结构

登录系统后,在当前命令窗口下输入命令: ls / 你会看到如下图所示: 树状目录结构: 以下是对这些目录的解释: /bin: bin是Binary的缩写, 这个目录存放着最经常使用的命令。 /boot: 这里存放的是启动Linux时…

【Linux】让笔记本发挥余热,Ubuntu20.04设置WiFi热点

Ubuntu20.04设置WiFi热点 由于卧室距离客厅较远,wifi信号太弱,体验极差。鉴于卧室的笔记本电脑是通过网线连接的客厅路由器,因此考虑将这台老破笔记本作为“路由器”,以便发挥它的余热。实验证明,上网速度提升数十倍&a…

选择排序——直接选择排序

直接选择排序:(以重复选择的思想为基础进行排序) 1、简述 顾名思义就是选出一个数,再去抉择放哪里去。 设记录R1,R2…,Rn,对i1,2,…,n-1,重复下…

【每日一题】1041. 困于环中的机器人

1041. 困于环中的机器人 - 力扣(LeetCode) 在无限的平面上,机器人最初位于 (0, 0) 处,面朝北方。注意: 北方向 是y轴的正方向。南方向 是y轴的负方向。东方向 是x轴的正方向。西方向 是x轴的负方向。 机器人可以接受下列三条指令之…

C语言实现扫雷小游戏

1.首先扫雷游戏要存储布置好的雷信息,需要一个二维数组 不是雷放* 雷:# 不是雷:0 雷:1 2. 给2个二维数组 9*9 一个存放雷的信息,一个存放布置好雷的信息 3.为了防止在统计坐标周围的…

UDP协议

目录 一、UDP协议端格式 二、UDP的特点 一、UDP协议端格式 16位UDP长度,表示整个数据报(UDP首部UDP数据)的最大长度;如果校验和出错,就会直接丢弃 二、UDP的特点 UDP相对于TCP来说是相对简单的,但是在传输…

Java 日志系列(三):日志使用示例及常见报错

承接前面两篇文章(《Java 日志系列一》和 《Java 日志系列二》),本文将介绍几种主流日志框架的使用示例和常见的报错。为了便于读者理解,文中的报错案例力求信息完整,并给出了测试代码,感兴趣的读者&#x…

【JAVA】String类

作者主页:paper jie_的博客 本文作者:大家好,我是paper jie,感谢你阅读本文,欢迎一建三连哦。 本文录入于《JAVASE语法系列》专栏,本专栏是针对于大学生,编程小白精心打造的。笔者用重金(时间和…

数据结构--6.2关键路径

AOE网: 在一个表示工程的带权有向图中,用顶点表示事件,用有向边上的权值表示活动表示持续时间,这种有向图的边表示活动的网,我们称为AOE网(Activity On Edge Network)。 我们把AOE网中没有入边的…

解决Spring Boot文件上传问题:`MultipartException` 和 `FileUploadException`

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🐅🐾猫头虎建议程序员必备技术栈一览表📖: 🛠️ 全栈技术 Full Stack: &#x1f4da…

实现分别在Linux、Docker、Kubernetes上安装部署Mysql、Redis、Nginx软件

目录 实现目的: Linux上一键安装Mysql、Nginx、Redis软件 一键安装Mysql脚本 一键安装Redis脚本 一键安装Nginx脚本 docker上安装部署Mysql、Nginx、Redis容器 Kubernetes上安装部署Mysql、Nginx、Redis的Pod和通过Service发布 创建Pod生成容器 使用Servic…

uniapp项目实践总结(十三)封装文件操作方法

导语:在日常 APP 开发过程中,经常要进行文件的保存、读取列表以及查看和删除文件等操作,接下来就看一下具体的方法。 目录 原理分析方法实现实战演练案例展示 原理分析 主要是以下 API。 uni.saveFile:保存文件到本地缓存列表…

thinkphp5.0 composer 安装oss提示php版本异常

场景复现: 本地 phpstudy 环境,安装的有7.0到7.3三个版本,首先确认composer已经安装 composer安装阿里云oss的命令为:composer require aliyuncs/oss-sdk-php 运行报错: Problem 1- Root composer.json requires php…

C++数据结构--红黑树

目录 一、红黑树的概念二、红黑树的性质三、红黑树的节点的定义四、红黑树结构五、红黑树的插入操作参考代码 五、代码汇总 一、红黑树的概念 红黑树,是一种二叉搜索树,但在每个结点上增加一个存储位表示结点的颜色,可以是Red或Black。 通过…

mysql 的增删改查以及模糊查询、字符集语句的使用

一、mysql启动与登陆(windows下的mysql操作) 1.启动mysql服务 net start mysql81 2.登陆mysql mysql -uroot -p 3.查看所有数据库 show databases; 二、模糊查询(like) 1. _代表查询单个 2.%代表查询多个 3.查找所有含有schema的数据库;…

文心一言、讯飞星火与GPT-4/3.5在回答中文历史问题的表现

最近,随着备受关注的文心一言正式免费向全社会开放,再次引起了社会层面对国产大模型的兴趣。 以文心一言为代表的国产大模型性能究竟如何?如果将它们相互比较,并且和GPT系列模型等国际前沿水平的LLM进行比较,会得到什么…

自动化测试入门知识 —— 数据驱动测试

一、什么是数据驱动测试? 数据驱动测试是一种测试方法,它的核心思想是通过不同的测试数据来验证同一个测试逻辑。通常情况下,测试用例中的输入数据和预期结果会被提取出来,以便可以通过不同的测试数据进行重复执行。 数据驱动测…

算法通过村第六关-树白银笔记|层次遍历

文章目录 前言1. 层次遍历介绍2. 基本的层次遍历与变换2.1 二叉树的层次遍历2.2 层次遍历-自底向上2.3 二叉树的锯齿形层次遍历2.4 N叉树的层次遍历 3. 几个处理每层元素的题目3.1 在每棵树行中找出最大值3.2 在每棵树行中找出平均值3.3 二叉树的右视图3.4 最底层最左边 总结 前…

【已解决】uniapp使用vant-ui中的tab标签页的时候,发现底下红色的切换线不见了

问题截图 解决办法 按F12查看vant-ui源码你会发现他的Tab标签页里面有个width,但是我们引入到uniapp之后发现width没有了(不知道什么情况,可能是兼容问题吧) 所以我们解决的办法,只需要在App.vue中给全局.van-tabs__l…

人体呼吸存在传感器成品,毫米波雷达探测感知技术,引领智能家居新潮流

随着科技的不断进步和人们生活质量的提高,智能化家居逐渐成为一种时尚和生活方式。 人体存在传感器作为智能家居中的重要组成部分,能够实时监测环境中人体是否存在,为智能家居系统提供更加精准的控制和联动。 在这个充满创新的时代&#xf…