集成学习(Ensembling Learning)

0. 来源

概念比较全,可以作为目录,前置知识讲得好,其他一般。

01.内容简介_哔哩哔哩_bilibili01.内容简介是集成学习:XGBoost, lightGBM的第1集视频,该合集共计19集,视频收藏或关注UP主,及时了解更多相关视频内容。icon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1Ca4y1t7DS?p=1有数学原理与例子,有自己的理解和模型特点总结,可惜更新的少:

【决策树、随机森林】附源码!!超级简单,同济大佬手把手带你学决策树,快速搞定你的难题!—决策树算法|随机森林|决策树模型|机器学习算法|人工智能_哔哩哔哩_bilibili【决策树、随机森林】附源码!!超级简单,同济大佬手把手带你学决策树,快速搞定你的难题!—决策树算法|随机森林|决策树模型|机器学习算法|人工智能共计23条视频,包括:第一章:决策树原理 1-决策树算法概述、2-熵的作用、3-信息增益原理等,UP主更多精彩视频,请关注UP账号。icon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1xS4y1w7GJ?GBDT算法——理论与sklearn代码实现 - 知乎 (zhihu.com)

GradientBoostingClassifier — scikit-learn 1.5.1 documentation

1. 预备知识

1.1 信息熵

可以看出,事件发生的概率越为平均时,集合越不纯时,不确定性越大,最高为1。

条件熵:条件概率。

具体计算过程可以看视频,用图示来表示的话,类似于:

用信息熵构建可以得到分类决策树。

1.2 Gini指数

Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本为个类时,基尼指数为0。

1.3 回归树

1.4 预剪枝和后剪枝

决策树的预剪枝与后剪枝-CSDN博客

预剪枝使得很多分支没有展开,这不仅降低了过拟合的风险,还显著减少了决策树的训练时间开销和测试时间。但是,有些分支虽当前不能提升泛化性。甚至可能导致泛化性暂时降低,但在其基础上进行后续划分却有可能导致显著提高,因此预剪枝的这种贪心本质,给决策树带来了欠拟合的风险。

后剪枝通常比预剪枝保留更多的分支,其欠拟合风险很小,因此后剪枝的泛化性能往往由于预剪枝决策树。但后剪枝过程是从底往上裁剪,因此其训练时间开销比前剪枝要大。

2. bagging:随机森林

 

bootstrap aggregating(自举汇聚法) 

随机森林

优势:1.消除了决策树容易过拟合的缺点2.减小了预测的方差,预测值不会因训练数据的小变化而剧烈变化

3. Boosting方法

boosting:adaboost、GBDT、XGBoost、LightGBM

3.1 Adaboost

Adaboost可以看作是加法模型(串行调整弱分类器的权重)、损失函数为指数损失函数、学习算法为前向分布算法时的二分类学习方法。

3.2 GBDT

不同问题的提升树在于损失函数的不同,分类用指数损失函数,回归用平方误差损失。

GBDT算法——理论与sklearn代码实现 - 知乎 (zhihu.com)

用泰勒公式来理解梯度下降的原因是为了下一篇文章讨论XGBoost做准备,因为在GBDT中只对损失函数进行了一阶泰勒展开,只用到了一阶导数信息,而XGBoost对损失函数进行二阶泰勒展开,同时用到了一阶导数信息和二阶导数信息。

3.3 XGBoost

从这里开始变得复杂了起来……

深入理解XGBoost,优缺点分析,原理推导及工程实现-CSDN博客icon-default.png?t=O83Ahttps://blog.csdn.net/Datawhale/article/details/103725122

3.4 lightGBM

LightGBM算法详解(教你一文掌握LightGBM所有知识点)-CSDN博客icon-default.png?t=O83Ahttps://blog.csdn.net/GFDGFHSDS/article/details/104779767

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/421908.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

乔迁新址,盛启新章!聚铭网络河北办事处盛大开业

2024年9月10日,金秋九月,阳光灿烂。在这样一个美好的日子里,聚铭网络河北办事处正式迎来了乔迁之喜并盛大开业。随着公司业务规模的快速扩张,原有的办公空间已经不足以支撑未来的增长,新址的启用不仅代表了我们迈出的一…

招生管理|基于Java+vue的招生管理系统(源码+数据库+文档)

招生管理|学生管理系统|高校招生管理 目录 基于Javavue的招生管理系统 一、前言 二、系统设计 三、系统功能设计 系统功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️大厂码农|…

OpenCV结构分析与形状描述符(21)计算包围给定点集的最小面积三角形函数minEnclosingTriangle()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 找到一个包围二维点集的最小面积三角形,并返回其面积。 该函数找到一个包围给定的二维点集的最小面积三角形,并返回其面…

【笔记】自动驾驶预测与决策规划_Part1_自动驾驶决策规划简介

自动驾驶决策规划简介 0、前言1、自动驾驶概述1.1 预测(Prediction)1.2 决策(Decision Making)1.3 规划(Planning) 2、自动驾驶历史和背景3、自动驾驶级别和分类4、预测决策规划的重要性4.1 预测的重要性4.…

从OracleCloudWorld和财报看Oracle的转变

2024年9月9-12日Oracle Cloud World在美国拉斯维加斯盛大开幕 押注AI和云 Oracle 创始人Larry Ellison做了对Oracle战略和未来愿景的主旨演讲,在演讲中Larry将AI技术和云战略推到了前所未有的高度,从新的Oracle 23c改名到Oracle23ai,到Oracl…

性能测试-jmeter脚本录制(十五)

一、jmeter脚本录制(不推荐)简介: 二、jmeter脚本录制步骤 1、添加代理服务器和线程组 2、配置http代理服务器的端口和目标线程组 3修改本机浏览器代理 4、点击启动 5、每次操作页面前,修改提示文字

如何删除电脑系统桌面文件右键菜单多余选项

你可能会遇到以下情况,电脑鼠标右键有较多无用的菜单选项,或者安装某个程序卸载后,右键菜单仍有相关的选项。下面小编就来和大家分享电脑桌面右键菜多余选项删除方法,适用于win7、win10、win11等windows系统。 举例说明&#xff…

NVIDIA AI Workbench 让 Windows 上的 GPU 使用更加简便

NVIDIA AI Workbench 是一款免费的、用户友好型开发环境管理器,可在您选择的系统(PC、工作站、数据中心或云)上简化数据科学、ML 和 AI 项目。在 Windows、macOS 和 Ubuntu 上,您可以本地开发、测试项目和构建项目原型&#xff0c…

vue2实践:el-table实现由用户自己添加删除行数的动态表格

需求 项目中需要提供一个动态表单,如图: 当我点击添加时,便添加一行;点击右边的删除时,便删除这一行。 至少要有一行数据,但是没有上限。 思路 这种每一行的数据固定,但是不定行数的&#x…

信刻光盘安全隔离与信息交换系统

随着各种数据传输、储存技术、信息技术的快速发展,保护信息安全是重中之重。军工、政府、部队及企事业单位等利用A网与B网开展相关工作已成为不可逆转的趋势。针对于业务需要与保密规范相关要求,涉及重要秘密信息,需做到安全的物理隔离&#…

PHP实时统计结果秒出高效能在线投票工具系统小程序源码

实时统计,结果秒出 —— 体验高效能在线投票工具系统 🚀 投票新纪元,效率为王! 在这个快节奏的时代,每一秒都至关重要。你是否厌倦了传统投票方式中漫长的等待和繁琐的统计过程?那么,就让我带你…

数字乡村网络文化服务平台建设方案

1. 平台建设背景与目标 数字乡村网络文化服务平台的建设旨在通过数字化手段整合乡村内外资源,打造全面覆盖、精准服务的乡村服务体系,以改善民生和促进社会稳定。平台包括居民管理、互动交流、服务管理等五大应用,实现乡村服务的多元化、精确…

Mac在Python项目中通过opencv模版匹配定位不到图片

起因 原本一行代码的事情,但是在Mac上总能出现意外,如下 box pyautogui.locateOnScreen(obsidian.png) print(box) pyautogui.moveTo(box[0],box[1])上面的代码用来定位图片在屏幕中的位置,然后移动鼠标到定位到的屏幕位置坐标。 意外…

实战OpenCV之像素操作

基础入门 在OpenCV中,像素是最基本的操作单位。图像可以视为一个三维数组,其中第三维表示颜色通道。图像数据在内存中以连续或几乎连续的方式存储,对于多通道图像(比如:BGR图像),每个像素的各通…

EmguCV学习笔记 VB.Net 11.5 目标检测

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。 EmguCV是一个基于OpenCV的开源免费的跨平台计算机视觉库,它向C#和VB.NET开发者提供了OpenCV库的大部分功能。 教程VB.net版本请访问…

初识时序数据库InfluxDB

最近项目开发中,需要记录时间序列的日志信息,InfluxDB 刚好契合。于是准备研究一下,发现已经有整理很好的文档,以下两篇觉得很好,入门开发可以参考一下。 因为项目是用C#开发的,因此,简单介绍一下C#开发中,InfluxDB的API使用。 1.简介 InfluxDB是一个由InfluxData开发…

《食品安全导刊》是什么级别的期刊?是正规期刊吗?能评职称吗?

问题解答 问:《食品安全导刊》是不是核心期刊? 答:不是,是知网收录的正规学术期刊。 问:《食品安全导刊》级别? 答:国家级。主管单位: 中国商业联合会 主办单…

ONLYOFFICE8.0部署集成(vue+java)并配置存储为minio

文章目录 前言一、使用docker安装onlyoffice8安装使用DockerDesktop方式命令行方式使用 HTTPS 运行展示 二、项目集成前端集成-vue3html方式后端集成-java 三、onlyoffice基础原理四、配置存储为minio1.onlyoffice配置文件挂载问题2.配置存储为minio3.验证切换minio存储是否生效…

生成式AI介绍

生成式AI介绍 生成式AI(Generative AI)是人工智能领域的一种技术,能够通过学习现有数据来生成新的内容。不同于传统的人工智能模型只进行分类、回归等分析任务,生成式AI具备创作能力,能够生成文本、图像、音频甚至视频…