【机器学习】集成学习------迅速了解什么是集成学习!!!

目录

🍔 为什么学习集成学习

🍔 什么是集成学习

🍔 集成学习分类的串行和并行学习算法

3.1 集成学习关键要素

3.2 集成学习器性能评估

🍔 小结


学习目标

🍀 知道什么是集成学习

🍀 知道集成学习的分类

🍔 为什么学习集成学习

集成学习作为机器学习领域的一项重要技术,其重要性不言而喻。它通过将多个学习器(弱学习器)的预测结果进行有效整合,以显著提升整体模型的泛化能力和预测精度。在复杂多变的现实数据环境中,单一学习器往往难以全面捕捉数据特征,导致过拟合或欠拟合问题。

集成学习通过引入多样性机制,如Bagging、Boosting等策略,有效缓解了这些问题,使得模型更加鲁棒和可靠。因此,掌握集成学习不仅是提升机器学习项目性能的关键,也是深入理解机器学习原理、探索数据科学前沿的重要途径。

集成学习是机器学习中的一种思想,它通过多个模型的组合形成一个精度更高的模型,参与组合的模型成为弱学习器(基学习器)。训练时,使用训练集依次训练出这些弱学习器,对未知的样本进行预测时,使用这些弱学习器联合进行预测。

🍔 什么是集成学习

传统机器学习算法 (例如:决策树,逻辑回归等) 的目标都是寻找一个最优分类器尽可能的将训练数据分开。集成学习 (Ensemble Learning) 算法的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话:三个臭皮匠,赛过诸葛亮

集成学习通过建立几个模型来解决单一预测问题。它的工作原理是 生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。

集成算法大致可以分为:Bagging,Boosting和Stacking等类型。

🍔 集成学习分类的串行和并行学习算法

集成学习算法一般分为:bagging、boosting和Stacking。

随机森林是集成模型中的一种,常言道:“一个篱笆三个桩,一个好汉三个帮”。

集成分类模型便是综合考量多个分类器的预测结果,从而做出决策,集成学习分两种:

(1)利用相同的训练数据同时搭建多个独立的分类模型,然后通过投票的方式,以少数服从多数的原则做出最终的分类决策。今天学习的随机森林就是这种方式,即在相同训练数据上同时搭建多颗决策树。在决策树中学到过一颗标准的决策树是根据每维特征对预测结果的影响程度进行排序,进而决定不同特征从上到下构建分裂节点的顺序;如果这里还按照这种方式随机森林会因为这一策略影响而构建的所有树都一致,从而丧失了多样性。因此随机森林在构建的过程中,每一颗决策树都会放弃这一个固定的算法,转而随机选取特征。

(2)按一定的次序搭建多个分类模型。这些模型之间彼此存在依赖关系。一般后一个模型的加入都需要对现有的集成模型有一定贡献,进而不断提高更新过后的集成模型性能,并借助多个弱分类器搭建出强分类器。代表有Bossting(AdaBoost)算法。该算法与第一种的随机森林主要区别在于每一颗决策树在生成的过程中都会尽可能降低模型在训练集上的拟合或训练误差。

3.1 集成学习关键要素

俗话说:“三个臭皮匠赛过诸葛亮”。

当使用某一种分类器不能使我们达到很好的效果的时候,我们不妨设想将这些分类效果不好的分类器组合一下,再去看看效果是否有提升,这就是集成学习的思想。

集成算法(Ensemble Learning)思想:通过构建并结合多个学习器来完成学习任务,有时候我们也叫作“多分类器系统”。

我们有10个分类器,多数表决如下图,其中三角形、正方形或圆分别代表一个类别。

个体的分类器由一个现有的学习算法从训练数据产生。

例如:C4.5决策树算法,我们一般把个体分类器全部为同种的分类器称为“同质的”,如全部为决策树模型。同质的集成学习中的个体学习器称为“基学习器(base learner)”,相应的算法称为基学习算法。

反之,集成中包含不同种的学习器,我们称之为“异质”的,异质集成中的个体学习器包含不同的学习算法组成的,这种情况下的学习器称为“组合学习器”。相信这些名词大家能够了解。

🐻 集成学习的系统示意图:

集成学习通过将多个学习器组合,常获得比单一学习器显著优越的泛化性能。这对弱学习器特别明显,这里的弱学习器我们一般会使用决策树,BP神经网络和逻辑回归,有时候SVM也可以作为个体学习器。

下图是使用多数投票法通用集成方法的概念:

3.2 集成学习器性能评估

一般经验中如果把好坏不等的东西掺到一起,通常结果会比最坏的好一些,比最好的坏一些。集成学习把多个学习器结合起来,如何获得比最好的单一学习器更好的性能呢?

考虑一个例子:二分类问题中,假定三个分类器在三个测试样本上表现,如下图所示。打对勾的表示正确分类,打叉号的表示分类错误。集成学习的结果通过投票法voting产生。即少数服从多数。第一个图中每个分类器有66.6%的精度,但集成学习却达到了100%。第二个图中三个分类器没有差别,但是集成之后性能却没有什么提高。第三幅图中每个分类器的精度都只有33.3%,集成学习的结果更糟糕。

这个例子我们可以总结出:要获得好的集成,个体学习器应有一定的 准确性 ,即学习器不能太坏,并且要有“多样性”,即学习器之间具有 差异

🍔 小结

🍬 基习器使用不同的学习方法还是相同的?

  1. 基础学习器可以使用不同的学习模型,比如:支持向量机、神经网络、决策树整合到一起作为一个集成学习系统

  2. 也可以使用相同的学习模型,比如,多个基学习器都使用决策树

  3. 一般情况下,我们倾向于使用相同的学习模型

🍬 这些基学习器应该注意哪些?

  1. 基础学习器之间要存在差异性。

  2. 基础学习器的能力不需要很强,只需要比随机猜测 0.5 高一点就行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/414744.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pandas操作Excel文件

pandas操作Excel文件 一、前言二、指定读取的工作表与header设置2.1指定工作表2.2header设置 三、读取Excel数据3.1iloc读取数据3.2read_excel读取数据3.3loc读取数据 四、DataFrame数据筛选4.1根据列标签对整列进行筛选4.2使用iloc对区域进行筛选4.3自定义筛选 五、DataFrame类…

对称密码学

1. 使用OpenSSL 命令行 在 Ubuntu Linux Distribution (发行版)中, OpenSSL 通常可用。当然,如果不可用的话,也可以使用下以下命令安装 OpenSSL: $ sudo apt-get install openssl 安装完后可以使用以下命令检查 OpenSSL 版本&am…

SQLi-LABS靶场56-60通过攻略

less-56 1.判断注入点 ?id1 页面不正常 2.判断闭合方式 ?id1) -- 可以闭合成功 3.查看页面回显点 ?id-1)%20 union select 1,2,3-- 4.查询数据库名 ?id-1)%20 union select 1,database(),3-- 5.查询所有表 ?id-1)%20 union select 1,(select table_name from inform…

Spring security的SecurityConfig配置时 userDetailsService报错如何解决?

文章目录 报错信息原因解决方案1. 实现 UserDetailsService 接口修改 IUsersService 接口和实现类 2. 修改 SecurityConfig3. 其他注意事项 报错信息 ‘userDetailsService(T)’ in ‘org.springframework.security.config.annotation.authentication.builders.AuthenticationM…

复习:虚析构函数(√)、纯虚析构函数(√)、虚构造函数(X)

虚析构函数 虚析构函数是为了解决基类的指针指向派生类对象&#xff0c;并用基类的指针删除派生类对 象。 #include <bits/stdc.h> #include <cstdio> #include <cstring> #include <iostream> using namespace std;class Base { public:Base(){cout…

银河麒麟v10-sp3 安装Tomcat10最新版

tomcat官方地址---Apache Tomcat - Apache Tomcat 10 Software Downloads 下载这个即可 Core&#xff1a; 含义&#xff1a;Core代表Tomcat的核心程序&#xff0c;即Tomcat的正式二进制发布版本。这是大多数用户做开发或学习时应该下载的版本。用途&#xff1a;包含了Tomcat服…

mysql的半同步模式

1.半同步模式原理 mysql的主备库通过binlog日志保持一致&#xff0c;主库本地执行完事务&#xff0c;binlog日志落盘后即返回给用户&#xff1b;备库通过拉取主库binlog日志来同步主库的操作。默认情况下&#xff0c;主库与备库并没有严格的同步&#xff0c;因此存在一定的概率…

Python 生成随机的国内 ip

示例代码&#xff1a; import randomdef generate_random_cn_ip():# 中国大陆IP范围start_ip "36.54.0.0"end_ip "123.255.255.254"# 将IP地址转换为整数start_ip_num int(start_ip.replace(".", ""))end_ip_num int(end_ip.rep…

Python日志重复?这里有终极解决方案!

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 文章内容 📒📝 日志重复的常见原因📝 解决重复日志的策略📝 具体示例📝 日志重复问题的其他解决办法⚓️ 相关链接 ⚓️📖 介绍 📖 你是否曾经在调试Python程序时,发现同样的日志信息出现了两次甚至更多?这不仅…

前端框架vue3中的条件渲染(v-show,v-if,v-else-if,v-else)

目录 v-show: 需求&#xff1a; v-if 区别与v-show&#xff1a; v-if和v-show的选择&#xff1a; v-else-if和v-else 联合使用&#xff1a; v-show: 部分代码如图&#xff1a; <body><div id"root"><div ><h1>n的值为{{n}}</h1>…

新学期第一课

文章目录 一、加入课程QQ群&#xff08;一&#xff09;班级QQ群&#xff08;二&#xff09;入群要求 二、加入学习通班级群&#xff08;一&#xff09;学习通班级群&#xff08;二&#xff09;手势签到 三、使用思维导图工具&#xff08;一&#xff09;安装XMind&#xff08;二…

【QT | 开发环境搭建】Linux系统(Ubuntu 18.04) 安装 QT 5.12.12 开发环境

&#x1f601;博客主页&#x1f601;&#xff1a;&#x1f680;https://blog.csdn.net/wkd_007&#x1f680; &#x1f911;博客内容&#x1f911;&#xff1a;&#x1f36d;嵌入式开发、Linux、C语言、C、数据结构、音视频&#x1f36d; ⏰发布时间⏰&#xff1a; 2024-08-29 …

Kotaemon:开源的RAG UI

检索增强生成 (RAG) 已成为一种改变游戏规则的方法&#xff0c;可增强大型语言模型的功能。Kotaemon 是由 Cinnamon 开发的开源项目&#xff0c;它站在这项创新的最前沿&#xff0c;提供了一个简洁、可定制且功能丰富的基于 RAG 的用户界面&#xff0c;用于与文档聊天。 Kotae…

史记——我与历史的缘妙

究天人之际&#xff0c;通古今之变&#xff0c;成一家之言。 注解&#xff1a;这句话出自司马迁《史记》之《报任安书》。意思是通过“史实”现象揭示本质,探究自然现象和人类社会之间的相依相对关系。通晓从古到今的社会的各种发展演变,进而寻找历代王朝兴衰成败之道理。通过…

Mysql剖析(三)----MySql的事务详解

事务&#xff08;Transaction&#xff09;&#xff1a;一般是指要做的或所做的事情。在计算机术语中是指访问并可能更新数据库中的各种数据项的一个程序执行单元&#xff08;unit&#xff09;。事务通常由高级数据库操纵语言或编程语言(如SQL、C或Java)书写的用户程序的执行所引…

设施农业气象站

设施农业气象站的主要作用是为农业生产提供准确的气象数据和预测信息&#xff0c;以帮助农民科学决策和管理农业生产活动。具体作用包括&#xff1a; 提供准确的气象数据&#xff1a;设施农业气象站可以收集并记录气温、湿度、风速、降水量等多种气象信息&#xff0c;并确保数据…

探索存储世界:TF卡与SD卡的奥秘

在这个数字化时代&#xff0c;数据存储变得至关重要。TF卡&#xff08;TransFlash卡&#xff09;和SD卡&#xff08;Secure Digital卡&#xff09;作为两种常见的存储介质&#xff0c;它们在我们的日常生活中扮演着重要角色。MK米客方德将带您深入了解TF卡的基本概念&#xff0…

Python全网最全基础课程笔记-(一)基础入门

本专栏系列为Pythong基础系列&#xff0c;每天都会更新新的内容&#xff0c;搜罗全网资源以及自己在学习和工作过程中的一些总结&#xff0c;可以说是非常详细和全面。 以至于为什么要写的这么详细&#xff1a;自己也是学过Python的&#xff0c;很多新手只是简单的过一篇语法&a…

如何从 AWS CodeCommit 迁移到极狐GitLab?

极狐GitLab 是 GitLab 在中国的发行版&#xff0c;可以私有化部署&#xff0c;对中文的支持非常友好&#xff0c;是专为中国程序员和企业推出的企业级一体化 DevOps 平台&#xff0c;一键就能安装成功。安装详情可以查看官网指南。 本文将分享如何从 AWS CodeCommit 服务无缝迁…

Gartner首次发布AI代码助手魔力象限,阿里云进入挑战者象限,通义灵码产品能力全面领先

8月29日消息&#xff0c;国际市场研究机构Gartner发布业界首个AI代码助手魔力象限&#xff0c;全球共12家企业入围&#xff0c;阿里云成为唯一进入挑战者象限的中国科技公司。通义灵码在产品功能和市场应用等方面表现优秀&#xff0c;获得权威机构认可。 该报告从技术创新性、产…