【随机森林】random forests 简单介绍

  • Random Forest,顾名思义 Random 就是随机抽取; Forest 就是说这里不止一棵树,而由 一群决策树组成的一片森林 ,连起来就是用随机抽取的方法训练出一群决策树来完成分类任务。
  • RF用了两次随机抽取, 一次是对训练样本的随机抽取; 另一次是对变量 (特征) 的随机抽取。这主要是为了解决样本数量有限的问题
  • RF的核心是由弱变强思想的运用。每棵决策树由于只用了部分变量、部分样本训练而成, 可能单个的分类准确率并不是很高。 但是当一群这样的决策树组合起来分别对输入数据作出判断时, 可以带来较高的准确率。有点类似于俗语三个㚖皮匠顶个诸葛亮。
  • 随机森林有两个重要参数:树节点预选的变量个数;随机森林中树的个数

随机森林思想来源

PAC  → Bootstrap  → Bagging  → Random Forest  ← CART  \text { PAC } \rightarrow \text { Bootstrap } \rightarrow \text { Bagging } \rightarrow \text { Random Forest } \leftarrow \text { CART }  PAC  Bootstrap  Bagging  Random Forest  CART 

PAC(Probably Approximately Correct)

  • 在该模型中, 若存在一个多项式级的学习算法来识别一组概念, 并且识别正确率很高, 那么这组概念是强学习算法; 而如果学习算法识别一组概念的正确率仅比随机猜测略好, 那么这组概念是弱学习算法。
  • 如果可以将弱学习算法提升成强学习算法, 那么我们就只要找到一个弱学习算法, 然后把它提升成强学习算法, 而不必去找通常情况下很难获得的强学习算法。

Bootstrap

  • 根据PAC由弱得到强的思想, 统计学著名学者Bradley Efron在 1979年提出了Bootstraps算法, 这个名字来自于成语 “pull up by your own bootstraps”, 意思是依靠自己的资源, 称为自助法。
  • 它的思想就是当样本数量不大, 分布情况未知时, 可以从原始样本中随机抽取的多个样本情况 (弱学习) 来估计原样本真实的分布情况。它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。
  • 其基本步骤如下:
    – (1) 从原始数据集中, 有放回地抽样一定数量的样本
    – (2)根据抽出的样本计算给定的统计量 T \mathrm{T} T
    – (3)重复上述N次 (一般大于1000), 得到 N N N 个统计量 T \mathrm{T} T
    – (4)计算上述 N \mathrm{N} N 个统计量 T \mathrm{T} T 的样本方差, 得到统计量的方差
  • 0.632自助法
    假设给定的数据集包含 d \mathrm{d} d 个样本。该数据集有放回地抽样 d \mathrm{d} d 次, 产生 d \mathrm{d} d 个样本的训练集。原数据中的某些样本很可能在该样本集中出现多次。显然每个样本被选中的概率是 1 / d 1 / \mathrm{d} 1/d,因此未被选中的概率就是 ( 1 − 1 / d ) (1-1/d) (11/d),这样一个样本在训练集中没出现的概率就是 d \mathrm{d} d 次都未被选中的概率, 即 ( 1 − 1 / d ) d (1-1/d) ^d (11/d)d。当 d d d 趋于无穷大时, 这一概率就将趋近于 e − 1 = 0.368 e^{-1}=0.368 e1=0.368,所以留在训练集中的样本大概就占原来数据集的 63.2 % 63.2 \% 63.2%

Bagging

  • Bagging 又叫bootstrap aggregation, 是Breiman在1993 年提出的方法, 第一步就是根据Bootstrap进行抽样。
  • 基本的步骤:
    – (1)从样本集中用Bootstrap采样选出 n \mathrm{n} n 个样本
    – (2)在所有属性上, 对这 n \mathrm{n} n 个样本建立分类器 (CART or SVM or …)
    – (3)重复以上两步m次, i.e. 建立 m m m 个分类器 (CART or SVM or … )
    – (4)将数据放在这m个分类器上跑, 最后vote看到底分到哪一类
  • 这种方法可以大大降低每个分类器的不稳定性, 从而带来较高的预测准确率。从这个方法再往下发展就是随机森林了

随机森林

  • 随机森林是以决策树为基本分类器的一个集成学习模型, 它包含多个由Bagging集成学习技术训练得到的决策树。
  • Random Forests不同的是: 在Bagging的基础上, 使用一种改进的树学习算法, 在每个候选分裂的学习过程中, 选择特征值的一个随机子集。有时被称为 “feature bagging”。
    在这里插入图片描述
  • 该算法用随机的方式建立起一棵棵决策树, 然后由这些决策树组成一个森林, 其中每棵决策树之间没有关联, 当有一个新的样本输入时, 就让每棵树独立的做出判断, 按照多数原则决定该样本的分类结果。

构建随机森林

(1) 从样本集中用bagging采样选出 n \mathrm{n} n 个样本, 预建立CART
(2) 在树的每个节点上, 从所有属性中随机选择 k \mathrm{k} k 个属性, 选择出一个最佳分割属性作为节点(RI 和 RC )
(3) 重复以上两步m次, i.e. 构建m棵CART (不剪枝)
(4) 这 m \mathrm{m} m 个CART形成Random Forest

利用随机森林预测

(1) 向建立好的随机森林中输入一个新样本
(2) 随机森林中的每棵决策树都独立的做出判断
(3) 将得到票数最多的分类结果作为该样本最终的类别

影响性能的因素

  • 森林中单棵树的分类强度(Strength):每棵树的分类强度越大, 则随机森林的分类性能越好
  • 森林中树之间的相关度(Correlation):树之间的相关度越大,则随机森林的分类性能越差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7898.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

随机森林!

定义:在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树节点分裂时引入随机属性扰动。 随机性体现(与传统决策树的差异):对基决策树的每个节点,先从该节点的属性集合中随机选择包含K(log2(d))个属性的子集,然后再从这个子集中选择…

随机森林 (Random Forests) 简单介绍与应用

1 集成方法(Ensemble methods) 1.1 什么是集成方法 简单来说,集成方法 就是组合多个模型,以获得更好效果。 1.2 两种集成方法 平均法(averaging methods):也有人直接称之为“袋装法”,所有算法进行 相互独立 训练得到各自的模…

随机森林--

----------------------集成学习---------------------- 集成学习可以被分为三个主要研究领域: -----------------------------------------------------模型融合----------------------------------------------------- 模型融合在最初的时候被称为“分类器结合…

R随机森林实现

原文链接:来自公众号生信数据挖掘 目录 R实现随机森林随机森林R包估值过程袋外错误率(oob error)R randomForest函数实现安装程序包,查看样本数据结构建模与观察 R实现随机森林 该文只简单的讲解关于的R的随机森林具体实现步骤&a…

随机森林 – Random forest

随机森林 – Random forest 随机森林是一种由决策树构成的集成算法,他在很多情况下都能有不错的表现。 本文将介绍随机森林的基本概念、4 个构造步骤、4 种方式的对比评测、10 个优缺点和 4 个应用方向。 什么是随机森林? 随机森林属于 集成学习 中的 …

随机森林原理详解 random forest 代码+参数讲解

事实上随机森林的基本单元决策树很早就被提出来了,只不过单个决策树效果不好。这个情况和神经网络差不多。 到了2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据&#xff0…

随机森林及应用

学习了B站视频《随机森林及应用》,记录一下学习笔记啦,原视频链接:Python机器学习算法实践Ⅲ-随机森林及应用。 一、随机森林属于集成学习,所以首先了解集成学习。在集成学习中,主要分为Bagging算法和Boosting算法。 B…

随机森林(Random Forests)介绍

1.决策树(Decision Tree) 决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。常见的决策树算法有C4.5、ID3和CART。ID3算法用的是信息增益,C…

使用随机森林进行特征选择

绘制随机森林每棵树的决策边界 首先导入必要的库函数: from sklearn.ensemble import RandomForestClassifier from sklearn.datasets import make_moons from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt import numpy as…

python实现随机森林

定义: 随机森林指的是利用多棵决策树对样本进行训练并预测的一种分类器。可回归可分类。 所以随机森林是基于多颗决策树的一种集成学习算法,常见的决策树算法主要有以下几种: 1. ID3:使用信息增益g(D,A)进行特征选择 2. C4.5&…

教你体验目前最火AI - 在craft AI assistant 使用chatGPT

atGPT大火之后,很多人都想体验一把,今天为大家推荐一种免费方式,体验chatGPT同款内核的AI助手。 craft AI assistant Craft 推出的 AI 助手产品 Craft AI Assistant,并且现在就可以使用。根据 Craft 官方介绍,Craft …

【ChatGPT+AI】持续更新

ChatGPT的缘分 ChatGPT的缘分 一、小白必知1.1ChatGPT是什么?1.2ChatGPT怎么用?1.3ChatGPT登录注意事项 二、ChatGPT实战2.1什么Prompt?2.2ChatGPT怎么发图片2.3ChatGPT快速制作PPT 三、其他AI与免费镜像网站四、星球介绍 ChatGPT的缘分 大家…

DetectGPT VS ChatGPT:AI反击战?

1.背景 随着 ChatGPT 的持续火爆,现在无论哪个行业,几乎是人尽皆知。同时,利用 ChatGPT 进行造假作弊的情况也是层出不穷,尤其是在教育和传媒行业。在美国的一项千人调查中,有89%的学生表示在家庭作业中使用了 ChatGP…

多国拟发ChatGPT禁令 关“野兽”的笼子要来了?

“人工智能想越狱“、”AI产生自我意识”、“AI终将杀死人类”、“硅基生命的进化”.......曾经只在在赛博朋克等科技幻想中出现的剧情,在今年走向现实,生成式自然语言模型正在遭受前所未有的质疑。 聚光灯下最瞩目的那个是ChatGPT,3月底到4…

ChatGPT从入门到精通,深入认识Prompt

ChatGPT从入门到精通,一站式掌握办公自动化/爬虫/数据分析和可视化图表制作 全面AI时代就在转角 道路已经铺好了 “局外人”or“先行者” 就在此刻 等你决定 让ChatGPT帮你高效实现职场办公!行动起来吧。欢迎关注专栏 。。。。。 还有更多。。。。&…

【Prompting】ChatGPT Prompt Engineering开发指南(1)

ChatGPT Prompt Engineering开发指南1 Prompting指南设置 提示原则策略1:使用分隔符清楚地指示输入的不同部分策略2:要求结构化输出策略3:让模型检查条件是否满足策略4: “Few-shot”提示 原则2:给模型时间“思考”策略1&#xff…

【ChatGPT】Prompt Engineering入门

Prompt Engineering入门 一、什么是 Prompt Engineering?二、我们还需要学习 PE 吗?三、Prompt基础原则 一、什么是 Prompt Engineering? 简单的理解它是给 AI 模型的指令。它可以是一个问题、一段文字描述,甚至可以是带有一堆参数…

大型语言模型LLM的基础应用

ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚…

【ChatGPT】怎样计算文本token数量?

ChatGPT 按 token 计费,当你把一段长文本发送给它时,你如何计算该文本消耗了多少 token? 在非流式访问的情况下,ChatGPT 的回复信息中包含有 token 消耗数量。但是在流式访问的情况下,回复信息里没有 token 数量&…

微软用 ChatGPT 改写 Bing、Edge,市值一夜飙涨 5450 亿元!

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 已经没有什么能够阻挡科技巨头追逐 ChatGPT 的步伐,前有 Google CEO 桑达尔皮查伊亲自下场官宣 Bard AI 对话式系统的到来,后有微软更快一步地推出了应用 ChatGPT 的 Bing 搜索引…