机器学习-树结构2-随机森林

上一篇的链接:

机器学习 - 树结构1 - 随机森林-CSDN博客

随机森林的改进方向1:

    现有的随机森林中不同决策树中特征的选取是随机的,即先用哪个特征对样本进行分类,再用哪个特征对样本进行分类,特征的选取是随机的,因而,产生了对应的思考,对于两个类别的样本,如果先根据最难区分的两个样本(这两个样本分别属于两个类别),找到最大程度区分这两个样本的特征,将这个特征作为决策树的第一个区分特征,然后根据样本的难区分度依次选择特征作为决策树上的区分特征,是否可以增强决策树的决策能力,进而增强随机森林对不同类别的识别能力。

    对应到随机森林,即多个决策树上,是否可以先通过对最难区分的样本区分性好的决策树进行决策,再依次通过对较难区分的样本、较容易区分的样本,即区分难度逐渐降低的样本的区分性较好的决策树进行决策,同时根据决策性赋予不同决策树不同的决策权重,决策性越大的决策树赋予越大的决策权重,进而增强随机森林对不同类别的识别能力。

    前置知识 - 决策边界 

    决策边界即为能将想要分割的两个类别分割开来的界线。

     简单决策边界

    如下图图1所示:图1中有两个类别,一个类别为圆形,另一个类别为三角形,两个类别的决策边界为图中的蓝色虚线,图1中可以将两个类别分离开的决策边界不止一条,可以有多条。

 图1 

         图2 

      如图2所示,要想把两个类别区分开来,需要两条决策边界才能区分开来,对应到决策树上,需要两种特征才能将两个类别区分开来。

      例如:两种缺陷,缺陷A和缺陷B,缺陷A中有两个样本,缺陷B中也有两个样本,有两个特征:灰度值和颜色值,如下列所示:A中的样本为A1和A2,B中的样本为B1和B2,A1通过灰度值可以与B类别中的两个样本区分开来,但A2区分不开,在A1区分开来的基础上,对于(A2、B1、B2)可以通过颜色值区分开来。

             灰度值         颜色值

A1           90             80

A2           100            20

B1           98             79

B2           102            82

      其中,可见,A1通过灰度值与B1、B2区分开来,其中A1灰度值为90,B1、B2灰度值为98和102,区分不大,但可以区分开来;而A2区分时,是通过颜色值区分的,A2颜色值为20,与B1、B2的颜色值79、82的区分较大;这种区分方案符合先区分不好区分的,再区分较好区分的改进方向的逻辑。此方案的区分率为100%。

      反过来,我们先将颜色值作为区分特征,则A2的颜色值20较小,可以将A1先和类别B中的两个样本B1、B2的79和82区分开来,然后只能通过灰度值来区分A1和B类别中的样本,而A1的灰度值90在B类别中样本B1、B2的灰度值98和102之间,无法区分开来,导致将颜色值走位第一区分特征,将灰度值作为第二区分特征,只能将A类别中的A2和B类别样本区分开来,而A类别中的A1区分不开,即区分率为50%。初步验证了改进方案的正确性。

     复杂决策边界 

      如下图图3所示,分割圆形和三角形两个类别的分割边界较为复杂,不是通过简单的直线就能达到分割效果。

 图3 

            图4 

      如图4所示,左侧中的虚线为较为复杂的决策边界,对应到数学中,获得这条曲线的数学公式需要大量的计算等,而决策树中的一个个分割特征,可以看作是右图中一样,将作图中的分割边界拆分为一个个局部特征,进而避免了大量的计算才能得到最终的分割规则,即利用一个个的局部分割特征代替了连续的分割线,进而实际中更多使用决策树来进行分类,得到决策边界。 

改进模块需实现功能:

1、通过误分率获得难区分类别

    越难区分的类别,即容易互相错分的类别,先通过合适的特征将这些类别区分开来,然后通过其它特征对容易区分的类别进行区分,这样可以避免之决策树之前的分支对后面分支的牵制效果,例如:先通过某个特征将两个容易区分的类别区分开来,后面的决策边界就会收到前面的影响,进而难以得到较好的决策边界将两个较难区分的类别进行较好区分。如前面列举的缺陷A和缺陷B通过灰度值和颜色值进行区分的例子。

    越难区分的类别,通过分类器分类时,误分率越大,因此这里采用误分率作为类别的难区分性,误分率越大,难区分性越大。

2、获得难区分类别的区分性较好的特征

    即需要得到每个容易被误分的类别,当选择哪个特征进行区分时,错分率相对较小,则该特征对于易被误分类别而言的区分性较好。

3、根据每棵决策树的区分特征顺序训练决策树

    由于每棵决策树的样本是从所有样本中随机挑选固定数量的样本,因此不同决策树的样本不同,进而可以根据步骤1、2获得每棵决策树的每个特征的区分能力,进而得到区分特征的顺序。

4、根据不同决策树的决策性赋予不同决策树不同的最终决策权重

   不同决策树针对相同的样本时,决策能力即识别能力不同,有的决策树只能对较容易区分的样本进行较好识别,而有的决策树对较难区分的样本也可以进行较好识别,因此根据决策能力赋予不同决策树不同的最终决策权重。最终决策权重即该决策树的决策结果被采纳的程度。    

代码和效果展示:

1、效果直方图

直方图表示的内容

  1. 横轴(X轴)

    • 表示每棵树的错分率。这是计算每棵决策树在测试集上的预测错误率,反映了模型在分类任务中的性能。
  2. 纵轴(Y轴)

    • 表示错分率的概率。也就是说,纵轴展示了不同错分率出现的相对频率,反映了在所有决策树中,各个错分率的出现情况。

目的

  • 性能评估:通过观察直方图,可以评估模型的稳定性和各棵树的表现。如果大多数树的错分率较低,则表示模型整体性能良好。
  • 由图可见,占比为0.4的决策树的错分率在0~0.05,占比为0.3的决策树的错分率在0.05~0.1,占比为0.3的决策树的错分率在0.1~0.15。
  • 识别问题:如果某些树的错分率明显高于其他树,可以进一步分析这些树的结构,找出潜在的问题或特征重要性。
  • 根据直方图可以对错分率较高的,即错分率在0.1~0.15的决策树进行进一步分析,进而对随机森林进行进一步优化。

2、预测结果和真实标签

    预测结果Final Predictions即为通过修正后的随机森林对验证样本的类别识别结果,真实标签即为每个验证样本的真实类别。

Final Predictions:Actual Labels:
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "setosa"    {'setosa'    }
    "versicolor"    {'versicolor'}
    "versicolor"    {'versicolor'}
    "versicolor"    {'versicolor'}
    "versicolor"    {'versicolor'}
    "versicolor"    {'versicolor'}
    "versicolor"    {'versicolor'}
    "versicolor"    {'versicolor'}
    "virginica"    {'versicolor'}
    "versicolor"    {'versicolor'}
    "versicolor"    {'versicolor'}
    "versicolor"    {'versicolor'}
    "versicolor"    {'versicolor'}
    "virginica"    {'versicolor'}
    "versicolor"    {'versicolor'}
    "versicolor"    {'versicolor'}
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }
    "virginica"    {'virginica' }

3、权重前10的决策树

 

4、实现代码

% 1. 加载鸢尾花数据集
load fisheriris
X = meas; % 特征矩阵
Y = species; % 标签% 2. 划分训练集和测试集
cv = cvpartition(Y, 'HoldOut', 0.3);
X_train = X(training(cv), :);
Y_train = Y(training(cv), :);
X_test = X(test(cv), :);
Y_test = Y(test(cv), :);% 3. 训练随机森林模型
numTrees = 10; % 决策树的数量
rfModel = TreeBagger(numTrees, X_train, Y_train, 'Method', 'classification');% 4. 特征区分率计算与排序
numFeatures = size(X_train, 2);
featureScores = zeros(numFeatures, numTrees); % 特征评分矩阵for i = 1:numTreestree = rfModel.Trees{i}; % 获取第i棵决策树% 计算每个特征的方差for j = 1:numFeaturesfeatureVariance = var(X_train(:, j));featureScores(j, i) = 1 - featureVariance; % 计算区分率end
end% 计算特征的平均区分率并排序
avgFeatureScores = mean(featureScores, 2);
[sortedScores, sortedIndices] = sort(avgFeatureScores, 'descend');% 5. 计算每棵树的错分率
errorRates = zeros(numTrees, 1);
for i = 1:numTrees% 预测测试集predictions = predict(rfModel.Trees{i}, X_test);% 计算错分率errorRates(i) = sum(~strcmp(predictions, Y_test)) / length(Y_test);
end% 计算权重
weights = 1 - errorRates; % 决策权重
[sortedErrorRates, sortedTreeIndices] = sort(errorRates, 'descend');% 6. 决策结果
finalPrediction = strings(size(X_test, 1), 1); % 将 finalPrediction 初始化为字符串数组
uniqueClasses = unique(Y); % 提取唯一的类别for i = 1:size(X_test, 1)classVotes = zeros(length(uniqueClasses), 1); % 类别计数for j = 1:numTreespredictions = predict(rfModel.Trees{sortedTreeIndices(j)}, X_test(i, :));classIdx = find(strcmp(uniqueClasses, predictions)); % 找到类别索引classVotes(classIdx) = classVotes(classIdx) + weights(j); % 加权投票end[~, maxIdx] = max(classVotes); % 找到票数最多的类别finalPrediction(i) = uniqueClasses(maxIdx); % 使用最大索引提取类别名称
end% 7. 可视化误差直方图
figure;
histogram(sortedErrorRates, 'Normalization', 'probability');
title('Error Rates of Individual Decision Trees');
xlabel('Error Rate');
ylabel('Probability');% 8. 可视化决策树
figure;
view(rfModel.Trees{1}, 'Mode', 'graph'); % 可视化第一棵树
title('Visualization of the First Decision Tree');% 9. 输出最终预测结果
disp('Final Predictions:');
disp(finalPrediction);
disp('Actual Labels:');
disp(Y_test);% 10. 可视化权重最大的前10棵树
numTreesToVisualize = 10; % 要可视化的树的数量
figure;
for i = 1:numTreesToVisualizesubplot(2, 5, i); % 创建一个 2x5 的子图布局view(rfModel.Trees{sortedTreeIndices(i)}, 'Mode', 'graph'); % 可视化权重最大的树title(['Tree ' num2str(i) ', Weight: ' num2str(weights(sortedTreeIndices(i)))]);
end

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/455582.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Python学习日记-54] 软件开发目录设计规范

[Python学习日记-54] 软件开发目录设计规范 简介 为什么要设计好目录结构? 目录组织方式 关于 README 的内容 关于 setup.py 和 requirements.txt 关于配置文件的使用方法 简介 我们在浏览一些开源项目或者是一些安装后的软件的时候会发现,不同的两…

解决:IntelliJ IDEA 项目中代码文件不能运行的问题(即:J 标文件的问题)

1、问题描述: 其一、需求为: 想要通过 IntelliJ IDEA 软件打开原 Eclipse 项目文件或新 Java 项目,能正常运行 .java 文件中的代码; 其二、问题描述为: A、通过 IntelliJ IDEA 打开 java 项目,并在打开具体的 .jav…

记nvm管理node

前言 解决来回切换node版本适应不同项目 一、nvm是什么? nvm是用于管理多个 nodejs 的版本控制工具 二、使用步骤 1.卸载nodeJs 若是本地原先有nodeJs版本的话需要先卸载,若是没有则跳过这一步,可以通过命令行来确定是否存在node node…

【C++11】右值引用和移动语义

1 右值引用和移动语义 C98的C语法中就有引用的语法,而C11中新增了的右值引用语法特性,C11之后我们之前学习的引用就叫做左值引用。无论左值引用还是右值引用,都是给对象取别名。 1.1 左值和右值 左值是⼀个表示数据的表达式(如变量名或解引用…

HbuilderX 连接 Genymotion 模拟器

最近在琢磨 uni-app 开发 app 应用,并且想要基于模拟器调试;但模拟器安装好以后,Hbuilder 始终识别不了(识别成功了也运行不了代码) 模拟器:Genymotion ;这款模拟器用于开发调试是比较流畅的。当…

如何禁止上班期间浏览无关网站?

禁止员工在上班期间浏览无关网页主要是为了提升工作效率和生产力,确保员工能够专注于工作任务。同时,这种做法有助于降低网络安全风险,防止恶意软件和钓鱼攻击,减少数据泄露和法律风险,维护公司的专业形象,…

【系统配置】命令行修改统信UOS的grub启动延时

往期好文:【命令操作】Linux中多种关机和重启的命令介绍 | 统信 | 麒麟 | 方德 Hello,大家好啊!今天给大家带来一篇关于如何通过命令行配置统信UOS系统的启动延时的文章。在某些场景中,调整系统的启动延时可以帮助用户在系统启动过…

实践OpenVINO™ GenAI

前言 随着 ChatGPT 等聊天机器人的风暴席卷全球,生成式预训练 Transformers (GPT) 在开发者中正在成为家喻户晓的新名字。生成式 AI(GenAI) 的发展,尤其是大语言模型和聊天机器人的进步很快、变化不断&…

短剧AI突围战,百度跑偏了

“ 百度短剧的Agent对话功能并不属于颠覆性创新,只是新插件,对短剧行业市场格局影响不大,最多只能算用户痒点。 ” 转载:科技新知 原创 作者丨晓伊 编辑丨蕨影 你是否有过这样的体验? 刷短剧时,因剧情曲…

GraphLLM:基于图的框架,通过大型语言模型处理数据

GraphLLM是一个创新的框架,它允许用户通过一个或多个大型语言模型(LLM)来处理数据。这个框架不仅提供了一个强大的代理,能够执行网络搜索和运行Python代码,还提供了一套工具来抓取网页数据,并将其重新格式化…

若依前后分离版集成积木报表

1.项目后端结构如下 2.引入JimuReport依赖&#xff0c;在ruoyi-framework的.pom文件中引入积木报表最新依赖,我使用的是1.6.0&#xff0c;可通过 积木报表官网 - JimuReport报表,免费的企业级Web报表工具(可视化报表_低代码报表_在线大屏设计器) 查询最新版本号 <dependenc…

【c++差分数组】P9583涂色

本文涉及知识点 C差分数组 P9583涂色 n行m列方格纸&#xff0c;初始是白色(0层)。共涂色q次&#xff0c;每次选择一行或一列&#xff0c;将这行或列涂一层颜色。如果某次涂色后&#xff0c;某个单格是k层颜色&#xff0c;则涂为白色(0层&#xff09;。求最后被涂色的单格数量…

【Golang】Gin框架中如何定义路由

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

2024 年最热门的人工智能趋势

文章目录 1. 生成式人工智能&#xff08;Generative AI&#xff09;的全面普及2. 多模态 AI 的崛起3. AI 与自动化的深度融合4. 隐私保护与安全 AI5. AI 驱动的个性化体验6. 低代码与无代码 AI 开发工具7. AI 与边缘计算的结合总结 博主介绍&#xff1a;全网粉丝10w、CSDN合伙人…

vuetify页面布局

效果图&#xff1a; 这个布局用到了以下组件&#xff1a; 1.v-navigation-drawer侧边栏 rail&#xff1a;用来控制侧边栏折叠和展开状态&#xff0c;等于false&#xff0c;是展开状态&#xff0c;否则折叠状态。permanent&#xff1a;等于true的时候&#xff0c;无论屏幕大小…

vue elementui el-table实现增加行,行内编辑修改

需求&#xff1a; 前端进行新增表单时&#xff0c;同时增加表单的明细数据。明细数据部分&#xff0c;可进行行编辑。 效果图&#xff1a; <el-card><div slot"header"><span style"font-weight: bold">外来人员名单2</span><…

鼠标移入盒子,盒子跟随鼠标移动

demo效果&#xff1a; 鼠标移入盒子&#xff0c;按下鼠标,开启移动跟随移动模式,再次按下关闭移动模式 涉及主要属性 在元素上单击鼠标按钮时输出鼠标指针的坐标&#xff1a; var x event.pageX; // 获取水平坐标 var y event.pageY; // 获取垂直坐标元素offsetL…

十、pico+Unity交互开发教程——射线抓取与更多交互功能

一、回顾与引入 回顾上一篇直接抓取的教程&#xff0c;VR交互一般需要可交互的对象&#xff08;Interactable&#xff09;和发起交互的对象&#xff08;Interactor&#xff09;。直接抓取和射线抓取的可交互对象无区别&#xff0c;可参考上一篇教程设置组件。两者区别在于发起…

NVR小程序接入平台/设备EasyNVR多个NVR同时管理的高效解决方案

在当今的数字化安防时代&#xff0c;视频监控系统的需求日益复杂和多样化。为了满足不同场景下的监控需求&#xff0c;一种高效、灵活且兼容性强的安防视频监控平台——NVR批量管理软件/平台EasyNVR应运而生。本篇探讨这一融合所带来的创新与发展。 一、NVR监测软件/设备EasyNV…

J.D商品详情,一“网”打尽 —— PHP爬虫API数据获取全攻略

在当今数字化时代&#xff0c;数据已成为最宝贵的资源之一。对于电商平台而言&#xff0c;实时掌握商品的详细信息&#xff0c;如同拥有了解锁市场动态的金钥匙。J.D&#xff0c;作为中国领先的电商平台&#xff0c;其商品详情数据的获取&#xff0c;更是电商领域的一大热点。本…