matlab偏最小二乘截距,matlab代写偏最小二乘回归(PLSR)和主成分回归(PCR)

原标题:matlab代写偏最小二乘回归(PLSR)和主成分回归(PCR)

原文:http://tecdat.cn/?p=2655

此示例显示如何在matlab中应用偏最小二乘回归(PLSR)和主成分回归(PCR),并讨论这两种方法的有效性。当存在大量预测变量时,PLSR和PCR都是对响应变量建模的方法,并且这些预测变量高度相关或甚至共线。两种方法都将新的预测变量(称为组件)构建为原始预测变量的线性组合,但它们以不同的方式构造这些组件。PCR创建组件来解释预测变量中观察到的变异性,而根本不考虑响应变量。另一方面,PLSR确实将响应变量考虑在内,因此通常会导致模型能够使用更少的组件来适应响应变量。

加载数据

加载包括401个波长的60个汽油样品的光谱强度及其辛烷值的数据集。

9f17452cac9bab8a94fe1ea561494ad1.png

使用两个 拟合数据

使用该plsregress功能使PLSR模型适用于10个PLS组件和一个响应。

为了充分拟合数据,可能需要十个组件,但可以使用此拟合的诊断来选择具有更少组件的更简单模型。例如,选择组件数量的一种快速方法是将响应变量中解释的方差百分比绘制为组件数量的函数。

4b79d1758a7351e6e976b59e4c67d360.png

在实践中,在选择组件数量时可能需要更加谨慎。例如,交叉验证是一种广泛使用的方法,稍后将在本示例中进行说明。目前,上图显示具有两个成分的PLSR解释了观察到的大部分方差y。计算双组分模型的拟合响应值。

接下来,拟合具有两个主要组分的PCR模型。第一步是X使用该pca函数执行主成分分析,并保留两个主成分。然后,PCR只是这两个组分的响应变量的线性回归。当变量具有非常不同的可变性时,通常首先通过其标准偏差来规范化每个变量是有意义的,但是,这里没有做到。

356f80b83cd547a4c8c03a68907343ae.png

从某种意义上说,上图中的比较并不合理 - 通过观察双组分PLSR模型预测响应的程度来选择组分数(两个),并且没有理由为什么PCR模型应该限制在相同数量的组件。然而,使用相同数量的组件,PLSR在安装方面做得更好y。实际上,观察上图中拟合值的水平散射,使用两个分量的PCR几乎不比使用常数模型好。两次回归的r平方值证实了这一点。

比较两种模型的预测能力的另一种方法是在两种情况下将响应变量绘制成两个预测变量。

0f60d92668cfe66805e68c28f3eb466d.png

如果不能以交互方式旋转图形,有点难以看到,但上面的PLSR图显示了一个紧密分散在平面上的点。另一方面,下面的PCR图显示了点云,几乎没有线性关系的指示。

5809ebab870614a66b169bbfc5d9b880.png

请注意,尽管两个PLS组分是观察到的更好的预测因子y,但下图显示它们解释了观察到的差异X比PCR中使用的前两个主要组分少。

6664959ec4364a05c6a9ff39ad190208.png

PCR曲线一致性较高的事实表明,为什么使用两种成分的PCR相对于PLSR在拟合时表现如此糟糕y。PCR构建组件以便最好地解释X,因此,前两个组件忽略了数据中适合观察到的重要信息y。

适合更多组件

随着在PCR中添加更多组件,它必然会更好地拟合原始数据y,这仅仅是因为在某些时候,大多数重要的预测信息X将存在于主要组件中。例如,下图显示,使用10个组件时,两种方法的残差差异远小于两个组件的残差差异。

选择具有交叉验证的组件数

在预测未来对预测变量的观察结果时,选择组件数量以减少预期误差通常很有用。简单地使用大量组件将很好地拟合当前观察到的数据,但这是一种导致过度拟合的策略。过于拟合当前数据会导致模型不能很好地推广到其他数据,并对预期误差给出过度乐观的估计。

交叉验证是一种更加统计上合理的方法,用于选择PLSR或PCR中的组分数量。它通过不重复使用相同的数据来适应模型和估计预测误差来避免过度拟合数据。因此,预测误差的估计不会乐观地向下偏差。

plsregress 可以选择通过交叉验证来估计均方预测误差(MSEP),在这种情况下使用10倍CV。

[X1,Y1,Xs,Ys,β,pctVar,PLSmsep] = plsregress(X,y,10,'CV',10);

对于PCR,crossval结合用于计算PCR的平方误差之和的简单函数,可以再次使用10倍交叉验证来估计MSEP。

PCRmsep = sum(crossval(@ pcrsse,X,y,'KFold',10),1)/ n;

PLSR的MSEP曲线表明两个或三个组件的工作尽可能好。另一方面,PCR需要四个分量才能获得相同的预测精度。

bc58f641ad500e442fc249e084fe8fbe.png

事实上,PCR中的第二个组成部分会增加模型的预测误差,这表明该组成部分中包含的预测变量的组合与其没有很强的相关性y。再次,这是因为PCR构建组件来解释变异X,而不是y。

模型简约

因此,如果PCR需要四个组件来获得与具有三个组件的PLSR相同的预测精度,那么PLSR模型是否更加简约?这取决于您考虑的模型的哪个方面。

PLS权重是定义PLS分量的原始变量的线性组合,即,它们描述了PLSR中的每个分量依赖于原始变量以及在什么方向上的强度。

e95b2fc297556df3b79bab6495f84b2c.png

类似地,PCA加载描述了PCR中每个组分依赖于原始变量的强度。

bcac47122c3d04c0829203199d3f7511.png

对于PLSR或PCR,可以通过检查每个组件最重要的变量来为每个组件提供物理上有意义的解释。例如,利用这些光谱数据,可以根据汽油中存在的化合物解释强度峰值,然后观察特定组分的重量挑选出少量这些化合物。从这个角度来看,更少的组件更易于解释,并且由于PLSR通常需要更少的组件来充分预测响应,因此会导致更简约的模型。

另一方面,PLSR和PCR都导致每个原始预测变量的一个回归系数加上截距。从这个意义上讲,两者都不是更简约,因为无论使用多少组件,两种模型都依赖于所有预测变量。更具体地,对于这些数据,两个模型都需要401个光谱强度值以进行预测。

然而,最终目标可能是将原始变量集减少到仍然能够准确预测响应的较小子集。例如,可以使用PLS权重或PCA加载来仅选择对每个组件贡献最大的那些变量。如前所示,来自PCR模型拟合的一些组件可主要用于描述预测变量的变化,并且可包括与响应不强相关的变量的大权重。因此,PCR可以导致保留预测不必要的变量。

对于本例中使用的数据,PLSR和PCR所需的组件数量之间的差异不是很大,PLS权重和PCA负载似乎选择了相同的变量。其他数据可能并非如此。返回搜狐,查看更多

责任编辑:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57949.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

水上飞鹰(Z缓存alpha混合)

程序的描述:水上飞鹰(Z缓存alpha混合) 作者:lun 创建日期:2005-10-5 版本:0.1 编译环境:WIN2000 VC6 SP6 DXSDK 驾驶你水上飞艇! 穿越重重危险! 程序下载地址 http://www.wungaonline.com/read.php?tid-100.html

从中关村到纳斯达克,龚宇的奇异8年与爱奇艺的全新时代

十余载岁月风云,视频江湖风起云涌,大浪淘沙后爱奇艺、腾讯视频、优酷土豆三足鼎立之势已成。 北京时间 3 月 29 日晚间,爱奇艺在美国纳斯达克市场敲钟上市,证券代码为IQ,IPO 定价每股 18 美元,照此计算&am…

linux写c语言工具,Linux下用C语言实现推箱子游戏

前面有Linux的常用命令和vim文本编辑器还没有介绍,之后我会补上的。 今天来介绍如何用C语言写一个简单的小游戏,叫做“小老鼠推箱子”。虽然游戏的编写过程不复杂,但是我觉得能够从中找到自己对于编程的不足和完善自己的编程思维是最重要的。…

错别字检测的软件有哪些?自动检查错别字的工具 文字校对 文本纠错 查错别字 校对软件 错别字检查 论文格式 在线校对

我们日常生活中,无论从事什么行业做什么工作,都一定会需要在电脑上打字、写文章文件,而大部分人都难免出现写错别字的情况。这时候就很需要自动检查错别字的软件,来帮助我们快速解决错别字的问题。 爱校对 错别字在线识别检测 错…

如何写好需求文档?

有一天,一位朋友打电话给我。 朋友:“听说你们公司是做产权的,我这有相关的项目,你们能做吗?” 老吴:“我们公司现在不打算接项目了,以做产品为主。” 朋友:“你在公司负责什么啊…

以梦为马,不负韶华|电巢科技延安大学飞鹰计划实习班精彩回顾

时光流淌无声,昨天仿佛还初次见面,今天却又是一年的尾声。你是否结交到亲密的小伙伴?你是否感受到团队合作的魅力?你是否在延大这片沃土得到成长?假如你还没答案,那么看看其他人的回答。 在延安大学&#x…

oracle _读取,oracle中如何读写bold类型的数据

Oracle的Blob字段比较特殊,他比long字段的性能要好很多,可以用来保存例如图片之类的二进制数据。 写入Blob字段和写入其它类型字段的方式非常不同,因为Blob自身有一个cursor,你必须使用cursor对 blob进行操作,因而你在写入Blob之前,必须获得cursor才能进行写入,那么如何…

linux下mysql 大小写敏感 设置

说明: MySQL在Linux下数据库名、表名、列名、别名大小写规则是这样的:    1、数据库名与表名是严格区分大小写的;    2、表的别名是严格区分大小写的;    3、列名与列的别名在所有的情况下均是忽略大小写的;…

如何用python读写excel文件_如何用Python读写Excel文件?最便捷的3种方式

python读写excel的方式有很多,这里我介绍3种方式,一种是利用xlrd和xlwt进行excel读写,一种是openpyxl读写,最后一种是利用pandas进行读写,下面我主要介绍一下3种方式读写的过程,实验环境win7python3.6pycha…

基于模型的软件开发方法综述

文章目录 前言1 基于模型的软件开发概述2模型驱动架构2.1 模型驱动的软件体系结构2.2 模型驱动的软件开发步骤 3 建模语言3.1UML3.2 SysML3.3 AADL 4 软件建模工具4.1 Rhapsody4.2 SCADE4.3 Matlab4.3.1 Matlab Coder4.3.2 Simulink Coder 4.4 其他工具4.4.1 Enterprise Archit…

(附源码)spring boot流浪动物救助系统 毕业设计180920

目 录 摘要 1 1 绪论 1 1.1 研究背景 1 1.2国内外研究现状 1 1.3论文结构与章节安排 1 2 流浪动物救助系统系统分析 3 2.1 可行性分析 3 2.2 系统流程分析 3 2.2.1 数据流程 3 3.3.2 业务流程 4 2.3 系统功能分析 4 2.3.1 功能性分析 4 2.3.2 非功能性分析 5 2.4 系统用例分析 …

大气污染扩散模型Calpuff教程

详情点击链接:大气污染扩散模型Calpuff教程一,Calpuff 1.Calpuff模型 2、Calpuff模型基础 3、Calpuff模型下载安装 1)Calpro系统安装 2)安装环境要求 3)需安装的辅助软件二,数据预处理 1.网格设置 …

北大核心期刊2012《科技通报》杂志简介《科技通报》论文范文

北大核心期刊2012《科技通报》杂志简介《科技通报》论文范文 转载▼ 标签: 刘兴 柳林 科技通报 中文核心期刊 动态规划 文化 刊名: 科技通报 Bulletin of Science and Technology 主办: 浙江省科学技术协会 周期&#x…

【论文阅读】社交网络识别影响力最大节点方法综述-05

Vital nodes identification in complex networks 识别单个重要节点的方法基于结构信息一、结构中心性(Structural centralities)1.度中心性(基于邻域的中心性)2.四阶邻居信息(基于邻域的中心性)3.ClusterR…

【论文阅读】基于整合项目反应理论(IRT)的深度神经网络的解析自动作文评分

摘要 作文考试一直以来作为一种衡量应试者的更高等级的能力的方式吸引大家的注意,但是目前在对他们进行评分评定等级的时候有两个主要的缺陷,一是人力成本昂贵,二是存在公平性的问题。作为一种克服这些困难的方式,自动作文评分&a…

JSP基于WEB网上论坛设计与实现(源代码+论文+开题报告+答辩PPT+外文翻译)

cc学院 毕业设计(论文)开题报告 题 目: 基于JSP的学生学籍管理系统 学 科 部: 信工学科部 专 业: 计算机科学与技术 班 级: 学 号: 姓 名: 指导教师: 填表日期&…

【文本生成】必读论文合集推荐 丨剑桥大学等提出全新的 MAGIC 框架,得到明显优于弱监督模型的文本生成质量

文本生成是自然语言处理中一个重要的研究领域,具有广阔的应用前景。国内外已有如Automated Insights、Narrative Science以及“小南”机器人和“小明”机器人等文本生成系统投入使用。这些系统根据格式化数据或自然语言文本生成新闻、财报或者其他解释性文本。 AMin…

百篇论文纵览大型语言模型最新研究进展

© 作者|王晓磊 机构|中国人民大学 方向 | 对话式信息获取 来自 | RUC AI Box 进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群) 本文整理了2022年以来发表在顶级会议上的大语言模型相关论文。 导读 去年底,OpenA…

#论文阅读# MORAN

论文地址:https://arxiv.org/pdf/1901.03003.pdf 代码地址:MORANv2-pytorch版本 1 abstract 不规则文本识别由于有着各种各样的形状,因此仍有较大的困难,本文提出MORAN:包含一个多目标蒸馏网络(multi-obj…

论文阅读_MAE

论文信息 name_en: Masked Autoencoders Are Scalable Vision Learners name_ch: 带遮蔽的自编码器是大规模的视觉学习者 paper_addr: https://ieeexplore.ieee.org/document/9879206/ doi: 10.1109/CVPR52688.2022.01553 date_read: 2023-04-08 date_publish: 2022-06-01 tag…