数据降维与主成分分析

在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?

例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多?实际生产中,只用M,L,XL等型号代替。

在分析研究多变量的课题时,变量太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,且这些新变量在反映课题的信息方面尽可能保持原有的信息。设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。

主成分分析原理

主成分分析(PCA)是一种降维技术,PCA的主要目标是将特征维度变小,同时尽量减少信息损失。就是对一个样本矩阵,一是换特征,找一组新的特征来重新标识;二是减少特征,新特征的数目要远小于原特征的数目。它通过正交变换将原始的n维数据转换为一组k维的不相关变量(即,将 n n n维原始特征映射到k维 ( k < n ) (k<n) (k<n)上),称这 k k k维特征为主成分。

  • 将数据映射到k维上,实际上是选择了数据中方差最大的k个方向。
  • PCA的目标是保留原始数据中尽可能多的变异性(方差)
  • 需要强调的是,不是简单地从 n n n维特征中去除其余 n — k n—k nk维特征,而是重新构造出全新的k维正交特征,且新生成的k维数据尽可能多地包含原来 n n n维数据的信息。例如,使用PCA将20个相关的特征转化为5个无关的新特征,并且尽可能保留原始数据集的信息。

降维的几何意义

PCA是一种线性降维方法,即通过某个投影矩阵将高维空间中的原始样本点线性投影到低维空间,以达到降维的目的,线性投影就是通过矩阵变换的方式把数据映射到最合适的方向。==降维的几何意义可以理解为旋转坐标系,取前k个轴作为新特征。==在降维过程中,实际上是在寻找一个新的坐标系,这个新坐标系的轴(即主成分)能够最好地表示数据的变异性。这个过程可以看作是对原始坐标系的旋转和缩放。

假设我们有一个样本矩阵 X = [ x 11 x 12 ⋯ x 1 n x 21 x 22 ⋯ x 2 n ⋮ ⋮ ⋱ ⋮ x m 1 x m 2 ⋯ x m n ] X = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1n} \\ x_{21} & x_{22} & \cdots & x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{mn} \end{bmatrix} X= x11x21xm1x12x22xm2x1nx2nxmn ,其维度为 $ m \times n $,其中 $ m $ 是样本数量,$ n $ 是特征数量。主成分分析的步骤为:

  1. 数据标准化。对每个特征 j j j 计算均值 μ j = 1 n ∑ i = 1 n x i j \displaystyle \mu_j=\frac{1}{n}\sum_{i=1}^nx_{ij} μj=n1i=1nxij 和标准差 σ j = ∑ i = 1 n ( x i j − μ j ) n − 1 \displaystyle \sigma_j=\sqrt \frac{\displaystyle \sum_{i=1}^n (x_{ij}-\mu_j)}{n-1} σj=n1i=1n(xijμj) ,然后对每个元素进行标准化: x i j ′ = x i j − μ j σ j \displaystyle x_{ij}^\prime = \frac{x_{ij} - \mu_j}{\sigma_j} xij=σjxijμj,得到标准化后的矩阵 X ′ X^\prime X
  2. 计算协方差矩阵。计算标准化数据 X ′ X^\prime X的协方差矩阵 R = 1 m − 1 ( X ′ ) T X ′ \displaystyle R = \frac{1}{m-1} (X^\prime)^T X^\prime R=m11(X)TX这里, Σ \Sigma Σ 是一个 n × n n \times n n×n 的矩阵。
  3. 计算特征值和特征向量。计算协方差矩阵 $ \Sigma $ 的特征值 λ 1 , λ 2 , … , λ n \lambda_1, \lambda_2, \ldots, \lambda_n λ1,λ2,,λn 和对应的特征向量 v 1 , v 2 , … , v n \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n v1,v2,,vn
  4. 计算贡献率和累计贡献率。计算每个特征值对应的方差解释率 α i = λ i ∑ j = 1 n λ j \displaystyle \alpha_i =\frac{\lambda_i}{\displaystyle \sum_{j=1}^{n} \lambda_j} αi=j=1nλjλi,计算累计方差解释率,以确定选择多少个主成分 ∑ i = 1 k λ i ∑ j = 1 n λ j \displaystyle \sum_{i=1}^{k} \frac{\lambda_i}{\displaystyle\sum_{j=1}^{n} \lambda_j} i=1kj=1nλjλi
  5. 选择主成分。根据累积方差解释率选择前 k k k个特征向量作为主成分,使得累积方差解释率达到某个阈值(如95%),这些特征向量构成了新的特征空间的基。
  6. 构建特征向量矩阵。将选择的 k k k 个特征向量组成一个矩阵 W W W,其中每列是一个特征向量: W = [ v 1 v 2 ⋯ v k ] W = \begin{bmatrix} \mathbf{v}_1 & \mathbf{v}_2 & \cdots & \mathbf{v}_k \\ \end{bmatrix} W=[v1v2vk]
  7. 投影数据。将原始数据投影到选定的主成分上,得到降维后的数据集 Z = X ′ W Z = X^\prime W Z=XW。这里 Z Z Z 是一个 m × k m \times k m×k 的矩阵。
  8. 解释和使用结果。分析降维后的数据,通常用于数据可视化、特征提取、噪声去除等;可以将降维后的数据用于后续的机器学习任务,如分类、聚类等。

通过这些步骤,PCA可以有效地减少数据的维度,同时保留尽可能多的原始数据的方差信息。选择的主成分是数据中方差最大的方向,能够帮助揭示数据的内在结构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/455580.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Python学习日记-54] 软件开发目录设计规范

[Python学习日记-54] 软件开发目录设计规范 简介 为什么要设计好目录结构&#xff1f; 目录组织方式 关于 README 的内容 关于 setup.py 和 requirements.txt 关于配置文件的使用方法 简介 我们在浏览一些开源项目或者是一些安装后的软件的时候会发现&#xff0c;不同的两…

解决:IntelliJ IDEA 项目中代码文件不能运行的问题(即:J 标文件的问题)

1、问题描述&#xff1a; 其一、需求为&#xff1a; 想要通过 IntelliJ IDEA 软件打开原 Eclipse 项目文件或新 Java 项目&#xff0c;能正常运行 .java 文件中的代码; 其二、问题描述为&#xff1a; A、通过 IntelliJ IDEA 打开 java 项目&#xff0c;并在打开具体的 .jav…

记nvm管理node

前言 解决来回切换node版本适应不同项目 一、nvm是什么&#xff1f; nvm是用于管理多个 nodejs 的版本控制工具 二、使用步骤 1.卸载nodeJs 若是本地原先有nodeJs版本的话需要先卸载&#xff0c;若是没有则跳过这一步&#xff0c;可以通过命令行来确定是否存在node node…

【C++11】右值引用和移动语义

1 右值引用和移动语义 C98的C语法中就有引用的语法&#xff0c;而C11中新增了的右值引用语法特性&#xff0c;C11之后我们之前学习的引用就叫做左值引用。无论左值引用还是右值引用&#xff0c;都是给对象取别名。 1.1 左值和右值 左值是⼀个表示数据的表达式(如变量名或解引用…

HbuilderX 连接 Genymotion 模拟器

最近在琢磨 uni-app 开发 app 应用&#xff0c;并且想要基于模拟器调试&#xff1b;但模拟器安装好以后&#xff0c;Hbuilder 始终识别不了&#xff08;识别成功了也运行不了代码&#xff09; 模拟器&#xff1a;Genymotion &#xff1b;这款模拟器用于开发调试是比较流畅的。当…

如何禁止上班期间浏览无关网站?

禁止员工在上班期间浏览无关网页主要是为了提升工作效率和生产力&#xff0c;确保员工能够专注于工作任务。同时&#xff0c;这种做法有助于降低网络安全风险&#xff0c;防止恶意软件和钓鱼攻击&#xff0c;减少数据泄露和法律风险&#xff0c;维护公司的专业形象&#xff0c;…

【系统配置】命令行修改统信UOS的grub启动延时

往期好文&#xff1a;【命令操作】Linux中多种关机和重启的命令介绍 | 统信 | 麒麟 | 方德 Hello&#xff0c;大家好啊&#xff01;今天给大家带来一篇关于如何通过命令行配置统信UOS系统的启动延时的文章。在某些场景中&#xff0c;调整系统的启动延时可以帮助用户在系统启动过…

实践OpenVINO™ GenAI

前言 随着 ChatGPT 等聊天机器人的风暴席卷全球&#xff0c;生成式预训练 Transformers &#xff08;GPT&#xff09; 在开发者中正在成为家喻户晓的新名字。生成式 AI&#xff08;GenAI&#xff09; 的发展&#xff0c;尤其是大语言模型和聊天机器人的进步很快、变化不断&…

短剧AI突围战,百度跑偏了

“ 百度短剧的Agent对话功能并不属于颠覆性创新&#xff0c;只是新插件&#xff0c;对短剧行业市场格局影响不大&#xff0c;最多只能算用户痒点。 ” 转载&#xff1a;科技新知 原创 作者丨晓伊 编辑丨蕨影 你是否有过这样的体验&#xff1f; 刷短剧时&#xff0c;因剧情曲…

GraphLLM:基于图的框架,通过大型语言模型处理数据

GraphLLM是一个创新的框架&#xff0c;它允许用户通过一个或多个大型语言模型&#xff08;LLM&#xff09;来处理数据。这个框架不仅提供了一个强大的代理&#xff0c;能够执行网络搜索和运行Python代码&#xff0c;还提供了一套工具来抓取网页数据&#xff0c;并将其重新格式化…

若依前后分离版集成积木报表

1.项目后端结构如下 2.引入JimuReport依赖&#xff0c;在ruoyi-framework的.pom文件中引入积木报表最新依赖,我使用的是1.6.0&#xff0c;可通过 积木报表官网 - JimuReport报表,免费的企业级Web报表工具(可视化报表_低代码报表_在线大屏设计器) 查询最新版本号 <dependenc…

【c++差分数组】P9583涂色

本文涉及知识点 C差分数组 P9583涂色 n行m列方格纸&#xff0c;初始是白色(0层)。共涂色q次&#xff0c;每次选择一行或一列&#xff0c;将这行或列涂一层颜色。如果某次涂色后&#xff0c;某个单格是k层颜色&#xff0c;则涂为白色(0层&#xff09;。求最后被涂色的单格数量…

【Golang】Gin框架中如何定义路由

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

2024 年最热门的人工智能趋势

文章目录 1. 生成式人工智能&#xff08;Generative AI&#xff09;的全面普及2. 多模态 AI 的崛起3. AI 与自动化的深度融合4. 隐私保护与安全 AI5. AI 驱动的个性化体验6. 低代码与无代码 AI 开发工具7. AI 与边缘计算的结合总结 博主介绍&#xff1a;全网粉丝10w、CSDN合伙人…

vuetify页面布局

效果图&#xff1a; 这个布局用到了以下组件&#xff1a; 1.v-navigation-drawer侧边栏 rail&#xff1a;用来控制侧边栏折叠和展开状态&#xff0c;等于false&#xff0c;是展开状态&#xff0c;否则折叠状态。permanent&#xff1a;等于true的时候&#xff0c;无论屏幕大小…

vue elementui el-table实现增加行,行内编辑修改

需求&#xff1a; 前端进行新增表单时&#xff0c;同时增加表单的明细数据。明细数据部分&#xff0c;可进行行编辑。 效果图&#xff1a; <el-card><div slot"header"><span style"font-weight: bold">外来人员名单2</span><…

鼠标移入盒子,盒子跟随鼠标移动

demo效果&#xff1a; 鼠标移入盒子&#xff0c;按下鼠标,开启移动跟随移动模式,再次按下关闭移动模式 涉及主要属性 在元素上单击鼠标按钮时输出鼠标指针的坐标&#xff1a; var x event.pageX; // 获取水平坐标 var y event.pageY; // 获取垂直坐标元素offsetL…

十、pico+Unity交互开发教程——射线抓取与更多交互功能

一、回顾与引入 回顾上一篇直接抓取的教程&#xff0c;VR交互一般需要可交互的对象&#xff08;Interactable&#xff09;和发起交互的对象&#xff08;Interactor&#xff09;。直接抓取和射线抓取的可交互对象无区别&#xff0c;可参考上一篇教程设置组件。两者区别在于发起…

NVR小程序接入平台/设备EasyNVR多个NVR同时管理的高效解决方案

在当今的数字化安防时代&#xff0c;视频监控系统的需求日益复杂和多样化。为了满足不同场景下的监控需求&#xff0c;一种高效、灵活且兼容性强的安防视频监控平台——NVR批量管理软件/平台EasyNVR应运而生。本篇探讨这一融合所带来的创新与发展。 一、NVR监测软件/设备EasyNV…

J.D商品详情,一“网”打尽 —— PHP爬虫API数据获取全攻略

在当今数字化时代&#xff0c;数据已成为最宝贵的资源之一。对于电商平台而言&#xff0c;实时掌握商品的详细信息&#xff0c;如同拥有了解锁市场动态的金钥匙。J.D&#xff0c;作为中国领先的电商平台&#xff0c;其商品详情数据的获取&#xff0c;更是电商领域的一大热点。本…