PCA降维算法详细推导

关于一个小小的PCA的推导

文章目录

    • 关于一个小小的PCA的推导
      • 1 谱分解 (spectral decomposition)
      • 2 奇异矩阵(singular matrix)
      • 3 酉相似(unitary similarity)
      • 4 酉矩阵
      • 5 共轭变换
      • 6 酉等价
      • 7 矩阵的迹的计算以及PCA算法推导
      • 8 幂等矩阵(idempotent matrix)
      • 9 Von Neumann's 迹不等式 [wiki链接](https://en.wikipedia.org/wiki/Trace_inequality#Von_Neumann.27s_trace_inequality)
      • 10 矩阵相似
      • 11 矩阵的特征值与特征向量
      • 12 正规矩阵
      • 13 正定矩阵、半正定矩阵
        • 正定矩阵
      • 参考文献

如果有概念不懂,请从目录中查找,或者直接检索。
如果想直入主题,请从第7小节开始看。

1 谱分解 (spectral decomposition)

矩阵中有一个概念叫做谱分解。

定理2.5.3

在这里插入图片描述

所以根据定理2.5.3的(a)(b)可知:**正规矩阵(请看第12条)都是酉可对角化(unitarily diagonalizable)**的,形式为:存在一个酉矩阵V使得A = V Λ V ∗ V \Lambda V^* VΛV, 并且 Λ = d i a g ( λ 1 , … , λ n ) \Lambda = diag (\lambda_1,\dots,\lambda_n) Λ=diag(λ1,,λn).

定理2.2.2 酉相似的两个矩阵的元素平方和相等。

在这里插入图片描述

由于酉相似的两个矩阵的元素平方和相等,所以自然就可以得到性质c.

根据舒尔三角化定理,任何复方阵都酉相似于一个三角阵,该三角阵的对角元素为其特征值。则写出它的舒尔分解形式:

A = U T U ∗ A = UTU^* A=UTU, 其中 U = [ u 1 , … , u n ] U = [u_1,\dots, u_n] U=[u1,,un]是一个酉矩阵, T = [ t i j ] ∈ M n T = [t_{ij}]\in M_n T=[tij]Mn是一个上三角矩阵。这样一个分解可以写成AU = UT,即A [ u 1 , … , u n ] [u_1,\dots,u_n] [u1,,un] = [ u 1 , … , u n ] [u_1,\dots,u_n] [u1,,un]T, 而T是对角阵,所以$Au_i = t_{ii}u_i $ for each i = 1 , … , n i = 1,\dots,n i=1,,n, 因此 U U U的n个列是A的标准正交的特征向量。

根据矩阵分析第134页首次出现谱分解给出的定义来看,谱分解的定义可以这么写:

其中酉矩阵的n个列向量就是A的特征向量。

一个正规矩阵可以表示成一个酉矩阵、一个对角矩阵、以及该酉矩阵的共轭转置的乘积。这样一个分解称作该正规矩阵谱分解。

谱分解中对角矩阵的对角元便是其特征值,酉矩阵的列向量便是其对应的特征向量。

2 奇异矩阵(singular matrix)

一个线性变换或者矩阵被称之为nonsingular(非奇异)(不奇怪),如果这个变换仅对0这个输入产生0的输出,否则它就是被称作singular(奇异)

对于这个概念,我觉得很有意思。singular这个英文单词百度百科上的英文意思是:奇怪的,独特的,独一无二的。根据上面的定义,如果某个变换将一个非零的东西映射成了0,则这个变换是很奇怪的,是异常的。

我觉得称之为非比寻常也是可以的,说明这样的变换具有一种超能力,能将非零的东西变成零,以至于独孤求败,无人可比(如果它是方阵,则没有与之对应的逆矩阵)。

方阵中,哪些矩阵不平常呢?

如果A是一个方阵,则下列条件是等价的。

A是非奇异矩阵, 等价于该矩阵存在逆矩阵 ,

等价于 Ax =0的有唯一解零向量 ,

等价于 0肯定不是A的特征值(因为矩阵的特征值的定义中需要从非零向量映射,而非奇异矩阵无法将非零向量映射到零向量,故0断然不是A的一个特征值)

3 酉相似(unitary similarity)

定义:对于酉矩阵来说,酉矩阵的共轭转置即为其逆矩阵。所以存在一个相似变换其对应的矩阵为酉矩阵,则称变换前后的两个矩阵是酉相似的。

性质

  • 如果两个矩阵酉相似,则两个矩阵的元素平方和相等,即二者的共轭转置与原矩阵的乘积的迹相等。 tr ⁡ B ∗ B = tr ⁡ A ∗ A \operatorname{tr} B^* B=\operatorname{tr} A^* A trBB=trAA

  • 如果某个矩阵酉相似于一个对角矩阵,则称该矩阵是酉可对角化的。

舒尔定理

可能基本矩阵理论中最有用的一个事实要归于舒尔的一个定理:任何复方阵酉相似于一个三角阵,该三角阵的对角元素是矩阵的特征值,可以以任意特定的顺序排列。这就是大名鼎鼎的舒尔形式、舒尔三角化:任何一个方阵都酉相似于一个对角线元素为该方阵的特征值的上三角矩阵。

4 酉矩阵

定义:酉矩阵的逆矩阵是其共轭转置。

说明:酉矩阵这一类矩阵的逆矩阵的形式简单,就是其共轭转置。求共轭转置比求逆更加简单。

性质

  • 酉矩阵是非奇异矩阵,其逆矩阵就是其共轭转置。酉矩阵的行向量组和列向量组均是标准正交的。酉矩阵这个线性变换对向量是保持距离的,即向量 x x x和向量 U x Ux Ux有相同的欧式范数。
  • 两个酉矩阵的乘积(如果可以相乘)仍为酉矩阵。

5 共轭变换

通过一个非奇异矩阵以及它的共轭转置来对一个矩阵进行映射,这样的变换称作共轭变换,形如: A → S ∗ A S A \rightarrow S^* A S ASAS

6 酉等价

定义:将一个矩阵,通过两个酉矩阵变换到一个新的矩阵,这样一个变换称作酉等价。

性质:

  • 每一个矩阵均酉等价于一个非负的对角阵,该对角阵的元素为矩阵的奇异值。这些奇异值很重要。

7 矩阵的迹的计算以及PCA算法推导

在矩阵理论推导过程中,经常会使用到矩阵的迹的计算方法,所以掌握该类计算方法对于理论推导是大有裨益的。

B ∈ R d , n B \in \mathbb{R}^{d, n} BRd,n , D ∈ R d , d D\in \mathbb{R}^{d,d} DRd,d, 求 B T D B B^T D B BTDB的迹。

用到的一个技术叫做 分块矩阵中的列分块。

(将矩阵进行分块,可以简化计算。当然在分块计算时,要先检查矩阵的行数与列数,判断是否可以进行相乘)

这里需要补充分块矩阵的相关知识。

https://baike.baidu.com/item/%E5%88%86%E5%9D%97%E7%9F%A9%E9%98%B5/10234479 (分块矩阵,百度百科链接)

首先将B进行列分块, B = [ b 1 , … , b n ] , b i ∈ R d B = [b_1,\dots, b_n], b_i\in \mathbb{R}^d B=[b1,,bn],biRd

然后

在这里插入图片描述

在这里插入图片描述

看到这里,就可以来进行PCA算法的证明了。

PCA算法是一个降维算法,方法是使用一个线性变换将原来的高维空间的向量映射到一个低维空间。目标是找到这样一个线性变换,即一个矩阵。要求是不仅能够将原始向量从高维空间映射到低维空间,还要能够从低维空间映射回来,所以这就又需要一个变换,即又一个矩阵,并且要求映射回来的向量与原始向量尽可能的逼近。

x 1 , … , x m x_1,\dots, x_m x1,,xm R d \mathbb{R}^d Rd中的 m m m个向量, 我们要将其映射到 R n \mathbb{R}^n Rn中(n<d). 我们需要一个矩阵 W ∈ R n , d W \in \mathbb{R}^{n, d} WRn,d将其映射过去:
x ↦ W x \mathbf{x} \mapsto W \mathbf{x} xWx
然后还需要一个矩阵 U ∈ R d , n U \in \mathbb{R}^{d, n} URd,n,可以用来恢复每一个向量的压缩版本,即对于一个压缩后的向量 y = W x \mathbf{y}=W \mathbf{x} y=Wx, 我们可以构造 x ~ = U y \tilde{\mathbf{x}}=U \mathbf{y} x~=Uy,使得 x ~ = U y \tilde{\mathbf{x}}=U \mathbf{y} x~=Uy位于原始高维空间 R d \mathbb{R}^d Rd, 且尽可能与原始向量之间的平方距离尽可能小,就是下面这样一个优化问题:
argmin ⁡ W ∈ R n , d , U ∈ R d , n ∑ i = 1 m ∥ x i − U W x i ∥ 2 2 \underset{W \in \mathbb{R}^{n, d}, U \in \mathbb{R}^{d, n}}{\operatorname{argmin}} \sum_{i=1}^m\left\|\mathbf{x}_i-U W \mathbf{x}_i\right\|_2^2 WRn,d,URd,nargmini=1mxiUWxi22
首先,我们证明解集一定满足下面这种形式:

U U U的列向量组是标准正交的,且 W W W U U U的转置矩阵。

在这里插入图片描述

证明可参见矩阵分析引理23.1,由于时间关系,先放一放。

上述结论说明,解集是引理23.1中满足条件的U,W组成的集合的子集。

于是,上述优化问题可以将搜索范围进一步缩小:
argmin ⁡ U ∈ R d , n : U ⊤ U = I ∑ i = 1 ∥ x i − U U ⊤ x i ∥ 2 2 . \underset{U \in \mathbb{R}^{d, n}: U^{\top} U=I}{\operatorname{argmin}} \sum_{i=1}\left\|\mathbf{x}_i-U U^{\top} \mathbf{x}_i\right\|_2^2 . URd,n:UU=Iargmini=1 xiUUxi 22.
上述目标函数可以化为:
在这里插入图片描述

由于矩阵的迹是一个线性算子,所以累加符号可以与迹运算进行交换,进一步将上述问题转化为:
argmax ⁡ U ∈ R d , n : U ⊤ U = I trace ⁡ ( U ⊤ ∑ i = 1 m x i x i ⊤ U ) \underset{U \in \mathbb{R}^{d, n}: U^{\top} U=I}{\operatorname{argmax}} \operatorname{trace}\left(U^{\top} \sum_{i=1}^m \mathbf{x}_i \mathbf{x}_i^{\top} U\right) URd,n:UU=Iargmaxtrace(Ui=1mxixiU)
A = ∑ i = 1 m x i x i ⊤ A=\sum_{i=1}^m \mathbf{x}_i \mathbf{x}_i^{\top} A=i=1mxixi, 那么问题则转化为:
argmax ⁡ U ∈ R d , n : U ⊤ U = I trace ⁡ ( U ⊤ A U ) \underset{U \in \mathbb{R}^{d, n}: U^{\top} U=I}{\operatorname{argmax}} \operatorname{trace}\left(U^{\top} A U\right) URd,n:UU=Iargmaxtrace(UAU)
如何求解该优化问题?首先要能够对目标函数进行计算:

可以验证矩阵A是对称矩阵,而对称矩阵是正规矩阵,正规矩阵又可以进行谱分解,写出其谱分解形式 A = V D V T A = VDV^T A=VDVT, 其中 D D D为对角阵,对角元素为 A A A的特征值, V V V为酉矩阵,即 V V T = V T V = I VV^T = V^TV = I VVT=VTV=I, 且 V V V的列向量组为 A A A的特征向量。


trace ⁡ ( U ⊤ A U ) = trace ⁡ ( U ⊤ V D V T U ) \operatorname{trace}\left(U^{\top} A U\right) =\operatorname{trace}\left(U^{\top}VDV^T U\right) trace(UAU)=trace(UVDVTU)

进行一个变量代换,令 B = V T U ∈ R d , n B = V^T U \in \mathbb{R}^{d,n} B=VTURd,n

于是,便有了下面的推导:

注:经过一下演算(通过半正定二次型的定义),可知 A A A是半正定矩阵,所以矩阵D的对角元素均非负。

主要思路是通过Von Neumann提出的埃尔米特半正定复方阵乘积的迹不等式。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

8 幂等矩阵(idempotent matrix)

若一个矩阵是方阵,且矩阵的平方仍为自己,则称该方阵为幂等矩阵。(顾名思义,取幂仍为自己的矩阵称为幂等矩阵)

性质:

  • 幂等矩阵的迹等于幂等矩阵的秩。
  • 幂等矩阵要么相似于对角元全为1或者0的对角阵。(即对角阵的对角元的元素只能是0,1,不会出现其他值)。

9 Von Neumann’s 迹不等式 wiki链接

对于两个埃尔米特的n阶半正定复方阵A, 和B, 它们的特针织现在按照递减的顺序进行排列分别为 a 1 ≥ a 2 ≥ ⋯ ≥ a n a_1\ge a_2\ge\dots\ge a_n a1a2an b 1 ≥ ⋯ ≥ b n b_1\ge\dots\ge b_n b1bn,

则有 Tr ⁡ ( A B ) ≤ ∑ i = 1 n a i b i \operatorname{Tr}(A B) \leq \sum_{i=1}^n a_i b_i Tr(AB)i=1naibi

10 矩阵相似

如果两个矩阵相似,则这两个矩阵有相同的特征值。

11 矩阵的特征值与特征向量

对于一个n阶矩阵A来说,如果一个标量 λ \lambda λ和一个非零向量 x x x满足
A x = λ x , x ∈ C n , x ≠ 0 , λ ∈ C Ax = \lambda x, x\in C^n, x\ne 0, \lambda \in C Ax=λx,xCn,x=0,λC
λ \lambda λ称为A的一个特征值, x x x称为A属于 λ \lambda λ的特征向量。 ( λ , x ) (\lambda, x) (λ,x)是矩阵 A A A的一个特征对。

特征值和特征向量从来都是成对出现的。

12 正规矩阵

正规矩阵是非常重要的一类矩阵:它包括

酉矩阵、埃尔米特矩阵、斜埃尔米特矩阵(skew Hermitian)、实正交矩阵、实对称矩阵、实斜对称矩阵。

正规矩阵的定义: 如果一个n维矩阵A满足它和它的共轭转置矩阵是可交换的,则称该矩阵是正规矩阵。

正规矩阵的性质:

13 正定矩阵、半正定矩阵

有一类埃尔米特矩阵,它们有一个特殊的正的性质,它们自然地出现在很多应用中。带有这种正性的埃尔米特矩阵也将正数推广到了矩阵上。这个观察经常为正定矩阵的应用和性质提供了新的视角。下面一些例子也展现了这种特殊的埃尔米特矩阵的出现的方式。

例如 Hessian矩阵、协方差矩阵等。

正定矩阵

定义:称一个埃尔米特矩阵是正定的,如果对于任意的复数域上的非零向量,其二次型均为正数,则称该矩阵是正定矩阵。

同理,如果二次型为非负数,则称该矩阵为半正定矩阵。

参考文献

[1] https://math.stackexchange.com/questions/1902421/prove-that-the-trace-of-the-matrix-product-uau-is-maximized-by-setting-us

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/501674.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

25.1.3

java数组&#xff1a; dataType[] arrayRefVar //推荐写法 //int[] mylist //或 dataType arrayRefVar[] //int mylist[]创建数组对象&#xff1a; arrayRefVar new dataType[arraySize]; dataType[] arrayRefVar new dataType[arraySize];for-each循环&#xff1a; jav…

音频进阶学习九——离散时间傅里叶变换DTFT

文章目录 前言一、DTFT的解释1.DTFT公式2.DTFT右边释义1&#xff09; 复指数 e − j ω n e^{-j\omega n} e−jωn2&#xff09;序列与复指数相乘 x [ n ] ∗ e − j ω n x[n]*e^{-j\omega n} x[n]∗e−jωn复指数序列复数的共轭正交正交集 3&#xff09;复指数序列求和 3.DTF…

【保姆级】sql注入之堆叠注入

一、堆叠注入的原理 mysql数据库sql语句的默认结束符是以";"号结尾&#xff0c;在执行多条sql语句时就要使用结束符隔 开,而堆叠注入其实就是通过结束符来执行多条sql语句 比如我们在mysql的命令行界面执行一条查询语句,这时语句的结尾必须加上分号结束 select * fr…

我的桌面 1.9.75 | 个性化定制手机桌面,丰富的小组件和主题

我的桌面iScreen是一款万能桌面小组件APP&#xff0c;提供各种高颜值桌面主题与创意小组件自由组合。支持X面板、照片、待办清单、时钟、日历等实用有趣的小组件。拥有超过500种小组件供选择&#xff0c;包括灵动面板、滚动相册等&#xff0c;搭配300多种精美主题和高清壁纸&am…

汽车燃油软件标定测试

油箱测试 确定油箱的参数&#xff1a; 总容积&#xff0c;额定容积&#xff0c;不可用容积等。油泵测试&#xff08;静态&#xff09; 分为加油测试&#xff0c;减油测试&#xff0c;1L或者500ml增减&#xff1b; 分别测试油泵的阻值输出&#xff0c;类似&#xff1a; 油量 阻…

07-ArcGIS For JavaScript--隐藏参数qualitySettings(memory和lod控制)

目录 1、综述2、sceneview.qualitySettings2.1、sceneview.qualitySettings.memoryLimit2.2、lodFactor2.3 additionalCacheMemory 3、结论 1、综述 先上重点&#xff0c;SceneView.qualitySettings为隐藏对象参数&#xff0c;该对象的memoryLimit和lodFactor等值&#xff0c;…

信息科技伦理与道德1:研究方法

1 问题描述 1.1 讨论&#xff1f; 请挑一项信息技术&#xff0c;谈一谈为什么认为他是道德的/不道德的&#xff0c;或者根据使用场景才能判断是否道德。判断的依据是什么&#xff08;自身的道德准则&#xff09;&#xff1f;为什么你觉得你的道德准则是合理的&#xff0c;其他…

交换机关于环路、接口绑定、链路聚合的相关知识

文章目录 1、对交换机SW-1进行配置&#xff0c;仅允许Host-1通过Ethernet0/0/1接口与Host-3和Host-4通信&#xff0c;Host-2无法与其他主机通信。2、关闭生成树协议&#xff0c;验证环路造成的影响3、关闭生成树协议通过链路聚合实现两条链路正常通信并提高链路可靠性。 内容包…

QEMU网络配置简介

本文简单介绍下qemu虚拟机网络的几种配置方式。 通过QEMU的支持&#xff0c;常见的可以实现以下4种网络形式&#xff1a; 基于网桥&#xff08;bridge&#xff09;的虚拟网络。基于NAT&#xff08;Network Addresss Translation&#xff09;的虚拟网络。QEMU内置的用户模式网…

(二)当人工智能是一个函数,函数形式怎么选择?ChatGPT的函数又是什么?

在上一篇文章中&#xff0c;我们通过二次函数的例子&#xff0c;讲解了如何训练人工智能。今天&#xff0c;让我们进一步探讨&#xff1a;面对不同的实际问题&#xff0c;应该如何选择合适的函数形式&#xff1f; 一、广告推荐系统中的函数选择 1. 业务目标 想象一下&#x…

CentOS — 目录管理

文章目录 一、目录结构二、切换目录三、查看目录四、创建目录五、复制目录六、剪切目录七、删除目录 目录也是一种文件。 蓝色目录&#xff0c;绿色可执行文件&#xff0c;红色压缩文件&#xff0c;浅蓝色链接文件&#xff0c;灰色其它文件&#xff0c; 点开头的是隐藏文件&…

2025加密风云:行业变革与未来趋势全景透视

引言 2024年是加密行业发展历程中的重要一年&#xff0c;诸多事件和趋势为未来的发展奠定了基础。随着全球政策环境的变化、技术的不断进步以及市场参与者的多样化&#xff0c;加密行业在2025年将迎来新的转型与挑战。这篇文章将从政策、技术、市场、应用以及社会影响等多个角…

什么是.net framework,什么是.net core,什么是.net5~8,版本对应关系

我不知道有多少人和我一样&#xff0c;没学习过.netCore&#xff0c;想要学习&#xff0c;但是版本号太多就蒙了&#xff0c;不知道学什么了&#xff0c;这里解释下各个版本的关系 我们一般开始学习微软的时候&#xff0c;都是开始学习的.netframework&#xff0c;常用的就是4…

tcpdump指南(1)

大家读完觉得有意义记得关注和点赞&#xff01;&#xff01;&#xff01; tcpdump是一种在网络上转储流量的网络工具。 这篇文章服务器作为一些常用命令的指南。如需完整指南&#xff0c; 请参阅手册页&#xff0c;或在 Linux 计算机上。man tcpdump 1 基本选项 帮助摘要&#…

如何利用 ClickHouse 实现高级分析:MySQL 到 ClickHouse 实时数据同步指南

在数据驱动的时代&#xff0c;企业必须依靠先进的数据分析能力来提升竞争力。随着数据量的激增和业务需求的复杂化&#xff0c;传统的关系型数据库已经无法满足高效处理和实时分析的需求。ClickHouse 作为一款高性能的列式数据库&#xff0c;凭借其卓越的查询性能和可扩展性&am…

UniApp | 从入门到精通:开启全平台开发的大门

UniApp | 从入门到精通:开启全平台开发的大门 一、前言二、Uniapp 基础入门2.1 什么是 Uniapp2.2 开发环境搭建三、Uniapp 核心语法与组件3.1 模板语法3.2 组件使用四、页面路由与导航4.1 路由配置4.2 导航方法五、数据请求与处理5.1 发起请求5.2 数据缓存六、样式与布局6.1 样…

MySQL8安装与卸载

1.下载mysql MySQL :: Download MySQL Community Serverhttps://dev.mysql.com/downloads/mysql/ 2.解压mysql安装包 解压到自己定义的目录&#xff0c;这里解压就是安装&#xff0c;解压后的路径不要有空格和中文。 3.配置环境变量 配置环境变量可以方便电脑在任何的路径…

2025.01.02(数据库)

作业&#xff1a;实现以下功能&#xff1a; 1> 创建一个工人信息库&#xff0c;包含工号&#xff08;主键&#xff09;、姓名、年龄、薪资。 2> 添加三条工人信息&#xff08;可以完整信息&#xff0c;也可以非完整信息&#xff09; 3> 修改某一个工人的薪资&#…

df.groupby()方法使用表达式分组

# 索引值是否为偶数&#xff0c;分成两组 df.groupby(lambda x:x%20).sum() df.groupby(df.index%20).sum() # 同上这两个写法看似相似&#xff0c;确实都基于索引值来进行分组&#xff0c;但在实现方式上有细微的区别&#xff1a; df.groupby(lambda x: x % 2 0) 这种方式通过…

景区自助售卡机与定点酒店的合作双赢之策-景区酒店方案

一、景区与酒店合作资源优势 1. 提升游客体验&#xff1a;游客在规划旅行时&#xff0c;可以一次性解决住宿和景区游览的安排&#xff0c;减少预订环节的繁琐&#xff0c;提供更便捷、顺畅的旅行体验。 2. 增加游客停留时间&#xff1a;通过联合推广&#xff0c;吸引游客在景区…