目录
一、前言
二、向量的表示及基变换
三、基变换
四、协方差矩阵
五、协方差
六、优化目标
一、前言
主成分分析(Principal Component Analysis)
用途:降维中的常用手段
目标:提取最有价值的信息(基于方差)
问题:降维后的数据的意义??
二、向量的表示及基变换
内积:
解释:
设向量B的模为1,则A与B的内积值就等于A向B所在直线投影的矢量长度
向量可以表示为,实际上就表示线性组合:
基:叫做二维空间的一组基
三、基变换
基是正交的(即内积为0,或者直观的说是相互垂直)
要求:线性无关
变换:一个新的基,它的各个维度的值,均是在原来基上的坐标来表达的,换言之一个新的基有原本的基生成。数据与一个基做内积运算,结果作为第一个新的坐标分量,然后与第二个基做内积运算,结果作为第二个坐标分量。
例如:
数据(3,2)映射到基中坐标:
两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中的每一行行向量中为基的空间中去。
四、协方差矩阵
方向:如何选择方向(或者说是基)才能尽量保留最多的原始信息呢??一种直观的看法是:希望投影后的投影值尽可能分散。
方差:
寻找一个一维基,使得所有数据变换为这个基上的坐标之后,方法值最大
协方差:(假设均值为0时,先去中心化,使每一维上的数据减去其均值即可):
a,b表示两个特征,协方差表示特征a,b的关系。
例如:
五、协方差
如果单纯只选择方差最大的方向,后续方向应该会和方差最大的方向接近重合。
解决方案:为了让两个字段尽可能表示更多的信息,我们不希望它们之间存在(线性)相关性,即垂直的。
协方差:可以用两个字段的协方差表示其相关性,当协方差为0时,表示其两个字段完全独立。为了让协方差为0,选择第二个基时,只能在与第一个基的正交方向上选择。因此,最终选择两个方向方向一定时正交的。
六、优化目标
将一组N维向量降为K维向量(K大于0,小于N),目标是选择K个单位正交基,使原始数据交换到这组基上后,各字段两两协方差为0,字段方差则尽可能大。
如何得到各个字段的协方差:
矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a,b的协方差。
那么我们要使协方差为0,即除对角线上的元素外,其他都为0。
操作:协方差矩阵对角化:即除对角线上的元素外,其他都为0,且在对角线上的元素按大小从上到小排列。
实对称矩阵:一个n行n列的是对称矩阵一定可以找到n个单位正交向量。
例如上面的:
就是实对称矩阵。
实对称矩阵可以进行对角化: