2.5 特征降维
2.5.1 降维
降维:是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。
ndarray
维数 嵌套的层数
0维 标量
1维 向量
2维 矩阵
3维
n维
二维数组
降低的维度是降低特征的个数。
效果:
特征与特征之间不相关
2.5.2 降维的两种方式
特征选择
主成分分析(可以理解一种特征提取的方式)
2.5.3 什么是特征选择
1 定义
数据中包含冗余或相关变量(或称特征,属性,指标等),旨在从原有特征中找出主要特征。
2 方法
相关系数:特征与特征之间的相关程度。
3 模块
sklearn.feature_selection
4 过滤式
4.1 低方差特征过滤
4.2 相关系数
皮尔逊相关系数:反应变量之间相关关系密切程度的统计指标。
经计算相关系数=0.9942.
所以我们得出结论是广告投入费与月平均销售额之间有高度的正相关关系。
特点
API
特征与特征相关性很高:(采取措施)
1)选取其中一个
2)按一定权重进行加权,在进行加权求和。
3)主成分分析