注意事项
PCA对数据的尺度敏感,因此在应用PCA前必须进行标准化处理。否则,具有大尺度的特征会主导主成分的方向。
降维与特征提取经典方法
主成分分析(Principal Component Analysis,PCA)是一种线性降维技术。 通过正交变换将原始特征空间投影到新的正交坐标系,找到数据方差最大的方向(主成分), 从而在保留最大信息量的同时降低数据维度。
数据中心化(均值归零)
计算特征间协方差
求特征值和特征向量
按特征值降序排列
数据投影到主成分
| 主成分 | 方差解释比例 | 累计比例 |
|---|---|---|
| PC1 | 45.2% | 45.2% |
| PC2 | 28.6% | 73.8% |
| PC3 | 12.3% | 86.1% |
| PC4 | 8.4% | 94.5% |
| PC5 | 5.5% | 100% |
PCA对数据的尺度敏感,因此在应用PCA前必须进行标准化处理。否则,具有大尺度的特征会主导主成分的方向。
将高维数据降至2D/3D进行可视化展示
降低特征维度,加速模型训练
去除方差较小的成分,保留主要信息