您的位置：首页 > 其它

PCA学习笔记

2014-09-25 11:11 169 查看

1.基本思想

PCA方法是从一组特征中通过求解最优的正交变换，得到一组相互间方差最大的新特征，它们是原始特征的线性组合，且相互之间是不相关的，再对新特征进行重要性排序，选取前几个主成分。

2.具体过程

首先，定义样本和特征，假定有m个样本，每个样本有n个特征，可表示如下：

降维过程其实就是寻找一个或多个向量u1,u2,…,un，使得这些向量构成一个新的向量空间，然后把需要降维的样本映射到这个新的样本空间上。PCA特征提取就是将这些向量根据特征值大小进行从大到小的排序，提取前k个特征，组合成一个向量空间，从而降低特征维数。具体计算如下：

先计算样本的协方差矩阵

再对协方差矩阵进行特征值分解，得到特征值

及其对应的特征向量

,i=1,2,…,N，并按特征值大小顺序排列，选取前k个主要成分。

最后将样本投影到这k个主成分所组成的向量空间中。

对于PCA，确定k的取值，需要进一步分析每个主成分对信息的贡献率。

贡献率表示所保留的k个主成分在整个样本分类中所占的比重，当取前k个主成分来代替原来的全部变量时，累积贡献率的大小反应了这种取代的可靠性，累积贡献率越大，可靠性越大，反之越小。一般将累积贡献率设为90%。

假设原本特征维数为N×N，经过PCA降维后就变为N×K维。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： PCA 特征降维

相关文章推荐

新的分享

章节导航