您的位置:首页 > 其它

PCA学习笔记

2014-09-25 11:11 169 查看
1.基本思想

PCA方法是从一组特征中通过求解最优的正交变换,得到一组相互间方差最大的新特征,它们是原始特征的线性组合,且相互之间是不相关的,再对新特征进行重要性排序,选取前几个主成分。

2.具体过程

首先,定义样本和特征,假定有m个样本,每个样本有n个特征,可表示如下:



降维过程其实就是寻找一个或多个向量u1,u2,…,un,使得这些向量构成一个新的向量空间,然后把需要降维的样本映射到这个新的样本空间上。PCA特征提取就是将这些向量根据特征值大小进行从大到小的排序,提取前k个特征,组合成一个向量空间,从而降低特征维数。具体计算如下:

先计算样本的协方差矩阵



再对协方差矩阵进行特征值分解,得到特征值

及其对应的特征向量

,i=1,2,…,N,并按特征值大小顺序排列,选取前k个主要成分。

最后将样本投影到这k个主成分所组成的向量空间中。

对于PCA,确定k的取值,需要进一步分析每个主成分对信息的贡献率。



贡献率表示所保留的k个主成分在整个样本分类中所占的比重,当取前k个主成分来代替原来的全部变量时,累积贡献率的大小反应了这种取代的可靠性,累积贡献率越大,可靠性越大,反之越小。一般将累积贡献率设为90%。

假设原本特征维数为N×N,经过PCA降维后就变为N×K维。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  PCA 特征降维