您的位置：首页 > 其它

数据分析中的降维方法-PCA

2017-05-09 14:21 381 查看

1.数据的向量表示及降维问题

一般情况下，在数据挖掘和机器学习中，数据被表示为向量，例如

(500,240,25,13,2312.15)T
这里用了转置，因为习惯上使用列向量表示一条记录

很多机器学习算法的复杂度和数据的维数有着密切关系，甚至与维数呈指数级关联。实际机器学习中处理成千上万甚至几十万维的情况也并不罕见，在这种情况下，机器学习的资源消耗是不可接受的，因此我们必须对数据进行降维
降维当然意味着信息的丢失，不过鉴于实际数据本身常常存在的相关性，我们可以想办法在降维的同时将信息的损失尽量降低。

2.向量的表示及基变换

既然我们面对的数据被抽象为一组向量，那么下面有必要研究一些向量的数学性质。而这些数学性质将成为后续导出PCA的理论基础。

3.如何理解主成份分析这三个字

比如，原来的样本是30*1000000的维数，就是说我们有30个样本，每个样本有1000000个特征点，这个特征点太多了，我们需要对这些样本的特征点进行降维。那么在降维的时候会计算一个原来样本矩阵的协方差矩阵，这里就是1000000*1000000，然后通过这个1000000*1000000的协方差矩阵计算它的特征值和特征向量，最后获得具有最大特征值的特征向量构成转换矩阵。比如我们的前29个特征值已经能够占到所有特征值的99%以上，那么我们只需要提取前29个特征值对应的特征向量即可。这样就构成了一个1000000*29的转换矩阵，然后用原来的样本乘以这个转换矩阵，就可以得到原来的样本数据在新的特征空间的对应的坐标。30*1000000
* 1000000*29 = 30 *29，这样原来的训练样本每个样本的特征值的个数就降到了29个

这里的99%前的29维向量，就是原数据集的"主成份"

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航