您的位置：首页 > 其它

学习路线：入门机器学习基本概念之PCA 的数学原理和可视化效果

2018-03-09 10:17 603 查看

本文结构：什么是 PCA
数学原理
可视化效果

1. 什么是 PCA

PCA (principal component analysis, 主成分分析) 是机器学习中对数据进行降维的一种方法。
例如，我们有这样的交易数据，它有这几个特征：(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额)，从经验可知，“浏览量”和“访客数”，“下单数”和“成交数”之间会具有较强的相关关系。这种情况下，我们保留其中的两个维度就可以保证原有的信息完整。
但是当我们在做降维的时候，会丢失掉一部分信息。
例如, 下面 5 个数据，如果向 x 轴投影，那么左边的两个点会重叠在一起，中间的两个点也会重叠在一起，5 个点结果投影到 x 轴后就剩下 3 个点了，这是一种严重的信息丢失：

所以我们希望找到低维空间的方向上，原数据映射后的方差尽可能的大，也就是意味着数据点会尽量分散开来，这样可以保留更多的信息。
PCA 追求的是在降维之后能够最大化保持数据的内在信息，并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性，它是丢失原始数据信息最少的一种线性降维方式。
PCA的算法步骤：
设有 m 条 n 维数据。
1）将原始数据按列组成 n 行 m 列矩阵 X
2）将 X 的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值
3）求出协方差矩阵 C=1/mXX

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习 PCA 主成分分析入门学习路线

相关文章推荐

新的分享

章节导航