学习路线:入门机器学习基本概念之PCA 的数学原理和可视化效果
2018-03-09 10:17
603 查看
本文结构:什么是 PCA
数学原理
可视化效果
例如,我们有这样的交易数据,它有这几个特征:(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额),从经验可知,“浏览量”和“访客数”,“下单数”和“成交数”之间会具有较强的相关关系。这种情况下,我们保留其中的两个维度就可以保证原有的信息完整。
但是当我们在做降维的时候,会丢失掉一部分信息。
例如, 下面 5 个数据,如果向 x 轴投影,那么左边的两个点会重叠在一起,中间的两个点也会重叠在一起,5 个点结果投影到 x 轴后就剩下 3 个点了,这是一种严重的信息丢失:
所以我们希望找到低维空间的方向上,原数据映射后的方差尽可能的大,也就是意味着数据点会尽量分散开来,这样可以保留更多的信息。
PCA 追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性,它是丢失原始数据信息最少的一种线性降维方式。
PCA的算法步骤:
设有 m 条 n 维数据。
1)将原始数据按列组成 n 行 m 列矩阵 X
2)将 X 的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3)求出协方差矩阵 C=1/mXX
数学原理
可视化效果
1. 什么是 PCA
PCA (principal component analysis, 主成分分析) 是机器学习中对数据进行降维的一种方法。例如,我们有这样的交易数据,它有这几个特征:(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额),从经验可知,“浏览量”和“访客数”,“下单数”和“成交数”之间会具有较强的相关关系。这种情况下,我们保留其中的两个维度就可以保证原有的信息完整。
但是当我们在做降维的时候,会丢失掉一部分信息。
例如, 下面 5 个数据,如果向 x 轴投影,那么左边的两个点会重叠在一起,中间的两个点也会重叠在一起,5 个点结果投影到 x 轴后就剩下 3 个点了,这是一种严重的信息丢失:
所以我们希望找到低维空间的方向上,原数据映射后的方差尽可能的大,也就是意味着数据点会尽量分散开来,这样可以保留更多的信息。
PCA 追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性,它是丢失原始数据信息最少的一种线性降维方式。
PCA的算法步骤:
设有 m 条 n 维数据。
1)将原始数据按列组成 n 行 m 列矩阵 X
2)将 X 的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3)求出协方差矩阵 C=1/mXX
相关文章推荐
- 学习路线:入门机器学习基本概念之简述极大似然估计
- 【机器学习笔记之七】PCA 的数学原理和可视化效果
- 学习路线:入门机器学习基本概念之机器学习中常用评估指标汇总
- 学习路线:入门机器学习基本概念之凸优化有什么用
- PCA 的数学原理和可视化效果
- C++入门学习笔记(一)--面向对象基本概念
- 竞争学习的基本概念和原理
- Hadoop学习笔记-大数据开发 入门 初学者 基本概念
- HOOPS 3D可视化入门教程三:基本概念和数据结构
- Oracle RAC学习笔记:基本概念及入门 02
- 【备忘】冲击年薪50万之从数学基础python机器学习到深度学习算法学习路线视频教程 共321G
- 持续集成学习笔记-入门篇(1)持续集成基本概念
- JavaScript入门学习笔记(1)—— 基本概念
- Oracle RAC学习笔记:基本概念及入门 01
- android入门学习一 基本概念
- 【备忘】冲击年薪50万之从数学基础python机器学习到深度学习算法学习路线视频教程
- 机器学习基本数学概念速查
- Jquery选择器的概念以及选择器的学习一(基本、层级、简单,另有简单动画效果代码)
- [机器学习入门] 深度学习简介,GPU计算的原理,分布式机器学习原理
- Oracle RAC学习笔记:基本概念及入门 03