主成分分析(PCA)的数学原理理解
2017-09-05 22:18
441 查看
以前草草地看过主成分分析的原理,一直没能好好从根上过一遍PCA的数学原理,最近抽空推了一遍PCA,这里把其原理具体说一说,本文尽量不涉及数学公式推导,尽量引导读者轻松的、感性地理解PCA的原理。
通过主成分分析进行数据降维,其过程分为两个部分:
第一步:解耦
多个特征之间存在相关关系,即特征之间存在耦合,需要先进行解耦,才能在后续的降维过程中”无伤”地减少维度。打个比方,当两个在一起的物体相互纠缠、存在纠葛,此时如想去除其中一个物体而不影响到另外一个,几乎无法实现在,要想“无伤”地去掉其中一个物体,必须先解除它们之间的纠葛。在PCA中也是如此,两个高度相关、互相耦合的的特征维度, 只有先对其进行解耦,使之转化为两个不相关的两个特征维度,才能自如地去掉其中一个维度实现特征降维。
解耦的具体过程如下:
对特征向量组成的矩阵X进行线性变换,通过左乘一个变换阵P使得其X*(X’)的结果为对角矩阵。这个线性变换使得变换后的各个维度的特征彼此互不相关,在数学上的体现则是任意两两维度的样本点分布的协方差为0,而矩阵对角线上的数值则是经过线性变换后,新的特征空间各个维度样本分布的方差。
第二部:去除最不能反映内部规律的特征,保留最能反映内部规律的特征
最能反映样本内部规律,对应在数学上即是单个特征内的各个样本的分布的方差尽可能大,我们知道,方差越大的分布就说明该项指标的各个样本分布约分散,是规律性的体现,便于分类。反之则越集约,越难分类。
经过解耦操作后,特征空间经过线性变换,
主成分分析的总体思路
主成分分析的总体思路是找出若干维度的特征中最具代表性的几个特征。这里的“最具代表性“即指最能表征所有样本的独特性的、最具区分度的特征,即特征内样本点的方差尽可能大。通过主成分分析进行数据降维,其过程分为两个部分:
第一步:解耦
多个特征之间存在相关关系,即特征之间存在耦合,需要先进行解耦,才能在后续的降维过程中”无伤”地减少维度。打个比方,当两个在一起的物体相互纠缠、存在纠葛,此时如想去除其中一个物体而不影响到另外一个,几乎无法实现在,要想“无伤”地去掉其中一个物体,必须先解除它们之间的纠葛。在PCA中也是如此,两个高度相关、互相耦合的的特征维度, 只有先对其进行解耦,使之转化为两个不相关的两个特征维度,才能自如地去掉其中一个维度实现特征降维。
解耦的具体过程如下:
对特征向量组成的矩阵X进行线性变换,通过左乘一个变换阵P使得其X*(X’)的结果为对角矩阵。这个线性变换使得变换后的各个维度的特征彼此互不相关,在数学上的体现则是任意两两维度的样本点分布的协方差为0,而矩阵对角线上的数值则是经过线性变换后,新的特征空间各个维度样本分布的方差。
第二部:去除最不能反映内部规律的特征,保留最能反映内部规律的特征
最能反映样本内部规律,对应在数学上即是单个特征内的各个样本的分布的方差尽可能大,我们知道,方差越大的分布就说明该项指标的各个样本分布约分散,是规律性的体现,便于分类。反之则越集约,越难分类。
经过解耦操作后,特征空间经过线性变换,
相关文章推荐
- 主成分分析PCA的数学原理
- 主成分分析(PCA)的数学原理与应用
- 主成分分析(PCA)原理详解 2016/12/17 · IT技术 · 主成分分析, 数学 分享到: 21 原文出处: 中科春哥 一、PCA简介 1. 相关背景 主成分分析(Principa
- PCA(主成分分析)的数学原理
- PCA(Principal Component Analysis)主成分分析数学原理
- 数学建模|主成分分析原理(PCA)
- 主成分分析(PCA)原理详解
- 数学建模算法 一 简述(4)主成分分析(PCA)
- 主成分分析(PCA)原理详解
- 主成成分分析pca算法 原理解析
- 机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)
- 主成分分析(PCA)原理详解
- 机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)
- 主成分分析(PCA)和局部线性嵌入(LEE)原理详解
- 机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)
- 机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)
- 机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)
- 主成分分析(PCA)原理详解
- PCA的本质分析(泛数学原理)
- 机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)