您的位置:首页 > 其它

深度学习笔记:主成分分析(PCA)(1)——标准化、协方差、相关系数和协方差矩阵

2016-11-04 16:40 274 查看

深度学习笔记:主成分分析(PCA)(1)——标准化、协方差、相关系数和协方差矩阵

  笔者在学习主成分分析(PCA)的时候接触到了协方差矩阵的应用。这部分知识有些遗忘了,因此重新巩固一下,记录在此,希望能帮助到有需要的同学。

1. 概率论中的标准化、协方差、相关系数和协方差矩阵概念

1.1 随机变量的部分数字特征

  假设有二维随机向量(X,Y)

数字特征意义描述
E(X)数学期望反映X的平均值
D(X)方差反映X与平均值偏离的程度
Cov(X,Y)协方差等于E((X−E(X))(Y−E(Y))),若为0,则说明XY独立
ρ或ρXY相关系数(就是随机变量标准化后的协方差)等于Cov(X,Y)D(X)√D(Y)√

1.2 随机变量的标准化

1.2.1 为什么要对随机变量进行标准化处理

  随机变量的标准化,包含以下两点:

1. 将随机变量的分布中心E(X)移至原点,不使分布中心偏左或偏右

2. 缩小或扩大坐标轴,使分布不至于过疏或过密

在排除了这些干扰以后,随机变量X的一些性质就会显露出来,便于我们进行进一步的分析。

1.2 如何进行标准化处理

  令随机变量X均值为0,方差为1。令X∗和Y∗分别表示标准化后的X和Y,则

X∗=X−E(X)D(X)√,Y∗=Y−E(X)D(X)√

而标准化后的X∗和Y∗的协方差就是相关系数,用ρ或ρXY表示,即

Cov(X∗,Y∗)=Cov(X,Y)D(X)√D(Y)√=ρxy

1.3 相关系数的意义

  通过上一节中随机变量的标准化,我们引出了相关系数,那么两个随机变量的相关系数有什么意义呢?

  结论:相关系数是对于随机变量相关性的度量:

当相关系数ρ=1时,随机变量X和Y之间存在线性关系,且为正线性相关

当相关系数ρ=−1时,两者之间为负线性关系

|ρ|≤1,线性相关性随着|ρ|的减小而减小。当|ρ|=0时,两者之间就不存在线性关系了

注意:

当|ρ|=0,随机变量X和Y是不线性相关的,但不能代表两者相互独立,他们之间可能存在别的相关关系;但当X和Y相互独立时,它们的相关系数|ρ|=0。可以说,|ρ|=0是X和Y相互独立的必要不充分条件。

但是,当随机变量(X,Y)服从二维正态分布时,则X和Y不相关等价于两者相互独立

  笔者在这里仅给出结论,因为本文仅仅是笔者在应用到相关知识点时的复习,为了理清思路而做的记录,关于上述结论的证明,可以在任意一本概率论的书中找到。

1.4 协方差矩阵

  令(X1,X2,...,Xn)为n维随机向量(n≥2),记bij=Cov(Xi,Xj)=E((Xi−E(Xi))(Xj−E(Xj))),i,j=1,2,...,n,则矩阵

B=⎡⎣⎢⎢⎢⎢b11b21⋮bn1b12b22⋮bn2⋯⋯⋯b1nb2n⋮bnn⎤⎦⎥⎥⎥⎥

为(X1,⋯,Xn)的协方差矩阵。

2.数理统计中的协方差和协方差矩阵概念

  以上所说的是概率论中的协方差概念,但是我们在深度学习的实际运用中,通常是对已经获得的数据进行分析,因此类比概率论中的随机变量的数字特征,可以得到数理统计中的相关统计量,同时可以定义协方差和协方差矩阵

2.1数理统计中的统计量

  记(X1,X2,⋯,Xn)是来自总体X的样本,(x1,x2,⋯,xn)是样本观察值。

统计量意义描述
样本均值X¯=1n∑ni=1Xi
S2样本方差S2=1n−1∑ni=1(Xi−X¯)2
S样本标准差S=1n−1∑ni=1(Xi−X¯)2−−−−−−−−−−−−−−−−√

2.2样本协方差

  样本均值表征了样本分布的中间点;而样本标准差则是样本各个观察值到样本分布中间点的距离的平均值。样本均值和样本标准差均是用来描述一维数据的。

  但在生活中我们通常会用到多维数据,比如我们有两个总体X和Y,两者的样本分别是(X1,X2,⋯,Xn)和(Y1,Y2,⋯,Yn),样本观察值分别是(x1,x2,⋯,xn)和(y1,y2,⋯,yn),我们希望能够分析出这两个样本的相关性,因此需要定义样本之间的协方差。回忆一下样本方差的定义:

S2=1n−1∑ni=1(Xi−X¯)2

仿照样本方差定义,我们可以定义样本协方差:

Cov(X,Y)=1n−1∑ni=1(Xi−X¯)(Yi−Y¯)

2.3样本协方差矩阵

  同样地,我们可以定义数理统计中的协方差矩阵概念,但这里的协方差矩阵并不是描述两个总体之间相关性,而是用来描述样本各维度之间的相关性。

  比如我们有一个m维的总体X=(X1,X2,⋯,Xm)T,有样本{(X(1)1,X(1)2,⋯,X(1)m)T,(X(2)1,X(2)2⋯,X(2)m)T,⋯,(X(n)1,X(n)2⋯,X(n)m)T},观察值分别是{(x(1)1,x(1)2⋯,x(1)m)T,(x(2)1,x(2)2⋯,x(2)m)T,⋯,(x(n)1,x(n)2⋯,x(n)m)T},我们想研究这些样本各个维度之间的相关性,可以这样定义样本协方差矩阵:

记bij=Cov(Xi,Xj)=1n−1∑nk=1(X(k)i−Xi¯(k))(X(k)j−Xj¯(k))

则矩阵

B=⎡⎣⎢⎢⎢⎢b11b21⋮bn1b12b22⋮bn2⋯⋯⋯b1nb2n⋮bnn⎤⎦⎥⎥⎥⎥

为X的协方差矩阵

注意在计算样本协方差矩阵时,要牢记它是计算同一个样本不同维度之间的协方差,而不是计算不同样本之间的协方差,切记!

参考资料:

1. 武大版《概率论与数理统计》,齐民友主编。

2. 浅谈协方差矩阵
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息