您的位置:首页 > 其它

数学(1) 均值,方差,标准差,协方差

2017-05-24 11:40 302 查看
The covariance between two jointly distributed real-valued random variables X and Y with finite second moments is defined as the expected product of their deviations from their individual expected values.

协方差,是用来度量两种随机变量之间关系的统计量。在数学中,描述一类数据的概念有均值,方差还有标准差,它们都是只在同一类数据中起到描述作用。但是对于不同类的数据呢?比方说我每天在食物上的花销和我的学习成绩是否有关系?是正相关(吃得越好成绩越好),负相关(吃得越好成绩越差)还是彼此独立(吃什么和成绩无关)?

均值,方差,标准差

X=(x1,x2,...,xn)

均值:X⎯⎯⎯=∑i=1nxin

方差:D=∑i=1n(xi−x⎯)2n−1=E(X−E(X))2,E(X)是期望

标准差:S=D‾‾√=∑i=1n(xi−x⎯)2n−1‾‾‾‾‾‾‾‾‾√

均值反映的是数据的集中趋势,标准差反映的是数据分布的离散程度,方差反映数据与其期望的偏离程度。

注:有人说标准差和方差的计算除以n-1的原因是这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。还有人指出,如果我们是对总体的计算,那么用n。如果是对样本的计算那么用n-1,这是对总体的无偏估计。至于什么是无偏估计,因为我们计算的是样本集的均值,也就是说对于同一个总体来说,我们每次抽取的样本集不一样,那么得到的均值也都不一样。则均值本身也是一个随机变量,会服从某种分布,而这个分布的期望就是总体的均值。所以当我们抽取样本集算出的均值们越多,其期望会越逼近总体均值,这叫无偏。而我们每次根据样本集算出的均值其本身是个随机变量,所以得出的结果叫做估计

方差与协方差的关系

方差的公式是D=∑i=1n(xi−x⎯)2n−1=∑i=1n(xi−x⎯)(xi−x⎯)n−1,描述的是样本集每一维度与均值的离散程度。

而协方差的定义就是cov(X,Y)=∑i=1n(xi−x⎯)(yi−y⎯)n−1,这样理解的就是描述两个样本之间每一维度的离散程度。所以这两个样本集的维度一定要相同。

从这个角度来理解,协方差不是衡量样本与样本之间的关系,而是属性与属性之间的关系。如果我们有一百个样本,每个样本的属性有两个:“性别”“身高”,那么协方差衡量的是性别与身高之间的 相关性,而不是通过性别和身高来衡量样本与样本之间的关系。这点要搞清楚。

从协方差的定义我们可以看出,方差其实就是cov(X,X)

协方差矩阵

协方差是处理二维问题的,那么当一个样本有更高维度(有更多的属性)的时候,那怎么办呢?可以用协方差来两两计算这些属性之间的关系。假设一个样本集(m*n,m是样本个数,n是属性维度),需要计算的协方差数量就是n(n−1)2个。所以用n阶方阵的方式来表示。

协方差矩阵:Cn∗n=(cov(Di,Dj)),Di表示第i列,即第i个属性

Cn∗n=⎛⎝⎜⎜⎜⎜cov(D1,D1)cov(D2,D1)⋮cov(Dn,D1)cov(D1,D2)cov(D2,D2)⋮cov(Dn,D2)⋯⋯⋱⋯cov(D1,Dn)cov(D2,Dn)⋮cov(Dn,Dn)⎞⎠⎟⎟⎟⎟

其中对角线上是每个属性的方差,cov(X,Y)=cov(Y,X)

如何计算协方差矩阵

上面应该说的很清楚了,就不实际举例子了。补充一下公式

cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY−XE[Y]−YE[X]+E[X]E[Y]]=E[XY]−E[XE[Y]]−E[YE[X]]+E[E[X]E[Y]]=E[XY]−E[X]E[Y]−E[X]E[Y]+E[X]E[Y]=E[XY]−E[X]E[Y]

反正记住一点,协方差矩阵的维度数与样本的维度数(即属性数)相同,与样本数本身是无关的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  数学