您的位置：首页 > 其它

数学(1) 均值，方差，标准差，协方差

2017-05-24 11:40 302 查看

The covariance between two jointly distributed real-valued random variables X and Y with finite second moments is defined as the expected product of their deviations from their individual expected values.

协方差，是用来度量两种随机变量之间关系的统计量。在数学中，描述一类数据的概念有均值，方差还有标准差，它们都是只在同一类数据中起到描述作用。但是对于不同类的数据呢？比方说我每天在食物上的花销和我的学习成绩是否有关系？是正相关（吃得越好成绩越好），负相关（吃得越好成绩越差）还是彼此独立（吃什么和成绩无关）？

均值，方差，标准差

X=(x1,x2,...,xn)

均值：X⎯⎯⎯=∑i=1nxin

方差：D=∑i=1n(xi−x⎯)2n−1=E(X−E(X))2,E(X)是期望

标准差：S=D‾‾√=∑i=1n(xi−x⎯)2n−1‾‾‾‾‾‾‾‾‾√

均值反映的是数据的集中趋势，标准差反映的是数据分布的离散程度，方差反映数据与其期望的偏离程度。

注：有人说标准差和方差的计算除以n-1的原因是这样能使我们以较小的样本集更好地逼近总体的标准差，即统计上所谓的“无偏估计”。还有人指出，如果我们是对总体的计算，那么用n。如果是对样本的计算那么用n-1，这是对总体的无偏估计。至于什么是无偏估计，因为我们计算的是样本集的均值，也就是说对于同一个总体来说，我们每次抽取的样本集不一样，那么得到的均值也都不一样。则均值本身也是一个随机变量，会服从某种分布，而这个分布的期望就是总体的均值。所以当我们抽取样本集算出的均值们越多，其期望会越逼近总体均值，这叫无偏。而我们每次根据样本集算出的均值其本身是个随机变量，所以得出的结果叫做估计。

方差与协方差的关系

方差的公式是D=∑i=1n(xi−x⎯)2n−1=∑i=1n(xi−x⎯)(xi−x⎯)n−1，描述的是样本集每一维度与均值的离散程度。

而协方差的定义就是cov(X,Y)=∑i=1n(xi−x⎯)(yi−y⎯)n−1，这样理解的就是描述两个样本之间每一维度的离散程度。所以这两个样本集的维度一定要相同。

从这个角度来理解，协方差不是衡量样本与样本之间的关系，而是属性与属性之间的关系。如果我们有一百个样本，每个样本的属性有两个：“性别”“身高”，那么协方差衡量的是性别与身高之间的相关性，而不是通过性别和身高来衡量样本与样本之间的关系。这点要搞清楚。

从协方差的定义我们可以看出，方差其实就是cov(X,X)

协方差矩阵

协方差是处理二维问题的，那么当一个样本有更高维度（有更多的属性）的时候，那怎么办呢？可以用协方差来两两计算这些属性之间的关系。假设一个样本集（m*n，m是样本个数，n是属性维度），需要计算的协方差数量就是n(n−1)2个。所以用n阶方阵的方式来表示。

协方差矩阵：Cn∗n=(cov(Di,Dj)),Di表示第i列，即第i个属性

Cn∗n=⎛⎝⎜⎜⎜⎜cov(D1,D1)cov(D2,D1)⋮cov(Dn,D1)cov(D1,D2)cov(D2,D2)⋮cov(Dn,D2)⋯⋯⋱⋯cov(D1,Dn)cov(D2,Dn)⋮cov(Dn,Dn)⎞⎠⎟⎟⎟⎟

其中对角线上是每个属性的方差，cov(X,Y)=cov(Y,X)

如何计算协方差矩阵

上面应该说的很清楚了，就不实际举例子了。补充一下公式

cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY−XE[Y]−YE[X]+E[X]E[Y]]=E[XY]−E[XE[Y]]−E[YE[X]]+E[E[X]E[Y]]=E[XY]−E[X]E[Y]−E[X]E[Y]+E[X]E[Y]=E[XY]−E[X]E[Y]

反正记住一点，协方差矩阵的维度数与样本的维度数（即属性数）相同，与样本数本身是无关的。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 数学

相关文章推荐

新的分享

章节导航