数学(1) 均值,方差,标准差,协方差
2017-05-24 11:40
302 查看
The covariance between two jointly distributed real-valued random variables X and Y with finite second moments is defined as the expected product of their deviations from their individual expected values.
协方差,是用来度量两种随机变量之间关系的统计量。在数学中,描述一类数据的概念有均值,方差还有标准差,它们都是只在同一类数据中起到描述作用。但是对于不同类的数据呢?比方说我每天在食物上的花销和我的学习成绩是否有关系?是正相关(吃得越好成绩越好),负相关(吃得越好成绩越差)还是彼此独立(吃什么和成绩无关)?
均值:X⎯⎯⎯=∑i=1nxin
方差:D=∑i=1n(xi−x⎯)2n−1=E(X−E(X))2,E(X)是期望
标准差:S=D‾‾√=∑i=1n(xi−x⎯)2n−1‾‾‾‾‾‾‾‾‾√
均值反映的是数据的集中趋势,标准差反映的是数据分布的离散程度,方差反映数据与其期望的偏离程度。
注:有人说标准差和方差的计算除以n-1的原因是这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。还有人指出,如果我们是对总体的计算,那么用n。如果是对样本的计算那么用n-1,这是对总体的无偏估计。至于什么是无偏估计,因为我们计算的是样本集的均值,也就是说对于同一个总体来说,我们每次抽取的样本集不一样,那么得到的均值也都不一样。则均值本身也是一个随机变量,会服从某种分布,而这个分布的期望就是总体的均值。所以当我们抽取样本集算出的均值们越多,其期望会越逼近总体均值,这叫无偏。而我们每次根据样本集算出的均值其本身是个随机变量,所以得出的结果叫做估计。
而协方差的定义就是cov(X,Y)=∑i=1n(xi−x⎯)(yi−y⎯)n−1,这样理解的就是描述两个样本之间每一维度的离散程度。所以这两个样本集的维度一定要相同。
从这个角度来理解,协方差不是衡量样本与样本之间的关系,而是属性与属性之间的关系。如果我们有一百个样本,每个样本的属性有两个:“性别”“身高”,那么协方差衡量的是性别与身高之间的 相关性,而不是通过性别和身高来衡量样本与样本之间的关系。这点要搞清楚。
从协方差的定义我们可以看出,方差其实就是cov(X,X)
协方差矩阵:Cn∗n=(cov(Di,Dj)),Di表示第i列,即第i个属性
Cn∗n=⎛⎝⎜⎜⎜⎜cov(D1,D1)cov(D2,D1)⋮cov(Dn,D1)cov(D1,D2)cov(D2,D2)⋮cov(Dn,D2)⋯⋯⋱⋯cov(D1,Dn)cov(D2,Dn)⋮cov(Dn,Dn)⎞⎠⎟⎟⎟⎟
其中对角线上是每个属性的方差,cov(X,Y)=cov(Y,X)
cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY−XE[Y]−YE[X]+E[X]E[Y]]=E[XY]−E[XE[Y]]−E[YE[X]]+E[E[X]E[Y]]=E[XY]−E[X]E[Y]−E[X]E[Y]+E[X]E[Y]=E[XY]−E[X]E[Y]
反正记住一点,协方差矩阵的维度数与样本的维度数(即属性数)相同,与样本数本身是无关的。
协方差,是用来度量两种随机变量之间关系的统计量。在数学中,描述一类数据的概念有均值,方差还有标准差,它们都是只在同一类数据中起到描述作用。但是对于不同类的数据呢?比方说我每天在食物上的花销和我的学习成绩是否有关系?是正相关(吃得越好成绩越好),负相关(吃得越好成绩越差)还是彼此独立(吃什么和成绩无关)?
均值,方差,标准差
X=(x1,x2,...,xn)均值:X⎯⎯⎯=∑i=1nxin
方差:D=∑i=1n(xi−x⎯)2n−1=E(X−E(X))2,E(X)是期望
标准差:S=D‾‾√=∑i=1n(xi−x⎯)2n−1‾‾‾‾‾‾‾‾‾√
均值反映的是数据的集中趋势,标准差反映的是数据分布的离散程度,方差反映数据与其期望的偏离程度。
注:有人说标准差和方差的计算除以n-1的原因是这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。还有人指出,如果我们是对总体的计算,那么用n。如果是对样本的计算那么用n-1,这是对总体的无偏估计。至于什么是无偏估计,因为我们计算的是样本集的均值,也就是说对于同一个总体来说,我们每次抽取的样本集不一样,那么得到的均值也都不一样。则均值本身也是一个随机变量,会服从某种分布,而这个分布的期望就是总体的均值。所以当我们抽取样本集算出的均值们越多,其期望会越逼近总体均值,这叫无偏。而我们每次根据样本集算出的均值其本身是个随机变量,所以得出的结果叫做估计。
方差与协方差的关系
方差的公式是D=∑i=1n(xi−x⎯)2n−1=∑i=1n(xi−x⎯)(xi−x⎯)n−1,描述的是样本集每一维度与均值的离散程度。而协方差的定义就是cov(X,Y)=∑i=1n(xi−x⎯)(yi−y⎯)n−1,这样理解的就是描述两个样本之间每一维度的离散程度。所以这两个样本集的维度一定要相同。
从这个角度来理解,协方差不是衡量样本与样本之间的关系,而是属性与属性之间的关系。如果我们有一百个样本,每个样本的属性有两个:“性别”“身高”,那么协方差衡量的是性别与身高之间的 相关性,而不是通过性别和身高来衡量样本与样本之间的关系。这点要搞清楚。
从协方差的定义我们可以看出,方差其实就是cov(X,X)
协方差矩阵
协方差是处理二维问题的,那么当一个样本有更高维度(有更多的属性)的时候,那怎么办呢?可以用协方差来两两计算这些属性之间的关系。假设一个样本集(m*n,m是样本个数,n是属性维度),需要计算的协方差数量就是n(n−1)2个。所以用n阶方阵的方式来表示。协方差矩阵:Cn∗n=(cov(Di,Dj)),Di表示第i列,即第i个属性
Cn∗n=⎛⎝⎜⎜⎜⎜cov(D1,D1)cov(D2,D1)⋮cov(Dn,D1)cov(D1,D2)cov(D2,D2)⋮cov(Dn,D2)⋯⋯⋱⋯cov(D1,Dn)cov(D2,Dn)⋮cov(Dn,Dn)⎞⎠⎟⎟⎟⎟
其中对角线上是每个属性的方差,cov(X,Y)=cov(Y,X)
如何计算协方差矩阵
上面应该说的很清楚了,就不实际举例子了。补充一下公式cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY−XE[Y]−YE[X]+E[X]E[Y]]=E[XY]−E[XE[Y]]−E[YE[X]]+E[E[X]E[Y]]=E[XY]−E[X]E[Y]−E[X]E[Y]+E[X]E[Y]=E[XY]−E[X]E[Y]
反正记住一点,协方差矩阵的维度数与样本的维度数(即属性数)相同,与样本数本身是无关的。
相关文章推荐
- 均值、方差、标准差、协方差、协方差矩阵
- matlab 计算均值,方差,标准差
- 浅谈均值、方差、标准差、协方差的概念及意义
- 均值、方差、标准差及协方差、协方差矩阵详解
- 统计学概念基础---数学期望,方差,标准差,协方差,自协方差,自相关
- 统计学基础之:均值-中位数-众数-极差-中程数-方差-标准差-变异系数
- 统计学概念基础---数学期望,方差,标准差,协方差
- 概率论中均值、方差、标准差介绍及C++/OpenCV/Eigen的三种实现
- 随机变量的数学特征:均值、方差、协方差、相关系数
- 【matlab】均值、标准差、方差、协方差、中值的求解
- 统计学概念基础---数学期望,方差,标准差,协方差
- 均值-中位数-众数-极差-中程数-方差-标准差-变异系数
- Excel在统计分析中的应用—第八章—假设检验-方差未知且小样本下总体均值的单侧检验
- Excel在统计分析中的应用—第八章—假设检验-总体方差未知且为小样本下的均值之差检验
- 如何生成指定均值和协方差矩阵的二维高斯分布数据
- 方差,协方差,标准差和均值标准差等各种差
- 机器学习中的数学(2)-线性回归,偏差、方差权衡
- 无穷小微积分符合新版高中数学课程标准的合法依据
- 方差、标准差、均方误差的总结