您的位置:首页 > 其它

3分钟tips:协方差和相关系数的异同

2018-03-20 23:07 357 查看
我们在刻画这个世界之间的各种关系的时候,常常会希望度量“距离”:
对于空间中的两个点,我们可以用勾股定理定义平方和作为距离;

对于两个二进制序列,或者两段基因序列,我们可以用汉明距离来度量二者之间的差异,作为“距离”;

那么假如对于两个复杂的量(描述这两个量可能用很多很多的参数),那么这时候怎样度量二者之间的“相关性”呢?

按照真正的逻辑顺序来讲,应该是这样讲的:
把所有的这些复杂的参数排成一列,就拍成了一个向量,很多很多的这样的向量构成了一个向量空间。向量空间里面的东西没有“距离”这样的概念,对于一个向量空间里面的向量,甚至没有“长度”这样的概念,因为向量空间只是一个代数结构,没有度量或者拓扑的概念在其中,那这时候怎样度量向量的长度来呢?接下来,又怎样来确定两个向量之间的“距离”呢?
有两个向量,我们希望定义它们是不是相关。一个很自然的想法,用向量与向量的夹角来作为距离的定义,夹角小,就距离小,夹角大,就距离大。

但是怎样来计算夹角呢?为了让这种计算可行,我们要选一种恰当的三角函数来算。

正弦函数的不太好的一个原因是因为加上个90°,正弦算出来得到的结果一样,而两个向量的夹角是30°还是120°这是完全的两码事,此外,正弦函数也不适合推广到高维度向量的计算中的“两两比较”。

那么考虑用余弦吧,这个可以很方便地区分30°和120°,而且还有一个好处——余弦的计算非常简单,用内积就可以计算了,中学数学中就学过: (x1,y1)・(x2,y2)=x1x2+y1y2,这就是内积,你要是喜欢,也可以把这个叫做“协方差”。

但是这个内积的定义很奇怪哎?要是两个向量本身就长,那这个也算不出夹角来,所以再要除以两个向量本身的长度,即,夹角:cos <a, b> =(ab)/|a||b|;
这样,那么两个量是不是相关,怎么来判断?就用余弦的大小就可以了,我们把两个向量的夹角的余弦,就叫做“相关系数”,正如上面的式子所指出的,写开了就是:&amp;lt;img src="https://pic1.zhimg.com/50/e50b64d72a1f2e31e0bc35ede0664414_hd.jpg" data-rawwidth="326" data-rawheight="59" class="content_image" width="326"&amp;gt;


分子上面的就是一个内积的计算,也就是前面我说的“协方差”,分子下面是两个勾股定理乘起来,是两个向量的长度。如果两个向量平行,则它们夹角的余弦(也就是“相关系数”)就等于1或者-1,同向的时候是1,反向的时候就是-1。如果两个向量垂直,则夹角的余弦就等于0,说明二者不相关。
二者表示变量间的共变(相关)程度,协方差是变量x的离均差乘以y的离均差再求平均得到的统计量,虽然它可以表示x和y的共变程度,但x和y的单位可能不同,这样直接将二者的离均差相乘得到的结果可能偏差很大,因此有必要统一单位,即消去x和y的单位,做法就是给协方差再分别处以x、y各自的标准差,这样得到的统计量就是相关系数
由于相关系数是协方差除以两变量标准差得到的,因此相关系数是一个标准化的变量,而协方差是未标准化变量。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: