一些距离及相似度计算公式
2017-11-15 18:16
375 查看
最近实习涉及到一些聚类算法,在聚类算法中,距离的度量及相关性有几种方式,简单整理下。
欧氏距离
即最常见的一种距离度量, A(x1, y1) 和 B(x2, y2)的距离为:
dis(A,B)=(x1−x2)2+(y1−y2)2−−−−−−−−−−−−−−−−−−−√
曼哈顿距离
即x与y分量上的距离:
dis(A,B)=|x1−x2|+|y1−y2|
余弦相似度(距离)
可用于衡量样本间的相似度
cosθ=x1x2+y1y2x21+y21√∗x22+y22√
皮尔逊相关系数
P(X,Y)=Cov(X,Y)D(X)√∗D(Y)√=∑ni=1(Xi−X¯¯)2∗(Yi−Y¯)2n−1D(X)√∗D(Y)√
其中Cov(X,Y) 为协方差矩阵
协方差反应了2个特征的协同程度,如果同时增大或小,协方差为正;
若一个增大一个减小,则为负值。绝对值的大小反应了2者的变化快慢。
相对于协方差,相关系数剔除了方差大小不一的影响。
马氏距离
D(X)=(x−u¯)T∗cov−1∗x−u¯−−−−−−−−−−−−−−−−−−−√
优点:马氏距离排除了变量之间的相关性干扰。
缺点:夸大了变化微笑的变量作用。
欧氏距离
即最常见的一种距离度量, A(x1, y1) 和 B(x2, y2)的距离为:
dis(A,B)=(x1−x2)2+(y1−y2)2−−−−−−−−−−−−−−−−−−−√
曼哈顿距离
即x与y分量上的距离:
dis(A,B)=|x1−x2|+|y1−y2|
余弦相似度(距离)
可用于衡量样本间的相似度
cosθ=x1x2+y1y2x21+y21√∗x22+y22√
皮尔逊相关系数
P(X,Y)=Cov(X,Y)D(X)√∗D(Y)√=∑ni=1(Xi−X¯¯)2∗(Yi−Y¯)2n−1D(X)√∗D(Y)√
其中Cov(X,Y) 为协方差矩阵
协方差反应了2个特征的协同程度,如果同时增大或小,协方差为正;
若一个增大一个减小,则为负值。绝对值的大小反应了2者的变化快慢。
相对于协方差,相关系数剔除了方差大小不一的影响。
马氏距离
D(X)=(x−u¯)T∗cov−1∗x−u¯−−−−−−−−−−−−−−−−−−−√
优点:马氏距离排除了变量之间的相关性干扰。
缺点:夸大了变化微笑的变量作用。
相关文章推荐
- 文本相似度计算的几个距离公式(欧氏距离、余弦相似度、Jaccard距离、编辑距离)
- HTML5 获取用户经纬度及距离计算公式
- Mahout中相似度距离计算方法总结
- 通过经纬度计算距离的公式 (2009-12-01 15:48)
- java文本相似度计算(Levenshtein Distance算法(中文翻译:编辑距离算法))----代码和详解
- 海量数据相似度计算之simhash和海明距离
- 海量数据相似度计算之simhash和海明距离
- 海量数据相似度计算之simhash和海明距离
- 海量数据相似度计算之simhash和海明距离
- 海量数据相似度计算之simhash和海明距离
- 初学hadoop之一:相似度计算(余弦距离)
- 地表两个点 的 距离计算公式
- 根据经纬度计算距离的公式
- Python----python实现机器学习中的各种距离计算及文本相似度算法
- 通过经纬度计算距离的公式
- 两个经纬度距离计算公式
- 计算字符串的相似度(编辑距离)
- 通过两点经纬度计算两点距离的公式
- 相似度(距离计算)汇总
- [高级教程] PS混合模式的一些计算公式(转)