样本间相似度/距离计算方法总结
2017-06-01 14:38
267 查看
闵可夫斯基距离
Minkowski距离,也成欧式距离,计算方法为:dist(X,Y)=(∑ni=1|xi−yi|p)1p
这是我们最常用的一种距离度量方式,俗称范数。
当p = 2时就是我们常用的欧式距离。
Jaccard相似系数
J(A,B)=|A∩B||A∪B|
余弦相似度(consine similarity)
cos(θ)=XTY|X|⋅|Y|=∑ni=1XiYi∑ni=1X2i√∑ni=1Y2i√
Pearson相似系数
ρXY=cov(X,Y)σXσY=E[(X−μX)(Y−μY)]σXσY=∑ni=1(Xi−μX)(Yi−μY)∑ni=1(Xi−μX)2√∑ni=1(Yi−μY)2√
相对熵(K-L散度)
D(p||q)=∑ni=1p(x)logp(x)q(x)
Hellinger距离
Dα(p||q)=21−α2(1−∫p(x)1+α2q(x)1−α2dx)
余弦相似度 VS Pearson相关系数
可以看到,相关系数就是将x,y坐标向量平移到原点后的夹角余弦。 所以说,在文档间求距离时可以使用夹角余弦,因为它表征了文档取均值化后的随机向量间的相关系数。
在实际的应用中,我们可以根据应用的不同选择合适的距离度量标准。
文章来源:http://blog.csdn.net/u010161630/article/details/51786229
相关文章推荐
- 样本间相似度/距离的计算方法总结
- Mahout中相似度距离计算方法总结
- 样本间距离计算方法总结
- 一种计算两个不同样本集相似度的方法:Mahalanobis距离
- 推荐系统中的相似度计算方法总结及实现代码(python)
- 特征向量相似度和距离计算方法
- 计算距离方法总结
- 距离和相似度计算总结
- 相似度计算方法总结
- 词语相似度计算方法总结
- 推荐系统中的相似度计算方法总结
- 距离计算方法总结
- 数据点间的相似度-距离计算方法
- 常见的距离算法和相似度(相关系数)计算方法
- java计算两点间的距离方法总结
- 【转载】机器学习计算距离和相似度的方法
- 常见的距离算法和相似度(相关系数)计算方法
- 样本间的距离或者相似度度量方法
- 比较字符串总结:如果计算两个字符串的相似度或者距离
- 距离计算方法总结