您的位置:首页 > 其它

样本间相似度/距离计算方法总结

2017-06-01 14:38 267 查看


闵可夫斯基距离

Minkowski距离,也成欧式距离,计算方法为:

dist(X,Y)=(∑ni=1|xi−yi|p)1p 

这是我们最常用的一种距离度量方式,俗称范数。 

当p = 2时就是我们常用的欧式距离。


Jaccard相似系数

J(A,B)=|A∩B||A∪B|


余弦相似度(consine similarity)

cos(θ)=XTY|X|⋅|Y|=∑ni=1XiYi∑ni=1X2i√∑ni=1Y2i√


Pearson相似系数

ρXY=cov(X,Y)σXσY=E[(X−μX)(Y−μY)]σXσY=∑ni=1(Xi−μX)(Yi−μY)∑ni=1(Xi−μX)2√∑ni=1(Yi−μY)2√


相对熵(K-L散度)

D(p||q)=∑ni=1p(x)logp(x)q(x)


Hellinger距离

Dα(p||q)=21−α2(1−∫p(x)1+α2q(x)1−α2dx)


余弦相似度 VS Pearson相关系数

可以看到,相关系数就是将x,y坐标向量平移到原点后的夹角余弦。 

所以说,在文档间求距离时可以使用夹角余弦,因为它表征了文档取均值化后的随机向量间的相关系数。

在实际的应用中,我们可以根据应用的不同选择合适的距离度量标准。

文章来源:http://blog.csdn.net/u010161630/article/details/51786229
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  算法 机器学习