样本间距离计算方法总结
2016-06-29 21:56
288 查看
样本间相似度/距离计算方法总结
标签(空格分隔): 机器学习闵可夫斯基距离
Minkowski距离,也成欧式距离,计算方法为:dist(X,Y)=(∑ni=1|xi−yi|p)1p
这是我们最常用的一种距离度量方式,俗称范数。
当p = 2时就是我们常用的欧式距离。
Jaccard相似系数
J(A,B)=|A∩B||A∪B|余弦相似度(consine similarity)
cos(θ)=XTY|X|·|Y|=∑ni=1XiYi∑ni=1X2i√∑ni=1Y2i√Pearson相似系数
ρXY=cov(X,Y)σXσY=E[(X−μX)(Y−μY)]σXσY=∑ni=1(Xi−μX)(Yi−μY)∑ni=1(Xi−μX)2√∑ni=1(Yi−μY)2√相对熵(K-L散度)
D(p||q)=∑ni=1p(x)logp(x)q(x)Hellinger距离
Dα(p||q)=21−α2(1−∫p(x)1+α2q(x)1−α2dx)余弦相似度 VS Pearson相关系数
可以看到,相关系数就是将x,y坐标向量平移到原点后的夹角余弦。所以说,在文档间求距离时可以使用夹角余弦,因为它表征了文档取均值化后的随机向量间的相关系数。
在实际的应用中,我们可以根据应用的不同选择合适的距离度量标准。
相关文章推荐
- 用Python从零实现贝叶斯分类器的机器学习的教程
- My Machine Learning
- 机器学习---学习首页 3ff0
- Spark机器学习(一) -- Machine Learning Library (MLlib)
- 反向传播(Backpropagation)算法的数学原理
- 关于SVM的那点破事
- 也谈 机器学习到底有没有用 ?
- TensorFlow人工智能引擎入门教程之九 RNN/LSTM循环神经网络长短期记忆网络使用
- TensorFlow人工智能引擎入门教程之十 最强网络 RSNN深度残差网络 平均准确率96-99%
- TensorFlow人工智能引擎入门教程所有目录
- 如何用70行代码实现深度神经网络算法
- 量子计算机编程原理简介 和 机器学习
- 近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)
- 已经证实提高机器学习模型准确率的八大方法
- 初识机器学习算法有哪些?
- 机器学习相关的库和工具
- 10个关于人工智能和机器学习的有趣开源项目
- 机器学习实践中应避免的7种常见错误
- 机器学习常见的算法面试题总结
- 不平衡数据处理技术——RUSBoost