数据挖掘和机器学习中距离和相似度公式
2017-07-26 19:04
211 查看
距离:闵可夫斯基距离公式,也叫 Lp 范数:
当p=1时,变为曼哈顿距离公式,也即 L1范数:
当p=2时,变为欧式距离公式,也即 L2范数:
衡量空间中点的绝对距离,对绝对数值敏感。
相似性:
余弦相似:
皮尔逊相关系数,即相关分析中的相关系数,对两个个体的向量基于总体标准化后计算向量夹角的余弦值,与余弦相似相比,具有平移不变性和尺度不变性,例如,在推荐系统中根据某一用户历史评分行为查找喜好相似的用户,优点是可以不受每个用户评分标准不同和观看影片数量不一样的影响,具体公式如下:
Jaccard相似系数,主要用于计算符号度量或者布尔度量的对象之间的相似度,因为符号度量或者布尔度量只能看出向量各维度值是否相同,只关心个体间的各维度值是否一致这个问题:
余弦相似度和欧式距离的区别:
欧式距离衡量的是空间中A点到B点的绝对距离,对A点和B点的位置(即绝对数值)敏感,余弦相似性衡量的是A向量和B向量的夹角,对向量方向敏感。
参考:
http://blog.csdn.net/guoziqing506/article/details/51779536
http://blog.csdn.net/kevin7658/article/details/19340573
https://en.wikipedia.org/wiki/Jaccard_index
https://en.wikipedia.org/wiki/Cosine_similarity#Ochiai_coefficient
另外,这篇博客写的不错:http://dataunion.org/11710.html
当p=1时,变为曼哈顿距离公式,也即 L1范数:
当p=2时,变为欧式距离公式,也即 L2范数:
衡量空间中点的绝对距离,对绝对数值敏感。
相似性:
余弦相似:
皮尔逊相关系数,即相关分析中的相关系数,对两个个体的向量基于总体标准化后计算向量夹角的余弦值,与余弦相似相比,具有平移不变性和尺度不变性,例如,在推荐系统中根据某一用户历史评分行为查找喜好相似的用户,优点是可以不受每个用户评分标准不同和观看影片数量不一样的影响,具体公式如下:
Jaccard相似系数,主要用于计算符号度量或者布尔度量的对象之间的相似度,因为符号度量或者布尔度量只能看出向量各维度值是否相同,只关心个体间的各维度值是否一致这个问题:
余弦相似度和欧式距离的区别:
欧式距离衡量的是空间中A点到B点的绝对距离,对A点和B点的位置(即绝对数值)敏感,余弦相似性衡量的是A向量和B向量的夹角,对向量方向敏感。
参考:
http://blog.csdn.net/guoziqing506/article/details/51779536
http://blog.csdn.net/kevin7658/article/details/19340573
https://en.wikipedia.org/wiki/Jaccard_index
https://en.wikipedia.org/wiki/Cosine_similarity#Ochiai_coefficient
另外,这篇博客写的不错:http://dataunion.org/11710.html
相关文章推荐
- 数据挖掘/机器学习 之 距离测度
- 机器学习/数据挖掘方向职位试卷 【字符串距离】
- 模式识别、机器学习、数据挖掘当中的各种距离总结
- 几种距离计算公式在数据挖掘中的应用场景分析
- 模式识别、机器学习、数据挖掘当中的各种距离总结
- 模式识别、机器学习、数据挖掘当中的各种距离总结
- [ 人工智能]模式识别、机器学习、数据挖掘当中的各种距离总结
- 『数据挖掘、机器学习』 常用算法思路、原理、公式、优缺点
- 「人工智能」模式识别、机器学习、数据挖掘当中的各种距离总结
- 机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
- 数据挖掘与机器学习网站资料
- 数据挖掘,机器学习,推荐系统的牛人博客
- 经典的机器学习方面源代码库(非常全,数据挖掘,计算机视觉,模式识别,信息检索相关领域都适用的了)
- 模式识别和机器学习、数据挖掘的区别与联系(转发)
- 机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
- 机器学习与数据挖掘学习之路
- 常用的数据挖掘&机器学习知识(点)
- 笔记 加州理工学院公开课:机器学习与数据挖掘 一
- 向量相似度距离常用公式
- 机器学习、数据挖掘、计算机视觉等领域经典书籍推荐