您的位置:首页 > 其它

余弦相似度

2015-06-18 16:40 323 查看
定义

余弦相似度(cosine similarity),又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。

概念

向量,是多维空间中有方向的线段,如下图是二维空间的两个向量:



如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。
要确定两个向量方向是否一致,可以用余弦定理计算向量的夹角。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。

计算

对于二维空间,根据向量点积公式可得:



假设向量a、b的坐标分别为(x1,y1)、(x2,y2) 。则:



设向量 A = (A1,A2,...,An),B = (B1,B2,...,Bn) 。推广到多维:



例如计算N维向量,展开之后就是:



应用
最常见的应用就是计算文本相似度。将两个文本根据他们词,建立俩个向量,计算这两个向量的余弦值,就可以知道两个文本的相似度情况。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: