余弦相似性计算及python代码实现
2017-11-03 17:44
489 查看
A:西米喜欢健身
B:超超不爱健身,喜欢打游戏
step1:分词
A:西米/喜欢/健身
B:超超/不/喜欢/健身,喜欢/打/游戏
step2:列出两个句子的并集
西米/喜欢/健身/超超/不/打/游戏
step3:计算词频向量
A:[1,1,1,0,0,0,0]
B:[0,1,1,1,1,1,1]
step4:计算余弦值
余弦值越大,证明夹角越小,两个向量越相似。
step5:python代码实现
import jieba import jieba.analyse def words2vec(words1=None, words2=None): v1 = [] v2 = [] tag1 = jieba.analyse.extract_tags(words1, withWeight=True) tag2 = jieba.analyse.extract_tags(words2, withWeight=True) tag_dict1 = {i[0]: i[1] for i in tag1} tag_dict2 = {i[0]: i[1] for i in tag2} merged_tag = set(tag_dict1.keys()) | set(tag_dict2.keys()) for i in merged_tag: if i in tag_dict1: v1.append(tag_dict1[i]) else: v1.append(0) if i in tag_dict2: v2.append(tag_dict2[i]) else: v2.append(0) return v1, v2 def cosine_similarity(vector1, vector2): dot_product = 0.0 normA = 0.0 normB = 0.0 for a, b in zip(vector1, vector2): dot_product += a * b normA += a ** 2 normB += b ** 2 if normA == 0.0 or normB == 0.0: return 0 else: return round(dot_product / ((normA**0.5)*(normB**0.5)) * 100, 2) def cosine(str1, str2): vec1, vec2 = words2vec(str1, str2) return cosine_similarity(vec1, vec2) print(cosine('阿克苏苹果', '阿克苏苹果'))
相关文章推荐
- 推荐系统中的相似度计算方法总结及实现代码(python)
- 余弦方法计算相似度算法--Python实现 Java实现
- 分享自用小工具:TF-IDF计算文档相似性的python实现
- MachingLearning中的距离和相似性计算以及python实现
- MachingLearning中的距离和相似性计算以及python实现
- 相似度计算方式的总结:java或python实现代码
- java实现余弦计算文本相似性
- ML中相似性度量和距离的计算&及Python实现
- LTE-TDD measurement gaps位置计算--Python代码实现
- Asp.net 2.0 自定义控件开发[实现自动计算功能(AutoComputeControl)][示例代码下载]
- Asp.net 2.0 自定义控件开发[实现自动计算功能(AutoComputeControl)][示例代码下载]
- Asp.net 2.0 自定义控件开发[实现自动计算功能(AutoComputeControl)][示例代码下载]
- Asp.net 2.0 自定义控件开发[实现自动计算功能(AutoComputeControl)][示例代码下载]
- Asp.net 2.0 自定义控件开发[实现自动计算功能(AutoComputeControl)][示例代码下载续][重点推荐控件]
- Asp.net 2.0 自定义控件开发[实现自动计算功能(AutoComputeControl)][示例代码下载]
- Asp.net 2.0 自定义控件开发[实现自动计算功能(AutoComputeControl)][示例代码下载]
- Asp.net 2.0 自定义控件开发[实现自动计算功能(AutoComputeControl)][示例代码下载]
- Asp.net 2.0 自定义控件开发[实现自动计算功能(AutoComputeControl)][示例代码下载]
- Asp.net 2.0 自定义控件开发[实现自动计算功能(AutoComputeControl)][示例代码下载]
- Asp.net 2.0 自定义控件开发[实现自动计算功能(AutoComputeControl)][示例代码下载续][重点推荐控件]