python代码如何实现余弦相似性计算
2020-02-13 13:14
771 查看
这篇文章主要介绍了python代码如何实现余弦相似性计算,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
A:西米喜欢健身
B:超超不爱健身,喜欢打游戏
step1:分词
A:西米/喜欢/健身
B:超超/不/喜欢/健身,喜欢/打/游戏
step2:列出两个句子的并集
西米/喜欢/健身/超超/不/打/游戏
step3:计算词频向量
A:[1,1,1,0,0,0,0]
B:[0,1,1,1,1,1,1]
step4:计算余弦值
余弦值越大,证明夹角越小,两个向量越相似。
step5:python代码实现
import jieba import jieba.analyse def words2vec(words1=None, words2=None): v1 = [] v2 = [] tag1 = jieba.analyse.extract_tags(words1, withWeight=True) tag2 = jieba.analyse.extract_tags(words2, withWeight=True) tag_dict1 = {i[0]: i[1] for i in tag1} tag_dict2 = {i[0]: i[1] for i in tag2} merged_tag = set(tag_dict1.keys()) | set(tag_dict2.keys()) for i in merged_tag: if i in tag_dict1: v1.append(tag_dict1[i]) else: v1.append(0) if i in tag_dict2: v2.append(tag_dict2[i]) else: v2.append(0) return v1, v2 def cosine_similarity(vector1, vector2): dot_product = 0.0 normA = 0.0 normB = 0.0 for a, b in zip(vector1, vector2): dot_product += a * b normA += a ** 2 normB += b ** 2 if normA == 0.0 or normB == 0.0: return 0 else: return round(dot_product / ((normA**0.5)*(normB**0.5)) * 100, 2) def cosine(str1, str2): vec1, vec2 = words2vec(str1, str2) return cosine_similarity(vec1, vec2) print(cosine('阿克苏苹果', '阿克苏苹果'))
以上就是本文的全部内容,希望对大家的学习有所帮助
您可能感兴趣的文章:
相关文章推荐
- 余弦相似性计算及python代码实现
- 余弦相似性计算及python代码实现过程解析
- MachingLearning中的距离和相似性计算以及python实现
- python中如何遍历文件夹及其子文件夹中的所有文件(附实现代码)
- 如何实现python代码的整体缩进与退格
- 如何在python中实现整数的二进制循环移位(附代码)
- 推荐系统中的相似度计算方法总结及实现代码(python)
- python代码实现:如何反序的迭代一个序列?
- ML中相似性度量和距离的计算&及Python实现
- 10行Python代码计算汽车数量的实现方法
- 程序员代码面试指南 python实现(第一章 栈和队列 :如何仅用递归函数和栈,实现一个栈的逆序)
- 教你如何用Python一行代码实现快速排序
- python如何实现代码检查
- 相似度计算方式的总结:java或python实现代码
- 在PyCharm中如何更好地实现Python代码的智能补全
- java实现余弦计算文本相似性
- MachingLearning中的距离和相似性计算以及python实现
- python使用simhash实现文本相似性对比(全代码展示)
- 请教一个python问题,如何返回到指定的代码行?经小杰大牛指点,终于实现了。
- python如何实现视频转代码视频