利用word分词来计算文本相似度
2016-01-20 11:33
363 查看
word分词提供了多种文本相似度计算方式:方式一:余弦相似度,通过计算两个向量的夹角余弦值来评估他们的相似度实现类:org.apdplat.word.analysis.CosineTextSimilarity用法如下:?
运行结果如下:?
方式二:简单共有词,通过计算两篇文档共有的词的总字符数除以最长文档字符数来评估他们的相似度实现类:org.apdplat.word.analysis.SimpleTextSimilarity用法如下:?
运行结果如下:?
方式三:编辑距离,通过计算两个字串之间由一个转成另一个所需的最少编辑操作次数来评估他们的相似度实现类:org.apdplat.word.analysis.EditDistanceTextSimilarity用法如下:?
运行结果如下:?
方式四:SimHash + 汉明距离,先使用SimHash把不同长度的文本映射为等长文本,然后再计算等长文本的汉明距离实现类:org.apdplat.word.analysis.SimHashPlusHammingDistanceTextSimilarity用法如下:?
运行结果如下:?
方式五:Jaccard相似性系数,通过计算两个集合交集的大小除以并集的大小来评估他们的相似度实现类:org.apdplat.word.analysis.JaccardTextSimilarity用法如下:?
运行结果如下:?
方式六:欧几里得距离(Euclidean Distance),通过计算两点间的距离来评估他们的相似度实现类:org.apdplat.word.analysis.EuclideanDistanceTextSimilarity用法如下:?
运行结果如下:?
方式七:曼哈顿距离(Manhattan Distance),通过计算两个点在标准坐标系上的绝对轴距总和来评估他们的相似度实现类:org.apdplat.word.analysis.ManhattanDistanceTextSimilarity用法如下:?
运行结果如下:?
转载:http://my.oschina.net/apdplat/blog/417047
相关文章推荐
- iOS 适配
- int、String的类型转换
- Android___关于软键盘的主动打开关掉处理.
- 4K分辨率是什么 你真的知道吗?
- 表单工作流状态介绍
- ios 处理图片拉伸
- iOS 崩溃日志 Backtrace的符号化
- Android Material Design之Toolbar与Palette实践
- 打开链接在本页面跳转
- locate
- 最大子矩阵和(详解)
- Android各种版本
- 厚黑学(李宗吾先生原文)
- 网页跳转
- 用Ueditor存入数据库带HTML标签的文本,从数据库取出来后,anjular用ng-bind-html处理带HTML标签的文本
- 面向自由职业者和小型企业的开源开票工具
- android Ubuntu adb: cannot execute binary file: 可执行文件格式错误
- IOS根据两个经纬度计算相距距离
- Excel事件触发VBA配置 - 名称管理器下拉菜单选项事件
- ios推送证书制作