solr 中文分词mmeseg4j与ik analyzer效果对比
2016-11-20 22:08
239 查看
摘要: 之前用solr6成功集成了中文分词mmeseg4j,也顺利整合了ik analyzer,对比一下他们分词的效果。
1884年,中法战争时被派福建会办海疆事务。
ik analyzer:1884 | 年 | 中法战争 | 中法 | 战争 | 时 | 派| 福建 | 会办 | 海疆 | 事务
mmeseg4j_simple:1884 | 年 | 中法 | 战争 | 时 | 被 | 派| 福建 | 会办 | 海疆 | 事务
mmeseg4j_maxword:1884 | 年 | 中法 | 战争 | 时 | 被 | 派| 福建 | 会办 | 海疆 | 事务
mmeseg4j_complex:1884 | 年 | 中法 | 战争 | 时 | 被 | 派| 福建 | 会办 | 海疆 | 事务
2000年中法国足球比赛
ik analyzer:2000 | 年中 | 中 | 中法 | 中 | 法国 | 国足 | 足球 | 比赛 | 足球比赛
mmeseg4j_simple:2000 | 年 | 中法 | 国 | 足球比赛
mmeseg4j_maxword:2000 | 年 | 中法 | 国 | 足球 | 比赛
mmeseg4j_complex:2000 | 年 | 中法 | 国 | 足球比赛
云天落日圆 偷欢不成倒大霉
ik analyzer:云天 | 落日 | 日圆 | 偷欢 | 倒大霉
mmeseg4j_simple:云天 | 落日 | 圆 | 偷欢 | 不成 | 倒 | 大霉
mmeseg4j_maxword:云天 | 落 | 日圆 | 偷欢 | 不成 | 倒 | 大霉
mmeseg4j_complex:云天 | 落 | 日圆 | 偷欢 | 不成 | 倒 | 大霉
中国人民银行
ik analyzer:中国人民银行 | 中国人民 | 中国人 | 中国 | 国人 | 人民银行 | 银行
mmeseg4j_simple:中国人民银行
mmeseg4j_maxword:中国 | 国人 | 人民 | 银行
mmeseg4j_complex:中国人民银行
我们家门前的大水沟很难过
ik analyzer:我们家 | 家门 | 门前 | 大水沟 | 大水| 水沟 | 很难 | 难过
mmeseg4j_simple:我们 | 家门 | 前 | 的 | 大水 | 沟 | 很难 | 过
mmeseg4j_maxword:我们 | 家门 | 前 | 的 | 大水 | 沟 | 很难 | 过
mmeseg4j_complex:我们 | 家门 | 前 | 的 | 大水 | 沟 | 很难 | 过
我爱北京天安门
ik analyzer:爱 | 北京 | 天安门 | 天安 | 门
mmeseg4j_simple:我爱 | 北京 | 天安门
mmeseg4j_maxword:我爱 | 北京 | 天安 | 门
mmeseg4j_complex:我爱 | 北京 | 天安门
研究生命起源
ik analyzer:研究生 | 研究 | 生命 | 起源
mmeseg4j_simple:研究生 | 命 | 起源
mmeseg4j_maxword:研究 | 生命 | 起源
mmeseg4j_complex:研究 | 生命 | 起源
受一股来自中西伯利亚的强冷空气影响
ik analyzer:受 | 一股 | 股 | 来自 | 中西 | 西伯利亚 | 西伯 |伯利 | 亚 | 强冷空气 | 冷空气 | 空气 | 影响
mmeseg4j_simple:受 | 一股 | 来自 | 中西 | 伯 | 利 | 亚 | 的 | 强 | 冷空气 | 影响
mmeseg4j_maxword:受 | 一股 | 来自 | 中 | 西 | 伯 | 利 | 亚 | 的 | 强 | 冷 | 空气 | 影响
mmeseg4j_complex:受 | 一股 | 来自 | 中 | 西伯利亚 | 的 | 强 | 冷空气 | 影响
整体来看,ik analyzer的分词效果要好一些,虽然mmeseg4j有多种分词模式,但是simple和complex的效果相差甚微,而maxword模式往往不能起到分词效果。
1884年,中法战争时被派福建会办海疆事务。
ik analyzer:1884 | 年 | 中法战争 | 中法 | 战争 | 时 | 派| 福建 | 会办 | 海疆 | 事务
mmeseg4j_simple:1884 | 年 | 中法 | 战争 | 时 | 被 | 派| 福建 | 会办 | 海疆 | 事务
mmeseg4j_maxword:1884 | 年 | 中法 | 战争 | 时 | 被 | 派| 福建 | 会办 | 海疆 | 事务
mmeseg4j_complex:1884 | 年 | 中法 | 战争 | 时 | 被 | 派| 福建 | 会办 | 海疆 | 事务
2000年中法国足球比赛
ik analyzer:2000 | 年中 | 中 | 中法 | 中 | 法国 | 国足 | 足球 | 比赛 | 足球比赛
mmeseg4j_simple:2000 | 年 | 中法 | 国 | 足球比赛
mmeseg4j_maxword:2000 | 年 | 中法 | 国 | 足球 | 比赛
mmeseg4j_complex:2000 | 年 | 中法 | 国 | 足球比赛
云天落日圆 偷欢不成倒大霉
ik analyzer:云天 | 落日 | 日圆 | 偷欢 | 倒大霉
mmeseg4j_simple:云天 | 落日 | 圆 | 偷欢 | 不成 | 倒 | 大霉
mmeseg4j_maxword:云天 | 落 | 日圆 | 偷欢 | 不成 | 倒 | 大霉
mmeseg4j_complex:云天 | 落 | 日圆 | 偷欢 | 不成 | 倒 | 大霉
中国人民银行
ik analyzer:中国人民银行 | 中国人民 | 中国人 | 中国 | 国人 | 人民银行 | 银行
mmeseg4j_simple:中国人民银行
mmeseg4j_maxword:中国 | 国人 | 人民 | 银行
mmeseg4j_complex:中国人民银行
我们家门前的大水沟很难过
ik analyzer:我们家 | 家门 | 门前 | 大水沟 | 大水| 水沟 | 很难 | 难过
mmeseg4j_simple:我们 | 家门 | 前 | 的 | 大水 | 沟 | 很难 | 过
mmeseg4j_maxword:我们 | 家门 | 前 | 的 | 大水 | 沟 | 很难 | 过
mmeseg4j_complex:我们 | 家门 | 前 | 的 | 大水 | 沟 | 很难 | 过
我爱北京天安门
ik analyzer:爱 | 北京 | 天安门 | 天安 | 门
mmeseg4j_simple:我爱 | 北京 | 天安门
mmeseg4j_maxword:我爱 | 北京 | 天安 | 门
mmeseg4j_complex:我爱 | 北京 | 天安门
研究生命起源
ik analyzer:研究生 | 研究 | 生命 | 起源
mmeseg4j_simple:研究生 | 命 | 起源
mmeseg4j_maxword:研究 | 生命 | 起源
mmeseg4j_complex:研究 | 生命 | 起源
受一股来自中西伯利亚的强冷空气影响
ik analyzer:受 | 一股 | 股 | 来自 | 中西 | 西伯利亚 | 西伯 |伯利 | 亚 | 强冷空气 | 冷空气 | 空气 | 影响
mmeseg4j_simple:受 | 一股 | 来自 | 中西 | 伯 | 利 | 亚 | 的 | 强 | 冷空气 | 影响
mmeseg4j_maxword:受 | 一股 | 来自 | 中 | 西 | 伯 | 利 | 亚 | 的 | 强 | 冷 | 空气 | 影响
mmeseg4j_complex:受 | 一股 | 来自 | 中 | 西伯利亚 | 的 | 强 | 冷空气 | 影响
整体来看,ik analyzer的分词效果要好一些,虽然mmeseg4j有多种分词模式,但是simple和complex的效果相差甚微,而maxword模式往往不能起到分词效果。
相关文章推荐
- solr 实现 中文分词,IK Analyzer
- 为Elasticsearch添加中文分词,对比分词器效果
- 第二步solr配置中文分词IK Analyzer
- 为Elasticsearch添加中文分词,对比分词器效果
- 开源中文分词框架分词效果对比smartcn与IKanalyzer
- 开源中文分词框架分词效果对比smartcn与IKanalyzer
- 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较
- 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较
- 二阶和三阶隐马尔柯夫过程(HMM)进行中文分词的效果对比
- 11大Java开源中文分词器的使用方法和分词效果对比
- 为Elasticsearch添加中文分词,对比分词器效果
- 为Elasticsearch添加中文分词,对比分词器效果
- 为Elasticsearch添加中文分词,对比分词器效果
- [024] 11大Java开源中文分词器的使用方法和分词效果对比
- Java开源中文分词器的使用方法和分词效果对比
- 为Elasticsearch添加中文分词,对比分词器效果
- 10大Java开源中文分词器的使用方法和分词效果对比
- 二阶和三阶隐马尔柯夫过程(HMM)进行中文分词的效果对比
- Solr6.6 IK 中文分词的配置和使用
- 配置solr4.10.0和中文分词IKAnalyzer