Lucene的几种中文分词器的比较
2013-12-19 15:46
169 查看
http://blog.csdn.net/chaocy/article/details/5938741
对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。
单纯的中文分词的实现一般为按字索引或者按词索引。按字索引顾名思义,就是按单个字建立索引。按词索引就是按词喽,根据词库中的词,将文字进行切分。
对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。
单纯的中文分词的实现一般为按字索引或者按词索引。按字索引顾名思义,就是按单个字建立索引。按词索引就是按词喽,根据词库中的词,将文字进行切分。
相关文章推荐
- codeforce 贪心1
- C# WinForm修改Panel边框颜色
- ThinkPHP3.1.2整合UCenter详解(二)
- 菜鸟Android学习之路09——列表视图
- 网络协议故障
- matlab笔记
- android中的/system/bin/input工具
- 交换两个变量的值的效率的测试
- C++ 关键段(Critical Section)CS深入浅出 之多线程(七)
- Windows 下 玩转Node.JS
- BugTracker 流程
- windows、MAC OS连接 MAC OS共享文件夹
- java_集合体系之总体框架——01
- iOS开发工具——网络封包分析工具Charles
- javascript中typeof的使用示例
- 深入学习C++前向声明
- 关于程序员的59条搞笑但却真实无比的编程语录
- 自动人脸检测原理
- 封装设置color
- Taglib的打包部署和使用方式详解