lucene 分词学习
2009-07-28 14:14
162 查看
Lucene本身提供了几个分词接口,功能递增如下:
WhitespaceAnalyzer:仅仅是去除空格,对字符没有lowcase化,不支持中文
SimpleAnalyzer:功能强于WhitespaceAnalyzer,将除去letter之外的符号全部过滤掉,并且将所有的字符lowcase化,不支持中文
StopAnalyzer:StopAnalyzer的功能超越了SimpleAnalyzer,在SimpleAnalyzer的基础上
增加了去除StopWords的功能,不支持中文
StandardAnalyzer:英文的处理能力同于StopAnalyzer.支持中文采用的方法为单字切分.
ChineseAnalyzer:来自于Lucene的sand box.性能类似于StandardAnalyzer,缺点是不支持中英文混和分词.
CJKAnalyzer:chedong写的CJKAnalyzer的功能在英文处理上的功能和StandardAnalyzer相同
但是在汉语的分词上,不能过滤掉标点符号,即使用二元切分
WhitespaceAnalyzer:仅仅是去除空格,对字符没有lowcase化,不支持中文
SimpleAnalyzer:功能强于WhitespaceAnalyzer,将除去letter之外的符号全部过滤掉,并且将所有的字符lowcase化,不支持中文
StopAnalyzer:StopAnalyzer的功能超越了SimpleAnalyzer,在SimpleAnalyzer的基础上
增加了去除StopWords的功能,不支持中文
StandardAnalyzer:英文的处理能力同于StopAnalyzer.支持中文采用的方法为单字切分.
ChineseAnalyzer:来自于Lucene的sand box.性能类似于StandardAnalyzer,缺点是不支持中英文混和分词.
CJKAnalyzer:chedong写的CJKAnalyzer的功能在英文处理上的功能和StandardAnalyzer相同
但是在汉语的分词上,不能过滤掉标点符号,即使用二元切分
相关文章推荐
- Lucene .Net + 盘古分词 学习资料
- 《解密搜索引擎技术实战:Lucene&Java精华版》---第四章中文分词原理与实现学习笔记(一)
- lucene 学习笔记 中文分词
- 12、学习Lucene3.5索引之分词原理解析
- Lucene.net入门学习(结合盘古分词)
- lucene学习--分词和高亮显示
- Lucene学习——IKAnalyzer中文分词(二)
- lucene学习二:lucene分词器
- Lucene下分词工具的学习探讨
- 【lucene系列学习一】实现Lucene索引,查询以及中文分词功能
- 全文检索技术学习(三)——Lucene支持中文分词
- 开源搜索框架Lucene学习之分词器(2)——TokenFilter类及其子类
- lucene学习--分词和高亮显示
- 14、学习Lucene3.5索引之同义词分词器设计思路
- 04_java Lucene学习——分词Analyzer(02):lucene4.0_学写简单的中文同义词分词器
- lucene.net学习七——分词
- Lucene下分词工具的学习探讨(二)
- 转:Lucene学习——IKAnalyzer中文分词(一)
- lucene 分词器的原理和学习
- Lucene学习——IKAnalyzer中文分词