12、学习Lucene3.5索引之分词原理解析
2018-02-20 16:32
316 查看
1.分词基本流程解析
2.Tokenizer分类(Tokenizer:主要负责接收字符流Reader,将Reader进行分词操作)
3.TokenFilter分类(将分好词的语汇单元,进行各种各样的过滤)
4.TokenStream中需要保存的数据(TokenStream:分词器做好处理之后得到的一个流,这个流中存储了分词的各种信息,可以通过TokenStream有效的获取分词单元)
2.Tokenizer分类(Tokenizer:主要负责接收字符流Reader,将Reader进行分词操作)
3.TokenFilter分类(将分好词的语汇单元,进行各种各样的过滤)
4.TokenStream中需要保存的数据(TokenStream:分词器做好处理之后得到的一个流,这个流中存储了分词的各种信息,可以通过TokenStream有效的获取分词单元)
相关文章推荐
- 13、学习Lucene3.5索引之通过TokenStream显示分词
- 15、学习Lucene3.5索引之同义词分词器具体实现
- 14、学习Lucene3.5索引之同义词分词器设计思路
- 18、学习Lucene3.5索引之自定义评分
- 11、学习Lucene3.5索引搜索之分页显示
- 1、学习Lucene3.5之创建索引
- 8、学习Lucene3.5索引搜索之TermRange
- 16、学习Lucene3.5索引之自定义排序
- 一步一步跟我学习lucene(8)---lucene搜索之索引的查询原理和查询工具类(支持分页)示例
- lucene学习8-分词器的原理和学习(2)
- java+lucene中文分词,百度搜索原理解析,十分重要的东西
- 21、学习Lucene3.5索引之近实时搜索常用工具类
- 3、学习Lucene3.5之索引创建--域选项
- lucene3.5学习笔记02--创建索引和建立搜索
- 19、学习Lucene3.5索引之高亮搜索
- 跟小刀学习 lucene 分词的原理
- [置顶] Lucene 5.2.1 + jcseg 1.9.6中文分词索引(Lucene 学习序列2)
- 一步一步跟我学习lucene(5)---lucene的索引构建原理
- 《解密搜索引擎技术实战:Lucene&Java精华版》---第四章中文分词原理与实现学习笔记(一)
- lucene学习记录(2) - 实时索引,中文分词