lucene集成ikanalyzer中文分词器插件;Analyzer使用时机
2017-11-13 12:26
501 查看
1.1.1. IKAnalyzer
使用方法:
第一步:把jar包添加到工程中
第二步:把配置文件和扩展词典和停用词词典添加到classpath下
注意:mydict.dic和ext_stopword.dic文件的格式为UTF-8,注意是无BOM 的UTF-8 编码。
使用EditPlus.exe保存为无BOM 的UTF-8 编码格式,如下图:
1.1. Analyzer使用时机
1.1.1. 索引时使用Analyzer
输入关键字进行搜索,当需要让该关键字与文档域内容所包含的词进行匹配时需要对文档域内容进行分析,需要经过Analyzer分析器处理生成语汇单元(Token)。分析器分析的对象是文档中的Field域。当Field的属性tokenized(是否分词)为true时会对Field值进行分析,如下图:对于一些Field可以不用分析:
1、不作为查询条件的内容,比如文件路径
2、不是匹配内容中的词而匹配Field的整体内容,比如订单号、身份证号等。
1.1.2. 搜索时使用Analyzer
对搜索关键字进行分析和索引分析一样,使用Analyzer对搜索关键字进行分析、分词处理,使用分析后每个词语进行搜索。比如:搜索关键字:spring web,经过分析器进行分词,得出:spring web拿词去索引词典表查找,找到索引链接到Document,解析Document内容。对于匹配整体Field域的查询可以在搜索时不分析,比如根据订单号、身份证号查询等。
注意:搜索使用的分析器要和索引使用的分析器一致。
相关文章推荐
- lucene使用IKAnalyzer3.2.5中文分词器进行索引的一个小例子
- JAVA_WEB项目之Lucene使用中文分词器IKAnalyzer3.2.8
- Lucene使用IKAnalyzer中文分词笔记
- Lucene 实例 IKAnalyzer中文分词器
- 使用Lucene和IKAnalyzer实现 中文简单 分词
- Lucene 实例教程(二)之IKAnalyzer中文分词器
- Lucene2.0中使用基于词典的中文分词器建立索引
- [导入]Paoding中文分词器使用总结(Lucene)
- Apache Lucene 5.x 集成中文分词库 IKAnalyzer
- Lucene 实例教程(二)之IKAnalyzer中文分词器
- Lucene 实例教程(二)之IKAnalyzer中文分词器
- lucene第一步---5.中文分词IKAnalyzer和高亮highlighter的使用
- lucene IKAnalyzer中文分词器学习(1)
- 木其工作室代写程序 [原]Lucene 实例教程(二)之IKAnalyzer中文分词器
- lucene IKAnalyzer中文分词器学习(3)
- java鬼混笔记:lucene 4、中文分词器--IKAnalyzer
- 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较
- [Gradle中文教程系列]-跟我学Gradle-14.1:Gradle IDEA集成插件的使用
- 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较
- elasticsearch安装与使用(3)-- 安装中文分词插件elasticsearch-analyzer-ik