solr配置停止词,同义词和扩展词库
2013-07-31 13:19
211 查看
停止词:lucene的停止词是无功能意义的词,比如is 、a 、are 、”的”,“得”,“我” 等,这些词会在句子中多次出现却无意义,所以在分词的时候需要把这些词过滤掉。
扩展词库:就是不想让哪些词被分开,让他们分成一个词。
同义词:假设有一个电子商务系统,销售书籍,提供了一个搜索引擎,一天,市场部的人要求客户在搜索书籍时,同义词就是比如输入“电子”,除了展示电子相关的书籍,还需要展现“机器”相关的书籍。
以IK分词器为例子说明怎么配置。
1:配置停止词和扩展词库。
将IKAnalyzer解压文件夹下的stopword.dic和IKAnalyzer.cfg.xml复制到tomcat/webapps/solr/WEB-INF/classes下,再新建一个ext.dic,里面的格式和stopword.dic一致。
并修改IKAnalyzer.cfg.xml如下面的格式可以配置多个停止词或者扩展词库文件。
这样就完成了。我在扩展词库ext.dic里面加上了 呼吸式酒精测试 测试扩展词库成功
2.同义词配置。
为了让例子简单,我们假设索引库只有两个字段。
1.在solr数据文件conf目录下schema.xml 中加入以下两个字段:
在 schema.xml 中增加 text_syn 类型的定义:
3.在相同的conf目录下的 synonyms.txt 中增加
配置完成
扩展词库:就是不想让哪些词被分开,让他们分成一个词。
同义词:假设有一个电子商务系统,销售书籍,提供了一个搜索引擎,一天,市场部的人要求客户在搜索书籍时,同义词就是比如输入“电子”,除了展示电子相关的书籍,还需要展现“机器”相关的书籍。
以IK分词器为例子说明怎么配置。
1:配置停止词和扩展词库。
将IKAnalyzer解压文件夹下的stopword.dic和IKAnalyzer.cfg.xml复制到tomcat/webapps/solr/WEB-INF/classes下,再新建一个ext.dic,里面的格式和stopword.dic一致。
并修改IKAnalyzer.cfg.xml如下面的格式可以配置多个停止词或者扩展词库文件。
<properties> <comment>IK Analyzer 扩展配置</comment> <!--用户可以在这里配置自己的扩展字典--> <entry key="ext_dict">ext.dic;</entry> <!--用户可以在这里配置自己的扩展停止词字典--> <entry key="ext_stopwords">english_stopword.dic;stopword.dic</entry>
这样就完成了。我在扩展词库ext.dic里面加上了 呼吸式酒精测试 测试扩展词库成功
2.同义词配置。
为了让例子简单,我们假设索引库只有两个字段。
1.在solr数据文件conf目录下schema.xml 中加入以下两个字段:
<field name="id" type="string" indexed="true" stored="true" required="true" /> <field name="description" type="text_syn" indexed="true" stored="true" />
在 schema.xml 中增加 text_syn 类型的定义:
<fieldType name="text_syn" class="solr.TextField"> <analyzer type="query"> <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> <analyzer type="index"> <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false" /> <filter class="solr.LowerCaseFilterFactory"/> </analyzer>
3.在相同的conf目录下的 synonyms.txt 中增加
machine => electronics
配置完成
相关文章推荐
- solr配置停止词,同义词和扩展词库
- solr配置同义词,停止词,和扩展词库(IK分词器为例)
- 在Solr4.10配置IKAnalyzer 同义词、扩展词库、停顿词详解
- solr之使用IKAnalyzer配置同义词,停止词,扩展词。
- solr 6.2.0系列教程(二)IK中文分词器配置及添加扩展词、停止词、同义词
- 在Solr4.10配置IKAnalyzer 同义词、扩展词库、停顿词详解
- solr6.6配置IK中文分词、IK扩展词、同义词、pinyin4j拼音分词
- JAVA 中配置IKAnalyzer扩展词库和停止词库
- solr中ik分词配置同义词、停止词、自定义词库
- 在Solr4.9中使用IKAnalyzer,实现同义词,扩展词库,停顿词的添加
- 配置IKAnalyzer2012扩展词库(tomcat8.0+solr4.6)
- solr中添加扩展分词库和停止词库
- solr5.3 实现同义词 扩展词典 停止词典 功能介绍
- solr下配置IKAnalyzer分词器的扩展词典,停止词词典
- 搜索引擎solr7.2.1+Jetty 分词及自定义扩展词库的配置
- [solr] - IKAnalyzer 扩展分词库
- Solr配置扩展词/自定义词库(IK版)、如何做逻辑与逻辑或即AND OR查询
- Solr 3.5:配置mmseg4j同义词(已经配置好中文分词)
- IKAnalyzer 独立使用 配置扩展词库
- solr添加中文IK分词器,以及配置自定义词库