Solr之SolrCloud配置mmseg4j同义词
2015-07-02 22:12
405 查看
前提,已经安装配置好Tomcat与Solr,并且配置好mmseg4j中文分词。
1.修改$SOLR_HOME/collection1/conf/schema.xml
在fields节点下面的mmseg4j分词器相关配置修改为类似于如下的内容:
2.修改$SOLR_HOME/testcollection/conf/synonyms.txt
在里面加入你认为中同义词的数据,形如:
手机 => 移动电话
大陆 => 中国
需要将此文件存储为UTF-8格式。如果是用UltraEdit编辑,可以在菜单中选择“文件”-》“转换”-》“ASCII到UTF-8”即可。记事本编辑的话,菜单选择“另存为”,编码类型选择UTF-8即可。
3.所有复杂的同义词(就是还不在词库中的词),应该在自定义词典中有设置
如:“移动电话”这个词应该在mmseg4j的自定义词典中已经配置,否则创建索引的时候根本有没有“移动电话”这个词,查询“手机”的时候,是不可能把“移动电话”查询出来的。mmseg4j自定义词典的路径,按前文的设置是在$SOLR_HOME/testcollection/conf/mm4jdic/words-my.dic文件中。
4.同义词只能出现一次
即如果已经配置了“大陆 => 中国”,那么是不能再配置“中国 => 中华人民共和国”这样的词条的,否则后一条将覆盖前一条的信息。
5.重新启动Tomcat
即可以在查询中使用同义词。比如:查询“大陆”,会将“中国”的信息全部显示出来。
转至:http://www.chepoo.com/solr4-0-conifg-mmseg4j.html
1.修改$SOLR_HOME/collection1/conf/schema.xml
在fields节点下面的mmseg4j分词器相关配置修改为类似于如下的内容:
<fieldType name="textSimple" class="solr.TextField" > <analyzer type="index"> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="solr_home/testcollection/conf/mm4jdic"/> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> </analyzer> <analyzer type="query"> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="solr_home/testcollection/conf/mm4jdic"/> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> </analyzer> </fieldType>
2.修改$SOLR_HOME/testcollection/conf/synonyms.txt
在里面加入你认为中同义词的数据,形如:
手机 => 移动电话
大陆 => 中国
需要将此文件存储为UTF-8格式。如果是用UltraEdit编辑,可以在菜单中选择“文件”-》“转换”-》“ASCII到UTF-8”即可。记事本编辑的话,菜单选择“另存为”,编码类型选择UTF-8即可。
3.所有复杂的同义词(就是还不在词库中的词),应该在自定义词典中有设置
如:“移动电话”这个词应该在mmseg4j的自定义词典中已经配置,否则创建索引的时候根本有没有“移动电话”这个词,查询“手机”的时候,是不可能把“移动电话”查询出来的。mmseg4j自定义词典的路径,按前文的设置是在$SOLR_HOME/testcollection/conf/mm4jdic/words-my.dic文件中。
4.同义词只能出现一次
即如果已经配置了“大陆 => 中国”,那么是不能再配置“中国 => 中华人民共和国”这样的词条的,否则后一条将覆盖前一条的信息。
5.重新启动Tomcat
即可以在查询中使用同义词。比如:查询“大陆”,会将“中国”的信息全部显示出来。
转至:http://www.chepoo.com/solr4-0-conifg-mmseg4j.html
相关文章推荐
- SQL Server全文检索查询浅析
- 在Eclipse中运行Solr 基础知识
- java Lucene 中自定义排序的实现
- 从零开始使用Hubbledotnet进行全文搜索-前言
- Solr基础--设置solr/home的三种方式
- Docker使用supervisor构建solr
- solr4.0安装和简单导入mysql数据
- Solr 4.0 基础教程
- 自译Solr in action中文版
- Solr In Action 中文版 第一章(一)
- Solr In Action 中文版 第一章 (二)
- Solr In Action 中文版 第一章(三)
- 基于solr实现hbase的二级索引
- 基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档
- 基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档
- zg手册 之 Mysql 开发(1)-- 中文全文检索插件开发
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用2
- Lucene整合"庖丁解牛"中文分词包
- JAVA lucene全文检索工具包的理解与使用 分享
- Lucene:基于Java的全文检索引擎简介