Solr 3.5:配置mmseg4j同义词(已经配置好中文分词)
2017-08-17 16:04
423 查看
前提,已经安装配置好Tomcat8与Solr3.5,并且配置好mmseg4j中文分词
1.修改 conf/schema.xml
在fields节点下面的mmseg4j分词器相关配置修改为类似于如下的内容:
<fieldType name="textComplex" class="solr.TextField" >
<analyzer type="index">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
</analyzer>
<analyzer type="query">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
</analyzer>
</fieldType>
2.修改solr/home/conf/synonyms.txt
在里面加入你认为中同义词的数据,形如:
手机 => 移动电话
大陆 => 中国
需要将此文件存储为UTF-8格式。如果是用UltraEdit编辑,可以在菜单中选择“文件”-》“转换”-》“ASCII到UTF-8”即可。记事本编辑的话,菜单选择“另存为”,编码类型选择UTF-8即可
3.所有复杂的同义词(就是还不在词库中的词),应该在自定义词典中有设置
如:“移动电话”这个词应该在mmseg4j的自定义词典中已经配置,否则创建索引的时候根本有没有“移动电话”这个词,查询“手机”的时候,是不可能把“移动电话”查询出来的。mmseg4j自定义词典的路径,按前文的设置是在solr/home/dic/words-my.dic文件中
4.同义词只能出现一次
即如果已经配置了“大陆 => 中国”,那么是不能再配置“中国 => 中华人民共和国”这样的词条的,否则后一条将覆盖前一条的信息。
5.重新启动Tomcat
即可以在查询中使用同义词。比如:查询“大陆”,会将“中国”的信息全部显示出来。
【备注】
Solr4.2.0+Tomcat9+JDK8+mmseg4j1.9.1
需要拷贝三个jar包
1.修改 conf/schema.xml
在fields节点下面的mmseg4j分词器相关配置修改为类似于如下的内容:
<fieldType name="textComplex" class="solr.TextField" >
<analyzer type="index">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
</analyzer>
<analyzer type="query">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
</analyzer>
</fieldType>
2.修改solr/home/conf/synonyms.txt
在里面加入你认为中同义词的数据,形如:
手机 => 移动电话
大陆 => 中国
需要将此文件存储为UTF-8格式。如果是用UltraEdit编辑,可以在菜单中选择“文件”-》“转换”-》“ASCII到UTF-8”即可。记事本编辑的话,菜单选择“另存为”,编码类型选择UTF-8即可
3.所有复杂的同义词(就是还不在词库中的词),应该在自定义词典中有设置
如:“移动电话”这个词应该在mmseg4j的自定义词典中已经配置,否则创建索引的时候根本有没有“移动电话”这个词,查询“手机”的时候,是不可能把“移动电话”查询出来的。mmseg4j自定义词典的路径,按前文的设置是在solr/home/dic/words-my.dic文件中
4.同义词只能出现一次
即如果已经配置了“大陆 => 中国”,那么是不能再配置“中国 => 中华人民共和国”这样的词条的,否则后一条将覆盖前一条的信息。
5.重新启动Tomcat
即可以在查询中使用同义词。比如:查询“大陆”,会将“中国”的信息全部显示出来。
【备注】
Solr4.2.0+Tomcat9+JDK8+mmseg4j1.9.1
需要拷贝三个jar包
相关文章推荐
- Solr4:配置mmseg4j同义词(已经配置好中文分词)
- solr下配置中文分词mmseg4j
- solr3.5整合tomcat并配置中文分词
- solr中文分词mmseg4j详细配置
- solr6.6配置IK中文分词、IK扩展词、同义词、pinyin4j拼音分词
- solr配置中文分词
- solr 配置 mmseg4j 分词器
- solr服务快速搭建、配置中文分词、数据导入即solrj增删改查
- Solr6.6 IK 中文分词的配置和使用
- Linux(CentOS6.4)Solr4.8.1中文分词配置(IK分词)
- Solr6.0.0以上分词器配置[中文]
- (三)solr的dataimport的配置以及中文分词
- Solr4:加入中文分词mmseg4j
- solr5.5.3 集成mmseg4j 中文分词(二)
- Solr5.5 中文分词及同义词
- solr4.5配置中文分词器mmseg4j
- solr+mmseg4j 中文分词
- solr 中文分词 mmseg4j 使用例子
- Solr配置中文分词器mmseg4j详解-linux版
- Solr配置中文分词器mmseg4j详解