Solr5.0配置中文分词包
2015-03-06 11:21
393 查看
Solr中默认的中文分词是用Lucene的一元分词包。
现在说明在Solr5.0中配置Lucene的SmartCN中文分词包。
1,进入Solr的安装目录,我这里是:/root/nutch/solr-5.0.0
把contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-5.0.0.jar包复制到solr的启动目录的lib目录下。
2,修改managed-schema配置文件。此文件在/root/nutch/solr-5.0.0/server/solr/mycore1/conf目录下,其中mycore1是建立的core名称。
在/root/nutch/solr-5.0.0/server/solr/mycore1/conf/managed-schema配置文件中添加如下信息:
3,重启solr服务
4,验证
用SmartCN的分词。
![](http://img.blog.csdn.net/20150306111800700)
用Solr默认的分词。
现在说明在Solr5.0中配置Lucene的SmartCN中文分词包。
1,进入Solr的安装目录,我这里是:/root/nutch/solr-5.0.0
把contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-5.0.0.jar包复制到solr的启动目录的lib目录下。
# cp ./contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-5.0.0.jar ./server/solr-webapp/webapp/WEB-INF/lib/
2,修改managed-schema配置文件。此文件在/root/nutch/solr-5.0.0/server/solr/mycore1/conf目录下,其中mycore1是建立的core名称。
在/root/nutch/solr-5.0.0/server/solr/mycore1/conf/managed-schema配置文件中添加如下信息:
#vi managed-schema
<fieldType name="text_smart" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <!-- 此处需要配置主要的分词类 --> <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/> <!-- <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /> <filter class="solr.LowerCaseFilterFactory"/> --> <!-- in this example, we will only use synonyms at query time <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/> --> <filter class="solr.SmartChineseWordTokenFilterFactory"/> </analyzer> <analyzer type="query"> <!-- 此处配置同上 --> <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/> <!-- <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> <filter class="solr.LowerCaseFilterFactory"/> --> <filter class="solr.SmartChineseWordTokenFilterFactory"/> </analyzer> </fieldType>
<field name="_text_smart" type="text_smart" indexed="true" stored="true" multiValued="true"/>
3,重启solr服务
# ./bin/solr restart Sending stop command to Solr running on port 8983 ... waiting 5 seconds to allow Jetty process 50325 to stop gracefully. Waiting to see Solr listening on port 8983 [\] Started Solr server on port 8983 (pid=50745). Happy searching!
4,验证
用SmartCN的分词。
用Solr默认的分词。
相关文章推荐
- Solr5.0配置中文分词包
- Solr5.0配置中文分词包
- solr 3.4配置中文分词IKAnalyzer3.2.8
- 在Solr中配置中文分词IKAnalyzer
- Linux(CentOS6.4)Solr4.8.1中文分词配置(IK分词)
- solr配置中文解析(分词)器
- solr3.5整合tomcat并配置中文分词
- Solr配置,schema.xml的配置,以及中文分词
- solr-中文分词配置
- Solr配置,schema.xml的配置,以及中文分词
- Solr 配置中文分词smartcn
- Solr部署配置(二)中文分词设置
- Solr中文分词配置(2)
- solr4.7安装配置,solrcloud安装配置,中文分词使用步骤
- solr配置中文分词遇到的问题
- Solr4:配置mmseg4j同义词(已经配置好中文分词)
- 配置solr4.10.0和中文分词IKAnalyzer
- solr配置中文分词
- solr中文分词mmseg4j详细配置
- Solr5.5.1 IK中文分词配置与使用