ElasticSearch学习教程(三)-中文分词器IK
2016-10-08 10:03
489 查看
分词器的作用就是把用户输入的短语分成粒度更小的词语,方便匹配查找关键字,英文分词比较方便,但是中文分词就比较复杂了,比如“中华人民共和国”,可以分词的情况很多,在不同的地方断句意思就不一样,下面我们对比两款分词器:
1.elaesticserch 自带的标准分词器
打开elasticsearch-head界面,切换至“复合查询”,我们测试下“中华人民共和国”的分词效果:
效果:
可以看到标准分词器将短语分成了独立的单词,没有词语,分词效果很难满足我们中文的要求。
2.IK分词器
2.1 下载
地址:https://github.com/medcl/elasticsearch-analysis-ik,此处需要注意的是版本匹配问题,不同的IK分词器版本对应不同的Elasticsearch版本:
2.2 编译安装
下载下来的是Java源码,需要用maven进行编译,至于maven怎么安装使用本文不在赘述
(1) 编译
进入源码的根目录,使用以下命令编译,编译后生成的ZIP文件在target/releases目录下
(2) 安装
将编译好的包拷贝到elasticsearch下的plugins/ik目录下,并解压文件
3.重启ES,测试
将standard analyzer换成ik analyzer即可:
效果:
从结果看,短语被分成了合理的词语,不再是独立的无意义的单词;如果是中文全文检索的话,推荐使用IK分词;
1.elaesticserch 自带的标准分词器
打开elasticsearch-head界面,切换至“复合查询”,我们测试下“中华人民共和国”的分词效果:
http://IP:端口/_analyze?analyzer=standard&pretty=true&text=中华人民共和国
效果:
可以看到标准分词器将短语分成了独立的单词,没有词语,分词效果很难满足我们中文的要求。
2.IK分词器
2.1 下载
地址:https://github.com/medcl/elasticsearch-analysis-ik,此处需要注意的是版本匹配问题,不同的IK分词器版本对应不同的Elasticsearch版本:
IK 版本 | ES 版本 |
---|---|
master | 5.x -> master |
5.0.0-beta1 | 5.0.0-beta1 |
1.9.5 | 2.3.5 |
1.9.4 | 2.3.4 |
1.9.3 | 2.3.3 |
1.9.0 | 2.3.0 |
1.8.1 | 2.2.1 |
1.7.0 | 2.1.1 |
1.5.0 | 2.0.0 |
1.2.6 | 1.0.0 |
1.2.5 | 0.90.x |
1.1.3 | 0.20.x |
1.0.0 | 0.16.2 -> 0.19.0 |
下载下来的是Java源码,需要用maven进行编译,至于maven怎么安装使用本文不在赘述
(1) 编译
进入源码的根目录,使用以下命令编译,编译后生成的ZIP文件在target/releases目录下
mvn clean package
(2) 安装
将编译好的包拷贝到elasticsearch下的plugins/ik目录下,并解压文件
unzip elasticsearch-analysis-ik-{version}.zip
3.重启ES,测试
将standard analyzer换成ik analyzer即可:
http://IP:端口/_analyze?analyzer=ik&pretty=true&text=中华人民共和国
效果:
从结果看,短语被分成了合理的词语,不再是独立的无意义的单词;如果是中文全文检索的话,推荐使用IK分词;
相关文章推荐
- ElasticSearch学习 - (八)安装中文分词器IK和拼音分词器
- Elasticsearch 中文分词器 IK 配置和使用
- solr 6.2.0系列教程(二)IK中文分词器配置及添加扩展词、停止词、同义词
- elasticsearch插件安装之--中文分词器 ik 安装
- Elasticsearch 中文分词器 IK 配置和使用
- Elasticsearch之中文分词器插件es-ik的自定义词库
- solr6.6.0学习(3)IK中文分词器的集成与配置
- ElasticSearch速学 - IK中文分词器远程字典设置
- Elasticsearch 2.3.3 中文IK分词插件安装视频教程
- Elasticsearch之中文分词器插件es-ik的自定义热更新词库
- Elasticsearch集成中文分词器ik
- 【自定义IK词典】Elasticsearch之中文分词器插件es-ik的自定义词库
- Elasticsearch的ik中文分词器的安装
- Elasticsearch 中文分词器 IK 配置和使用
- ElasticSearch速学 - IK中文分词器 、elasticdump数据导出导入、字段分词
- Elasticsearch之中文分词器插件es-ik(博主推荐)
- Elasticsearch 中文分词器 IK 配置和使用
- Elasticsearch之中文分词器插件es-ik的自定义词库
- elasticsearch-2.1.1 安装中文分词器 elasticsearch-analysis-ik
- Elasticsearch下安装IK中文分词器