您的位置：首页 > 其它

Elasticsearch-通过Analyzer进行分词

2020-08-11 10:31 686 查看

1、Analysis 与 Analyzer

Analysis—文本分析是把全文本转换一系列单词(term / token)的过程，也叫分词
Analysis是通过Analyzer来实现的

° 可使用Elasticsearch内置的分析器/或者按需定制化分析器

• 除了在数据写入时转换词条，匹配Query语句时候也需要用相同的分析器对查询语句进行分析

2、Analyzer的组成

• 分词器是专门处理分词的组件，Analyzer由三部分组成

o Character Filters （针对原始文本处理，例如去除html）/ Tokenizer （按照规则切分为单词）/ Token Filter （将切分的的单词进行加工，小写，删除stopwords,增加同义词）

3、Elasticsearch的内置分词器

Standard Analyzer 一默认分词器，按词切分，小写处理
Simple Analyzer 一按照非字母切分（符号被过滤），小写处理
Stop Analyzer 一小写处理，停用词过滤（the, a, is）
Whitespace Analyzer —按照空格切分，不转小写
Keyword Analyzer —不分词，直接将输入当作输出
Patter Analyzer —正则表达式，默认\W+ （非字符分隔）
Language-提供了30多种常见语言的分词器
Customer Analyzer自定义分词器

4、使用 _analyzer API

5、Elasticsearch的内置分析器

Standard Analyzer 一默认分词器，按词切分，小写处理
Simple Analyzer 一按照非字母切分（符号被过滤），小写处理
Stop Analyzer 一小写处理，停用词过滤（the, a, is）
Whitespace Analyzer —按照空格切分，不转小写
Keyword Analyzer —不分词，直接将输入当作输出
Patter Analyzer —正则表达式，默认\W+ （非字符分隔）
Language-提供了30多种常见语言的分词器

5.1 Standard Analyzer

5.2 Simple Analyzer

5.3 Stop Analyzer

5.4 Whitespace Analyzer

5.5 Keyword Analyzer

5.6 Patter Analyzer

5.8 Language

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部