您的位置:首页 > 其它

Elasticsearch-通过Analyzer进行分词

2020-08-11 10:31 686 查看

1、Analysis 与 Analyzer

  • Analysis—文本分析是把全文本转换一系列单词(term / token)的过程,也叫分词
  • Analysis是通过Analyzer来实现的

° 可使用Elasticsearch内置的分析器/或者按需定制化分析器

• 除了在数据写入时转换词条,匹配Query语句时候也需要用相同的分析器对查询语句进行分析

2、Analyzer的组成

• 分词器是专门处理分词的组件,Analyzer由三部分组成

o Character Filters (针对原始文本处理,例如去除html)/ Tokenizer (按照规则 切分为单词)/ Token Filter (将切分的的单词进行加工,小写,删除stopwords,增加同义词)

3、Elasticsearch的内置分词器

  • Standard Analyzer 一默认分词器,按词切分,小写处理
  • Simple Analyzer 一按照非字母切分(符号被过滤),小写处理
  • Stop Analyzer 一小写处理,停用词过滤(the, a, is)
  • Whitespace Analyzer —按照空格切分,不转小写
  • Keyword Analyzer —不分词,直接将输入当作输出
  • Patter Analyzer —正则表达式,默认\W+ (非字符分隔)
  • Language-提供了30多种常见语言的分词器
  •     Customer Analyzer自定义分词器

4、使用 _analyzer API

5、Elasticsearch的内置分析器

  • Standard Analyzer 一默认分词器,按词切分,小写处理
  • Simple Analyzer 一按照非字母切分(符号被过滤),小写处理
  • Stop Analyzer 一小写处理,停用词过滤(the, a, is)
  • Whitespace Analyzer —按照空格切分,不转小写
  • Keyword Analyzer —不分词,直接将输入当作输出
  • Patter Analyzer —正则表达式,默认\W+ (非字符分隔)
  • Language-提供了30多种常见语言的分词器

5.1 Standard Analyzer

5.2 Simple Analyzer

5.3 Stop Analyzer

5.4  Whitespace Analyzer

5.5 Keyword Analyzer

5.6 Patter Analyzer

5.8 Language

 

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: