您的位置：首页 > 其它

ELK合集持续更新(十):Elasticsearch关键术语之倒排索引

2020-03-28 19:58 615 查看

Elasticsearch关键术语系列博文目的只用来了解概念 ; 其中涉及到的配置和使用是为了方便日后使用时查询的

倒排索引

正排索引 & 倒排索引

正排索引

根据文档ID 查询文档内容

倒排索引

根据文档关键字查询文档ID 关键字出现处的偏移量词频

作用

每个field字段都有自己的倒排索引可被搜索到

特性 – 不可变性

优点

无需考虑并发写文件问题避免了锁机制带来的性能问题
一旦读入内核的文件系统缓存便留在那里只要文件系统有足够的空间大部分请求会直接走内存不命中磁盘提升很大性能
缓存易生成和维护数据可被压缩

缺点

如果需要让一个新文档可以被搜索需要重建整个索引

相关概念

Lucene的index

Lucene中单个倒排索引文件叫Lucene的segment 特点是自包含的不可变更的多个sgement汇总在一起叫lucene的index 对应es中的shard
当有新文档写入时会生成新的segment 查询时会同时查询所有segments 并对结果汇总 Lucene中有一个文件Commint Point用来记录所有segments信息
删除的文档信息保存在.del文件中

ES的refresh

将index buffer写入segment的过程叫refresh refresh后 index buffer被清空此时segment在缓存中数据就可以被搜索到了所以是近实时搜索 refresh不执行fsync操作 (fsync是将缓存中的segment写入磁盘)
默认1s发生一次refresh
如果有大量数据写入会产生很多segment
index buffer被占满时也会触发refresh 默认值是JVM的10%

配置refresh的时间

index.refresh_interval

transaction log

segment写入磁盘过程相对耗时借助文件系统缓存refresh时先将segment写入缓存以开发查询
为了保证数据不会丢失在index文档时同时写入transaction log 默认落盘每个分片有一个transaction log
在es refresh时 index buffer会被清空 transaction log不会清空

ES的flush & Lucene的commit

先调用refresh index buffer清空并refresh
再调用fsync 将缓存中的segments写入磁盘
再清空transaction log
默认30分钟执行一次
当transaction log写满时也会触发默认512MB

ES的merge

segment很多需要被定期合并以减少segment 并真正删除.del文件中已删除的文档
ES会定期自动merge
手动merge
```
POST index名/_forcemerge
```

配置

该字段不建立倒排索引操作

Index的Mapping中 可指定某些字段不建立倒排索引

优点生存储

缺点

字段无法被搜索

组成

Term Dictionary 单词词典

作用

记录所有文档的单词
记录单词到倒排列表的关联关系

优化
单词词典一般较大可用Btree或哈希拉链算法实现高性能插入和查询

Posting List 倒排列表

概念
由倒排索引项组成

Posting 倒排索引项

组成文档ID
词频TF
位置Position 概念单词在文档中分词的位置

作用

用于语句搜索phrase query

偏移Offset

概念记录单词的开始结束位置

作用

用于高亮显示

参考
阮一名资料
官方文档
百度

点赞
收藏
分享
文章举报

hungry和她的朋友们发布了25 篇原创文章 · 获赞 0 · 访问量 357 私信关注

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航