倒排索引组成结构以及其索引不可变原因
2017-08-17 16:55
295 查看
倒排索引的结构
(1)包含这个关键词的document list
(2)包含这个关键词的所有document的数量:IDF(inverse document frequency)
(3)这个关键词在每个document中出现的次数:TF(term frequency)
(4)这个关键词在这个document中的次序
(5)每个document的长度:length norm
(6)包含这个关键词的所有document的平均长度
倒排索引不可变的好处
(1)不需要锁,提升并发能力,避免锁的问题
(2)数据不变,一直保存在os cache中,只要cache内存足够
(3)filter cache一直驻留在内存,因为数据不变
(4)可以压缩,节省cpu和io开销
倒排索引不可变的坏处:每次都要重新构建整个索引
(1)包含这个关键词的document list
(2)包含这个关键词的所有document的数量:IDF(inverse document frequency)
(3)这个关键词在每个document中出现的次数:TF(term frequency)
(4)这个关键词在这个document中的次序
(5)每个document的长度:length norm
(6)包含这个关键词的所有document的平均长度
倒排索引不可变的好处
(1)不需要锁,提升并发能力,避免锁的问题
(2)数据不变,一直保存在os cache中,只要cache内存足够
(3)filter cache一直驻留在内存,因为数据不变
(4)可以压缩,节省cpu和io开销
倒排索引不可变的坏处:每次都要重新构建整个索引
相关文章推荐
- elasticsearch核心知识---52.倒排索引组成结构以及实现TF-IDF算法
- 由浅入深CIL系列:6.For和Foreach的CIL结构组成以及运行效率
- mysql 建议索引的原因以及优缺点
- XML组成结构以及C#通过DTD验证规范性
- B树(B-Tree)的由来、数据结构、基本操作以及数据库索引的应用
- Maven和普通工程的一些工程结构上的区别,以及造成这些区别的原因【转载】
- 影响Lucene索引速度原因以及提高索引速度技巧
- 由浅入深CIL系列:6.For和Foreach的CIL结构组成以及运行效率
- cmd编译 .java :编码GBK的不可映射字符以及输出乱码 原因以及解决方法
- JVM内存组成结构分配以及垃圾回收策略和算法
- 查询SQLServer2005中某个数据库中的表结构、索引、视图、存储过程、触发器以及自定义函数
- 【数据结构之二叉树】(二)B+树比B树更适合做文件索引的原因
- B树(B-Tree)的由来、数据结构、基本操作以及数据库索引的应用
- 影响Lucene索引速度原因以及提高索引速度技巧
- Atitit.数据索引 的种类以及原理实现机制 索引常用的存储结构
- DBCC大全集之(适用版本MS SQLServer 2008 R2)----DBCC CHECKTABLE检查组成表或索引视图的所有页和结构的完整性
- 影响Lucene索引速度原因以及提高索引速度技巧
- 特朗普上台的原因:是经济全球化被甩出去人的反扑。但互联网时代不可阻挡,必须参与。开历史倒车是没用的,就像欧洲的羊吃人时代是一样的。信仰基督教以及美国传统价值观的那群老人,终归是要死去。
- Atitit.数据索引 的种类以及原理实现机制 索引常用的存储结构
- ORACLE 不走索引(失效)的原因以及解决办法