ES索引文件和数据文件大小对比——splunk索引文件大小远小于ES,数据文件的压缩比也较ES更低,有趣的现象:ES数据文件zip压缩后大小和splunk的数据文件相当!词典文件tim/tip+倒排doc/pos和cfs文件是索引的大头
2017-02-14 10:44
1361 查看
和splunk对比:
ES中各个倒排索引文件的分布:
测试说明:ES2.41版本,数据使用500次批量插入,每批数据都不同,大小500条,每条数据50个字段,对应的字符串使用长度为1-10个单词随机生成!
相关文章推荐
- ES里设置索引中倒排列表仅仅存文档ID——采用docs存储后可以降低pos文件和cfs文件大小
- POI导出大量数据的简单解决方案(附源码)-Java-POI导出大量数据,导出Excel文件,压缩ZIP(转载自iteye.com)
- 通过 C# 使用 J# 类库中的 Zip 类压缩文件和数据
- 通过 C# 使用 J# 类库中的 Zip 类压缩文件和数据
- java解析压缩文件.zip,获取文件夹下的数据
- 通过 C# 使用 J# 类库中的 Zip 类压缩文件和数据
- lucene segment会包含所有的索引文件,如tim tip等,可以认为是mini的独立索引
- [转贴]通过 C# 使用 J# 类库中的 Zip 类压缩文件和数据
- Linux下创建与解压zip, tar, tar.gz和tar.bz2文件及该文件压缩对比
- ES索引瘦身 压缩——_source _all 均disable filed store为no,引入第三方DB存储原始数据,去掉pos倒排和doc_values,强制定期merge segments,将所有fileds合并为一个field big string
- 腾讯Hermes设计概要——数据分析用的是列存储,词典文件前缀压缩,倒排文件递增id、变长压缩、依然是跳表-本质是lucene啊
- 把数据量大导出 放入多个excel 然后压缩成zip文件,导出
- Linux下创建与解压zip, tar, tar.gz和tar.bz2文件及该文件压缩对比
- 时间序列数据库——索引用ES、聚合分析时加载数据用什么?docvalues的列存储貌似更优优势一些
- "xxxx".zip:这个压缩文件格式未知或者数据已经被损坏,打不开压缩文件,总出现这个提示的解决方法
- 时间序列数据库——索引用ES、聚合分析时加载数据用什么?docvalues的列存储貌似更优优势一些。那分布式计算呢?ES做
- lucene 索引文件大小分布_tim
- 压缩日志及数据库文件大小
- ZIP文件格式详解(一)——文件数据格式
- 压缩日志及数据库文件大小