Hadoop压缩类型
2015-09-07 23:37
204 查看
压缩类型 | 工具 | 算法 | 文件名后缀 | 可分割 |
DEFLAT | 无 | DEFLAT | .deflat | 不 |
gzip | gzip | DEFLAT | .gz | 不 |
bzip2 | bzip2 | bzip2 | .bz2 | 可 |
LZO | Lzop | LZO | .lzo | 不 |
LZ4 | 无 | LZ4 | .lz4 | 不 |
Snappy | 无 | Snappy | .snappy | 不 |
bzip2压缩效率更高,比gzip效率更高,压缩后的文件占据的空间更小,但是其
需要的时间更长
在HDFS文件格式,文件时分割在一个个不同的block中进行存储。而gzip是不
可分割的,那么如果采用gzip作为压缩工具,将文件切割成多个block,会发现
程序部能运行,其原因是系统默认的DEFLATE算法(gzip的核心算法)在压缩过
程中将数据进行连续的非指向性排列,若从其中一个位置被分割,那么无法确
保FileSystem实例在获取完一个单独的block后,能够及时准确地获取接下来的那
一个连续的block位置。
但gzip压缩后的大文件可以被Hadoop以串联的方式存储在同一个节点中连续
的block中,即所有的数据都以链式的结构存储在同一个节点上,Hadoop做的仅
仅是对容量进行了压缩。只是由于其后续处理需要对文件进行读取操作时,所
有存储有数据的block将会一次由同一个数据输入任务来处理。
相关文章推荐
- vim&find&bash&
- Linux文件系统上的特殊权限
- 学习资源分享,想了解某个协议的基础知识可以去H3C的网站学习,挺好~~
- 内核linux-3.4.2支持dm9000
- Linux系统磁盘管理及文件系统管理中各类命令使用
- linux防火墙详解
- Linux下Chrome浏览器不支持WebGL的解决方式。
- Bash环境变量配置
- nginx 测试
- 条款14:在资源管理类中心copying行为(Think carefully about copying behavior in resource-manage classes)
- bash 环境变量
- 网站测试全程
- Linux搭建SVN服务器
- 嵌入式设备时间同步管理
- find,vim,bash环境变量,文件权限
- linux运维实战练习-2015年8月30日课程作业
- Linux或者mac的文件夹下的转码
- JBoss 系列九十一:JBoss 构建的高可用集群环境使用 Apache 的 mod_rewrite 转发根路径到特定应用
- Linux系统上的任务计划(at、crontab)的详细使用方法
- Hadoop2.2.0 HA高可用分布式集群搭建(hbase,hive,sqoop,spark)