HDFS bytes read与Map input bytes
2013-11-12 18:34
225 查看
在看Hadoop的执行日志时可以看到HDFS
bytes read与Map input bytes这2个参数。这2个参数都属于JOB读入的信息。其中HDFS
bytes read是一个文件系统接口层面的统计,它更底层,它直接处理的是文件系统的读。而Map input bytes是对文件系统读入的数据做了进一步的处理,是真正JOB读入的数据流。
理论上讲,对于未压缩的text File,HDFS
bytes read与Map input bytes的大小应该是相同的。但是实际测试发现两个大小稍有差别。
对于压缩的text File,HDFS
bytes read当然要比Map input bytes小很多。
对于sequence File,HDFS
bytes read比Map input bytes要大一些。
下面是一组测试案例(测试版本为Hadoop
0.19,文件大小单位为字节):
sequence File:
源文件: 28640942
HDFS bytes read:29083455
Map input bytes:28640815
text File:
源文件: 88828602
HDFS bytes read:88831326
Map input bytes:88828602
text File 压缩:
源文件: 27040567
HDFS bytes read:27040567
Map input bytes:88828602
bytes read与Map input bytes这2个参数。这2个参数都属于JOB读入的信息。其中HDFS
bytes read是一个文件系统接口层面的统计,它更底层,它直接处理的是文件系统的读。而Map input bytes是对文件系统读入的数据做了进一步的处理,是真正JOB读入的数据流。
理论上讲,对于未压缩的text File,HDFS
bytes read与Map input bytes的大小应该是相同的。但是实际测试发现两个大小稍有差别。
对于压缩的text File,HDFS
bytes read当然要比Map input bytes小很多。
对于sequence File,HDFS
bytes read比Map input bytes要大一些。
下面是一组测试案例(测试版本为Hadoop
0.19,文件大小单位为字节):
sequence File:
源文件: 28640942
HDFS bytes read:29083455
Map input bytes:28640815
text File:
源文件: 88828602
HDFS bytes read:88831326
Map input bytes:88828602
text File 压缩:
源文件: 27040567
HDFS bytes read:27040567
Map input bytes:88828602
相关文章推荐
- 基于HDFS的数据查询系统分析总结
- HBASE 代码阅读笔记-1 - PUT-3-提交任务2(基于0.96-hadoop2)
- HBASE 代码阅读笔记-1 - PUT-3-提交任务1 (0.96-HADOOP2)
- HDFS命令行操作
- HDFS读写数据过程
- HDFS读写数据过程
- HBASE 代码阅读笔记-1 - PUT-2-定位RS和R-1(0.96-HADOOP2)
- HBASE 代码阅读笔记-1 - PUT操作客户端主流程(基于0.96.0-hadoop2)
- 在 Map[Reduce] 的 setup 中读取 HDFS 文件夹信息
- 从HDFS看分布式文件系统的设计需求
- HDFS性能瓶颈分析
- HDFS写操作的整体流程概述
- HDFS的特点和目标
- HDFS读取文件的整体流程概述
- HDFS读取文件操作的处理流程源码分析
- HDFS写入文件操作的处理流程源码分析
- 学习Hadoop部署集群环镜(一)
- hdfs命令操作
- HDFS中文件的压缩与解压
- Hadoop单机版和全分布式(集群)安装