Hadoop 文件的数量怎么比block的数量多?
2015-12-06 17:39
429 查看
Total files: 23
Total symlinks: 0
Total blocks (validated): 22 (avg. block size 117723 B)
Minimally replicated blocks: 22 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 2
Average block replication: 2.0
Corrupt blocks: 0
Missing replicas: 0 (0.0 %)
Number of data-nodes: 2
Number of racks: 1
FSCK ended at Sun Dec 06 13:17:09 CST 2015 in 20 milliseconds
有一次,同事问我说,文件数怎么比block数目还要多,这正常吗?
当时查看的情况是文件数一千多万,block的总数不到一千万。
我当时也没想出原因。现在知道了,并不是我们想的,block的数量应该是文件的数量* 复本数
这里fsck 给出的数据是这样理解的,block数量不是总的复本数,文件按block大小划分的数量。
而且我们在执行mapreduce的时候,会生成sucess之类的标识文件,这样的文件是空的,不算block
所以文件的数量会比block数量多,这是正常的。
Total symlinks: 0
Total blocks (validated): 22 (avg. block size 117723 B)
Minimally replicated blocks: 22 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 2
Average block replication: 2.0
Corrupt blocks: 0
Missing replicas: 0 (0.0 %)
Number of data-nodes: 2
Number of racks: 1
FSCK ended at Sun Dec 06 13:17:09 CST 2015 in 20 milliseconds
有一次,同事问我说,文件数怎么比block数目还要多,这正常吗?
当时查看的情况是文件数一千多万,block的总数不到一千万。
我当时也没想出原因。现在知道了,并不是我们想的,block的数量应该是文件的数量* 复本数
这里fsck 给出的数据是这样理解的,block数量不是总的复本数,文件按block大小划分的数量。
而且我们在执行mapreduce的时候,会生成sucess之类的标识文件,这样的文件是空的,不算block
所以文件的数量会比block数量多,这是正常的。
相关文章推荐
- Linux添加硬盘与fdisk分区、mke2fs格式化分区、自动挂载
- LINUX打印
- Nginx 配置SSL访问
- linux 解决Ubuntu编译内核uImage出现问题“mkimage” command not found - U-Boot images will not be built问题
- CentOS 6.5 64 安装多个mysql 服务 -阿里云服务器ECS
- VS2010+OpenCV2.4.3配置
- MapReduce实现单表关联(微博关注推荐)
- 厚道舒适的字体 -- Adobe Source Code Pro -- 在Linux上安装以及在Emacs中的配置
- nginx学习(六) 负载均衡、反向代理、rewrite
- centos 6.5 安装 erlang
- oops
- linux下配置tomcat虚拟目录
- linux中cat、more、less、tail、head命令的区别
- 初识 Openstack nova-api
- Linux_DNS服务器
- Hadoop实现多表关联
- 【Linux编程】IO复用之select详解
- 树莓派+motion实现局域网简单监控
- windows linux Git使用总结
- linux笔记 第九天 软raid、bash循环进阶、lvm详解、压缩和归档工具