Hadoop的fsck工具
2015-06-30 15:22
274 查看
HDFS支持fsck命令用以检查各种不一致。fsck用以报告各种文件问题,如block丢失或缺少block等。fack命令用法如下:
bin/hadoop fsck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]
<path> 检查的起始目录
-move 将损坏的文件移动到/lost+found下面
-delete 删除损坏的文件
-openforwrite 打印出正在写的文件
-files 打印出所有被检查的文件
-blocks 打印出block报告
-locations 打印出每个block的位置
-racks 打印出datanode的网络拓扑结构
默认情况下,fsck会忽略正在写的文件,使用-openforwrite选项可以汇报这种文件。
下面是用命令行在一个测试集群上执行fsck后的结果:
.......Status: HEALTHY
Total size: 32454532 B
Total dirs: 17
Total files: 7
Total blocks (validated): 7 (avg. block size 4636361 B)
Minimally replicated blocks: 7 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 3
Average block replication: 3.7142856
Corrupt blocks: 0
Missing replicas: 0 (0.0 %)
Number of data-nodes: 45
Number of racks: 1
需要注意的是在执行fsck命令行的客户端必选在hadoop-site.xml中配置dfs.http.address项,即namenode的http地址。否则会抛出java.net.ConnectException: Connection refused异常。其原因是fsck是namenode的一个servlet。而fsck命令对应的类DFSck其实是封装了一个http连接,简单的说就是抓取一个网页。而这个网页URL就是dfs.http.address配置项的value后面接上fsck,如http://10.249.65.1:50070/fsck。也就是说用浏览器打开这个网页和命令行执行fsck效果是一样的。
namenode的这个Servlet类名是FsckServlet,它的doGet函数里定义了一个NamenodeFsck对象并执行起fsck()函数。fack()函数递归地从指定path遍历所有的目录和文件,并根据选项确定要打印的内容。如果指定了-move选项,则损坏的文件会被移动到/lost+found目录,如果在根目录下已经存在一个名为lost+found的文件,则move操作会失败并打印warning信息。
对于大的集群来说,对根目录执行fsck操作是很耗时间的而且对namenode压力很大,因此要谨慎使用。通常每天在集群较空闲的时候执行一次以查看数据状况。另外由于任何用户都可以在命令行或浏览器中执行fsck操作,因此可以考虑对该操作进行 权限控制,防止被误操作。
版权声明:本文为博主原创文章,未经博主允许不得转载。
http://blog.csdn.net/liangliyin/article/details/5872172
bin/hadoop fsck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]
<path> 检查的起始目录
-move 将损坏的文件移动到/lost+found下面
-delete 删除损坏的文件
-openforwrite 打印出正在写的文件
-files 打印出所有被检查的文件
-blocks 打印出block报告
-locations 打印出每个block的位置
-racks 打印出datanode的网络拓扑结构
默认情况下,fsck会忽略正在写的文件,使用-openforwrite选项可以汇报这种文件。
下面是用命令行在一个测试集群上执行fsck后的结果:
.......Status: HEALTHY
Total size: 32454532 B
Total dirs: 17
Total files: 7
Total blocks (validated): 7 (avg. block size 4636361 B)
Minimally replicated blocks: 7 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 3
Average block replication: 3.7142856
Corrupt blocks: 0
Missing replicas: 0 (0.0 %)
Number of data-nodes: 45
Number of racks: 1
需要注意的是在执行fsck命令行的客户端必选在hadoop-site.xml中配置dfs.http.address项,即namenode的http地址。否则会抛出java.net.ConnectException: Connection refused异常。其原因是fsck是namenode的一个servlet。而fsck命令对应的类DFSck其实是封装了一个http连接,简单的说就是抓取一个网页。而这个网页URL就是dfs.http.address配置项的value后面接上fsck,如http://10.249.65.1:50070/fsck。也就是说用浏览器打开这个网页和命令行执行fsck效果是一样的。
namenode的这个Servlet类名是FsckServlet,它的doGet函数里定义了一个NamenodeFsck对象并执行起fsck()函数。fack()函数递归地从指定path遍历所有的目录和文件,并根据选项确定要打印的内容。如果指定了-move选项,则损坏的文件会被移动到/lost+found目录,如果在根目录下已经存在一个名为lost+found的文件,则move操作会失败并打印warning信息。
对于大的集群来说,对根目录执行fsck操作是很耗时间的而且对namenode压力很大,因此要谨慎使用。通常每天在集群较空闲的时候执行一次以查看数据状况。另外由于任何用户都可以在命令行或浏览器中执行fsck操作,因此可以考虑对该操作进行 权限控制,防止被误操作。
版权声明:本文为博主原创文章,未经博主允许不得转载。
http://blog.csdn.net/liangliyin/article/details/5872172
相关文章推荐
- hadoop升级之fsck命令迎战miss block警告
- DRBD+HeartBeat+NFS:配置NFS的高可用 推荐
- 如何快速开发网站?
- tomcat 配置server.xml 指定端口就可以直接打开项目。
- jd for webservice developer / leader
- linux的shell
- 利用COPYDATASTRUCT传递命令行参数给驻留内存的进程(SendMessage应用)
- Linux中使用SecureCRT上传、下载文件命令sz与rz用法实例
- Android和Linux kernel版本对应表
- 关于在Eclipse中启动Tomcat报java.lang.OutOfMemoryError: PermGen space的解决方法
- 算法练习:TopK_1
- linux 目录个数和文件个数限制(单个目录下最大文件数)
- Could not resolve archetype org.apache.maven.archetypes:maven-archetype-webapp:RELEASE from any of t
- windows 下apache 以fastcgi形式运行php
- linux 硬盘分区,分区,删除分区,格式化,挂载,卸载笔记
- centos7 修改主机名的方法(在centos7有效)
- informatica 修改tomcat 连接池
- Linux下安装PHP环境
- Nginx反向代理和负载均衡部署指南
- 用SecureCRT在windows和CentOS间上传下载文件