您的位置：首页 > 大数据 > Hadoop

HDFS高级操作命令和工具

2016-05-04 17:41 846 查看

HDFS高级操作命令和工具

本文讲解HDFS 的一些高级操作功能，以及通过web 方式查看HDFS 信息的方法。

1. archive

在本地文件系统中，如果文件很少用，但又占用很大空间，可以将其压缩起来，以减少空间使用。在HDFS 中同样也会面临这种问题，一些小文件可能只有几KB 到几十KB，但是在DataNode 中也要单独为其分配一个几十MB 的数据块，同时还要在NameNode 中保存数据块的信息。如果小文件很多的话，对于NameNode 和DataNode 都会带来很大负担。所以HDFS中提供了archive 功能，将文件压缩起来，减少空间使用。

HDFS 的压缩文件的后缀名是.har，一个har 文件中包括文件的元数据（保存在_index和_masterindex）以及具体数据（保存在part-XX）。但是，HDFS 的压缩文件和本地文件系统的压缩文件不同的是：har 文件不能进行二次压缩；另外，har 文件中，原来文件的数据并没有变化，har 文件真正的作用是减少NameNode 和DataNode 过多的空间浪费。简单算一笔账，保存1000 个10K 的文件，不用archive 的话，要用64M×1000，也就是将近63G的空间来保存；用archive
的话，因为总数据量有10M（还需要加上这些文件的_index 和_masterindex，不过很小就是了），只需要一个数据块，也就是64M 的空间就够了。这样的话，节约的空间相当多；如果有十万百万的文件，那节省的空间会更可观。

将文件压缩成.har 文件的格式如下：

[java] view
plain copy

hadoop archive -archiveName name -p <parent><src>*<dest> </span>

[java] view
plain copy

hadoop archive -archiveName zoo.har -p /foo/bar /outputdir </span>

注意，.har 文件一旦创建之后就不能更改，也不能再次被压缩。如果想给.har 加文件，只能找到原来的文件，重新创建一个。

访问har 文件的内容可以通过指定URL har:///user/data/arch.har 来完成，所以可以通过上节提到的文件操作命令操作har，比如，显示har 文件内容可以用：

[java] view
plain copy

hadoop dfs -ls har:///user/data/arch.har </span>

查看全部文件可以用：

[java] view
plain copy

hadoop dfs -lsr har:///user/data/arch.har </span>

压缩完毕后，发现origin 的大小和har 文件中的part-XX 的大小一样，之所以一样的原因是har 压缩文件在文件的数据块占用上做了优化，但是文件本身并未发生变化，只是单纯连接到一起而已。

2. balancer

HDFS 并不会将数据块的副本在集群中均匀分布，一个重要原因就是在已存在的集群中添加和删除DataNode 被视作正常的情形。保存数据块时，NameNode 会从多个角度考虑DataNode 的选择，比如：将副本保存到与第一个副本所在DataNode 所属机架不同的机架上（这里的机架可以认为是若干DataNode 组成的“局域网”，机架内部的DataNode
之间的数据传输的代价远小于机架内部DataNode 和机架外部的数据传输）。

在与正写入文件数据的DataNode 相同的机架上，选择另外的DataNode 放一个副本。在满足以上条件之后，尽量将副本均匀分布。

在默认的副本因子为3 的集群中，一般情况下，数据块的存放策略如下：首先，选择一个DataNode 保存第一个副本；接下来，选择与第一副本所在DataNode 不同的机架保存第二个副本；最后，和第二个副本相同的机架中，选择另外一个DataNode 保存第三个副本。

如果管理员发现某些DataNode 保存数据过多，而某些DataNode 保存数据相对少，那么可以使用hadoop 提供的工具balancer，手动启动内部的均衡过程。

命令如下：

hadoop balancer [-threshold <threshold>]

-threshold 参数是一个0 ～ 100 之间的实数，单位为百分比，默认值为10。这个参数表示：各个DataNode 的利用率（已用空间/ 可用空间）与整个集群的利用率的差值的绝对值的上限。也就是说，如果每个DataNode 的利用率和平均利用率相差不大（小于阈值）的话，可以认为这个集群已经“平衡”了。管理员可以通过Ctrl+C 手动打断balancer。

另外还有一种运行方式，在终端中输入如下命令：

start-balancer.sh[–t <therehold>]

可以启动后台守护进程，也能达到同样效果。-t 选项指定阈值。在“平衡”之后，进程退出，手动关闭进程的方式为：

stop-balancer.sh

3. distcp

distcp（distribution copy）用来在两个HDFS 之间拷贝数据。在HDFS 之间拷贝数据要考虑很多因素，比如，两个HDFS 的版本不同怎么办？两个HDFS 的数据块大小、副本因子各不相同，又该怎么办？不同的数据块分布在不同节点上，如何让传输效率尽量高，等等。

正因如此，HDFS 中专门用distcp 命令完成跨HDFS 数据拷贝。从/src/tools 子目录下的源代码中可以看出，distcp 是一个没有reducer 的MapReduce 过程。

distcp 命令格式如下：

hadoop distcp [options] <srcurl>*<desturl>

<srcurl><desturl> 就是源文件和目标文件的路径，这和fs 中的cp 类似。

Options 选项及含义如表所示：

注：不同版本的HDFS 可以通过http 协议拷贝，那么命令

Hadoop distcp hdfs:// dn1:port1/data/file1\
hdfs:// dn2:port2/data/file2

可以写成：

hadoop distcp hftp:// dn1:port1/data/file1\
hftp:// dn2:port2/data/file2

4、dfsadmin

管理员可以通过dfsadmin 管理HDFS。支持的命令选项及含义如表：

HDFS 还提供了通过web 查看HDFS 信息的方式。HDFS 启动之后，会建立web服务，在默认情况下，访问http://namenode-name ：50070 即可查看HDFS 的Name Node 信息，如图所示：

通过web 界面可以查看HDFS 的信息，包括总容量、可用容量、DataNodes 的信息、HDFS 运行目录等。点击“Browse the filesystem”可以查看HDFS 的目录结构，

点击“Live Nodes”可以查看当前有效的DataNode 的信息。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航