您的位置：首页 > 运维架构

hadoop集群数据迁移

2016-07-13 17:27 190 查看

hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar

如果想在两个运行着不同版本HDFS的集群上利用distcp，使用hdfs协议是会失败的，因为RPC系统是不兼容的。想要弥补这种情况，可以使用基于HTTP的HFTP文件系统从源中进行读取。这个作业必须运行在目标集群上，使得HDFS RPC版本是兼容的。

例如：hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar

cdh如下异常：

Caused by: java.io.IOException: Check-sum mismatch between hftp://ip:50070/flume/CC/normal/2014-06-20/FlumeData.1403222404996.snappy and hdfs://ip:8020/flume/.distcp.tmp.attempt_1404355744480_0004_m_000015_2.

    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.compareCheckSums(RetriableFileCopyCommand.java:190)

    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doCopy(RetriableFileCopyCommand.java:125)

    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doExecute(RetriableFileCopyCommand.java:95)

    at org.apache.hadoop.tools.util.RetriableCommand.execute(RetriableCommand.java:87)

    ... 11 more

解决方法：

hdfs增加如此参数

<property>

<name>dfs.checksum.type</name>

<value>CRC32</value>

</property>

另外若目标集群若配置了安全机制，例如kerberos，distcp运行失败，暂时解决办法是禁用安全机制，先将数据迁移。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航