您的位置：首页 > 运维架构

hadoop问题

2014-02-11 00:00 260 查看

1、hadoop重启不能找到namenode，可能原因是没有指定临时存储目录，默认会存储到root根目录下的tmp文件中，重启后会消失，所以在core-site.xml文件中加入临时文件配置即可！

2、hadoop格式化会询问yes or no，yes大写！

3、配置SSH时，每台机器都需要配置自己的为密码，master与slaves互相持有其公钥！

4、hadoop命令操作Java，

bin/hadoop fs -ls,

将文件放到hadoop文件下，bin/hadoop fs -put ../input ./in

删除文件 bin/hadoop fs -rmr file,并没有物理删除，只是放在回收站中，里面可以设置时间阈值，超过阈值删除。

恢复与清空 bin/hadoop fs -move file

快照：

5、修改hdfs源码实现，namenode多点，这样一个namenode宕机不至于造成损失！《HDFS高可用》

6、HDFS思想是硬件设备坏掉是常态，解决这个的方法就是冗余！

7、datanode一次写入不能修改！

8、心跳机制：datanode向namenode定期发送信号，告诉namenode我还活着！

9、设置hadoop-classpath! hadoop环境变量！

10、分片问题，分片只能非常完全接近block。

性能调优

11、combiner 预处理过程，减少带宽，传输速度快！可以优化在此。

12、处理小文件，将小文件合成大文件。

13、减少map阶段的输出。

14、maperd-site.xml设置JVM重用。

15、如果maperd任务还未完成就出现故障，jobtracker会要求其他节点重新执行该maperd任务。

16、如果reduce任务还未完成就出现故障，jobtracker会要求其他节点继续执行reduce任务。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航