您的位置：首页 > 其它

调试集群的一些方法收集

2015-07-23 21:26 162 查看

1.

2.x中使用MapReduce JobHistory Server，端口号默认为19888，地址由参数mapreduce.jobhistory.webapp.address配置管理

使用命令mapred historyserver启动

2.

使用eclipse上传数据到集群时候，没有权限，需要在hdfs-site.xml添加 dfs.permissions 为false，最好也修改chown 。。。

3.

hadoop确定分组时,一般先将作为key的对象的HashCode和0x7FFFFFFF做与操作,因为一个对象的HashCode可以为负数,这样操作后可以保证它为一个正整数.然后以Hashtable的长度取模,得到值对象在Hashtable中的索引

4.

可以在mapred-site.xml，添加mapred.task.timeout属性，1800000 的值，增加等待时间

index = (o.hashCode() & 0x7FFFFFFF)%hs.length;

5.

单个shuffle能够消耗的内存占reduce所有内存的比例，默认值为0.25。那么降低mapreduce.reduce.shuffle.memory.limit.percentt这个参数应该可以使得程序选择OnDiskMapout而不是选择InMemory，调低至0.06再测试

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航