您的位置:首页 > 其它

调试集群的一些方法收集

2015-07-23 21:26 162 查看
1.

2.x中使用MapReduce JobHistory Server,端口号默认为19888,地址由参数mapreduce.jobhistory.webapp.address配置管理

使用命令mapred historyserver启动

2.

使用eclipse上传数据到集群时候,没有权限,需要在hdfs-site.xml添加 dfs.permissions 为false,最好也修改chown 。。。

3.

hadoop确定分组时,一般先将作为key的对象的HashCode和0x7FFFFFFF做与操作,因为一个对象的HashCode可以为负数,这样操作后可以保证它为一个正整数.然后以Hashtable的长度取模,得到值对象在Hashtable中的索引

4.

可以在mapred-site.xml,添加mapred.task.timeout属性,1800000 的值,增加等待时间

index = (o.hashCode() & 0x7FFFFFFF)%hs.length;

5.

单个shuffle能够消耗的内存占reduce所有内存的比例,默认值为0.25。那么降低mapreduce.reduce.shuffle.memory.limit.percentt这个参数应该可以使得程序选择OnDiskMapout而不是选择InMemory,调低至0.06再测试
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: