调试集群的一些方法收集
2015-07-23 21:26
162 查看
1.
2.x中使用MapReduce JobHistory Server,端口号默认为19888,地址由参数mapreduce.jobhistory.webapp.address配置管理
使用命令mapred historyserver启动
2.
使用eclipse上传数据到集群时候,没有权限,需要在hdfs-site.xml添加 dfs.permissions 为false,最好也修改chown 。。。
3.
hadoop确定分组时,一般先将作为key的对象的HashCode和0x7FFFFFFF做与操作,因为一个对象的HashCode可以为负数,这样操作后可以保证它为一个正整数.然后以Hashtable的长度取模,得到值对象在Hashtable中的索引
4.
可以在mapred-site.xml,添加mapred.task.timeout属性,1800000 的值,增加等待时间
index = (o.hashCode() & 0x7FFFFFFF)%hs.length;
5.
单个shuffle能够消耗的内存占reduce所有内存的比例,默认值为0.25。那么降低mapreduce.reduce.shuffle.memory.limit.percentt这个参数应该可以使得程序选择OnDiskMapout而不是选择InMemory,调低至0.06再测试
2.x中使用MapReduce JobHistory Server,端口号默认为19888,地址由参数mapreduce.jobhistory.webapp.address配置管理
使用命令mapred historyserver启动
2.
使用eclipse上传数据到集群时候,没有权限,需要在hdfs-site.xml添加 dfs.permissions 为false,最好也修改chown 。。。
3.
hadoop确定分组时,一般先将作为key的对象的HashCode和0x7FFFFFFF做与操作,因为一个对象的HashCode可以为负数,这样操作后可以保证它为一个正整数.然后以Hashtable的长度取模,得到值对象在Hashtable中的索引
4.
可以在mapred-site.xml,添加mapred.task.timeout属性,1800000 的值,增加等待时间
index = (o.hashCode() & 0x7FFFFFFF)%hs.length;
5.
单个shuffle能够消耗的内存占reduce所有内存的比例,默认值为0.25。那么降低mapreduce.reduce.shuffle.memory.limit.percentt这个参数应该可以使得程序选择OnDiskMapout而不是选择InMemory,调低至0.06再测试
相关文章推荐
- web项目.注册及登陆
- poj2255 (二叉树遍历)
- 编译修改过的felix失败记录
- 009语音识别-华为机试题目
- crossApp初级-开发环境-1
- Quartz2D复习(一)--- 基础知识 / 绘制线段圆弧 / 图片水印 / 截图
- ZABBIX企业监控实践(2):升级与配置Apache
- #1077 : RMQ问题再临-线段树
- 股票学习(K线分析)
- CODEVS1033
- Codeforces Gym 100513G G. FacePalm Accounting
- linux运维学习方法
- POJ 1222-EXTENDED LIGHTS OUT(高斯消元求解异或方程组)
- C语言(1)--解一元二次方程、将整数第五位清零、说谎、放鞭炮
- 7,鼠标学习四-滚轮
- C++Primer(第五版) 习题答案
- dwz分页组件中,一个奇怪的翻页问题的解决
- 2015第30周四Java日志组件
- 如何查看是否被肉鸡
- 计蒜客---加一