hadoop streaming 版本兼容问题
2015-11-17 10:23
387 查看
转载一篇同事的文章:
使用hadoop streaming的脚本,在从hadoop 1.0迁移到2.7.1时遇到问题:
使用1.0时,map的outputkey是Text正确,迁移到2.7.1时报错,修改为LongWritable正常。
为保证代码统一,在1.0上map的outputkey也使用LongWritable,报错,要求修改为Text,修改后正常。
解决办法,使用Text,在2.7.1 版本的streaming shell脚本中增加:
-Dmapreduce.map.output.key.class=org.apache.hadoop.io.Text\
分析原因应该是hadoop streaming所使用的map outputkey默认值在版本升级时发生了变化,即:1.0默认为Text,2.0默认为LongWritable。
验证:
1.0中写死的代码:
jobConf_.setOutputKeyClass(Text.class); jobConf_.setOutputValueClass(Text.class); publicvoidsetOutputKeyClass(Class<?> theClass) { setClass("mapred.output.key.class", theClass, Object.class); }
keyClass = (Class<K>)job.getMapOutputKeyClass(); publicClass<?> getMapOutputKeyClass() { Class<?> retv = getClass("mapred.mapoutput.key.class",null, Object.class); if(retv == null) { retv = getOutputKeyClass(); } returnretv; } publicClass<?> getOutputKeyClass() { returngetClass("mapred.output.key.class", LongWritable.class, Object.class); }
虽然默认值是LongWritable,但由于已经设置了mapred.output.key.class,所以在1.0中无法修改map outputkey参数,只能使用Text。
2.0中代码:
maptask中代码同1.0中的形式,得到默认值LongWritable。但在StreamJob类中并未对mapreduce.map.output.key.class 进行设置值,所以最终使用的是LongWritable。
idResolver.resolve(jobConf_.get("stream.map.output", IdentifierResolver.TEXT_ID)); jobConf_.setClass("stream.map.output.reader.class", idResolver.getOutputReaderClass(), OutputReader.class); // 这两个条件均未满足。 if(isMapperACommand || jobConf_.get("stream.map.output") != null) { // if mapper is a command, then map output key/value classes come from the // idResolver // 正常这两句可以设置map outputkey和value为Text,可惜上面条件未满足 jobConf_.setMapOutputKeyClass(idResolver.getOutputKeyClass()); jobConf_.setMapOutputValueClass(idResolver.getOutputValueClass()); if(jobConf_.getNumReduceTasks() == 0) { jobConf_.setOutputKeyClass(idResolver.getOutputKeyClass()); jobConf_.setOutputValueClass(idResolver.getOutputValueClass()); } }
相关文章推荐
- Linux 调节屏幕亮度
- Activity堆栈式管理
- 第六天-linux系统优化初步讲解
- 深copy,浅copy
- openvswitch配置vxlan隧道ping不通的解决办法
- spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable
- (二)洞悉linux下的Netfilter&iptables:内核中的ip_tables小觑
- centos7安装nginx
- 如何做到让各大搜索引擎收录你的网站!
- 【笔记】解决方法Caused by: java.lang.ClassNotFoundException:org.apache.commons.logging.LogFactory
- Linux上相对路径问题
- vmvare上hadoop2.6的伪分布环境搭建
- (一)洞悉linux下的Netfilter&iptables:什么是Netfilter?
- 网站状态码大全
- MVC中DropDownListFor使用及报错既有键值为“SightId”的值为String,应该为IEnumerable<selectlist>
- Window设置CMD和GitBash一致
- ASP.NET编程获取网站根目录方法小结
- 网站改版进行时,需要注意的
- 关于nginx的server_name
- ECS Linux 服务器公钥秘钥SSH登录