您的位置：首页 > 运维架构

hadoop 一个Job多个MAP与REDUCE的执行

2014-08-14 23:46 435 查看

在hadoop 中一个Job中可以按顺序运行多个mapper对数据进行前期的处理，再进行reduce，经reduce后的结果可经个经多个按顺序执行的mapper进行后期的处理，这样的Job是不会保存中间结果的，并大大减少了I/O操作。

例如：在一个Job中，按顺序执行 MAP1->MAP2->REDUCE->MAP3->MAP4 在这种链式结构中，要将MAP2与REDUCE看成这个MAPREDUCE的核心部分(就像是单个中的MAP与REDUCE)，并且partitioning与shuffling在此处才会被应用到。所以MAP1作为前期处理，而MAP3与MAP4作为后期处理。

[java] view
plaincopy

Configuration conf = getConf();

JobConf job = new JobConf(conf);

job.setJobName(“ChainJob”);

job.setInputFormat(TextInputFormat.class);

job.setOutputFormat(TextOutputFormat.class);

FileInputFormat.setInputPaths(job, in);

FileOutputFormat.setOutputPath(job, out);

JobConf map1Conf = new JobConf(false);

ChainMapper.addMapp(job,

Map1.class,

LongWritable.class,

Text.class,

Text.class,

Text.class,

true,

map1Conf);

//将map1加入到Job中

JobConf map2Conf = new JobConf(false);

ChainMapper.addMapper(job,

BMap.class,

Text.class,

Text.class,

LongWritable.class,

Text.class,

true,

map2Conf);

/将map2加入到Job中

JobConf reduceConf = new JobConf(false);

ChainReducer.setReducer(job,

Reduce.class,

LongWritable.class,

Text.class,

Text.class,

Text.class,

true,

reduceConf);

/将reduce加入到Job中

JobConf map3Conf = new JobConf(false);

ChainReducer.addMapper(job,

Map3.class,

Text.class,

Text.class,

LongWritable.class,

Text.class,

true,

map3Conf);

/将map3加入到Job中

JobConf map4Conf = new JobConf(false);

ChainReducer.addMapper(job,

Map4.class,

LongWritable.class,

Text.class,

LongWritable.class,

Text.class,

true,

map4Conf);

//将map4加入到Job中

JobClient.runJob(job);

注：上一个的输出是一下的输入，所以上一个的输出数据类型必须与下一个输入的数据类型一样

***************************************************

addMapper中的参数

public static <K1,V1,K2,V2> void

addMapper(JobConf job,

Class<? extends Mapper<K1,V1,K2,V2>> klass,

Class<? extends K1> inputKeyClass,

Class<? extends V1> inputValueClass,

Class<? extends K2> outputKeyClass,

Class<? extends V2> outputValueClass,

boolean byValue,

JobConf mapperConf)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航