您的位置:首页 > 运维架构

Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)

2014-04-12 23:25 417 查看
 直到目前,我们看到的所有Mapreduce作业都输出一组文件。但是,在一些场合下,经常要求我们将输出多组文件或者把一个数据集分为多个数据集更为方便;比如将一个log里面属于不同业务线的日志分开来输出,并交给相关的业务线。

  用过旧API的人应该知道,旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoop.mapred.lib.MultipleOutputs,文档对MultipleOutputFormat的解释(MultipleOutputs 解释在后面)是:

  MultipleOutputFormat allowing to write the output data to different output files.

  MultipleOutputFormat可以将相似的记录输出到相同的数据集。在写每条记录之前,MultipleOutputFormat将调用generateFileNameForKeyValue方法来确定需要写入的文件名。通常,我们都是继承MultipleTextOutputFormat类,来重新实现generateFileNameForKeyValue方法以返回每个输出键/值对的文件名。generateFileNameForKeyValue方法的默认实现如下:

返回默认的name,我们可以在自己的类中重写这个方法,来定义自己的输出路径,比如:

这样相同country的记录将会输出到同一目录下的name文件中。完整的例子如下:

将上面的程序打包成jar文件(具体怎么打包,就不说),并在Hadoop2.2.0上面运行(测试数据请在这里下载:http://pan.baidu.com/s/1td8xN):

运行完程序之后,可以去/home/wyp/out目录看下运行结果:

  从上面的结果可以看出,所有country相同的结果都输出到同一个文件夹下面了。MultipleOutputFormat对完全控制文件名和目录名很方便。大家也看到了上面的程序是基于行的split,如果我们要基于列的split,MultipleOutputFormat就无能为力了。这时MultipleOutputs就用上场了。MultipleOutputs在很早的版本就存在,那么我们先看看官方文档是怎么解释MultipleOutputs的:

  MultipleOutputs creates multiple OutputCollectors. Each OutputCollector can have its own OutputFormat and types for the key/value pair. Your MapReduce program will decide what to output to each OutputCollector.

  由于本文比较长,考虑到篇幅问题,所以将本文拆分为二,第二部分请参见本博客《Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)》,给你带来不便请原谅。

转载请注明: 转载自过往记忆(http://www.iteblog.com/)

本文链接地址: Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)(http://www.iteblog.com/archives/842)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: