MultipleOutputFormat多文件输出
2014-02-10 15:52
274 查看
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.mapred.JobConf; import org.apache.hadoop.mapred.RecordWriter; import org.apache.hadoop.mapred.lib.MultipleOutputFormat; import org.apache.hadoop.util.Progressable; import org.w3c.dom.Text; public class MultipleOutputFormatTest extends MultipleOutputFormat<Text, IntWritable>{ protected String generateFileNameForKeyValue(Text key, IntWritable value, Configuration conf) { char c = key.toString().toLowerCase().charAt(0); if(c >= 'a' && c <= 'z'){ return c + ".txt"; } return "other.txt"; } @Override protected RecordWriter<Text, IntWritable> getBaseRecordWriter( FileSystem fs, JobConf job, String name, Progressable arg3) throws IOException { // TODO Auto-generated method stub return null; } }
在教程当中只需要重写
generateFileNameForKeyValue就能达到分文件的效果 但是在实践当中
还需要重写另一个方法
getBaseRecordWriter还没有清楚其功能 先写着先
conf.setOutputFormat() //通过这个设定我们输出格式
本文出自 “某人说我技术宅” 博客,请务必保留此出处http://1992mrwang.blog.51cto.com/3265935/1206459
相关文章推荐
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- hadoop MultipleTextOutputFormat 解析mahout 中kmeans算法输出到不同文件
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)
- Spark多文件输出(MultipleTextOutputFormat)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- MultipleOutputFormat多文件输出
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- [置顶] Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- Spark多文件输出(MultipleTextOutputFormat)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)
- MR-2.输出格式(OutputFormat)Multiple outputs多目录输出
- 【Hadoop】利用MultipleOutputs,MultiOutputFormat实现以不同格式输出到多个文件
- 避免reduce输出为空文件的LazyOutputFormat
- 自定义实现InputFormat、OutputFormat、输出到多个文件目录中去、hadoop1.x api写单词计数的例子、运行时接收命令行参数,代码例子
- Hbase使用MultiTableOutputFormat实现多表输出MapReduce job
- Hadoop0.20+ custom MultipleOutputFormat
- 5、自定义FileOutputFormat分类输出