MultipleOutputFormat多文件输出
2013-05-22 08:39
323 查看
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.mapred.JobConf; import org.apache.hadoop.mapred.RecordWriter; import org.apache.hadoop.mapred.lib.MultipleOutputFormat; import org.apache.hadoop.util.Progressable; import org.w3c.dom.Text; public class MultipleOutputFormatTest extends MultipleOutputFormat<Text, IntWritable>{ protected String generateFileNameForKeyValue(Text key, IntWritable value, Configuration conf) { char c = key.toString().toLowerCase().charAt(0); if(c >= 'a' && c <= 'z'){ return c + ".txt"; } return "other.txt"; } @Override protected RecordWriter<Text, IntWritable> getBaseRecordWriter( FileSystem fs, JobConf job, String name, Progressable arg3) throws IOException { // TODO Auto-generated method stub return null; } }
在教程当中只需要重写
generateFileNameForKeyValue就能达到分文件的效果 但是在实践当中
还需要重写另一个方法
getBaseRecordWriter还没有清楚其功能 先写着先
conf.setOutputFormat() //通过这个设定我们输出格式
相关文章推荐
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- hadoop MultipleTextOutputFormat 解析mahout 中kmeans算法输出到不同文件
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)
- Spark多文件输出(MultipleTextOutputFormat)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- [置顶] Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究
- MultipleOutputFormat多文件输出
- Spark多文件输出(MultipleTextOutputFormat)
- 自定义实现InputFormat、OutputFormat、输出到多个文件目录中去、hadoop1.x api写单词计数的例子、运行时接收命令行参数,代码例子
- 【Hadoop】利用MultipleOutputs,MultiOutputFormat实现以不同格式输出到多个文件
- 避免reduce输出为空文件的LazyOutputFormat
- MR-2.输出格式(OutputFormat)Multiple outputs多目录输出
- MR之自定义outputformat输出方式代码演示
- Spark多文件输出(MultipleOutputFormat)
- Java知识点整理:第十二章:java文件系统管理、IO流(Input(输入)/Output(输出)) 、缓冲流