Hadoop InputFormat OutputFormat
2013-12-25 16:56
399 查看
InputFormat有两个抽象方法:
getSplits createRecordReader
InputSplits 将数据按照Split进行切分,一个Split分给一个task执行。
RecordReader 在Task中将Split按照key value进行切分,每个RecordReader切分的数据都给map方法执行一遍。
RecordReader三个抽象方法:
initialize 用来seek位置等
getCurrentKey getCurrentValue map读取key value
nextKeyValue 生成key value
getProgress
close
OutputFormat RecordWriter
OutputFormat抽象方法
checkOutputSpecs
getRecordWriter
OutputCommitter做繁重的工作,如create目录,rename,close等
getSplits createRecordReader
InputSplits 将数据按照Split进行切分,一个Split分给一个task执行。
RecordReader 在Task中将Split按照key value进行切分,每个RecordReader切分的数据都给map方法执行一遍。
RecordReader三个抽象方法:
initialize 用来seek位置等
getCurrentKey getCurrentValue map读取key value
nextKeyValue 生成key value
getProgress
close
OutputFormat RecordWriter
OutputFormat抽象方法
checkOutputSpecs
getRecordWriter
OutputCommitter做繁重的工作,如create目录,rename,close等
相关文章推荐
- [Hadoop] - 自定义Mapreduce InputFormat&OutputFormat
- 自定义实现InputFormat、OutputFormat、输出到多个文件目录中去、hadoop1.x api写单词计数的例子、运行时接收命令行参数,代码例子
- rhadoop self defined inputformat/outputformat
- Hadoop MapReduce InputFormat/OutputFormat
- Hadoop自定义 inputformat 和outputformat 实现图像的读写
- hadoop学习;自定义Input/OutputFormat;类引用mapreduce.mapper;三种模式
- Hadoop中常用的InputFormat、OutputFormat(转)
- hadoop学习;自己定义Input/OutputFormat;类引用mapreduce.mapper;三种模式
- hadoop学习;自定义Input/OutputFormat;类引用mapreduce.mapper;三种模式
- [Hadoop] - 自定义Mapreduce InputFormat&OutputFormat
- Hadoop中常用的InputFormat、OutputFormat(转)
- Hadoop开发常用的InputFormat和OutputFormat
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究
- 自定义 hadoop MapReduce InputFormat 切分输入文件
- Hadoop OutputFormat 介绍
- commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现
- Hadoop MapReduce处理海量小文件:基于CombineFileInputFormat(每次往map中读入1行)
- hadoop0.20.2中的KeyValueInputFormat
- hadoop inputformat