您的位置：首页 > 运维架构

Hadoop InputFormat OutputFormat

2013-12-25 16:56 399 查看

InputFormat有两个抽象方法：

getSplits createRecordReader

InputSplits 将数据按照Split进行切分，一个Split分给一个task执行。
RecordReader 在Task中将Split按照key value进行切分，每个RecordReader切分的数据都给map方法执行一遍。

RecordReader三个抽象方法：
initialize 用来seek位置等
getCurrentKey getCurrentValue map读取key value
nextKeyValue 生成key value
getProgress
close

OutputFormat RecordWriter

OutputFormat抽象方法
checkOutputSpecs
getRecordWriter

OutputCommitter做繁重的工作，如create目录，rename，close等

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

[Hadoop] - 自定义Mapreduce InputFormat&OutputFormat
自定义实现InputFormat、OutputFormat、输出到多个文件目录中去、hadoop1.x api写单词计数的例子、运行时接收命令行参数，代码例子
rhadoop self defined inputformat/outputformat
Hadoop MapReduce InputFormat/OutputFormat
Hadoop自定义 inputformat 和outputformat 实现图像的读写
hadoop学习；自定义Input/OutputFormat；类引用mapreduce.mapper；三种模式
Hadoop中常用的InputFormat、OutputFormat（转）
hadoop学习；自己定义Input/OutputFormat；类引用mapreduce.mapper；三种模式
hadoop学习；自定义Input/OutputFormat；类引用mapreduce.mapper；三种模式
[Hadoop] - 自定义Mapreduce InputFormat&OutputFormat
Hadoop中常用的InputFormat、OutputFormat（转）
Hadoop开发常用的InputFormat和OutputFormat
Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(二)
Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究
自定义 hadoop MapReduce InputFormat 切分输入文件
Hadoop OutputFormat 介绍
commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现
Hadoop MapReduce处理海量小文件：基于CombineFileInputFormat（每次往map中读入1行）
hadoop0.20.2中的KeyValueInputFormat
hadoop inputformat

新的分享

新鲜开源：基于Prometheus的企业监控平台设计与实现 - 运维
民生银行日接入量15T的ELK日志平台（Apollo+ES源码改造） - 运维
邱盛昌：OPPO商业化数据体系建设实战
一篇吃透监控系统：常用组合方案和主流工具选型 - 运维
DevOps落地成不成，关键不在持续集成？ - 运维
mlops的一些记录
用Prometheus监控K8S，目前最实用的部署方式都说全了（有彩蛋） - 运维
asio 使用 openssl 示例
Netty源码研究笔记（4）——EventLoop系列
许北林：我为什么加入OpenHarmony生态？又为什么要做“启航KP”开发套件？
【直播回顾】OpenHarmony知识赋能五期第五课——多媒体子系统之视频解读
【直播回顾】如何成为一名优秀的OpenHamrony贡献者？

章节导航