MapReduce接口类
2018-03-09 20:43
113 查看
MapReduce接口类
MapReduce输入的处理类FileInputFormat所有以文件作为数据源的InputFormat实现的基类,FileInputFormat保存作为job输入的所有文件,并实现了对输入文件计算splits的方法。
InputFormat负责处理MapReduce的输入部分,主要有三个作用:验证作业的输入是否规范,把输入文件切分成InputSplit,提供RecordReader的实现类,把InputSplit读到Mapper中进行处理。
InputSplit
在执行MapReduce之前,原始数据被分割成若干split,每个split作为一个map任务的输入,在map执行过程中split会被分解成一个个记录(key-value对),map会依次处理每一个记录。
(1)TextInputFormat
默认的处理类,处理普通文本。文件中每一行作为一个记录,它将每一行在文件中的起始偏移量作为key,每一行的内容作为value。默认以\n或回车作为一行记录。
(2)CombineFileFormat
(3)KeyValueTextInputFormat
当驶入数据的每一行是两列,并用tab分离的时候,非常适合用这种格式处理。
(4)NLineInputFormat
MapReduce输出的处理类主要用于描述输出数据的格式,它能够将用户提供的key/value对写入特定格式的文件中。TextOutputFormat
默认的输出格式,key和value中间值用tab隔开的。
SequenceFileOutputFormat
SequenceFileAsOutputFormat
MapFileOutputFormat
将key和value写入MapFile中。
MultipleOutputFormat
一个reduce产生一个输出
相关文章推荐
- Hadoop生态之Awesome系列
- 详解HDFS Short Circuit Local Reads
- Hadoop_2.1.0 MapReduce序列图
- 使用Hadoop搭建现代电信企业架构
- 单机版搭建Hadoop环境图文教程详解
- hadoop常见错误以及处理方法详解
- hadoop 单机安装配置教程
- hadoop的hdfs文件操作实现上传文件到hdfs
- hadoop实现grep示例分享
- 详解VMware12使用三台虚拟机Ubuntu16.04系统搭建hadoop-2.7.1+hbase-1.2.4(完全分布式)
- 详解从 0 开始使用 Docker 快速搭建 Hadoop 集群环境
- Hadoop对文本文件的快速全局排序实现方法及分析
- Hadoop编程基于MR程序实现倒排索引示例
- hadoop动态增加和删除节点方法介绍
- Linux中安装配置hadoop集群详细步骤
- Linux中Centos7搭建Hadoop服务步骤
- MongoDB中的MapReduce简介
- Mongodb中MapReduce实现数据聚合方法详解
- MongoDB学习笔记之MapReduce使用示例
- 走入Hadoop世界的大门