MapReduce(十二): Map和Reduce阶段数据合并的处理
2014-09-02 18:16
323 查看
在Map阶段处理数据时,由于内存的限制,会把数据先写到文件中,最终会根据数据的多少生成多个文件,每个文件中会按照Reduce的个数分区,每个分区的数据都按照key值顺序排放,Map结束后将多个文件合并为同一个文件,合并时会将多个文件相同分区的数据合并在一起并且多个分区的数据重新排序按照key顺序排放。在Reduce阶段则从多个Map中获取属于该Reduce的分区数据,然后会根据数据的多少写到文件和内存中,每个Map的数据为一个文件或一段内存,最后对内存和文件的数据进行合并计算输出最后的结果,合并的方式与Map合并方式一致。因此在Map和Reduce阶段都存在把多个文件或多段内存中的数据合并计算输出一个文件。
如上图所示Map阶段需要对多个文件的数据合并,在Reduce阶段Reduce Task 1向各个Map获取分区1的数据,Reduce Task 2向各个Map获取分区2的数据,Reduce Task 3向各个Map获取分区3的数据,图中为了简便,Reduce Task3向map获取数据的指向没有标识。获取完毕后根据数据的大小情况放到内存或文件中,然后对多个Map的分区数据进行合并,然后reduce计算后输出最终结果。
合并数据前首先把内存的数据,或者文件的数据用Segment封装对数据的读取,它提供了两个构造函数,分别对文件和内存的读入方式构造Segment实例,构造对文件的读取:
构造对的内存的读取:
其中的Reader的实例是IFile.InMermoryReader.java,以byte数组构造实例:
然后从数组中读取数据:
在构造完了所有Segment后,把Segment放入到MergeQueue中,MergeQueue继承了PriorityQueue抽象类,在把Segment放到MergeQueue中时,会对放入的segment按照第一个Key的大小排序:
MergeQueue也集成了RawKeyValueInterator接口,负责对存入的Segment读取Key,Value数据,在每读取完一个Key后,就立即对所拥有的Segment再进行按照当前第一个Key的大小排序,因此从MergeQueue中读取的Key,Value永远按照Key的顺序从多个Segment中读取:
为了一次归并的文件个数不是太多,因此在MergeQueue合并时,会判断文件个数是否超过某个阈值,如果超过则先把多个文件合并成一个文件,使总的文件个数在这个阈值下:
如果需要合并文件个数小于某个阈值,则返回MergeQueue自身,MergeQueue提供了对所有Segment按照key顺序访问:
如上图所示Map阶段需要对多个文件的数据合并,在Reduce阶段Reduce Task 1向各个Map获取分区1的数据,Reduce Task 2向各个Map获取分区2的数据,Reduce Task 3向各个Map获取分区3的数据,图中为了简便,Reduce Task3向map获取数据的指向没有标识。获取完毕后根据数据的大小情况放到内存或文件中,然后对多个Map的分区数据进行合并,然后reduce计算后输出最终结果。
合并数据前首先把内存的数据,或者文件的数据用Segment封装对数据的读取,它提供了两个构造函数,分别对文件和内存的读入方式构造Segment实例,构造对文件的读取:
构造对的内存的读取:
其中的Reader的实例是IFile.InMermoryReader.java,以byte数组构造实例:
然后从数组中读取数据:
在构造完了所有Segment后,把Segment放入到MergeQueue中,MergeQueue继承了PriorityQueue抽象类,在把Segment放到MergeQueue中时,会对放入的segment按照第一个Key的大小排序:
MergeQueue也集成了RawKeyValueInterator接口,负责对存入的Segment读取Key,Value数据,在每读取完一个Key后,就立即对所拥有的Segment再进行按照当前第一个Key的大小排序,因此从MergeQueue中读取的Key,Value永远按照Key的顺序从多个Segment中读取:
为了一次归并的文件个数不是太多,因此在MergeQueue合并时,会判断文件个数是否超过某个阈值,如果超过则先把多个文件合并成一个文件,使总的文件个数在这个阈值下:
如果需要合并文件个数小于某个阈值,则返回MergeQueue自身,MergeQueue提供了对所有Segment按照key顺序访问:
相关文章推荐
- mapreduce往Hbase里插入数据(有map无reduce)
- hadoop学习(Map、Reduce、日志分析和数据挖掘、大数据处理)
- MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中?
- hadoop执行mapreduce任务,能够map,不能reduce,Shuffle阶段报错
- 大数据处理神器map-reduce实现(仅python和shell版本)
- MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中?
- 大数据_hive_map-reduce个数及合并小文件
- MapReduce剖析笔记之七:Child子进程处理Map和Reduce任务的主要流程
- 一脸懵逼学习MapReduce的原理和编程(Map局部处理,Reduce汇总)和MapReduce几种运行方式
- mapreduce 的map shuffle reduce 阶段解析
- MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中?
- MapReduce 编程 系列十二 Reduce阶段内部细节和调节参数
- map-reduce阶段中的数据倾斜问题
- hadoop初识之十二:wordcount 处理过程和mapreduce的数据类型
- 大数据框架MapReduce的map与reduce任务数合理设置
- 在MapReduce的Map和Reduce过程中使用自定义数据类型
- Hadoop大数据批处理 -Map/Reduce
- 用Map-Reduce的思维处理数据
- Hadoop-Mapreduce map—>reduce阶段图解
- mapreduce往hbase插入数据(有map有reduce)