【大数据工程师之路】Hadoop——MapReduce概述
2015-08-13 20:50
375 查看
一、概述。
MapReduce是一种可用于数据处理的编程模型。Hadoop可以运行由各种语言编写的MapReuce程序。MapReduce分为Map部分和Reduce部分。
二、MapReduce的机制
MapReduce分为几大过程input、Mapper、shufle、reduce、output
1、input阶段是指将原始文件拷贝到HDFS中。
2、通过Mapper来处理成目标所需要的key-value形式然后进行排序,Map相当于把源数据进行整理成目标数据所需要的数据材料。把多余的数据去除。Map主要功能还有是对任务进行分解,把复杂、大量的任务分为若干个小任务并且分配到各个节点里面进行并行计算。
3、shufile对数据进行一个预处理
4、reduce操作是对多个Map的输出进行,按照需要进行合并、排序。对输入的key、value进行处理然后输出想要的数据。
5、output过程就是将reduce操作后的数据存放到HDFS中。
如图:
三、总结
MapReduce的作用就相当于ETL工具将原数据转换成目标数据。从原数据取出所需要的数据然后进行加工后把数据送到目标库作为目标数据。
MapReduce是一种可用于数据处理的编程模型。Hadoop可以运行由各种语言编写的MapReuce程序。MapReduce分为Map部分和Reduce部分。
二、MapReduce的机制
MapReduce分为几大过程input、Mapper、shufle、reduce、output
1、input阶段是指将原始文件拷贝到HDFS中。
2、通过Mapper来处理成目标所需要的key-value形式然后进行排序,Map相当于把源数据进行整理成目标数据所需要的数据材料。把多余的数据去除。Map主要功能还有是对任务进行分解,把复杂、大量的任务分为若干个小任务并且分配到各个节点里面进行并行计算。
3、shufile对数据进行一个预处理
4、reduce操作是对多个Map的输出进行,按照需要进行合并、排序。对输入的key、value进行处理然后输出想要的数据。
5、output过程就是将reduce操作后的数据存放到HDFS中。
如图:
三、总结
MapReduce的作用就相当于ETL工具将原数据转换成目标数据。从原数据取出所需要的数据然后进行加工后把数据送到目标库作为目标数据。
相关文章推荐
- HDU 4720 Naive and Silly Muggles
- 1090. Highest Price in Supply Chain (25)
- hdu 1022 Train Problem I
- The 11-th Programming Contest of Hunan University -- Trailing Zeros of Factorials
- 重绘(repaints) 重排(reflows)
- 引跑科技助力传统企业构建大数据价值体系
- 引跑科技助力传统企业构建大数据价值体系
- 2015 HUAS Summer Trainning #5~N
- hdu 2523SORT AGAIN
- [转载] Spark:大数据的“电光石火”
- Elasticsearch 报错:failed to create a selector
- [转载] HDFS简介
- hadoop about "Container does not exist."
- hadoop about "Container does not exist."
- hdu 1022(列车进栈出栈) Train Problem I
- hadoop(2.5,2.6) HDFS偶发性心跳异常以及大量DataXceiver线程被Blocked故障处理分享
- Roundcube Webmail 安装配置图文详情
- LeetCode解题报告--Container With Most Water
- MFC中View类获取CMainFrame的方法
- hdu1021 Fibonacci Again