hadoop,mapreduce---分布式计算
2016-10-21 17:51
218 查看
![](https://images2015.cnblogs.com/blog/975503/201611/975503-20161104215511674-1342764112.png)
从图中可以看出,map阶段的shuffle:
例如word count,当内存缓冲区满的时候会写到磁盘,一个spill,每个spill,进行分区,排序,最后将同一个分区word合并在一起,写入到磁盘中
reduce阶段:将不同map的相同分区的部分,进行merge,最后结果为reduce的输入
hive: Hive可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL去查询分析需要的内容,这套SQL 简称Hive SQL.而mapreduce开发人员可以把己写的mapper 和reducer 作为插件来支持Hive 做更复杂的数据分析。
I1. 顺序
SQL的执行顺序:
第一步:执行FROM
第二步:WHERE条件过滤
第三步:GROUP BY分组
第四步:执行SELECT投影列
第五步:HAVING条件过滤
第六步:执行ORDER BY 排序
相关文章推荐
- hadoop(五) - 分布式计算利器MapReduce加强
- 大数据时代之hadoop(五):hadoop 分布式计算框架(MapReduce)
- 大数据时代之hadoop(五):hadoop 分布式计算框架(MapReduce)
- 大数据时代之hadoop(五):hadoop 分布式计算框架(MapReduce)
- Hadoop系列之MapReduce(分布式计算测试)
- hadoop核心组件---MR(MapReduce)分布式计算框架
- Hadoop之MapReduce分布式计算
- 大数据时代之hadoop(五):hadoop 分布式计算框架(MapReduce)
- hadoop MapReduce分布式计算架构
- hadoop(四) - 分布式计算利器MapReduce
- Spark:比Hadoop更强大的分布式数据计算项目
- 分布式计算开源框架Hadoop介绍
- 分布式计算开源框架Hadoop介绍
- 分布式计算开源框架Hadoop入门实践(二)
- 分布式计算开源框架Hadoop入门实践
- 分布式计算 MapReduce与yarn工作机制 推荐
- 【环境搭建】hadoop分布式计算开发环境搭建
- 基于HBase Hadoop 分布式集群环境下的MapReduce程序开发
- 分布式计算Hadoop简介
- 分布式计算开源框架Hadoop介绍