您的位置：首页 > 其它

hive的执行流程

2019-01-16 09:51 127 查看

1. 执行流程概述

查看hive语句的执行流程：explain select ….from t_table …;

查看hive语句的执行流程：explain select ….from t_table …;
操作符是hive的最小执行单元
Hive通过execmapper和execreducer执行MapReduce程序，执行模式有本地模式和分布式模式
每个操作符代表一个 HDFS 操作或者 MapReduce 作业
hive的操作符：

Hive编译器的工作职责：
Parser：将Hql语句转换成抽像的语法书（Abstract Syntax Tree）
Semantic Analyzer：将抽象语法树转换成查询块
Logic Plan Generator：将查询树，转换成逻辑查询计划
Logic Optimizer：重写逻辑查询计划，优化逻辑执行计划
Physical Plan Gernerator：将逻辑执行计划转化为物理计划
Physical Optimizer：选择最佳的join策略，优化物理执行计划

2. hive的具体执行过程分析

（1）Join（reduce join）

例：SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON pv.userid = u.userid;

map 端：以 JOIN ON 条件中的列作为 Key，以page_view表中的需要字段，表标识作为value，最终通过key进行排序，也就是join字段进行排序。
shuffle端：根据 Key 的值进行 Hash，并将 Key/Value 对按照 Hash 值推至不同对 Reduce 中
reduce 端：根据key进行分组，根据不同的表的标识，拿出不同的数据，进行拼接。

（2）group by

例：SELECT pageid, age, count(1) FROM pv_users GROUP BY pageid, age;

map 端：
key：以pageid, age作为key,并且在map输出端有combiner。
value ：1次
reduce 端：对value进行求和

（3）distinct

例：select distinct age from log;
map端：
key：age
value：null
reduce端：
一组只要一个输出context.write(key,null)。

（4）distinct+count

例：select count(distinct userid) from weibo_temp;
即使设置了reduce个数为3个，最终也只会执行一个，因为，count()是全局，只能开启一个reducetask。
map端：
key：userid
value： null
reduce端：
一组只要一个，定义一个全局变量用于计数，在cleanup（Context context）中输出context.write(key,count)
当然distinct+count是一个容易产生数据倾斜的做法，应该尽量避免，如果无法避免，那么就使用这种方法：
select count(1) from (select distinct userid from weibo_temp); 这样可以并行多个reduce task任务，从而解决单节点的压力过大。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航