您的位置：首页 > 其它

Hive的执行生命周期

2016-05-26 21:57 453 查看

七大步骤

1.CliDriver进行交互模式

1.入口：/bin/hive

2.调用CliDriver类进行初始化过程

3.处理-e，-f，-h等信息，如果是-h，打印提示信息，并退出

4.读取hive的配置文件，设置HiveConf

5.创建一个控制台，进入交互模式

2.读取命令processLine进行分割处理

在交互方式下，读取每一个输入命令行，直到‘;’为止，然后提交给processLine方法处理，该方法将输入的流以‘;’分割成多个命令，然后交给processCmd（cmd）方法

3.ProcessCmd判断为操作系统命令进行相应处理

processCmd(cmd)对输入的命令行进行判断，根据命令的第一个记号（Token），分别进入相应的流程：

1.Quit or exit 系统正常退出

2.！开头的命令行执行操作系统命令

3.source开头的，读取外部文件并执行文件中的命令

4.list列出jar file archive

5.其他命令提交给Commandprocess

4.CommandProcess判断为Hive设置语句进行相应处理

1.根据输入命令的第一个记号，分别进行处理

2.set：调用SetProcess类，设置hive的环境参数，并保存在该进程的HiveConf中

3.dfs：调用DfsProcess类，调用hadoop的shell接口，执行hadoop的相关命令

4.add：调用AddResouceProcessor，导入外部的资源，只对该进程有效

5.delete：与add对应，删除资源

6.其他：提交给Driver类，进行下一步的处理

5.如果判断为< query string> 调用Driver处理

1.编译compile（Hive的核心部分）

2.通过语言识别工具Antlr，验证语句的合法性

3.将sql转换成一个抽象语法树（AST）

4.定义树解释器Operator，将AST翻译成逻辑操作树

5.调用genMapRed方法，生成物理执行计划

6.获取读写锁：对操作的表获取一个读写锁 acquire ReadWrite Locks

7.执行execute：将生成的Task提交hadoopAPI处理，返回任务的执行时间和状态（成功失败）

6.获取执行成功或者失败的结果

1.任务执行失败，抛出异常

2.执行成功后，调用Driver的GetResult方法，顺序打开每一个输出文件

3.获取每一行的输出，并打印到控制台

7.执行中间文件与临时文件的清理

1.清理hive执行过程中的中间文件和临时文件

2.推出改命令的执行，返回控制台并等待下一条命令的输入

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： hive

相关文章推荐

新的分享

章节导航