理解Automatically selecting local only mode for query本地模式
2015-08-25 11:19
615 查看
对 hive有些了解的人都会知道,hive 会将 SQL 语句最终转化成分布式执行的 mapreduce 任务计划。对于大数量集的数据启动 mapreduce 所花费的时间是渺小的
因为数据量大,并且分布再不同的机器上,在不同的机器上处理,这样做是 hive 的优势之一。然而当处理小数量,并且数据都聚集再一台机器上时,那么启动本地模式是非常有意的,不可避免的启动 mapreduce,将数据拉回客户端,本地处理,这样减少了分处理后合并花费的时间。
启动本地模式,需要配置如下参数:
hive.exec.mode.local.auto 决定 Hive
是否应该自动地根据输入文件大小,在本地运行。
hive.exec.mode.local.auto.inputbytes.max
最大输入数据量,当输入数据量小于这个值的时候将会启动本地模式,默认是 128M。
hive.exec.mode.local.auto.tasks.max
最大输入文件个数,当输入文件个数小于这个值的时候将会启动本地模式。
相关文章推荐
- 分享Hive的一份胶片资料
- Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
- 将Hive的默认数据库Derby改为Postgresql
- kettle中对hive操作时需要知道的东西
- #Note# Analyzing Twitter Data with Apache Hadoo...
- [翻译]Hive wiki GettingStarted
- sqoop 中文文档 User guide 一
- sqoop 中文文档 User guide 二 import
- sqoop 中文文档 User guide 二 import续
- sqoop 中文文档 User guide 三 export
- sqoop 中文文档 User guide 四 validation
- sqoop 中文文档 User guide 五 job,metastore,merge,codegen
- sqoop 中文文档 User guide 六
- sqoop 中文文档 User guide 七
- Hadoop Hive的限制
- HIVEQL
- hive 安装配置
- hbase hive整合
- hive语句
- 复合类型构建操作