005-hive概述,计算原理及模型
2017-06-05 17:10
218 查看
计算原理及模型
优化的根本思想:
尽早尽量过滤数据,减少每个阶段的数据量
减少job数
解决数据倾斜问题
Hive概述
图解示例
HIve-mapreduce
优化的根本思想:
尽早尽量过滤数据,减少每个阶段的数据量
减少job数
解决数据倾斜问题
Hive概述
名称 | |||
hive系统架构 | metastore | derby mysql | |
HDFS | /usr/hive/warehouse | ||
Mapreduce | |||
hive配置文件 | hive-env.sh hive-site.xml hive-log4j.properties | ||
hive命令行 | hive --config | ||
hive shell | quit、exit reset set add、list、delete FILES !<command> dfs<command> HQL source files | ||
hive service | hive --service cli hive --service hiveserver hive --service metastore hive --service hwi hive --service jar | ||
HiveQL | 语法关键字 | show databases show PARTITIONS show tables create table load data(local) inpath select * from desc、alert/drop limit、as、case when then、union like、group by、having order by、sort by cluster by | |
数据类型 | 简单类型 | tinyint、smallint、int、bigint float、double boolean string timestamp binary | |
复杂类型 | array map struct | ||
表 | 内部表 | ||
外部表 | HDFS HBase Cassandra DynamoDB | ||
表查询 | 单表查询 inner joins outer joins Semi joins map joins 子查询 视图 | ||
数据表设计 | 每日一表 每日一表分区 按桶分散数据 | ||
Hive优化 | 表分区Partitions 表存储桶buckets 表压缩 索引→bitmap indexes 执行计划 控制Mappers、reducer数量 | ||
访问方式 | Hive shell java jdbc api thrift client Rhive | ||
自定义函数 | 自定义函数UDF 自定义聚合函数UADF | ||
Hive安全 | 认证 | hive.files.umask.value hive.metastore.authorization.storage.checks hive.metastore.execute.setugi | |
授权 | hive.security.authorization.enabled hive.security.authorization.createtable.owner.grants hive.security.authorization.createtable.user.grants | ||
权限模型 | User Group Role | ||
web控制台 | hwi:9999 | ||
软件集成 | zookeeper thrift Ooize HCatalog AWS |
HIve-mapreduce
相关文章推荐
- spark部署、计算模型、内部执行原理、工作机制详解
- 效用模型的原理概述
- 分布式计算原理之二:关于计算的模型
- Dubbo体系式梳理(概述、模型架构、核心要点、应用及配置、部分原理)
- 图计算模型GraphLab——pregel原理API
- 内存计算模型spark概述
- ASP.NET2.0 Provider模型(上)——原理、模型与分析[原创]
- 使用 Rational Software Architect 进行模型驱动和基于模式的开发,第 1 部分: 使用模式的模型驱动开发范例的概述
- aml 做的 scs曲线计算径流模型
- (一)线程--简述线程概述及原理
- SOA 参考模型 之二 :SOA 架构原理
- ASP.NET2.0 Provider模型(上)——原理、模型与分析
- 领域驱动的模型概述
- 计算模型的认识
- SOA 术语概述,第 2 部分: 开发流程、模型和资产
- BIAS指标的原理和计算方法
- Linux高性能计算集群 - 概述
- GPS定位原理概述
- UML模型和vs.net双向同步概述[设计师/ 程序员]
- CMMI v1.2模型变更之一:模型变更概述