基于Hadoop的数据仓库解决方案-Hive简介
1、什么是Hive?
Hive简单用一句话概括就是基于Hadoop的数据仓库解决方案,它始于2007年的FaceBook,官方网站是hive.apache.org。
Hive的作用主要是作为一种数据仓库用来存储数据,它可以将结构化的数据文件映射为数据库表,提供类sql的查询语言HQL(Hive Query Language),虽然Hive基于Hadoop生态环境,但是Hive的强大也让更多的人使用起了Hadoop。
在这里我要重点提一个地方,什么是数据仓库,和数据库只有一字之差,它们之间有啥区别呢?
数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理。
数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
数据仓库是数据库概念的升级,如果说数据库是一个米袋用来存放米,那么数据仓库就是粮仓,数据仓库中的数据是来源于多个数据库的,数据库负责日常的事务处理,可以存放数据到数据仓库也可以从数据仓库中取数据,而数据仓库中存放了大量的历史数据,一般以查询为主,通过抽取、挖掘、统计,可以给决策者提供决策支持。
2、Hive的优点以及特点
提供了一个简单的优化模型
HQL类SQL语法,简化MR开发
支持在不同的计算框架上运行
支持在HDFS和HBase上临时查询数据
支持用户自定义函数、格式
成熟的JDBC和ODBC驱动程序,用于ETL和BI
稳定可靠(真实生产环境)的批处理
有庞大活跃的社区
3、Hive的发展历程以及各种版本
07年8月 – 始于Facebook
13年5月 – 0.11 Stinger Phase 1 ORC HiveServer2
13年10月 – 0.12.0 Stinger Phase 2 - ORC improvement
14年4月 – Hive 0.13.0 as Stinger Phase 3
14年11月 – Hive 0.14.0
15年2月 – Hive 1.0.0
15年5月 – Hive 1.2.0
16年2月 – Hive 2.0.0 (添加 HPLSQL, LLAP)
16年6月 – Hive 2.1.0
Hive和MapReduce
Hive提供了类SQL的的语法,便于查询,简化了MapReduce的开发,也就是说你用Java写了几十行的代码我用Hive解决几行就可以搞定。但是Hive的底层还是依靠MapReduce来执行的,并且还很慢。总而言之,MapReduce的执行效率更快,但是代码多。Hive的开发效率更快,但是语句执行的就很慢。
- 大数据:基于Hadoop的数据仓库Hive的基本理论简介(附通俗说明
- 基于Hadoop数据仓库Hive1.2部署及使用
- 15.基于Hadoop的数据仓库Hive第3部分(Hive编程实践)
- [完]基于Hadoop的数据仓库Hive 基础知识
- Hive -- 基于Hadoop的数据仓库分析工具
- 基于Hadoop的数据仓库Hive 基础知识
- 基于Hadoop2.7.3集群数据仓库Hive1.2.2的部署及使用
- **Hadoop纵览之(五)数据仓库解决方案Hive**
- 基于Hadoop的数据仓库Hive的基本应用(一)||两种数据导入方法
- 基于Hadoop的数据仓库Hive
- 基于Hadoop的数据仓库Hive 基础知识
- hive--基于Hadoop的数据仓库Hive 学习指南
- 基于Hadoop的数据仓库Hive基础知识
- 14.基于Hadoop的数据仓库Hive第1部分
- 基于Hadoop的数据仓库Hive 学习指南
- hadoop组件---数据仓库---hive简介
- Hive和SparkSQL: 基于 Hadoop 的数据仓库工具
- 基于Hadoop的数据仓库Hive 基础知识
- hive(01)、基于hadoop集群的数据仓库Hive搭建实践
- <关于数据仓库>基于docker的Mysql与Hadoop/Hive之间的数据转移 (使用Apache Sqoop™)