您的位置:首页 > 运维架构

Hadoop连载系列之六:Hadoop数据仓库工具Hive

2014-03-18 11:50 603 查看
1 关于Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉MapReduce的开发者开发自定义的mapper和reducer 来处理内建的mapper和reducer无法完成的复杂的分析工作。
Hive和关系型数据库的区别可用下表进行概括:

Hive
RDBMS
查询语言
HQL
SQL
数据存储
HDFS
Raw Device or Local FS
索引


执行
MapReduce
Excutor
执行延迟


处理数据规模


注解:1. 查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。
2. 数据存储位置。Hive 是建立在Hadoop 之上的,所有 Hive 的数据都是存储在HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。
3. 数据格式。Hive 中没有定义专门的数据格式,数据格式可以由用户指定,用户定义数据格式需要指定三个属性:列分隔符(通常为空格、”\t”、”\x001″)、行分隔符(”\n”)以及读取文件数据的方法(Hive 中默认有三个文件格式 TextFile,SequenceFile 以及 RCFile)。由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此,Hive 在加载的过程中不会对数据本身进行任何修改,而只是将数据内容复制或者移动到相应的 HDFS 目录中。而在数据库中,不同的数据库有不同的存储引擎,定义了自己的数据格式。所有数据都会按照一定的组织存储,因此,数据库加载数据的过程会比较耗时。

4. 数据更新。由于 Hive 是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。因此,Hive 中不支持对数据的改写和添加,所有的数据都是在加载的时候中确定好的。而数据库中的数据通常是需要经常进行修改的,因此可以使用 INSERT INTO ... VALUES 添加数据,使用 UPDATE... SET 修改数据。
5. 索引。之前已经说过,Hive 在加载数据的过程中不会对数据进行任何处理,甚至不会对数据进行扫描,因此也没有对数据中的某些 Key 建立索引。Hive 要访问数据中满足条件的特定值时,需要暴力扫描整个数据,因此访问延迟较高。由于 MapReduce 的引入, Hive 可以并行访问数据,因此即使没有索引,对于大数据量的访问,Hive 仍然可以体现出优势。数据库中,通常会针对一个或者几个列建立索引,因此对于少量的特定条件的数据的访问,数据库可以有很高的效率,较低的延迟。由于数据的访问延迟较高,决定了 Hive 不适合在线数据查询。
6. 执行。Hive 中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的(类似 select * from tbl 的查询不需要 MapReduce)。而数据库通常有自己的执行引擎。
7. 执行延迟。之前提到,Hive 在查询数据的时候,由于没有索引,需要扫描整个表,因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce 框架。由于 MapReduce 本身具有较高的延迟,因此在利用 MapReduce 执行 Hive 查询时,也会有较高的延迟。相对的,数据库的执行延迟较低。当然,这个低是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive 的并行计算显然能体现出优势。
8. 可扩展性。由于 Hive 是建立在 Hadoop 之上的,因此 Hive 的可扩展性是和 Hadoop 的可扩展性是一致的(世界上最大的 Hadoop 集群在 Yahoo!,2009年的规模在4000 台节点左右)。而数据库由于 ACID 语义的严格限制,扩展行非常有限。目前最先进的并行数据库 Oracle 在理论上的扩展能力也只有 100 台左右。
9. 数据规模。由于 Hive 建立在集群上并可以利用 MapReduce 进行并行计算,因此可以支持很大规模的数据;对应的,数据库可以支持的数据规模较小。
2 设计架构Hive是基于Hadoop和MapReduce的,架构示意图如下,

2.1 架构组成Hive架构包括如下组件:CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor)。这些组件大致可以分为两类:服务端组件、客户端组件。2.1.1 服务端组件Driver组件:该组件包括Complier、Optimizer和Executor,它的作用是将我们写的HiveQL(类SQL)语句进行解析、编译优化,生成执行计划,然后调用底层的mapreduce计算框架。
Metastore组件:元数据服务组件,这个组件存储hive的元数据,hive的元数据存储在关系数据库里,hive支持的关系数据库有derby、mysql。元数据对于hive十分重要,因此hive支持把metastore服务独立出来,安装到远程的服务器集群里,从而解耦hive服务和metastore服务,保证hive运行的健壮性,这个方面的知识,我会在后面的metastore小节里做详细的讲解。
Thrift服务:thrift是facebook开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发,hive集成了该服务,能让不同的编程语言调用hive的接口。

2.1.2 客户端组件
CLI:command line interface,命令行接口。
Thrift客户端:上面的架构图里没有写上Thrift客户端,但是hive架构的许多客户端接口是建立在thrift客户端之上,包括JDBC和ODBC接口。
WEBGUI:hive客户端提供了一种通过网页的方式访问hive所提供的服务。这个接口对应hive的hwi组件(hive web interface),使用前要启动hwi服务。

2.2 metastore组件Hive的metastore组件是hive元数据集中存放地。Metastore组件包括两个部分:metastore服务和后台数据的存储。后台数据存储的介质就是关系数据库,例如hive默认的嵌入式磁盘数据库derby,还有mysql数据库。Metastore服务是建立在后台数据存储介质之上,并且可以和hive服务进行交互的服务组件,默认情况下,metastore服务和hive服务是安装在一起的,运行在同一个进程当中。我也可以把metastore服务从hive服务里剥离出来,metastore独立安装在一个集群里,hive远程调用metastore服务,这样我们可以把元数据这一层放到防火墙之后,客户端访问hive服务,就可以连接到元数据这一层,从而提供了更好的管理性和安全保障。使用远程的metastore服务,可以让metastore服务和hive服务运行在不同的进程里,这样也保证了hive的稳定性,提升了hive服务的效率。
以下为Hive的执行流程图:



3 安装和配置(以MySQL为元数据库)Hive将元数据存储在RDBMS 中,一般常用的有MYSQL和DERBY,我们这里选用MySQL,并采用Hadoop系列博文所搭建的Hadoop集群。Hive原则上可以安装在集群上的任何一台机器上面,此处安装在namenode(楼主的NameNode为虚拟机集群的主机,性能最佳)上。3.1 下载安装从官网下载Hive的稳定版本hive-0.11.0-tar.gz(截止到博文发表之前),解压到/usr目录下,并重命名为hivetar zxvf hive-0.11.0-tar.gz ;mv hive-0.11.0/ /usr/hive
3.2 设置好环境变量编辑/etc/profile,加入以下内容:
# set hive path
export HIVE_HOME=/usr/hive
export PATH=$PATH:$HIVE_HOME/bin使生效:source /etc/profile
3.3 配置MySQL存储metadata3.3.1 安装、配置好MySQL服务此处采用CentOS自带的MySQL服务。若是采用自行编译的版本,需要注意修改配置文件,允许远程登录。
3.3.2 创建hive数据库登录MySQL,创建database: hive:mysql -u root -pmykeymysql> create database hive;
3.3.3 修改hive配置文件hive-site.xml默认这个文件是不存在的,进入hive安装路径,在conf目录下,拷贝hive-default.xml.template得到hive-site.xml文件cp hive-default.xml.template hive-site.xml修改以下属性:<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://192.168.56.1:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
<description>username to use against metastore database</description>
</property>

<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>hive</value>
<description>password to use against metastore database</description>
</property>注解:1. 新手修改这四个属性即可。2. javax.jdo.option.ConnectionURL表示使用的metastore是mysql,该mysql服务搭建在192.168.56.1这个节点上,存储元数据的数据库为hive。3. javax.jdo.option.ConnectionDriverName:hive中用java来开发与mysql进行交互时,需要用到一个关于mysql的connector,即MySQL的JDBC元数据驱动包。4. javax.jdo.option.ConnectionUserName:用来设置hive存放的元数据的数据库(这里是mysql数据库)的用户名称5. javax.jdo.option.ConnectionPassword:用户登录数据库的时候需要输入的密码,可自行修改
3.3.4 复制MySQL的JDBC驱动包到Hive的lib目录下这里下载的版本是:mysql-connector-java-5.0.8-bin.jar
3.3.5 创建hive用户并赋予权限mysql -u root -pmysql> create user hive@192.168.56.1 identified by 'hive';mysql> grant all privileges on *.* to hive@192.168.56.1 with grant option;mysql> flush privileges;执行上述语句后就可以用hive用户登录来检验用户是否添加成功mysql -u hive -h 192.168.56.1 -ppassword:****(hive)
3.4 启动运行重启MySQL:service mysqld restart启动hive:[root@rango conf]# hive
Logging initialized using configuration in jar:file:/usr/hive/lib/hive-common-0.11.0.jar!/hive-log4j.properties
Hive history file=/tmp/root/hive_job_log_root_18013@rango.fugue.com_201403181121_225607025.txt
hive> show tables;OK
Time taken: 3.755 seconds
hive>
3.5 验证hive1. 在hive上建立数据表hive> create table test (id int, name string);
OK
Time taken: 0.88 seconds
2. 登录MySQL查看metadata信息mysql>use hive;mysql>show tables;+---------------------------+
| Tables_in_hive |
+---------------------------+
| BUCKETING_COLS |
| CDS |
| COLUMNS_V2 |
| DATABASE_PARAMS |
| DBS |
| PARTITION_KEYS |
| SDS |
| SD_PARAMS |
| SEQUENCE_TABLE |
| SERDES |
| SERDE_PARAMS |
| SKEWED_COL_NAMES |
| SKEWED_COL_VALUE_LOC_MAP |
| SKEWED_STRING_LIST |
| SKEWED_STRING_LIST_VALUES |
| SKEWED_VALUES |
| SORT_COLS |
| TABLE_PARAMS |
| TBLS |
+---------------------------+
19 rows in set (0.00 sec)配置完成。
3.6 问题总结1. hive> show tables;
出现了下面的问题:
FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClientFAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTaskFAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClientFAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask
一般是mysql用户的权限不够,具体原因可通过以下模式来查看:
hive -hiveconf hive.root.logger=DEBUG,console

2. 启动hive出现log4j:ERROR Could not connect to remote log4j server at [localhost]. We will try again later.
Log4j是Apache的一个开放源代码项目,通过使用Log4j,我们可以控制日志信息输送的目的地是控制台、文件、GUI组件,甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等。此处是因为没有先启动Hadoop和HBase,导致没法连接到log4j日志服务器,不影响正常使用。

4 总结
Hive是基于Hadoop和HDFS的数据仓库工具,同时Hive也可以和HBase集成,HBase可以进行快速查询,但是HBase不支持类SQL的语句,那么此时Hive可以给HBase提供sql语法解析的外壳,可以用类sql语句操作HBase数据库。
——Rango Chen
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息