您的位置:首页 > 其它

用cloudera manager安装impala全过程以impala、hive、Spark性能比较-(三)cloudera manager 安装impala成功并对impala、hive进行简单测试

2012-12-11 14:31 751 查看
Cloudera manager安装impala除了第一篇文章提到的条件:1.需要安装centos6.2系统。2.CDH4.1.0以上版本3.要在集群每个节点安装hive。4.hive的元数据库要使用mysql。5.每台主机hosts文件中都加入所有机器的IP地址和主机名的对应关系。还需要关闭ipv6.否则cloudera
manager无法最终识别主机。

关闭ipv6后,登陆cloudera manager页面显示有三台管理的主机。OK,cloudera
manager已经工作正常。点击‘服务’选项,选择角色分配,为每一台主机分配角色。Impala不在初始的服务内,等所有服务启动正常后,需要再添加impala服务。启动impala服务后可以登录集群中任意一台主机,启动impala-shell执行查询命令。Impala要求hive使用mysql元数据库,但是用cloudera
manager安装impala后,虽然在impala的hive metadata中设置了mysql数据库,但到集群中看配置文件并没有更改。于是我就手动更改了配置文件,在impala-shell中执行select
tables可以显示hive中的表了。在impala-shell中执行查询只是输出结果,不显示运行时间,不便于和hive比较。可以使用

$ time impala-shell - -impalad=200.200.200.11:21000 –q ‘select * from tt’

主机地址 测试表

$ time hive –e ‘selcet * from tt’

进行比较时间。一个简单的比较结果如下:

Impala

time impala-shell --impalad=200.200.200.11:21000 -q'select id from tt'

real 0m4.921s

user 0m0.072s

sys 0m0.042s

hive

time hive -e 'select id from tt'

Logging initialized using configuration in file:/etc/hive/conf.dist/hive-log4j.properties

Hive history file=/tmp/hdfs/hive_job_log_hdfs_201212111430_946199434.txt

Total MapReduce jobs = 1

Launching Job 1 out of 1

Number of reduce tasks is set to 0 since there's no reduce operator

Starting Job = job_201212111359_0001, Tracking URL = http://big1-1:50030/jobdetails.jsp?jobid=job_201212111359_0001
Kill Command = /usr/lib/hadoop/bin/hadoop job -Dmapred.job.tracker=big1-1:8021 -kill job_201212111359_0001

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0

2012-12-11 14:30:44,633 Stage-1 map = 0%, reduce = 0%

2012-12-11 14:30:49,716 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 0.92 sec

2012-12-11 14:30:50,735 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 0.92 sec

2012-12-11 14:30:51,746 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 0.92 sec

2012-12-11 14:30:52,761 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 0.92 sec

MapReduce Total cumulative CPU time: 920 msec

Ended Job = job_201212111359_0001

MapReduce Jobs Launched:

Job 0: Map: 1 Cumulative CPU: 0.92 sec HDFS Read: 0 HDFS Write: 0 SUCCESS

Total MapReduce CPU Time Spent: 920 msec

OK

Time taken: 36.364 seconds

real 0m40.248s

user 0m15.590s

sys 0m2.638s

可以看出impala比hive快很多。

这只是一个初步认识,后面我们会用一些几G的数据在hive,impala,spark上分别跑。做更详尽的对比。以后有时间再写。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐