用cloudera manager安装impala全过程以impala、hive、Spark性能比较-(三)cloudera manager 安装impala成功并对impala、hive进行简单测试
2012-12-11 14:31
751 查看
Cloudera manager安装impala除了第一篇文章提到的条件:1.需要安装centos6.2系统。2.CDH4.1.0以上版本3.要在集群每个节点安装hive。4.hive的元数据库要使用mysql。5.每台主机hosts文件中都加入所有机器的IP地址和主机名的对应关系。还需要关闭ipv6.否则cloudera
manager无法最终识别主机。
关闭ipv6后,登陆cloudera manager页面显示有三台管理的主机。OK,cloudera
manager已经工作正常。点击‘服务’选项,选择角色分配,为每一台主机分配角色。Impala不在初始的服务内,等所有服务启动正常后,需要再添加impala服务。启动impala服务后可以登录集群中任意一台主机,启动impala-shell执行查询命令。Impala要求hive使用mysql元数据库,但是用cloudera
manager安装impala后,虽然在impala的hive metadata中设置了mysql数据库,但到集群中看配置文件并没有更改。于是我就手动更改了配置文件,在impala-shell中执行select
tables可以显示hive中的表了。在impala-shell中执行查询只是输出结果,不显示运行时间,不便于和hive比较。可以使用
$ time impala-shell - -impalad=200.200.200.11:21000 –q ‘select * from tt’
主机地址 测试表
$ time hive –e ‘selcet * from tt’
进行比较时间。一个简单的比较结果如下:
Impala
time impala-shell --impalad=200.200.200.11:21000 -q'select id from tt'
real 0m4.921s
user 0m0.072s
sys 0m0.042s
hive
time hive -e 'select id from tt'
Logging initialized using configuration in file:/etc/hive/conf.dist/hive-log4j.properties
Hive history file=/tmp/hdfs/hive_job_log_hdfs_201212111430_946199434.txt
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_201212111359_0001, Tracking URL = http://big1-1:50030/jobdetails.jsp?jobid=job_201212111359_0001
Kill Command = /usr/lib/hadoop/bin/hadoop job -Dmapred.job.tracker=big1-1:8021 -kill job_201212111359_0001
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2012-12-11 14:30:44,633 Stage-1 map = 0%, reduce = 0%
2012-12-11 14:30:49,716 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 0.92 sec
2012-12-11 14:30:50,735 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 0.92 sec
2012-12-11 14:30:51,746 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 0.92 sec
2012-12-11 14:30:52,761 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 0.92 sec
MapReduce Total cumulative CPU time: 920 msec
Ended Job = job_201212111359_0001
MapReduce Jobs Launched:
Job 0: Map: 1 Cumulative CPU: 0.92 sec HDFS Read: 0 HDFS Write: 0 SUCCESS
Total MapReduce CPU Time Spent: 920 msec
OK
Time taken: 36.364 seconds
real 0m40.248s
user 0m15.590s
sys 0m2.638s
可以看出impala比hive快很多。
这只是一个初步认识,后面我们会用一些几G的数据在hive,impala,spark上分别跑。做更详尽的对比。以后有时间再写。
manager无法最终识别主机。
关闭ipv6后,登陆cloudera manager页面显示有三台管理的主机。OK,cloudera
manager已经工作正常。点击‘服务’选项,选择角色分配,为每一台主机分配角色。Impala不在初始的服务内,等所有服务启动正常后,需要再添加impala服务。启动impala服务后可以登录集群中任意一台主机,启动impala-shell执行查询命令。Impala要求hive使用mysql元数据库,但是用cloudera
manager安装impala后,虽然在impala的hive metadata中设置了mysql数据库,但到集群中看配置文件并没有更改。于是我就手动更改了配置文件,在impala-shell中执行select
tables可以显示hive中的表了。在impala-shell中执行查询只是输出结果,不显示运行时间,不便于和hive比较。可以使用
$ time impala-shell - -impalad=200.200.200.11:21000 –q ‘select * from tt’
主机地址 测试表
$ time hive –e ‘selcet * from tt’
进行比较时间。一个简单的比较结果如下:
Impala
time impala-shell --impalad=200.200.200.11:21000 -q'select id from tt'
real 0m4.921s
user 0m0.072s
sys 0m0.042s
hive
time hive -e 'select id from tt'
Logging initialized using configuration in file:/etc/hive/conf.dist/hive-log4j.properties
Hive history file=/tmp/hdfs/hive_job_log_hdfs_201212111430_946199434.txt
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_201212111359_0001, Tracking URL = http://big1-1:50030/jobdetails.jsp?jobid=job_201212111359_0001
Kill Command = /usr/lib/hadoop/bin/hadoop job -Dmapred.job.tracker=big1-1:8021 -kill job_201212111359_0001
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2012-12-11 14:30:44,633 Stage-1 map = 0%, reduce = 0%
2012-12-11 14:30:49,716 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 0.92 sec
2012-12-11 14:30:50,735 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 0.92 sec
2012-12-11 14:30:51,746 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 0.92 sec
2012-12-11 14:30:52,761 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 0.92 sec
MapReduce Total cumulative CPU time: 920 msec
Ended Job = job_201212111359_0001
MapReduce Jobs Launched:
Job 0: Map: 1 Cumulative CPU: 0.92 sec HDFS Read: 0 HDFS Write: 0 SUCCESS
Total MapReduce CPU Time Spent: 920 msec
OK
Time taken: 36.364 seconds
real 0m40.248s
user 0m15.590s
sys 0m2.638s
可以看出impala比hive快很多。
这只是一个初步认识,后面我们会用一些几G的数据在hive,impala,spark上分别跑。做更详尽的对比。以后有时间再写。
相关文章推荐
- 用cloudera manager安装impala全过程以impala、hive、Spark性能比较--------(二)手动安装CDH4,hive,impala。
- 用cloudera manager安装impala全过程以impala、hive、Spark性能比较--------(一)初次尝试用cloudera manager安装impala
- CDH5实践(二)Cloudera Manager 5安装Hive,HBase,Impala,Spark等服务
- Impala、Hive性能简单对比测试
- 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)
- Impala,Hive,SparkSQL数据清洗后对后续查询的影响比较
- 在C/C++代码中使用SSE等指令集的指令(5)SSE进行加法运算简单的性能测试
- ubuntu中安装apache ab命令进行简单压力测试
- sql server 存储过程的优化:简单测试在存储过程中临时表与union all的性能差别
- 在C/C++代码中使用SSE等指令集的指令(5)SSE进行加法运算简单的性能测试
- 在CentOS下安装WebBench进行web 性能测试
- suse 11.4安装11.2.0.3 oracle rac并用swingbench进行性能测试
- ubuntu中安装apache ab命令进行简单压力测试
- 简单测试在存储过程中临时表与union all的性能差别
- 在CentOS下安装WebBench进行web 性能测试
- Hadoop+Spark+Scala+R+PostgreSQL+Zeppelin安装过程-Hadoop安装及测试
- ubuntu中安装apache ab命令进行简单压力测试
- U盘测试の量产过程及量产前后性能比较
- 安装Cloudera Manager Server和Agent过程中遇到的问题
- yum安装CDH5.5 hive、impala的过程详解