您的位置:首页 > 运维架构

hadoop & hive任务优化之系统概况及任务详情查看方法

2016-06-10 23:11 288 查看
  此为hadoop & hive任务优化之第二篇,任务优化的前提是能够对任务所属的环境和任务的执行详情了解的比较清楚,才能进一步去讲优化。查看这些参数情况的方法,有多种,包括通过hadoop web ui,hadoop & hive shell,hadoop & shell api等方法,本篇主要是讲hadoop web ui的方式,也是目前最主流的方式,简单、明了、易用性好。

 一、 hadoop集群系统环境查看

        1.1 hadoop web ui的URL构成

              当搭建好hadoop2.x集群后,默认web url构成为,协议+"://"+ip+":50030"+"/cluster“的结合,即:http://xxx.xxx.xxx.xxx:50030/cluster/的形式。

              其中,50030是hadoop的默认管理端口。

        1.2 系统计算环境指数

               如下图所示,可展示出总共提交了多少任务(apps submitted)、挂起多少(apps pending)、  多少正在运行(apps running)、多少已经完成(app completed)、

多少资源容器单元正在被占用(container running)、多少内存正在被使用(memory used)、总共多少内存(memory total)、多少cpu核正在被使用(vcores used)、总共有多少核(vcores total)、该集群有多少活跃的节点(active nodes)、有多少节点被主动下线(Decommissioned Nodes)、丢失了多少节点(Losted Nodes)等。



          1.3 系统存储环境指数

                 包括集群名称,集群版本,hdfs占用等,如下两个表格:

             

Namespace:xxxxxx
Namenode ID:nn1
Started:Thu Mar 10 00:59:17 CST 2016
Version:2.7.2, rUnknown
Compiled:2016-03-09T06:07Z by root from Unknown
Cluster ID:CID-fc240dfa-e863-47c0-be64-24f7e1da739a
Block Pool ID:BP-1453962343-10.183.93.130-1457542726461


Summary

Security is off.

Safemode is off.

1006 files and directories, 950 blocks = 1956 total filesystem object(s).

Heap Memory used 4.79 GB of 29 GB Heap Memory. Max Heap Memory is 99 GB.

Non Heap Memory used 48.29 MB of 105.88 MB Commited Non Heap Memory. Max Non Heap Memory is 208 MB.

Configured Capacity:1.54 PB
DFS Used:818.91 GB (0.05%)
Non DFS Used:15.77 GB
DFS Remaining:1.54 PB (99.95%)
Block Pool Used:818.91 GB (0.05%)
DataNodes usages% (Min/Median/Max/stdDev):0.03% / 0.05% / 0.06% / 0.01%
Live Nodes27 (Decommissioned: 0)
Dead Nodes0 (Decommissioned: 0)
二、 mr job任务详情查看

         2.1 公平调度时候的任务所属的队列情况

               目前大多数集群采用公平调度方法来分配资源,即分配指定几个资源池,各用户提交各自的任务到所属的资源池中运行,其任务的综合运行效果最好,考虑的相对比较全面。还有像FIFO调度、容量调度策略,由于有明显的局限性,

故目前应用较少。

              其查看方法在如下第一张图的链接处。

              第二张图为详情,从中可以看出你所属队列所能占用的资源分配情况。

              第三张图为某队列的详情,如该资源所占的cpu和内存数量,最大可并行任务数等。

                 2.2  任务的输入输出详情

                             进入到1.1中的主界面中后,直接任务一个任务列表中的job id,进入如下主界面后,点击标注处可进入详情。即application master链接。

                       进入到am(application master)后,点击如下图的左侧标注处counter,

即可清楚看到该job中的整体的输入、输出情况。

                       2.3 每个map或是reduce的输入输出详情

                             点击上图中的与counter下方的map tasks或是reduce tasks,可以得到如下图,是点击了map tasks之后的task list列表。

 

随意点击下边一个链接,就可以看到某个task的具体的畏入、输出情况,如下图所示。

三、总结

      工欲善其事,必先利其器。要对各方面的辅助工具比较了解,才能迅速解决问题。

更多学习讨论,          请加入官方QQ技术群320349384,
                                 官方天亮论坛:http://bbs.yuqing36524.com/
                                 天亮教育视频链接:http://pan.baidu.com/s/1pJJrcqJ


内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息