您的位置:首页 > 其它

spark主节点Master挂掉后,备用节点(standby)如何恢复集群状态

2017-08-20 23:37 666 查看
作为master-slave模式的spark集群,主节点难免会有挂掉的情况,但是在生产上,这是无法忍受的,需要有备用的Master节点,即master-standby,访问master:808,其中Status的值为STANDBY的即为备用master节点。



那么备用节点在恢复集群的时候,得依靠zookeeper,zookeeper中保存了集群中所有的的Worker(管理自己所在的slave节点的应用)、Driver(记录正在运行的程序)、Application(应用程序本身),主节点Master挂掉之后,zookeeper依靠自身的选主机制,从standby节点中选取一个节点作为leader,即作为Master(active),其他的standby作为fllower,那么原来挂掉的Master再启动后,会变为standby状态,也作为fllower。

在这里值得注意的是:Master故障挂掉,在切换standby的节点的时候,集群是不接收客户端发送过来的作业的,要直到standby节点恢复集群状态并状态更新为active状态时才接收提交的作业。在集群切换恢复Master的过程中,是不会影响worker中作业的运行的,因为整个过程Master不参与,并且Master分配资源的方式为粗粒度(一次性分配完所需要的资源,缺点:如果一个应用程序还有一个stage没运行完,这整个应用的所有资源都无法释放。细粒度:每次需要的时候再去请求资源,缺点:启动慢、没办法复用、通信会消耗时间。)不过一般大数据集群都使用粗粒度方式(效率至上)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: