您的位置：首页 > 其它

spark主节点Master挂掉后,备用节点(standby)如何恢复集群状态

2017-08-20 23:37 666 查看

作为master-slave模式的spark集群,主节点难免会有挂掉的情况,但是在生产上，这是无法忍受的,需要有备用的Master节点,即master-standby,访问master:808,其中Status的值为STANDBY的即为备用master节点。

那么备用节点在恢复集群的时候,得依靠zookeeper,zookeeper中保存了集群中所有的的Worker(管理自己所在的slave节点的应用)、Driver(记录正在运行的程序)、Application(应用程序本身)，主节点Master挂掉之后，zookeeper依靠自身的选主机制,从standby节点中选取一个节点作为leader，即作为Master（active），其他的standby作为fllower,那么原来挂掉的Master再启动后,会变为standby状态，也作为fllower。

在这里值得注意的是:Master故障挂掉,在切换standby的节点的时候,集群是不接收客户端发送过来的作业的,要直到standby节点恢复集群状态并状态更新为active状态时才接收提交的作业。在集群切换恢复Master的过程中,是不会影响worker中作业的运行的，因为整个过程Master不参与，并且Master分配资源的方式为粗粒度(一次性分配完所需要的资源，缺点:如果一个应用程序还有一个stage没运行完,这整个应用的所有资源都无法释放。细粒度:每次需要的时候再去请求资源,缺点：启动慢、没办法复用、通信会消耗时间。)不过一般大数据集群都使用粗粒度方式（效率至上）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航