您的位置：首页 > 运维架构 > 网站架构

浅谈系统的高可用性

2015-12-03 21:54 274 查看

“高可用性”（High Availability）通常来描述一个系统经过专门的设计，从而减少停工时间，而保持其服务的高度可用性。

对于高可用这个概念，个人认为至少满足下列几点：

1.程序异常处理，这个是基本功，仅能在正常情况下运行的程序不叫程序

2.机房容灾，即当个别机器损坏，或者个别机房网络割接时，仍可正常运作

3.系统容易扩展，即当遇到性能瓶颈时，可横向扩展解决，比如多部署几个程序即可解决，无需更改代码

4.无需过多的人工干预，7*24都能工作，遇错自动调整，不必投入人力时刻关注程序的状态

下面拿一个比较简单数据采集系统来分析一下问题，图是用Windows画图板画的，不够严谨，有时间再换过来

数据流程：producer(采集)->rabbitmq(转发)->consumer(消费入库)->DB

producer：采集器，消息生产者

rabbitmq：消息转发

consumer：数据消费者

DB：数据库

图1：最简单的模型

先来看看图1的架构达成了哪些高可用的要素，还有哪些致命的缺陷

1.producer可灵活增加，目的达成

2.rabbitmq为单机进程，一旦出现机器或者网络故障则不可用

3.consumer可灵活增加，目的达成

4.DB为单点，一旦出现机器或者网络故障则不可用，且容易出现性能瓶颈

仔细想一想，很容易就发现图1系统的缺陷，机器和网络故障都是很常见的，所以这个方案根本不靠谱。

图2：稍作优化的模型

先来看图2比图1多了哪些组件，

rabbitmq从单机版变成了2个独立集群，且部署在不同的机房，且是多线机房，满足电信联通移动等网络

DB根据业务特性，拆分成N独立DB，分摊了数据库的写压力，也将数据的可用性提高了。

再来详细讲解图2各个程序的设定，

producer：

1.根据同ISP原则配置了多个rabbitmq节点，首先避免跨ISP传输数据的情况，速度更快，可以进一步优化为就近访问线路

2.遇到rabbitmq节点死机或者网络故障时，自动切换rabbitmq节点，解决了传输故障的问题

rabbitmq:

1.分布在多个机房，且可为多个ISP服务，基本达到了高可用的目标

2.当集群性能出现瓶颈时，横向新增集群即可，这里缺陷就是当rabbitmq新增集群时，如何更新所有的producer配置，通过逐一更改程序的配置再重启这种方式显然很原始，后面再优化这一点

consumer：

1.每个消息队列至少应该对应2个consumer，并部署在不同的机器，这样就避免了单机单进程的问题

2.如果consumer的消费能力跟不上，则横向增加程序即可，瓶颈转移至DB的写压力上，基本达到目标

DB:

1.一个DB变为N个DB，分摊了写压力

2.在没有备份的情况下，数据同时不可读的概率就降低了

再来汇总一下图2的缺陷：

1.如何自动更新producer程序的配置

2.DB既然有写，肯定会有读，如果查询很频繁，或者单表数据很大，那么读写效率如何进一步进行优化

3.整套系统虽然容错性强了，依然处于无监控状态，比如producer全损坏了，无数据产生；

比如consumer损坏了，数据阻塞在rabbitmq；比如进程内存泄露等等；

4.如何做到系统自动提示需要扩容了？我们的终极目标就是尽量少的人工干预，解放大脑和眼睛

图3：进一步优化的模型

再来对比下图3比图2多了哪些组件：

1.引入zookeeper管理配置的更新

2.进一步优化了DB

3.引入了deal stat程序，分析系统的处理性能

4.引入了alarm程序监控系统

先来谈谈配置自动更新：

zookeeper可做到配置的自动分发至producer，也可以告知producer某个rabbitmq的节点坏掉了，可以摘掉，那么人工干预的成本就进一步降低了

再来谈谈DB的优化，这里对DB做了进一步的优化，采用SSD磁盘，主从化，读写分离，分表设计，优化索引，在这里只提一些很常规的优化手段。

deal stat程序有什么用，我们想一个问题，我们不可能经常去看系统的处理能力数据，那么瓶颈出现的时候我们怎么知道？这里引入deal stat主要是实时分析系统的处理能力，一旦达到我们设置的瓶颈，则通过邮件/短信/微信等各种手段通知程序维护者去处理，比如扩容。

最后再来谈alarm系统，可以说，一个没有告警机制的系统，本质上是个裸奔或者烂系统，不具备可维护性。

针对图3，我们可以想出很多种情况，假设我们的告警手段是邮件/短信/微信

1.内存/cpu占用异常，用crontab就可以做到定期检测，通知程序维护者并自动重启进程

2.DB磁盘空间达到阀值，通知程序维护者扩容

3.自动回滚压缩日志文件，磁盘空间总是有限的，不可能人工去rm，几千台机器怎么破，对吧

4.rabbitmq的队列过大，consumer处理能力不足，通知程序维护者

5.程序异常(僵死)，比如consumer定期输出running状态的日志，一旦alarm程序发现一段时间没收集到该日志，则认为consumer异常，通知程序维护者

6.不一一举例了

图3总结：

1.要避免重要的进程出现单机运行的情况

2系统应该是容易扩展的，而不是遇到性能问题就要修改代码.

3.系统要处理各种异常情况，包括软硬件的问题

4.系统要进行监控，里里外外监视起来，并自动通知管理员

5.尽力减少人力去维护系统，一切都自动化，只需要点点鼠标就能把系统运营好

6.关注系统的数据指标，这是系统优化的数据基础

图3的缺陷：

DB由于业务的特性，数据不需要做一致性处理，但是并没有做到容灾处理，一旦某个节点的DB出现故障，仍然会影响系统的可用性

DB部分参考这个文章：支付宝的高可用与容灾演进

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 高可用架构服务器

相关文章推荐

新的分享

章节导航