【大型网站运维之道 天道 人道 运维之道】
2010-10-06 00:23
441 查看
大型网站运维之道漫谈
网站运维绝不是某些人眼中安装系统、做几根网线那么简单: 除去应用开发和业务运营之外的保障网站能运转的事儿都可能是运维工作的职责范围。本系列是冯大辉(Fenng)的一个系列博文,从可用性、监控与报警机制、容量规划、流程规范、知识管理与积累、自动化管理等方面,探讨了大型网站运维需要考虑的因素。当然,有些理念对各种规模的网站都是通用的。更多内容可关注Fenng的博客dbanotes.net。
从可用性到自动化
网站运维之道 关于可用性
所谓网站可用性(availability)也即网站正常运行时间的百分比,这是每个运营团队最主要的 KPI (Key Performance Indicators ,关键业绩指标)。对于 Web 站点来说,传统的那个 24x7 的说法已经不是很适用了,现在业界更倾向用 N 个9 来量化可用性, 最常说的就是类似 "4个9(也就是99.99%)" 的可用性。
网站运维之道 监控与报警机制
多数网站都会倾向于利用开源软件自行搭建监控平台。笔者一向认为,即使网站只有一台服务器,也应该搭建监控工具,这是保障网站能持续改进的基石。有些公司的运维团队喜欢自己写监控工具而不是利用已有的第三方开源工具。这种重复发明轮子的做法笔者认为是不可取的。
网站运维之道 之容量规划
有效的监控能够避免绝大多数问题的扩大化,但是还是做不到防患于未然。所谓的容量规划,也就是一个公司为了满足商业目标的需求而决定生产能力的过程。
网站运维之道 之流程规范
对于相对正规的网站维护工作,所有网站的所有变更必须能做到有记录,可回溯。如果是单枪匹马作战,那么要实现这个目标并不是很难,只需要把好习惯培养起来就成了,可如果要面对一个团队,那么就必须要依赖流程规范来进行约束。
网站运维之道 之知识管理与积累
知识管理(KM, Knowledge Management)是干啥的? 这四个字说来话长,用我的土话说,要把信息沉淀下来并传递给更多的人用。一个人写的文档,团队其他的人要能看明白,要理解,要能拿着这文档做事情。
网站运维之道 之自动化管理
自动化管理是网站规模化之后必须要面对的问题。为什么要自动化?肯定不是为了炫技,针对一个发展中的网站来说,自动化的主要目的还是为了节省维护成本,提升运维成熟度能力。
投票调查
你最想在怎样的公司做运维?大型网站(如网易、新浪)
大型企业(如移动、联通)
大型商务平台(如淘宝)
大型游戏网站(如盛大)
IDC(到处都是)
最好能在外企或出国
无所谓