您的位置：首页 > 其它

谷歌新书：SRE

2016-04-09 13:56 218 查看

摘自：云中漫步公众号

书名：Site Reliability Engineering - How Google Runs Production Systems.

O'Reilly出品，目前可以在美国亚马逊预定，最快这一两周就会发货，如果有渠道可以带回国的同学可以下单买了。如果没有渠道或者读英文吃力的同学也不用担心，中文翻译版已经在路上了，将由Coding.net
CTO孙宇聪（前谷歌资深SRE）为大家奉上最高质量的翻译版，请耐心等待。

说到谷歌，人们会想到他有世界上最好的搜索引擎、有用上就戒不掉的邮件服务、有可以自动整理照片的图片管理服务、有无人驾驶汽车、还有最近非常火爆的Alphago等等。所有这些产品都需要有强大的后端服务提供支撑，这些后端服务需要超大的存储空间、超强的计算能力、超高的网络带宽，开发这样的服务对技术要求非常高，能够稳定的运行这些服务则更加困难。

比较关注集群管理的同学可能听说过谷歌的神器Borg，就是用Borg谷歌才能管理全球的百万台服务器，才能使这些机器保持很高的资源利用率。最近谷歌开源的Kubernetes就是建立在运行Borg十几年的经验基础之上的。

但是仅仅有集群管理软件是没法给用户提供任何服务的，为了给用户提供稳定可靠的服务，谷歌有一只专门的团队负责运行这些后端服务，团队名字叫：Site Reliability Engineer。

Site Reliability Engineer直译过来就是系统稳定性工程师，这个职位名称是谷歌创建的，最早可以追溯到2003，相比2008年才被提出来的Devops早了5年。SRE这个职位由Ben Treynor（现在是SVP）加入谷歌之后创立，从创建这个职位到2015年，谷歌已经从最初的7个SRE发展到1200+ SRE了。

关于SRE这个职位的了解，国内的普遍认识是对应到运维工程师的职位，但是根据本人的经验，SRE和国内绝大部分互联网公司的运维是完全不同的工作内容，比较贴近的一个类比是运维工具开发团队兼生产运维和容量规划。如果你认为SRE管理着谷歌内部所有的生产服务，那你就错了，不是所有的服务都能得到SRE的support的，只有那些重要的而且达到SRE要求的服务才会被SRE接管，如果达不到SRE的要求，对不起开发只能自己管。

对于具体的SRE工作内容和方式，到目前位置也没有比较全面的介绍，但是了解谷歌SRE的人常说的一句话是：和你们相比，大部分公司还处于刀耕火种时代，什么时候你们这些最佳实践能够帮助帮助其他的公司呢？随着这本官方书籍的出版，谷歌毫无保留的将自己十几年SRE的生产管理经验分享出来，业界可以近距离全方位的了解谷歌SRE的工作内容/方式以及最佳实践，这对整个行业的影响将是巨大和深远的。

此书是谷歌SRE成立专门团队，历时1年才完成的。不同的章节由不同产品线资深SRE或者高级经理根据实际经验撰写，由专门的评审委员会review之后定稿，可以说是汇集了谷歌SRE生产环境各个方面的最佳实践。

通过阅读本书，你可以了解到以下方面的最佳实践：

如何平衡可用性和成本

如何制定服务的SLO

如何减少operational的工作

分布式系统的监控

自动化平台演进

SRE在软件发布中的角色

以上提到的只是几个大的方面，书中第三部分会针对不同方面有更细化更具体的最佳实践介绍，均出自谷歌十几年来的生产环境运营经验，真金白银的经验分享！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航