您的位置:首页 > 运维架构

Google SRE 可能不适合你? – 运维派

2019-05-15 18:01 1516 查看

莎士比亚的《麦克白》中有三位女巫唱道:“不辞辛劳不厌烦,釜中沸沫已成澜;”,正如她们的警告得到的原比你想要的更多。该诗句十分适用网站可靠性工程师(SRES)。

尽管SRE的工作角色通常被直接定义为自动化,但事实上59%的SRE认为他们的组织中有太多的累活(定义为手动、重复、线性规模的策略性工作)。根据188名担任SRE职务的员工的调查回复,Catchpoint的第二份年度SRE报告出人意料地发现,近一半(49%)的SRE认为他们的组织没有使用自动化来减少工作量。

SRE经常受到DevOps的启发,对自动化有很高的期望。然而,两者之间存在着关键的区别,SRE的职责更接近于与系统管理员相关的职责。虽然SRE具有自动化和创新的能力,但往往因关注历史事件管理和可靠性而成为IT运营的负担。

资料来源:2018年SRE报告 

根据去年的报告,尽管自动化是SRES所需要的最高技术技能,但现实情况是,编写新脚本或创建改进的基础设施配置并不能总是消除IT运营的日常责任。事实证明,自动化CI/CD流程只是许多SRE职责之一。

另一个责任是响应“事件”,通常定义为服务中断。52%的受访者每周处理一次以上的事件,这些事件会产生很大的压力,因为它们会影响客户满意度,而且可用性是衡量SRE成功的方法。

可用性是用于定义SRE角色“可靠性”部分的关键“指标”。四分之三的SRE说他们的组织有服务水平目标(SLOs),而在这个群体中,几乎每个人都说可用性是被追溯的。最终用户也会利用延迟和响应时间的经验,但不会经常使用。

监控服务提供商和微调应用程序的性能可以减少事件的数量并使组织接近99.999%,这意味着一年只有5分钟的停机时间。然而,尽管有AIOPs或人工智能的承诺,但大多数事故不能自动排除。

虽然最受关注的是事故,但对SRE来说更多关注的可能是收到的非紧急告警的数量。27%的受访者表示,非紧急信息是他们“辛苦工作”的首要来源,而只有15%的受访者提到了电话通知。

SRE不仅仅是优化IT运营的专业人员,,但仅关注可用性意味着他们通常无法承担他们正在努力解决的工程挑战。

来自其他报告的上下文 

•事件会在开发人员和IT运营之间产生摩擦:四分之三的开发人员更愿意由应用程序开发团队负责处理重大事件。根据2018年Atlassian的一项调查,其中的根本原因是软件开发人员更了解错误,因为与IT团队来回沟通需要花费太多时间。然而,集中式IT运营团队的成员几乎同样强烈地认为他们应该带头负责,而且大多数C级高管都同意这一点。三分之二的受访者确信软件开发团队参与所有重大事件的所占不到半数,因此C级主管可能是对的。

•AIOP只是解决方案的一部分:OpsRamp进行的一项调查发现,四分之三熟悉AIOP的高管认为,这种工具的主要目的是消除繁琐的手动任务。然而,80%的受访者表示,不到半数的事件是重复发生的。换句话说,它们不能通过自动化直接解决。

原文链接:https://thenewstack.io/sres-wish-automation-solved-all-their-problems/
译者介绍:陆明,近二十年制造业IT相关从业经历,主要从事基础设施建设和运维工作,对IT服务管理及信息安全也有涉及。
公众号出处:云技术

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  google Google SRE SRE 谷歌