您的位置:首页 > 运维架构

专访

2019-10-17 18:02 2241 查看

原文来自:高效运维社区

AIOps一词我们并不陌生。

AIOps,是基于算法的 IT 运维(Algorithmic IT Operations),是由 Gartner 定义的新类别,源自业界之前所说的 ITOA(IT Operations and Analytics)。

近几年,新技术不断涌现,利用数据科学和机器学习来推进日益复杂的企业数字化进程,“AIOps”(Algorithmic IT Operations)因此应运而生。Gartner 的报告宣称,到 2020 年,将近 50% 的企业将会在他们的业务和 IT 运维方面采用 AIOps,远远高于今天的 10%。

然而什么样的企业需要做AIOps?想要做AIOps 需要企业具备什么样的能力?对于运维人又需要做哪些准备?AIOps之路还有多远?

带着以上问题,小编采访到了新浪技术专家彭冬老师,彭冬老师把我们共同带入那个一心研究技术的少年时代,与我们分享忘我奋斗的创业故事,带着成熟和经验回归微博后的AIOps 实践之路。

彭冬主要负责微博广告团队智能运维、大数据平台和广告业务团队的管理,以及技术选型、架构设计等工作,同时也是《智能运维:从0搭建大规模分布式AIOps系统》作者。

梦开始的地方

彭冬毕业于西北工业大学,一座非常低调的军工院校。作为学校本硕连读的学生,彭冬老师在大三的时候正式确定了计算机的学习方向,在本科时期,当他学习了C语言之后,接触了很多计算机编程方面的知识,顿时对黑客技术产生了非常浓厚的兴趣,然后开始研究一些计算机的漏洞以及很多安全攻防方面的技术,也负责了学校一个机房的安全管理工作。

就像Linux 之父Linus Torvalds 说的:Just for fun .

浓厚的兴趣促使彭冬学习了很多编程的理论,接触到微软的Windows MFC,跟随编程视频课程学习系统框架,后跟随老师一起开始接一些小型的外包,并获得一些收益,之后不断地接触三星、安卓的操作系统,还参加了第二届全球谷歌开发者比赛,接触到很多世界级的开发者,在这个过程中,彭冬积累了大量的编程经验,为以后进入微博工作打下基础。

寻找自我的旅程

2009年,彭冬研究生毕业后的第一份工作就是来到微博,进入商业化广告系统技术团队。2012年负责了品牌广告,随后跟团队一起搭建了微博第一代的效果广告系统:粉丝通,这个系统属于信息流广告,在当时是国内第一家。

2014年,微博上市,同时大数据如火如荼,彭冬深感大数据技术的到来会对行业带来翻天覆地的变化,是未来行业发展方向之一,抱着对技术的热切追求,迎接新的挑战,彭冬就职于百度,在百度联盟团队,从事大数据相关,工程架构以及用户画像等工作。

我们最常见的一种联盟的广告形式就是随便打开一个网站,就会有百度的广告,基本上所有的中小型网站都跟百度有合作关系,联盟的请求量,数据规模之庞大,使彭冬的工作能力得到了充分的锻炼和提升。

创业是每一个男人的浪漫

在2014年底,O2O的概念席卷整个IT互联网。

这个冬季,与寒风不同的是彭冬和朋友们的创业热情,他们做了“趣吃饭”项目。着重解决人们去店里吃饭排队时间过长的痛点,服务对象多是CBD白领和学生。人们可以在公众号扫码点餐,点了之后付款,等待取餐通知,而另一边餐厅接到订单通知之后,备餐完成之后,把餐放在餐柜,并通知C端用户取餐就完成了整个服务流程。当时用户规模已经达到20万,签约包括吉野家、真功夫、永和大王等商家近1000家,流水可达百万。

作为人生中第一次创业能有这样的成绩,彭冬和朋友们满怀欣喜,但同时不可否认,在做企业时候有很多问题存在,几位创始人的首次创业在管理方面尤其是资金流没有很好的控制,在2016年趣吃饭项目在O2O资本寒冬中终止了。

对于这次创业经历,彭冬有成功的欣喜,亦有项目终止的遗憾,不过经历过就是赚到,创业是每一个男人的浪漫。借此一役,彭冬也从一个技术人员上升到可以独当一面的技术管理人员。

重回微博 再战江湖

在2016年底,彭冬回到微博负责运维团队。

在当时微博的运维经常会出一些故障,比如说在访问量巨大的时候一些信息流会无法访问,或者服务器不可用,服务器超时等问题,小问题不断,每个月都要开故障讨论会议。

而彭冬在负责运维团队后做的第一件事就是结合大数据技术来做运维,在数据规模达到一定量级时,要将所有的监控基于数据来做,恰好彭冬结合之前在百度的经验,在监控运维这一块带来了全新的思路。

大约用了三个月的时间,首先解决掉的问题就是故障频发,在团队的努力下,微博的故障率极低,报警数也降低80%,由之前的一周五六千次,降低到千次以内,也就把一些同事从每天救火的情况中解救了出来。

一直到今天,微博终于是网友口中“成熟的微博”了,老板也会语重心长的对彭冬说:春晚终于可以安稳的睡觉了(不用担心故障频发)

为什么要做AIOps

彭冬在聊到企业为什么要做AIOps时提到,首先目前所有的商业领域,对于企业有两个主题:互联网化和全球化,由此引发出企业的一些变化和趋势,比如行业的市场结构正在发生变化,大部分的互联网市场是买方市场,企业服务或产品想要卖出去,面临的竞争非常激烈,在抢用户的过程中,就要提供更好的产品和服务,因此系统就会越来越复杂。

第二,数据规模的扩大。如今网民数量增长快速,微博有2亿多DAU,微信有9亿,字节跳动有5亿左右,数据规模巨大的变化迫使我们要改变。

第三,时间效率。互联网行业对于产品的要求要快速再快速,一个月发布的产品,最好一星期就发布出来,对于创业公司更是需要争分夺秒,企业面临的压力巨大,产品不稳定就会导致流失很多用户。例如前段时间Facebook宕机事件,使另一家企业(Telegram)获得了300万新注册用户。

企业面临的巨大压力渗透到每一个环节,系统是否稳定,状态是否健康,对于突发事件的处理能力、自动化处理等都是极大的挑战。

而AIOps 就是一个全新的突破口。

我们可以通过一些工具或平台做到自动化运维最终转化成智能化运维,帮助我们预判一些事情并且能智能化的处理。AIOps 可以更持续的通过技术来观测、洞察和守护系统,保证稳定性,这是很关键的。

微博的运维建设方向

就微博而言,自动化运维的程度相对完善。对于彭冬所在的商业化团队,更重视准确率,比如说微博的CTR(点击率)预估,在微博的广告系统里边会存很多的广告,是根据点击率的高低来推荐给用户的,点击率需要团队进行提前预估,之后进行CTR排序,如果有5%的波动,可能是很正常的事情,影响不大,但是如果这个方法迁移到运维的话,就是灾难。比如说,判断失误,5%的失败率,做了一个降级,这个系统的收入就要损失5%,所以要更讲究准确率。

具体来讲,团队下一步要做的事情:

第一步是做虚拟化,结合目前虚拟化Docker技术体系,进一步提升服务的利用率,然后更好的去做动态化的控制和操纵,今年完成内部系统的发布,明年进一步完成线上全面的工作。

第二步是尝试新的算法,使自动化和新的算法有机的结合。

彭冬认为,一家企业如果想做 AIOps ,要具备最核心的能力是大数据的处理能力。如果离开了大数据,智能化就不成立,它是能在大数据场景下,在一定量级数据规模的情况下,处理大规模的系统的运维能力。当然,运维经验、运维开发能力主要是解决工具、平台工程化的东西,从另一个角度讲,要数据量级达到一定的时候才需要做智能。

十年技术生涯,跨越艰难险阻

毕业至今,已有十年光景,提到遇到的困难,彭冬有两件事刻骨铭心。

在创业初期,要开辟市场和很多商家洽谈合作,希望智能餐柜可以入驻商铺,但是对于商铺考虑的维度完全不同。彭冬回忆道,有很多商铺不愿意被餐柜占用店内空间,对于他们来说并没有增长顾客量或者翻桌率。团队根据情况改变洽谈策略,先洽谈签约一些连锁店,再去签约个体小的店家,这样有了已经签约的大店的案例就相对好谈一些,从0到1的过程十分艰难,最终问题得到顺利解决。

另外,做运维的过程中除了有很多技术上的挑战,还要沟通业务部门配合工作,这就很有难度。比如微博要做一个全链路的系统,就要去说服涉及到的业务部门,按照要求去改一些东西,按照约定打一些日志,或者集成SDK等等,后期采用的办法就是设法推动业务方有动力去参与这件事,产生“共同业绩”的重度参与感,并使其感到做这件事是能帮助到他们的。最后彭冬的团队用了不到一年时间做成这个系统,这也是一个很大的挑战。

关于《智能运维:0搭建大规模分布式AIOps系统》

《智能运维:从0搭建大规模分布式AIOps系统》这本书是2017年开始筹备,在此之前,彭冬发表的一些文章反响比较好,之后受邀写一本关于智能运维的书籍。恰逢AI近几年发展良好,结合运维之后会为行业带来新的动力,彭冬希望能对做运维的同学有一些帮助。

众所周知,运维非常辛苦,24小时待机,经常背锅。彭冬和朋友一起就大数据和运维,以及对AIOps 的需求共同创作完成了这本书。书中很多都是介绍数据处理、上层监控、报警算法如何落地,还有实践的框架和架构如何落地,也列举了微博广告运维团队的很多案例,结合场景呈献给了大家。

对于管理,懂得放权

目前彭冬管理的团队总数接近80人,交叉在很多不同方向的业务中,所以对于团队的管理彭冬也有一套自己的方法。

首先,作为年轻团队领导者,彭冬懂得放权。他借鉴了稻盛和夫的企业管理理论阿米巴,将团队分为小组制,每个小组3-5人,小组leader来主导工作方向,每个小组分别负责不同的业务方向,并且可以快速调整并快速适应。彭冬会根据整个团队的业务方向给每一个小组任务规划建议,之后让团队放手去做,针对一些技术方案的设计和选型,彭冬多数是先听取小组的讨论结果,给与团队的人充分的主导权和空间。

其次,彭冬采取一种开放的态度,对于试错很宽容。彭冬期望团队成员勇于尝试新的技术,不同的技术,不畏惧接触新的玩法。他介绍《精益创业》书中曾经讲到,很多人在做一个产品的时候总是陷入“想要打造完美产品”的漩涡,首先我们要知道这世界上没有完美的产品,特别是刚上线的产品。另外,开发团队认为的完美可能对于用户而言并不尽然,会产生效果偏差。所以彭冬鼓励团队成员首先去尝试,不要害怕出错,从而激发了大家的激情和创新能力。

最后对于现在国内企业十分流行的OKR工作法,彭冬认为这是非常棒的工作法则。通过对整个企业终极目标的拆分,落实到部门和个人,是合乎逻辑的工作法则。当然,每个企业实施落地的程度不尽相同,最终要看执行的效果,不然就会变成另一种形式的KPI。

以上,就是社区专访新浪技术专家彭冬老师的全部内容。彭冬老师为我们讲述了从大学接触到编程世界开始,一直保持热忱去学习去创新,在IT互联网行业追寻梦想的故事。回到今天彭冬老师已经成为一个技术团队的领导者,更多的是想为行业和运维人们尽一份自己的力量,也许这些也都是每一个IT 工作者的心境吧,也激励着我们每一个人保持初心,一直前进!

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息