云计算之路-阿里云上: RDS实例CPU跑满引发的故障
2018-01-11 12:56
696 查看
今天上午 10: 40 左右,我们所使用的阿里云 RDS 实例的 CPU 突然飙高到近 100% ,造成大量数据库查询操作缓慢、超时,在这个恶劣条件下大量 memcached 缓存无法建立,这样的雪上加霜让 Web 服务器的 CPU 跟着不堪重负,于是要么访问缓慢,要么直接 503 。。。造成网站无法正常访问,由此给您带来了很大的麻烦,请您谅解。
问题非常奇怪,昨天同样的时间段,RDS CPU 占用却少很多,平时 RDS CPU 的占用通常都在 60% 以下,而今天我们网站的访问量并没有明显的突增。
面对这个突发故障,我们实在找不出可能的线索。在前几年使用阿里云 RDS 曾经遇到过很少几次类似数据库访问突发缓慢的问题,当时都通过主备切换神奇地解决了。这次,我们最终还是采用了主备切换的方法,在 11:20 左右启动了主备切换。
主备切换后,CPU 很快就降了下来,但由于 SQL Server 预热需要一定的时间(建立缓存),所以在切换后的一段时间,访问网站依然缓慢,直到 11:40 左右才恢复正常。
我们所使用的 RDS 实例规格是 SQL Server 2008 R2 ,20核CPU ,12G内存,6000 IOPS ,一直没有升级到 Server Server 2012 或 2016 ,就是因为阿里云只有 2008 R2 才提供了高可用版(支持主备切换),而 2012 与 2016 只有基础版。而使用高可用版,在出现突发故障进行主备切换是一个简单有效的方式。
【更新】
我们在故障恢复后,开启了 RDS 的 SQL 审计功能,正在根据审计情况对查询与索引进行优化。
相关文章推荐
- 云计算之路-阿里云上:节点 CPU 波动引发 docker swarm 集群故障
- 云计算之路-阿里云上:14:20-14:55博客后台2台服务器都CPU 100%引发的故障
- 云计算之路-阿里云上:启用Windows虚拟内存引发的CPU 100%故障
- 云计算之路-阿里云上-阵雨:RDS故障的突袭
- 云计算之路-阿里云上:SLB故障引发的网站不能正常访问
- 云计算之路-阿里云上:网站故障致歉
- 云计算之路-阿里云上-寒流来袭:2014年12月23日21:45-23:15网站故障
- 云计算之路-阿里云上:0:25~0:40网络存储故障造成网站不能正常访问
- 云计算之路-阿里云上:为什么看不见CPU在坐过山车,磁盘IO在蹦极
- 阿里云RDS实例CPU超过100%
- 云计算之路-阿里云上-十字路口:阿里云SLB故障
- 云计算之路-迁入阿里云后:20130314云服务器故障经过
- 云计算之路-阿里云上:RDS用户的烦恼
- 云计算之路-阿里云上:对“黑色n秒”问题的最终猜想——CPU C-states引起的
- 阿里云数据库维护记录-RDS MySQL IOPS 使用率高的原因和处理--RDS实例CPU超过100%的分析
- 云计算之路-阿里云上:RDS数据库连接数过万引发故障,主备库切换后恢复正常
- 云计算之路-阿里云上:4000IOPS的RDS+16核CPU的负载均衡
- 云计算之路-阿里云上:向大家汇报一下今天上午的网站故障
- 云计算之路-阿里云:试用阿里云RDS——10分钟 vs 1小时16分钟
- 云计算之路-阿里云上:消灭“黑色n秒”第一招——不让CPU空闲