云计算之路-迁入阿里云后:20130314云服务器故障经过
2013-03-14 23:53
525 查看
首先向大家致歉,这次云服务器故障发现于17:30左右,18:30左右恢复正常,给大家带来了麻烦,请大家谅解!
故障的原因是云服务器所在的集群负载过高,磁盘写入性能急剧下降,造成很多数据库写入操作超时。后来恢复正常的解决方法是将云服务器迁移至另一个集群。
下面是故障发生的主要经过:
今天上午9:15左右一位园友通过邮件反馈在访问园子时遇到502 Bad Gateway错误,见下图:
这是由阿里云负载均衡SLB返回的错误,Tengine是由阿里巴巴开发的开源Web服务器。我们猜测阿里云提供的负载均衡服务可能是通过Tengine反向代理实现的。
这个错误页面表示SLB检测到负载均衡中的云服务器返回了无效的响应,比如500系列错误。
我们将这个情况通过工单反馈给了阿里云,得到的处理反馈是继续观察,可能是这位用户的网络线路的临时问题导致的。
由于我们在这个时间段没遇到这个问题,也没有其他用户反馈这个问题,我们也认可了继续观察的处理方式。
(根据我们后来的分析,出现502 Bad Gateway错误可能是集群出现了瞬时负载高的情况)
下午17:20左右,我们自己也遇到了502 Bad Gateway错误,持续了大约1-2分钟。见下图:
出问题期间,我们赶紧登录到两台云服务器查看情况,发现IIS并发连接数增长至原来的30多倍,而Bytes Send/sec为0,而且两台云服务器都是同样的情况。我们当时推断,这两台云服务器本身应该没有问题,问题可能出在它们与数据库服务器之间的网络通信。我们继续将这个情况通过工单反馈给阿里云。
刚把工单填好,我们就接到园友的电话反馈说博客后台不能发布文章,我们一测试,果然不能发布,报数据库超时错误,见下图:
但打开现有的文章速度很快,也就是说读正常,写有问题。赶紧登录数据库服务器通过性能监视器查看磁盘IO情况,果然磁盘写入性能有问题,见下图:
Avg. Disk Write Queue Length超过1就说明有问题了,现在平均已经到了4~5。进入阿里云网站上的管理控制台一看,磁盘IO问题就更明显了,见下图:
继续向阿里云反馈情况,得到的反馈是这台云服务器IOPS太高了,见下图:
于是,阿里云工作人员将这台云服务器迁移至另一个集群,问题立刻解决。
故障的原因是云服务器所在的集群负载过高,磁盘写入性能急剧下降,造成很多数据库写入操作超时。后来恢复正常的解决方法是将云服务器迁移至另一个集群。
下面是故障发生的主要经过:
今天上午9:15左右一位园友通过邮件反馈在访问园子时遇到502 Bad Gateway错误,见下图:
这是由阿里云负载均衡SLB返回的错误,Tengine是由阿里巴巴开发的开源Web服务器。我们猜测阿里云提供的负载均衡服务可能是通过Tengine反向代理实现的。
这个错误页面表示SLB检测到负载均衡中的云服务器返回了无效的响应,比如500系列错误。
我们将这个情况通过工单反馈给了阿里云,得到的处理反馈是继续观察,可能是这位用户的网络线路的临时问题导致的。
由于我们在这个时间段没遇到这个问题,也没有其他用户反馈这个问题,我们也认可了继续观察的处理方式。
(根据我们后来的分析,出现502 Bad Gateway错误可能是集群出现了瞬时负载高的情况)
下午17:20左右,我们自己也遇到了502 Bad Gateway错误,持续了大约1-2分钟。见下图:
出问题期间,我们赶紧登录到两台云服务器查看情况,发现IIS并发连接数增长至原来的30多倍,而Bytes Send/sec为0,而且两台云服务器都是同样的情况。我们当时推断,这两台云服务器本身应该没有问题,问题可能出在它们与数据库服务器之间的网络通信。我们继续将这个情况通过工单反馈给阿里云。
刚把工单填好,我们就接到园友的电话反馈说博客后台不能发布文章,我们一测试,果然不能发布,报数据库超时错误,见下图:
但打开现有的文章速度很快,也就是说读正常,写有问题。赶紧登录数据库服务器通过性能监视器查看磁盘IO情况,果然磁盘写入性能有问题,见下图:
Avg. Disk Write Queue Length超过1就说明有问题了,现在平均已经到了4~5。进入阿里云网站上的管理控制台一看,磁盘IO问题就更明显了,见下图:
继续向阿里云反馈情况,得到的反馈是这台云服务器IOPS太高了,见下图:
于是,阿里云工作人员将这台云服务器迁移至另一个集群,问题立刻解决。
相关文章推荐
- 云计算之路-阿里云上:网站故障致歉
- 云计算之路-阿里云上-十字路口:阿里云SLB故障
- 云计算之路-阿里云上:SLB故障引发的网站不能正常访问
- 云计算之路-阿里云上: RDS实例CPU跑满引发的故障
- 云计算之路-阿里云上:14:20-14:55博客后台2台服务器都CPU 100%引发的故障
- 云计算之路-阿里云上-寒流来袭:2014年12月23日21:45-23:15网站故障
- 云计算之路-黎明前的黑暗:20130424网站故障经过
- 云计算之路-阿里云上-阵雨:RDS故障的突袭
- 云计算之路-阿里云上:节点 CPU 波动引发 docker swarm 集群故障
- 云计算之路-阿里云上:向大家汇报一下今天上午的网站故障
- 云计算之路-阿里云上:启用Windows虚拟内存引发的CPU 100%故障
- 云计算之路-阿里云上:2014年6月12日16:14遭遇SLB故障
- 云计算之路-阿里云上:0:25~0:40网络存储故障造成网站不能正常访问
- 云计算之路-阿里云上:数据库写入超时的问题终于真相大白
- 云计算之路-阿里云上:实战Advanced Logging for IIS分析http内容压缩问题
- 云计算之路-阿里云上:节能降耗,希望从此好天气
- 云计算之路-阿里云上:从ASP.NET线程角度对“黑色30秒”问题的全新分析
- 云计算之路-阿里云上-2017年最错误的选择: 生产环境使用 docker swarm
- 云计算之路:遇到障碍——阿里云不支持带宽共享
- 云计算之路-入阿里云后:解决images.cnblogs.com响应速度慢的诡异问题