云计算之路-阿里云上:14:20-14:55博客后台2台服务器都CPU 100%引发的故障
2017-06-09 15:52
525 查看
2017年6月20日更新:今天我们最终发现,CPU 100%问题是博客后台程序所引用的开源组件 HtmlSanitizer 在处理特定html字符串时引起的,升级至最新版3.4.156可解决这个问题。
非常抱歉,今天下午14:20-14:55期间,由于同一个负载均衡中的2台服务器都出现CPU 100%问题,造成博客后台无法正常访问,由此给您带来了很大很大的麻烦,请您谅解。
博客后台是CPU消耗很低的应用,这2台服务器通常CPU占用在5%左右,之前从来没有出现CPU 100%的问题(所以连云监控都没添加CPU监控报警)。这次问题很突然,我们发现问题后,远程连接不上服务器,只能通过阿里云控制台重启服务器,重启后立马恢复正常。
对于问题的具体原因,目前还没找到,我们正在进一步排查,也反馈给了阿里云,阿里云也在排查。
对于这次故障,我们会吸取教训,采取改进措施:
1)加强监控
2)采用 Docker 进行容器化部署:在更多服务器上用更多容器运行,避免2台服务器同时出问题引发故障,但这要等我们完成博客后台向 ASP.NET Core 的迁移。
非常抱歉,今天下午14:20-14:55期间,由于同一个负载均衡中的2台服务器都出现CPU 100%问题,造成博客后台无法正常访问,由此给您带来了很大很大的麻烦,请您谅解。
博客后台是CPU消耗很低的应用,这2台服务器通常CPU占用在5%左右,之前从来没有出现CPU 100%的问题(所以连云监控都没添加CPU监控报警)。这次问题很突然,我们发现问题后,远程连接不上服务器,只能通过阿里云控制台重启服务器,重启后立马恢复正常。
对于问题的具体原因,目前还没找到,我们正在进一步排查,也反馈给了阿里云,阿里云也在排查。
对于这次故障,我们会吸取教训,采取改进措施:
1)加强监控
2)采用 Docker 进行容器化部署:在更多服务器上用更多容器运行,避免2台服务器同时出问题引发故障,但这要等我们完成博客后台向 ASP.NET Core 的迁移。
相关文章推荐
- 云计算之路-阿里云上:启用Windows虚拟内存引发的CPU 100%故障
- 云计算之路-阿里云上:节点 CPU 波动引发 docker swarm 集群故障
- 云计算之路-阿里云上: RDS实例CPU跑满引发的故障
- 云计算之路-阿里云上:SLB故障引发的网站不能正常访问
- [故障公告] 13:52-14:03,访问量突增,博客web服务器CPU 100%
- [故障公告]14:40-15:00博客站点web服务器雪崩似的CPU 100%
- [故障公告] 13-52-14-03,访问量突增,博客web服务器CPU 100%
- [故障公告] 13-52-14-03,访问量突增,博客web服务器CPU 100%
- 云计算之路-阿里云上:为什么看不见CPU在坐过山车,磁盘IO在蹦极
- 云计算之路-阿里云上:2014年6月12日16:14遭遇SLB故障
- 云计算之路-阿里云上-新车限行:新购服务器无法访问任何远程25端口
- 云计算之路:博客后台图片上传切换至“又拍云”以及新版图片上传功能上线
- 云计算之路-阿里云上:向大家汇报一下今天上午的网站故障
- 云计算之路-迁入阿里云后:20130314云服务器故障经过
- 云计算之路-阿里云上-新车限行:新购服务器无法访问任何远程25端口
- 云计算之路-阿里云上-十字路口:阿里云SLB故障
- 阿里云服务器cpu连续n天使用率为100%问题解决方案!
- 云计算之路-阿里云上:消灭“黑色n秒”第一招——不让CPU空闲
- 云计算之路-阿里云上-新车限行:新购服务器无法访问任何远程25端口
- 阿里云centos服务器cpu使用率100%和redis漏洞问题