您的位置:首页 > 数据库

阿里云 RDS 数据库又发 CPU 近 100% 的“芯脏病”

2019-10-21 09:52 1551 查看

最近云界发生了2件事,一件是大事,一件是小事,大事是阿里云与微软合作推出了开放应用模型 Open Application Model(OAM),小事是由于微软 SQL Server 在阿里云上水土不服(仅是我们的猜测),阿里云 SQL Server RDS 患上了间隙性芯脏病,该病容易在夜间酣睡的时候发病,目前唯一的急救药是“主备切换”。

对于大事,我们拍手叫好,云厂商绑定的问题正在被逐步解决。对于小事,我们提心吊胆,阿里云你可要保重龙体啊,你打个喷嚏,我们都抖三抖,你要是生个小病,我们怎么活。

在此之前,最近我们已经遭遇了3次阿里云 RDS 芯脏病发作,详见 云上的芯脏病:奇怪的阿里云 RDS 数据库突发 CPU 近 100% 问题。昨天 23:50 左右开始,RDS 芯脏病又发作了,又是发生在数据库服务器负载极低的时候,又是通过急救药“主备切换”恢复了正常。

非常抱歉,阿里云 RDS 芯脏病问题引发的故障再次给您带来麻烦,请您谅解。

对于这个问题,我们会继续观察并考虑以下的应对方法:

1)向阿里云提交工单,催促阿里云重视这个问题。

2)用阿里云 ECS 自建 SQL Server 数据库服务器。

3)评估其他云厂商的云数据库服务,如果在阿里云上实在无法解决,换一片云试试。

请大家理解我们的小题大做,云已经变得越来越重,已经成为很多企业的命脉,对于云上的问题“小题大做”总比“大题小做”好,何况是国内 1 > 2...n之和 的云呢。

【更新】

11:40 更新,阿里云针对我们遇到的数据库 CPU 100% 问题进行分析,分析出来的原因是“在较⾼吞吐量的情况下,出现了缓存的执⾏计划被替换,同样的⼀批SQL执⾏成本⼤幅提⾼(参数嗅探问题)导致的CPU 100%”,而且定位出了具体的 SQL 语句,是 EF Core 3.0 生成的获取上一篇/下一篇博文的 SQL 语句。我们会改进对应的 LINQ 代码,并进行验证。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: