核心系统某业务超时的问题分析
2013-10-23 15:39
260 查看
问题描述:
2012年3月某日日,业务返回“调用失败或用户密码错误” 5579次,其中在11点通知业务部门系统恢复后为4396次,全天共查询号码次数为26553次,其他数据可参考附件
原因分析:
采用自底向上的分析方法
1, 看硬件和日志,通过前面的方法论,硬件无报错,日志无异常;
2, 操作系统资源利用率不超过60%,不存在资源不足的情况;
3, 分析等待事件,从3月5日起,开始出现大量latch
free等待事件,很可能和此时业务超时有关
4, 由于oracle 9i版本的限制,相关statspack报告没有按照时间模型来排序(资源消耗排序),通过只有脚本按照时间排序,定位到可疑sql
5, 对可疑sql(3274434087)分析执行计划和趋势分区,执行计划问题不大,但是执行速度却是越来越慢,并且执行时间慢的时间和故障时间非常吻合
6, 通过业务部分确认,该sql即为空选空写相关业务sql,随着业务量(对应于该sql执行次数)和表中数据量的增加,执行速度越来越慢,当执行时间超过1秒(业务逻辑设计)时即超时,报错“调用失败或用户密码错误”;
优化方案
问题找到了,解决问题的方法也就相对容易了。按照优化的方法论,由于执行执行计划无明显问题,最终根据空选空写业务的业务特点进行如下优化措施
1, Where条件选择性不足,选出的号码数据过多,需要增加必要的选择条件
2, 不必要的Order by排序操作,消耗大量系统资源,建议取消排序操作
优化效果
经分析,数据库的异常等待时间latch明显减少。
主机CPU利用率降低了10%
后续:3月26日,异常sql再次出现,cpu利用率再次增加,联系业务部分,是业务部署导致,28日重新部署后解决
2012年3月某日日,业务返回“调用失败或用户密码错误” 5579次,其中在11点通知业务部门系统恢复后为4396次,全天共查询号码次数为26553次,其他数据可参考附件
原因分析:
采用自底向上的分析方法
1, 看硬件和日志,通过前面的方法论,硬件无报错,日志无异常;
2, 操作系统资源利用率不超过60%,不存在资源不足的情况;
3, 分析等待事件,从3月5日起,开始出现大量latch
free等待事件,很可能和此时业务超时有关
4, 由于oracle 9i版本的限制,相关statspack报告没有按照时间模型来排序(资源消耗排序),通过只有脚本按照时间排序,定位到可疑sql
5, 对可疑sql(3274434087)分析执行计划和趋势分区,执行计划问题不大,但是执行速度却是越来越慢,并且执行时间慢的时间和故障时间非常吻合
6, 通过业务部分确认,该sql即为空选空写相关业务sql,随着业务量(对应于该sql执行次数)和表中数据量的增加,执行速度越来越慢,当执行时间超过1秒(业务逻辑设计)时即超时,报错“调用失败或用户密码错误”;
优化方案
问题找到了,解决问题的方法也就相对容易了。按照优化的方法论,由于执行执行计划无明显问题,最终根据空选空写业务的业务特点进行如下优化措施
1, Where条件选择性不足,选出的号码数据过多,需要增加必要的选择条件
2, 不必要的Order by排序操作,消耗大量系统资源,建议取消排序操作
优化效果
经分析,数据库的异常等待时间latch明显减少。
主机CPU利用率降低了10%
后续:3月26日,异常sql再次出现,cpu利用率再次增加,联系业务部分,是业务部署导致,28日重新部署后解决
相关文章推荐
- 系统间歇性超时问题的分析与解决
- 浅谈公司核心业务数据表的重构——结合Memcache分析缓存策略与系统数据交互
- 系统分析设计 一个JOIN问题解决方案的感想 重视业务分析设计
- 浅谈公司核心业务数据的重构——结合Memcache分析缓存策略与系统数据交互
- 压测系统交易出现响应超时性能问题分析及解决。
- 浅谈公司核心业务数据表的重构——结合Memcache分析缓存策略与系统数据交互
- XP硬盘安装Ubuntu双系统遇到的vmlinuz File Not Found问题原因分析及解决
- 研读《基于Hadoop的海量业务数据分析平台的设计与实现》----flume的数据收集系统的设计
- 某P2P开发商ERP系统核心业务介绍
- Lighttpd1.4.20源码分析之fdevent系统(4) -----连接socket的处理与超时处理
- 引进国外银行核心业务系统的讨论(一)
- linux系统挂掉问题的分析
- [置顶] 某大型银行深化系统技术方案之十一:核心层之业务活动监控
- 商业智能系统--公司业务、系统执行统计数据和分析
- Android核心分析 ----- Android电话系统-概述篇
- Android核心分析 ----- Android电话系统之RIL-Java
- 分析系统的性能问题的维度
- 鹿城通综合业务系统常见问题
- c#扩展SPRING,配置里有不存在的业务系统xml导致不能启动问题,把配置文件里有重复的服务ID找出来并写入到日志
- SQL语句练习实例之五 WMS系统中的关于LIFO或FIFO的问题分析