内存MCE错误导致系统崩溃的问题分析
2013-10-31 16:42
706 查看
今天服务器因为内存问题而崩溃,通过mcelog工具分析是在读内存的时候Error overflow(虽然是ECC内存,但也无奈错误太多),估计是内存硬件故障,如果再次出现的话就得考虑更换内存。
最终原因:硬件故障,应该是主板问题,因为是线上服务器为减少计划内停机时间,同时更换主板和内存解决。
# more /var/log/messages
Oct 31 14:19:36 pingu_fd kernel: sbridge: HANDLING MCE MEMORY ERROR
Oct 31 14:19:36 pingu_fd kernel: CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010092
Oct 31 14:19:36 pingu_fd kernel: TSC 0 ADDR 428fc8840 MISC 204808e886 PROCESSOR 0:206d6 TIME 1383200376 SOCKET 0 APIC 0
Oct 31 14:19:36 pingu_fd kernel: sbridge: HANDLING MCE MEMORY ERROR
Oct 31 14:19:36 pingu_fd kernel: CPU 0: Machine Check Exception: 0 Bank 10: 8800004800800092
Oct 31 14:19:36 pingu_fd kernel: TSC 0 ADDR 0 MISC 4900030243025000 PROCESSOR 0:206d6 TIME 1383200376 SOCKET 0 APIC 0
通过mcelog翻译message的内容如下:
# mcelog sandybridge-ep --ascii < mcelog-manu.txt
sbridge: HANDLING MCE MEMORY ERROR
Hardware event. This is not a software error.
CPU 0 BANK 5
MISC 244076f686 ADDR 1a6bca040
TIME 1383200376 Thu Oct 31 14:19:36 2013
MCG status:
MCi status:
Error overflow
Corrected error
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNEL2_ERR
Transaction: Memory read error
STATUS cc0000c000010092 MCGSTATUS 0
CPUID Vendor Intel Family 6 Model 45
SOCKET 0 APIC 0
最终原因:硬件故障,应该是主板问题,因为是线上服务器为减少计划内停机时间,同时更换主板和内存解决。
# more /var/log/messages
Oct 31 14:19:36 pingu_fd kernel: sbridge: HANDLING MCE MEMORY ERROR
Oct 31 14:19:36 pingu_fd kernel: CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010092
Oct 31 14:19:36 pingu_fd kernel: TSC 0 ADDR 428fc8840 MISC 204808e886 PROCESSOR 0:206d6 TIME 1383200376 SOCKET 0 APIC 0
Oct 31 14:19:36 pingu_fd kernel: sbridge: HANDLING MCE MEMORY ERROR
Oct 31 14:19:36 pingu_fd kernel: CPU 0: Machine Check Exception: 0 Bank 10: 8800004800800092
Oct 31 14:19:36 pingu_fd kernel: TSC 0 ADDR 0 MISC 4900030243025000 PROCESSOR 0:206d6 TIME 1383200376 SOCKET 0 APIC 0
通过mcelog翻译message的内容如下:
# mcelog sandybridge-ep --ascii < mcelog-manu.txt
sbridge: HANDLING MCE MEMORY ERROR
Hardware event. This is not a software error.
CPU 0 BANK 5
MISC 244076f686 ADDR 1a6bca040
TIME 1383200376 Thu Oct 31 14:19:36 2013
MCG status:
MCi status:
Error overflow
Corrected error
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNEL2_ERR
Transaction: Memory read error
STATUS cc0000c000010092 MCGSTATUS 0
CPUID Vendor Intel Family 6 Model 45
SOCKET 0 APIC 0
相关文章推荐
- 使用gdb调试内存重复释放导致的malloc_error_break错误崩溃
- (转)!!频繁分配释放内存导致的性能问题的分析 --(附)malloc分配原理浅析 mmap关注焦点 如何优化分配内存
- 内存分配--频繁分配释放内存导致的性能问题的分析
- PHP 大图片操作导致内存崩溃及超时的问题
- 频繁分配释放内存导致的性能问题的分析
- 【百度分享】频繁分配释放内存导致的性能问题的分析
- ubuntu 系统时间错误导致编译不过的问题
- 拯救XP系统崩溃的稻草 原位升级(覆盖安装xp)正文分析错误
- 频繁分配释放内存导致的性能问题的分析
- session不及时释放导致内存溢出的性能问题分析
- linux下采用ps、jps、jstack检测内存、cpu只升不降,导致系统崩溃
- 频繁分配释放内存导致的性能问题的分析
- PHPEXCEL导入数据库,执行到load导致系统崩溃问题
- 解决虚拟内存设置错误导致的系统蓝屏无法启动问题
- 内存错误导致的系统无法安装
- 还原堆栈信息,分析地形系统使用ASTC格式的纹理导致Crash的问题
- 系统分析 - 20150913 - 磁盘IO导致系统接近崩溃
- GPIO驱动写错,导致内存出现问题,系统死掉
- Linux rescue模式修复由于libc.so.6错误导致系统所有命令不可用的问题
- 频繁分配释放内存导致的性能问题的分析