您的位置:首页 > 其它

电脑异常蓝屏问题排查记录

2015-01-14 23:20 411 查看
环境:

主板:Gigabyte H87-D3H   (BIOS Version:F5)

CPU:Intel Xeon E3-1230 v3 @ 3.7GHz

内存:4x4GB 金士顿 1600MHz CL11-11-11-28 CR:2(每2条一组是同周期生产,一组是13年32周,一组14年)

    —  通道1:DIMM1、DIMM3(13年32周)

    —  通道2、DIMM2、DIMM4(14年14周,也是同周期)

显卡:Gigabyte GTX660
硬盘:Plextor M5Pro 128G×1(系统与常用软件盘),WD 1T黑盘×1(软件盘),ST 250G×3 @ RAID0 + RAID5(大游戏与资料盘)

前言:
我家电脑14年5月换上4x4G DDR3金士顿内存条,搭配的是当时使用的平台GIGABYTE 870A-UD3主板 + AMD
羿龙II x4 955,win 7 SP1 32位,使用一个月稳定。

6月中旬更换为Intel平台,主板是GIGABYTE H87-D3H + E3-1230v3,甚至连系统都没有重装,使用大半个月到7月初都很稳定。

虚拟机里测试发现Win8.1 update体验不错,主要是比较烦win7的aero组件带来的各种兼容性问题,关了AERO没有窗口预览又不好用,

所以在7月6号重装WIN8.1 update 专业版 64位,悲剧从此开始。

正题:

根据从AIDA64统计的系统日志追朔,第1次蓝屏时间为7月10日至今2015年1月14号,150多天时间共蓝屏146次。最长运行时间2天3小时……好悲催的数字。

1、造成蓝屏的环境不固定,玩着游戏时、关闭浏览器、挂着不动低功耗运行都可能会BSOD,没有特定规律。

2、系统间歇性卡顿,整个系统全部无响应的状态一卡就是1分钟,硬盘读写灯常亮。

3、每次蓝屏后开机检测硬盘需要10秒左右,等待时硬盘读写灯常亮。

排查过程:

7月—11月,无头绪大海捞针阶段:

1、根据蓝屏的dump文件分析,造成蓝屏的原因不固定,10次有8次崩溃时正在直行的代码地址在ntoskrnl.exe+150aa0这个函数,而每次蓝屏的错误信息代码与参数都不相同;其他2次则是各种驱动没有规律,如显卡驱动,网卡驱动,directX驱动等等。

因此基本可以排除系统环境与驱动问题。

2、开始2个月用过好几次memtest86+完整模式测试过3、4次内存,完整检测没有报过错误。

基本可以判断内存颗粒无损坏。

3、怀疑过SSD(即固态硬盘)问题,但我一直将矛头指向内存(其实主要是懒),未对SSD做过排查(而要排查SSD的方法没别的,就是把系统迁移到HDD,不用SSD)

12月初,目标转向SSD:

1、12月3号机缘巧合看到我的M5Pro更新1.08固件了,找度娘看更新内容,度娘们说修正了:系统卡顿(上面提过)和一个导致蓝屏死机的问题。那必须是立马更新固件。并且向好基友们广播了一遍我家电脑的悲惨遭遇顺便诅咒了一下浦科特。以为好日子来了。

2、好景不长,卡顿是没有了,BSOD还是跟稿潮一样来个不停。这时候我又骂了一次浦科特,你丫坑我!

3、这次下定了决心排查SSD的问题。把WD 1T的HDD腾出空间划分一个分区,把SSD的系统ghost了进去,更新系统启动项之后引导HDD的系统,藉此排除SSD的问题。

4、oh shit!还是蓝屏肿么破!这次来个彻底的,把SSD的引导分区和软件分区全部移到1T的HDD上,直接拔掉SSD的硬盘线跟他3166,我就不信这个邪!

5、T_T我内流满面,蓝屏依然很爱我.....  这时候已经是12月底了

so,可以确定蓝屏不是SSD造成的。

转眼到了15年1月初:

战斗未结束,同志需努力……浪子回头盯回内存了,毕竟按NNNN多经验讲这基本只会是内存的问题。首先要列出内存情况,制定内存排查方案。一开始说到我电脑是4根4G内存,其中2个(DIMM1、3)是13年32周,另外2个(DIMM2、4)是14年也是同一周,一开始就已经考虑到这个情况,把同周期内存插到同一通道里,减少双通道128bit的兼容问题。

1号,拔掉DIMM4槽内存,3天后依然蓝屏(1月1-3号)
4号,再拔掉DIMM2槽内存,剩下通道1连续运行6天没有蓝屏。(看到6天这数字我好感动T-T)根据之前150天蓝屏146天的频率,外加以前的最长运行时间是2天来讲,这个基本可以确定是稳定了(1月4号-9号)

10号,把已经拔出来的原来DIMM4槽的内存插到DIMM2槽,蓝屏(1月11号-13号)

14号,拔出插到DIMM2的内存,把内存插回DIMM4,(现在插槽是3根内存,DIMM1+DIMM3+DIMM4)结果memtest86+都跑不过了,瞬间报错。这个可以理解。(14号测试over)

14号,把DIMM1和DIMM3拔掉,插上DIMM2和DIMM4测试,6天稳定(20号测试over)

20号,重新将4根内存插回去(DIMM1+DIMM3一组)全部插上,没有修改任何BIOS设置,系统运行刚过3天蓝屏……(23号测试over)

    —  通道1:DIMM1、DIMM3(14年14周)

    —  通道2、DIMM2、DIMM4(13年32周)

23号,修改主板BIOS设置,关闭rank litexxx,将内存电压调整至1.6V,保持1600MHz频率,2天蓝屏4次……(25号over)

25号,修改主板BIOS设置,同时关闭rank intexxx 和 channel intexxx,将内存电压调整回1.5V,但将频率降至1333MHz


内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: