fault tolerance中的错误和故障检测(Error and Fault Detection Mechanisms)
2014-04-01 00:08
459 查看
这里的介绍来自论文Survey of Error and Fault Detection Mechanisms:
下面这张图来自论文,反映了当今关于错误检测机制(Error Detection Mechanisms)的研究方向和分类:
ERROR:
error分为hard error(硬错误)和soft error(软错误)。hard error一般为制造和设计缺陷,而关于soft error,有两个来源:
1)高能粒子造成单粒子翻转(single event upset SEU),以及晶体管工作电压的减小降低了集成电路噪声容限从而使芯片更易受瞬态故障影响,我们称之为transient error(瞬态错误)。
2)制造和运行过程中的variations带来的temporal timing violations,我们称之为intermittent error(间歇性错误)。
其实,间歇性错误表现为瞬态错误的发生频率超过系统可靠性允许阈值范围。
内存中的检测机制:
由于我们的程序和OS常驻内存(包括L1 cache和L2 cache),因此内存出错是让程序和系统不可靠的重要原因,比如指令序列被破坏。常用的解决内存错误的机制是使用ECC(error checking and correcting,错误检查和纠正)码。
电路级(circuit-level)是如何应对上面两种错误(transient error 和 intermittent error):
在高辐射环境(high-radiation environments),有一种fault-tolerant电路叫hardened circuit(抗辐射集成电路),以及通过监测合闸电流和供电电压来判断是否有意外事件的电路监控技术(circuit monitoring),都是来检测和应对transient error的技术。
由variation引发的间歇性timing errors属于intermittent error,Tunable Replica Circuits、Razor Flip-Flops、Transition Detectors和Temporal Redundancy是解决它的方法。
另外,三模冗余TMR(Triple Modular Redundancy)也是从电路架构的角度发现错误的一种方法,输入信号由完全相同的三个模块分别独立处理,每个模块产生一个运行结果交给决策器,由决策器判断并输出结果,但缺点是只能发现单个模块错误且没有重构策略来修复错误模块。
以三模冗余为代表的技术属于fault tolerance常用的技术——冗余技术,是能检测并纠正错误和故障的有效方法。其实上面应用于内存中的ECC,以及常用的奇偶校验码Parity,属于冗余技术中的信息冗余,相比于硬件冗余的大开销,它仅需要少量额外的存储字节和计算开销或少量的额外编码电路即可。
下面这张图来自论文,反映了当今关于错误检测机制(Error Detection Mechanisms)的研究方向和分类:
ERROR:
error分为hard error(硬错误)和soft error(软错误)。hard error一般为制造和设计缺陷,而关于soft error,有两个来源:
1)高能粒子造成单粒子翻转(single event upset SEU),以及晶体管工作电压的减小降低了集成电路噪声容限从而使芯片更易受瞬态故障影响,我们称之为transient error(瞬态错误)。
2)制造和运行过程中的variations带来的temporal timing violations,我们称之为intermittent error(间歇性错误)。
其实,间歇性错误表现为瞬态错误的发生频率超过系统可靠性允许阈值范围。
内存中的检测机制:
由于我们的程序和OS常驻内存(包括L1 cache和L2 cache),因此内存出错是让程序和系统不可靠的重要原因,比如指令序列被破坏。常用的解决内存错误的机制是使用ECC(error checking and correcting,错误检查和纠正)码。
电路级(circuit-level)是如何应对上面两种错误(transient error 和 intermittent error):
在高辐射环境(high-radiation environments),有一种fault-tolerant电路叫hardened circuit(抗辐射集成电路),以及通过监测合闸电流和供电电压来判断是否有意外事件的电路监控技术(circuit monitoring),都是来检测和应对transient error的技术。
由variation引发的间歇性timing errors属于intermittent error,Tunable Replica Circuits、Razor Flip-Flops、Transition Detectors和Temporal Redundancy是解决它的方法。
另外,三模冗余TMR(Triple Modular Redundancy)也是从电路架构的角度发现错误的一种方法,输入信号由完全相同的三个模块分别独立处理,每个模块产生一个运行结果交给决策器,由决策器判断并输出结果,但缺点是只能发现单个模块错误且没有重构策略来修复错误模块。
以三模冗余为代表的技术属于fault tolerance常用的技术——冗余技术,是能检测并纠正错误和故障的有效方法。其实上面应用于内存中的ECC,以及常用的奇偶校验码Parity,属于冗余技术中的信息冗余,相比于硬件冗余的大开销,它仅需要少量额外的存储字节和计算开销或少量的额外编码电路即可。
相关文章推荐
- 检测错误权衡图(Detection error tradeoff(DET))
- HTTP 错误 500.22 - Internal Server Error 检测到在集成的托管管道模式下不适用的 ASP.NET 设置
- HTTP 错误 500.23 - Internal Server Error 检测到在集成的托管管道模式下不适用的 ASP.NET 设置
- 背景建模或前景检测(Background Generation And Foreground Detection) 一
- 错误:The connection to adb is down, and a severe error has occured.
- swift编码出现Call can throw, but it is not marked with 'try' and the error is not handled错误的解决
- 背景建模与前景检测1(Background Generation And Foreground Detection)
- 背景建模或前景检测(Background Generation And Foreground Detection) 三
- 目标检测--Object Detection via Aspect Ratio and Context Aware
- HTTP 错误 500.22 - Internal Server Error检测到在集成的托管管道模式下不适用的 ASP.NET 设置
- 车辆检测“Integrating Context and Occlusion for Car Detection by Hierarchical And-Or Model”
- CS231n:Localization and Detection(定位与检测)
- 错误:Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again
- 背景建模与前景检测(Background Generation And Foreground Detection)
- 关于mac中运行ant的错误 java.lang.Error: Cannot load com.apple.laf.AquaLookAndFeel
- JSF 1.2 and Tomcat 6.0.16, error parsing 'jsf-ri-runtime.xml' 的错误处理
- iOS--错误集锦--svn提交出错 an error occurred and the operation could not be completed
- 开源的 ASP.Net 错误记录发布模块 ELMAH (Error Logging Modules And Handlers)
- 关于错误信息【schedMgr: Error processing calendar profile document(NoteID: *) in database mail/*.nsf: Cannot find user in Name and Addr