计算机容错技术优选课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《计算机容错技术优选课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 容错 技术 优选 课件
- 资源描述:
-
1、魏贇第1页,共280页。l容错和可靠性l容错技术的发展概况l容错技术的主要内容l容错技术应用第2页,共280页。l故障、失效和错误的概念l可靠性的概念l容错的概念l可靠性和容错的关系第3页,共280页。l失效(failure)是指硬件物理特性异变,或软件不能完成规定功能的能力。l故障(fault)是指硬件或软件的错误状态,是失效在逻辑上的等效。一个故障可以用种类、值、影响范围和发生时间来描述。l错误(error)是指程序或数据结构中的故障表现形式,是故障和失效所造成的后果。容错设计的软件可以有某些规定数目的故障但不导致失效,但对无容错的软件而言,故障即失效。第4页,共280页。l若按逻辑性来分
2、逻辑故障:造成逻辑值发生变化的故障非逻辑故障:造成象时钟(clock)或电源出错等错误的故障l按时间划分:永久性故障:调用诊断程序进行故障定位,然后采取纠错措施 间隔性故障:可以通过更换硬件或软件等途径来达到修复的目的 偶然性故障:只能靠改善环境条件等努力来减少这类故障 第5页,共280页。第6页,共280页。l概念l实现系统可靠性的方法l系统可靠性的指标第7页,共280页。l可靠性的含义广义:一切旨在避免、减少、处理、度量软件/硬件故障(错误、缺陷、失效)的分析、设计、测试等方法、技术和实践活动。狭义:指软件/硬件无效运行的定量度量。l可靠度:在规定的运行环境中和规定的时间内软件无失效运行的
3、机会。第8页,共280页。l排错l容错第9页,共280页。避免故障,通过对组成系统的部件进行严格的筛选、对系统进行严格的测试、对系统进行屏蔽以减少外界的干扰等方法来提高系统的可靠性。第10页,共280页。l即使采用了排错技术,一个计算机系统还是迟早会发生故障的。因此在设计计算机系统时应考虑一旦发生故障能自动检测出故障并使系统自动恢复正常运行。这样设计出来的计算机系统在发生故障后仍能正确运行。l容错技术是从系统结构方面来提高计算机系统的可靠性l容错技术与排错技术并不是相互对立的,它们可以相互补充,构成高可信的计算机系统第11页,共280页。l可靠性l可维性l可用性第12页,共280页。l计算机机
4、的可靠性指:计算机在规定的条件和规定的时间内完成规定的功能的概率l规定的条件:环境条件,使用条件,维修条件,操作技术l失效:产品在规定的条件下和规定的时间内丧失了规定的功能。l失效率:指计算机在某一瞬间元件失效数与元件总数的比率。第13页,共280页。l可维性(Serviceability)是指在规定的时间内,按照规定的程序和方法进行维修时,保持或恢复到能完成规定的功能的能力l通常指从判定故障到排除故障所需要的时间,包括故障诊断、故障定位、系统校正和恢复等时间。l可保持性(Maintainability)是指系统在给定的时间内可隔离故障或修复的概率。它表征了系统可以正常运行的效率。第14页,共
5、280页。可用性(Availability)称有效率或利用率,是可维修部件在某时间具有维持规定功能的能力,即计算机系统的利用效率,也是系统在执行任务的任意时刻能正常工作的概率。第15页,共280页。容错(Fault-tolerance):容忍故障,考虑故障一旦发生时能够自动检测出来并使系统能够自动恢复正常运行。当出现某些指定的硬件故障或软件错误时,系统仍能执行规定的一组程序,或者说程序不会因系统中的故障而中止或被修改,并且执行结果也不包含系统中故障所引起的差错。第16页,共280页。l容错计算机系统:在发生故障或存在软件错误的情况下仍能继续正确完成指定任务的计算机系统。l设计与分析容错计算机系
6、统的各种技术称为容错技术l容错技术从系统结构出发来提高系统的可靠性,与排错技术相互补充,构成高可信度的系统第17页,共280页。(1)不希望事件的检测。不希望事件是指失效、故障、差错等等。为容忍系统中的不希望事件,应首先对其进行检测。(2)损坏估价。由于一个故障的出现和它的失效结果之间可能存在延迟,故障可能已经传播到该系统的其他地方,导致故障的扩大。因此,在作出一个被检测的故障有关的决定之前,有必要判定系统已被破坏的程度,这依赖于系统设计者的策略和已有的探测技术。第18页,共280页。(3)不希望事件的恢复。在不希望事件检测和损坏估价之后,应采用不希望事件恢复技术,把目前的错误系统状态转换成一
7、个正确的系统状态。(4)不希望事件处理和继续服务。确保已被恢复的不希望事件效应不会立即再现,以使系统继续提供规定的服务。第19页,共280页。l故障限制:当故障出现时,希望限制其影响范围。故障限制是把故障效应的传播限制到一个区域内,从而防止污染其他区域。l故障检测:大多数失效最终导致产生逻辑故障。有许多方法可用来检测逻辑故障,如奇偶校验、一致性校验都可用来检测故障。故障检测技术有两个主要的类别,即脱机检测和联机检测,在脱机检测情况下,进行测试时设备不能进行有用的工作;联机检测提供了实时检测能力,因为联机检测与有用的工作同时执行。联机检测技术包括奇偶校验和二模冗余校验。l故障屏蔽:故障屏蔽技术把
8、失效效应掩盖了起来,从某种意义上说,是冗余信息战胜了错误信息,多数表决冗余设计就是故障屏蔽的一个例子。l重试:在许多场合,对一个操作的第二次试验可能是成功的,对不引起物理破坏的瞬间故障尤其是这样。l诊断 如果故障检测技术没有提供有关故障位置和/或性质的信息,那么就需要一个诊断。第20页,共280页。l重组:当检测出一个故障并判明是一个永久性故障时,这时重组系统的器件以便替代失效的器件或把失效的器件与系统的其他部分隔离开来,也可使用冗余系统,系统能力不降低。l恢复:检测和重组(若必要的话)之后,必须消除错误效应。通常,系统会回到故障检测前处理过程的某一点,并从这一点重新开始操作。这种恢复形式(一
9、般叫卷回)通常需要后备文件、校验点和应用记录方法。l重启动:如果一个错误破坏的信息太多,或者系统没有设计恢复功能,那么恢复功能也许就不可能。仅当系统未受任何破坏时,才能进行“热”重启(从故障检测点恢复所有操作的)。“温”重启指仅有某些过程可以毫无损失的重新启动,“冷”重启相当于系统需要完全重新加载。l修复:把诊断为故障的器件换下来,与故障检测一样,修复也可以是联机进行的或者脱机进行的。l重构:对元件进行物理替换之后,把修复的模块重新加入到该系统中去。对联机修复来说,实现重构不中断系统的工作。第21页,共280页。l第一代计算机(1946-1957)l第二代计算机(1957-1964)l第三代计
10、算机(1964-1970)l第四代计算机(1970-)l现在第22页,共280页。l元件:电子管、继电器及延迟线存储器l问题:元件的失效率相当高,并易受瞬时故障的影响l措施:特别设置的硬件故障检测和人工恢复第23页,共280页。l1956,SAPO,捷克,三个CPU同时工作,对运算结果进行表决,存储器采用奇偶校验,具有单条指令重复执行的功能lSAGE,用于防空系统,采用双机比较以检测故障,并配合以恢复技术第24页,共280页。l元件:晶体管及磁芯存储器l问题:失效率比第一代计算机元件大为降低l措施:避错技术占统治地位,对故障一般采用诊断程序进行脱机检测第25页,共280页。l元件:集成电路l问
11、题:元件的失效率继续降低,但计算机应用范围扩大,对计算机系统的可信性要求更高l措施:容错技术重新提出,并得到了较快的发展,并出现了许多 容错计算机第26页,共280页。l1964 土星V号运载火箭导航计算机研制成功,该机采用三模冗余及奇偶校验来实现容错l1969,喷射推进实验室的STAR计算机,其处理机采用三重表决加备份的混合冗余方式,并用算术检错码及双机比较检测故障。l1965,贝尔实验室研制成功1号ESS处理机,是用于 交换的计算机系统,采用了双机比较技术,是专用的硬件及软件进行故障的检测、定位及识别。第27页,共280页。l元件:大规模和超大规模集成电路l问题:硬件可靠性大大提高而价格却
12、大幅度降低,使采用各种容错技术在经济上更易接受。l需求:容错技术应用范围扩展于 事务处理及各种实时控制系统,甚至许多通用计算机系统也采用了容错技术第28页,共280页。l1975,贝尔实现室的3A号ESS处理l1975,TANDEM 16容错事务处理系统l1976,AMDAHL 470V/6容错通用计算机l1978,容错空间计算机FTSCl1979,IBM推出容错的4300通用计算机系列l1980,容错多处理机FTMP及软件实现的容错计算机SIFT研制成功第29页,共280页。l出现了商用容错计算机市场l分布式容错计算机系统的出现l容错的VLSI技术l人工智能在容错技术上的应用计算机故障诊断专
13、家系统第30页,共280页。l1952,冯诺依曼作了一系列关于用重复逻辑模块改善系统可靠性的报告l1956,他发表论文概率逻辑及用不可靠元件设计可靠的结构l1971年以来,IEEE计算机学会容错技术委员会每年召开一次国际容错计算学术会议l1987年中国计算机学会成为了容错计算专业委员会第31页,共280页。l故障检测与诊断技术l故障屏蔽技术l动态冗余技术l软件容错技术l信息保护技术第32页,共280页。l容错技术的主要组成部分,又是微电子技术的支撑技术l故障检测(Fault Detection):判断系统是否存在故障的过程l故障定位(Fault Location):判断系统在哪里发生故障的过程
14、l故障测试(Fault Testing):又称故障诊断(Fault Diagnosis),故障检测和故障定位,主要包括:测试集生成技术,功能测试技术,系统诊断技术第33页,共280页。l故障检测的作用是确认系统是否发生了故障,指示故障的状态,即查找故障源和故障性质。一般来说,故障检测只能找到错误点(错误单元),不能准确找到故障点。l故障诊断的作用是给出故障定位。l基于检错纠错码的编码技术。在数据的传输、存储、处理过程中,根据信息位和校验位之间的相关性进行检查,判定信息是否出错、错在哪里,并进行纠正。常用的检错码编码技术有奇偶校验码、循环码、海明码等。l其他故障检测与诊断技术第34页,共280页
15、。l故障屏蔽技术是防止系统中的故障在该系统的信息结构中产生差错的各种措施的总称,其实质是在故障效应达到模块的输出以前,利用冗余资源将故障影响掩盖起来,达到容错目的。l特点:不改变系统的结构,即系统部件之间的逻辑关系相互固定,又称静态冗余技术第35页,共280页。l元件级故障屏蔽技术l逻辑级故障屏蔽技术主要用于设计一些高可靠性的容错专用集成电路芯片和不宜放在功能模块一级上进行容错设计的关键硬核l模块级故障屏蔽技术l系统级故障屏蔽技术由两个以上的相同系统合成一个系统,冗余系统间通过相互校验来保持正常运行。第36页,共280页。l硬件冗余:在常规设计的硬件之外附加备份硬件,包括静态冗余、动态冗余l时
16、间冗余:重复地执行指令或一段程序而附加额外的时间l信息冗余:增加信息的多余度,使其具有检错和纠错能力l软件冗余:用于测试、检错的外加程序第37页,共280页。l软件容错是指在出现有限数目的软件故障的情况下,系统仍可提供连续正确执行的内在能力。其目的是屏蔽软件故障,恢复因出故障而影响的运行进程。l软件容错技术主要包括N版本程序设计和恢复块技术第38页,共280页。l信息保护技术,是指为了防止信息被不正当地存取或破坏而采取的措施。l基本的信息保护技术分为以下四种:编码化与密码化、资格检查、内存保护、外存保护。第39页,共280页。l容错技术的应用是网络时代电子商务的客观需求 l软件容错技术将有较大
17、进展l硬件容错、操作系统容错相结合的容错设计方法将备受重视 lVLSI的容错设计技术将发挥巨大作用 l系统容错设计的应用目标明确 第40页,共280页。l容错技术应用向PC发展 l容错技术向智能化发展 l容错技术应用和应用服务技术相结合 l容错技术将走向开放化、标准化 第41页,共280页。2.1 联机检测和脱机检测2.2 逻辑网络的故障安全与自校验特性2.3 自校验网络的基本结构第42页,共280页。l联机检测与诊断:在系统运行期间实现自我检测与诊断的过程,也叫自检测与自诊断,是提高系统可靠性的重要环节。l脱机检测与诊断:在系统非运行期间进行检测与诊断,是提高系统可用度、可维性的重要环节。第
18、43页,共280页。l在系统中投入一定的冗余资源(指超过系统额定功能所需的资源),使系统在运行中不仅能输出功能所要求的信息,而且能输出一些额外的信息。l实质是可靠性编码技术在系统设计中的应用,是一种以硬件冗余为主的检测与诊断技术第44页,共280页。l一个自检测的系统,其所有可能的输出值的集合为U(输出空间),由S和U-S两部分组成lS:系统的输出码,系统无故障时的输出lU-S:系统出现故障时候的输出,若能指示系统是否发生故障,则称之为检错码;若能指示系统中哪个部件发生的故障,则称之为诊错码第45页,共280页。l应用软件诊断程序,先优化生成并输入一组测试向量给系统,然后观测并分析系统的测试响
19、应,以确定系统是否发生故障或哪个部件发生的故障。第46页,共280页。1、故障安全特性2、自校验特性第47页,共280页。l一个数字逻辑网络,对给定故障集F,如果在任何有效输入码激励下,都不会因为故障而输出错误的有效输出码,则称它对故障集F是故障安全(Fault-Secure,FSE)的。l若该网络在任意输入码激励下,对给定故障集F都不会输出错误的有效输出码,则称它对故障集F是强故障安全的。第48页,共280页。l输入是正确的,则输出为正确的有效码或无效码,而不会输出错误的有效码l这样的系统不会因为故障存在而造成错误的有效输出,称之为故障安全的系统第49页,共280页。l若输出是无效码,则该系
20、统必有故障存在l若输出的是有效码,则不能断定该系统是否有故障,但可断定它的输出是正确的l系统可能存在不可测故障第50页,共280页。l如果一个数字逻辑网络对于给定故障集F内的每一个故障,至少存在一个有效的输入码能使它的输出产生一个无效输出码字,则称该网络对于故障集F是可自校验(Self-Testing,ST)的。l凡可自校验的系统,可从观测输出码字是否为有效码字来判别其是否有故障,而且一定有一个校验码就包含在有效的输出码字集合中。第51页,共280页。l所有故障的集合:可自校验的故障集Ft,安全故障集Fs;l所有输入向量的集合:正常输入集N,故障安全输入集I;l所有输出向量的集合:输出码空间S
21、l表示沿未引起错误的故障或表示系统无故障,Z(Xi,)表示系统无故障时的输出lZ(Xi,fi)表示在Xi输入时,系统对故障fi的输出第52页,共280页。所有故障FtFsf1f2f3所有输入向量NX1IX2X3所有输出向量SZ(X1,f1)Z(X1,f3)Z(X1,f2)Z(X1,)Z(X2,)Z(X2,f2)Z(X2,f3)Z(X2,f1)Z(X3,f2)Z(X3,)自校验性故障安全性第53页,共280页。l自校验系统的性质由系统结构和运行环境所决定。l给定的N(由环境决定),Ft由N能检测到的所有故障组成。相反,I不是由环境决定的(N的子集),而是由Fs决定。lFs是人为选择的一个非空故障
22、集。第54页,共280页。l完全自校验系统:如果一个系统对正常输入集N和故障集Ft是自校验的,并且对于N和故障集Fs是故障安全的,则称该系统为完全自校验系统(TSC:Totally Self-Checking)。l部分自校验系统:如果一个系统对于正常输入集N和故障集Ft是自校验的,并且对于N的一个非空真子集I和故障集Fs是故障安全的,则称该系统为部分自校验系统(PSC,Partially Self-Checking)。l仅自校验系统:如果一个系统对正常输入集N和故障集Ft是自校验的,但对于N的任何非空子集和故障集Fs都不具有故障安全性,则称该系统为仅自校验系统。第55页,共280页。l自校验网
23、络:无需施加特定的测试输入码来判定是否存在故障,而是在正常工作的过程中,由一个称为校验器的电路通过监视自校验功能模块的输出状态而自动指示有无错误。第56页,共280页。自校验功能模块输入XN检测器/校正器检错/纠错编码输出Z(X,)SZ(X,f )S错误指示第57页,共280页。l检测器:当出现无效码时,指示错误状态,可构成自检测网络。l校正器:当出现无效码时,指示出错位置,并予以纠正,可构成自诊断网络或故障屏蔽网络。第58页,共280页。l概述l元件级故障屏蔽技术l逻辑级故障屏蔽技术l模块级故障屏蔽技术l系统级故障屏蔽技术第59页,共280页。l故障屏蔽技术(Fault Masking Te
24、chnology)l防止系统中的故障在该系统的信息结构中产生差错的各种措施的总称,其实质是在故障效应达到模块的输出以前,利用冗余资源将故障影响掩盖起来,达到容错目的。第60页,共280页。l二倍冗余l四倍冗余l桥接冗余第61页,共280页。IO单个元件IO并联结构I串联结构OCCCCC第62页,共280页。设三级管发生开路故障的概率为q0,发生短路故障的概率为qs,正常工作的概率为p:对于单个元件:p=1-q0 qs对于并联结构:p=1-q02-2 qs+qs2发生开路故障的概率为:q02发生短路故障的概率为:1-(1-qs)2对于串联结构:p=1-2 q0+q02-qs2发生开路故障的概率为
25、:1-(1-q0)2发生短路故障的概率为:qs2第63页,共280页。IO并串联结构I串并联结构OCCCCCCCC第64页,共280页。设三级管发生开路故障的概率为q0,发生短路故障的概率为qs,正常工作的概率为p:对于并串联结构:p=1-2q02+q04-4qs2+4qs3-qs4发生开路故障的概率为:1-(1-q0 2)2发生短路故障的概率为:1-(1-qs)2 2对于串并联结构:p=1-4q02+4q03-q04-2 qs2+qs4发生开路故障的概率为:1-(1-q0)2 2发生短路故障的概率为:1-(1-qs 2)2第65页,共280页。l任一晶体管开路或短路l不是同一支路的两个三极管
展开阅读全文