服务器的可用性(下)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《服务器的可用性(下)课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 服务器 可用性 课件
- 资源描述:
-
1、二、硬件在线诊断技术二、硬件在线诊断技术 硬件在线诊断技术主要包括热插拔技术、内存保硬件在线诊断技术主要包括热插拔技术、内存保护、内存检查和纠错技术、内存镜像技术,内存热添护、内存检查和纠错技术、内存镜像技术,内存热添加加/交换技术、活动交换技术、活动PCIPCI技术,活动诊断技术等,下面技术,活动诊断技术等,下面我们分别介绍。我们分别介绍。1 1、热插拔技术、热插拔技术 热插拔技术就是指有些部件可以在系统带电的情热插拔技术就是指有些部件可以在系统带电的情况下对部件进行插、拨操作。这非常重要,因为有时况下对部件进行插、拨操作。这非常重要,因为有时我们发现一些部件已损坏,但因为提供了硬件冗余,我
2、们发现一些部件已损坏,但因为提供了硬件冗余,所以系统仍能继续保持良好运行。损坏的设备需要更所以系统仍能继续保持良好运行。损坏的设备需要更换下来,这时如果这些硬件不支持热插拔技术,则必换下来,这时如果这些硬件不支持热插拔技术,则必须关掉服务器的电源才能进行,这样就会严重影响服须关掉服务器的电源才能进行,这样就会严重影响服 务器所管网络的正常长期不间断运行。一般来说具有务器所管网络的正常长期不间断运行。一般来说具有热插拔性能的硬件主要有:硬盘、热插拔性能的硬件主要有:硬盘、CPUCPU、RAMRAM、电源、电源、风扇、风扇、PCIPCI适配器、网卡等。适配器、网卡等。2 2、内存查纠错技术、内存查
3、纠错技术 服务器中的内存我们知道一般来是采用带有服务器中的内存我们知道一般来是采用带有ECCECC技术的,技术的,ECCECC的英文全称是的英文全称是“Error Checking and Error Checking and Correcting”Correcting”,中文名为,中文名为“错误检查和纠正错误检查和纠正”,从这,从这个名称就可以看出它的主要功能就是个名称就可以看出它的主要功能就是“发现并纠正错发现并纠正错误误”。ECCECC比以前的奇偶校正技术更先进的方面体现在比以前的奇偶校正技术更先进的方面体现在它不仅能发现错误,而且能纠正这些错误,这些错误它不仅能发现错误,而且能纠正这些
4、错误,这些错误纠正之后计算机才能正确执行下面的任务,确保服务纠正之后计算机才能正确执行下面的任务,确保服务器的正常运行。但要注意的是它不是一种内存型号,器的正常运行。但要注意的是它不是一种内存型号,是一种内存技术,不仅以前的是一种内存技术,不仅以前的EDOEDO内存可以有、内存可以有、SDSD内内存也可有,现在主流的存也可有,现在主流的DDRDDR内存同样可以有。那是因内存同样可以有。那是因 为并不是一种影响内存结构和存储速度的技术,它可为并不是一种影响内存结构和存储速度的技术,它可以应用到不同的内存类型之中,就象我们在前讲到的以应用到不同的内存类型之中,就象我们在前讲到的“奇遇校正奇遇校正”
5、内存。但内存。但ECCECC技术只能纠正单比特的内技术只能纠正单比特的内存错误,存错误,IBMIBM还有一种更先进的特殊内存纠错技术,还有一种更先进的特殊内存纠错技术,那就是那就是ChipKillChipKill内存技术。内存技术。ChipkillChipkill内存最初是由内存最初是由2020年前的年前的IBMIBM大型机发展大型机发展过来的,过来的,ChipKillChipKill最初是为美国航空航天局(最初是为美国航空航天局(NASANASA)的的“探路者探路者”探测器赴火星探险而研制。它是探测器赴火星探险而研制。它是IBMIBM公公司为了解决目前服务器内存中司为了解决目前服务器内存中E
6、CCECC技术的不足而开发技术的不足而开发的,是一种新的的,是一种新的ECCECC内存保护标准。内存保护标准。ECCECC内存可以同时检测和纠正单一比特错误,但内存可以同时检测和纠正单一比特错误,但如果同时检测出两个以上比特的数据有错误,则一般如果同时检测出两个以上比特的数据有错误,则一般不能纠正。但随着基于不能纠正。但随着基于IntelIntel处理器架构的服务器的处理器架构的服务器的CPUCPU性能在以几何级的倍数提高,而硬盘驱动器的性性能在以几何级的倍数提高,而硬盘驱动器的性 能同期只提高了能同期只提高了5 5倍,因此为了获得足够的性能。服倍,因此为了获得足够的性能。服务器需要大量的内存
7、来临时保存在务器需要大量的内存来临时保存在CPUCPU上读取的数据,上读取的数据,这样大的数据访问量就导致单一内存芯片上每次访问这样大的数据访问量就导致单一内存芯片上每次访问时通常要提供时通常要提供4 4(3232位)或位)或8 8(6464位)比特以上的数据。位)比特以上的数据。一次性读取这么多数据,出现多位数据错误的可能性一次性读取这么多数据,出现多位数据错误的可能性会大大地提高,而会大大地提高,而ECCECC又不能纠正双比特以上的错误,又不能纠正双比特以上的错误,这样就很可能造成全部比特数据的丢失,系统就很快这样就很可能造成全部比特数据的丢失,系统就很快崩溃了。崩溃了。IBMIBM的的C
8、hipkillChipkill技术是利用内存的子结构方技术是利用内存的子结构方法来解决这一难题。法来解决这一难题。ChipkillChipkill技术内存子系统的设计原理是这样的,技术内存子系统的设计原理是这样的,单一芯片,无论数据宽度是多少,只对于一个给定的单一芯片,无论数据宽度是多少,只对于一个给定的ECCECC识别码,它的影响最多为一比特。举个例子来说识别码,它的影响最多为一比特。举个例子来说明的就是,如果使用明的就是,如果使用4 4比特宽的比特宽的DRAMDRAM,4 4比特中的每一比特中的每一位的奇偶性将分别组成不同的位的奇偶性将分别组成不同的ECCECC识别码,每个识别码,每个EC
9、CECC单单元可单独使用一个数据库来保存的,也就是说保存在元可单独使用一个数据库来保存的,也就是说保存在 不同的内存空间地址。因此,即使整个内存芯片出了不同的内存空间地址。因此,即使整个内存芯片出了故障,每个故障,每个ECCECC单元也将最多出现一比特坏数据。这单元也将最多出现一比特坏数据。这种情况完全可以通过种情况完全可以通过ECCECC逻辑修复,从而保证内存子逻辑修复,从而保证内存子系统的容错性,保证了服务器在出现故障时,有强大系统的容错性,保证了服务器在出现故障时,有强大的自我恢复能力。采用这种的自我恢复能力。采用这种ChipkillChipkill内存技术的内存内存技术的内存可以同时检
10、查并修复可以同时检查并修复4 4个错误数据位。个错误数据位。3 3、内存保护(、内存保护(Memory ProteXionMemory ProteXion)IBMIBM的内存保护技术就是保护由于意外的内存错的内存保护技术就是保护由于意外的内存错误而带来的损失,它比误而带来的损失,它比ECCECC内存错误纠正技术有效得内存错误纠正技术有效得多,同时它使用的是标准的多,同时它使用的是标准的ECC 168ECC 168内存。它的工作内存。它的工作方式有点像在方式有点像在Windows NTWindows NT的的NTFSNTFS文件系统下的在线备文件系统下的在线备份磁盘扇区一样,当操作系统在磁盘上检
11、测到坏的磁份磁盘扇区一样,当操作系统在磁盘上检测到坏的磁盘扇区时,它将在另外的扇区中写下这些数据放一边盘扇区时,它将在另外的扇区中写下这些数据放一边 留作备用,我们可以认为内存保护就是提供在线备份留作备用,我们可以认为内存保护就是提供在线备份 数据位。这内存错误的纠正是通过内存控制器来完成数据位。这内存错误的纠正是通过内存控制器来完成的,所以不会增加操作系统的工作量,也不需要操作的,所以不会增加操作系统的工作量,也不需要操作系统来提供支持,完全与操作系统无关。因为这是在系统来提供支持,完全与操作系统无关。因为这是在标准的标准的ECC 168ECC 168线内存起作用的,无需为这种保护增线内存起
12、作用的,无需为这种保护增加另外的开支。加另外的开支。内存保护(在其它系统中也有称内存保护(在其它系统中也有称“多余的数据多余的数据位位”)技术最初的发展是在)技术最初的发展是在IBMIBM大型机上,而且在大型机上,而且在Z Z系系列和列和I I系列服务器上使用了许多年。系列服务器上使用了许多年。IBMIBM的高可靠性测的高可靠性测试和分析使得带有内存保护技术的服务器每年因内存试和分析使得带有内存保护技术的服务器每年因内存出错的机会比使用标准的出错的机会比使用标准的ECCECC内存的少内存的少200200倍。举个例倍。举个例子,给同样子,给同样8GB8GB内存的服务器多台,用户希望经过测内存的服
13、务器多台,用户希望经过测试每试每132132台使用台使用ECCECC内存的服务器中每年只允许内存的服务器中每年只允许1 1台出台出现错误,而使用内存保护后就会看到每现错误,而使用内存保护后就会看到每2604226042台服务台服务器中每年只有器中每年只有1 1台因内存出错。台因内存出错。在一个在一个2 2路交叉存取的内存系统中,每路交叉存取的内存系统中,每2 2片片168168线线ECCECC内存包含内存包含144144位,但是只有位,但是只有140140位是用于数据存取位是用于数据存取和校验的。余下的和校验的。余下的4 4位是没有用上的,标准的位是没有用上的,标准的ECCECC内存内存可以检
14、测出可以检测出2 2位的数据错误,但它只能纠正一位错误。位的数据错误,但它只能纠正一位错误。如果在同时内存上有多位出错,那么这整个内存读取如果在同时内存上有多位出错,那么这整个内存读取就失败了,此时唯有使系统临时挂起来,以尽量减少就失败了,此时唯有使系统临时挂起来,以尽量减少内存容量的需求,直到这个节点被更换。如果具有内内存容量的需求,直到这个节点被更换。如果具有内存保护,那么就可以立即隔离这个失效的内存,重写存保护,那么就可以立即隔离这个失效的内存,重写数据在空余的数据位。通过这种方法可以在每数据在空余的数据位。通过这种方法可以在每4 4对(对(1 1个内存控制器,有的服务器不止包括一个内存
展开阅读全文