第一章基本概念第二章指令系统及CPU组成第三章存储系统课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第一章基本概念第二章指令系统及CPU组成第三章存储系统课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第一章 基本概念 第二 指令系统 CPU 组成 第三 存储系统 课件
- 资源描述:
-
1、第一章第一章 基本概念基本概念第二章第二章 指令系统及指令系统及CPUCPU组成组成第三章第三章 存储系统存储系统第四章第四章 输入输出系统输入输出系统第五章第五章 标量处理机标量处理机第六章第六章 向量处理机向量处理机第七章第七章 互连网络互连网络第八章第八章 并行处理机并行处理机第九章第九章 多处理机多处理机计算机组成与系统结构计算机组成与系统结构2022-10-19 两个或两个以上处理机两个或两个以上处理机(包括包括PUPU和和CU)CU),通过高速互连网,通过高速互连网络连接起来,在统一的操作系统管理下,实现指令以上络连接起来,在统一的操作系统管理下,实现指令以上级(任务级、作业级)并
2、行。级(任务级、作业级)并行。按照按照Flynn分类法,多处理机系统属于分类法,多处理机系统属于MIMD计算机。计算机。9.1 9.1 多处理机结构多处理机结构9.2 9.2 多处理机性能模型多处理机性能模型9.3 9.3 多处理机的多处理机的CacheCache一致性一致性9.4 9.4 多处理机实例多处理机实例9.5 9.5 多处理机并行算法多处理机并行算法第九章第九章 多处理机多处理机2022-10-199.1 9.1 多处理机结构多处理机结构 多处理机系统由多个独立的处理机多个独立的处理机组成,每个处理机都能够独立执行自己的程序。它有多种分类方法:以松散偶合多处理机松散偶合多处理机和紧
3、密偶合多处理机紧密偶合多处理机两种类型结构说明多处理机的基本结构和特点。9.1.1 9.1.1 松散偶合多处理机松散偶合多处理机9.1.2 9.1.2 紧密偶合多处理机紧密偶合多处理机9.1.3 9.1.3 多处理机系统的特点多处理机系统的特点2022-10-19 多处理机系统多处理机系统有多种分类方法:按照处理机之间的连接程度:紧密偶合紧密偶合和松散偶合多处理机松散偶合多处理机按照是否共享主存储器:共享存储器共享存储器和分布存储器多处理机分布存储器多处理机按照处理机是否相同:同构型同构型和异构型多处理机异构型多处理机按照处理机的个数:大规模并行处理机大规模并行处理机MPPMPP和对称多处理机
4、对称多处理机SMPSMP 按照PE与IOP之间互连方式:对称型对称型:每个IOP能够连接到所有PE上非对称型非对称型:每个IOP只与一个PE连接。冗余对称型冗余对称型:一个PE与多个IOP连接。按照存储器的访问方式:均均存储器,UMAUMA模型模型非均均存储器,NUMANUMA模型模型只有Cache,COMACOMA模型模型 多向量处理机多向量处理机,机群系统机群系统(Cluster)等也称为多处理机系统。2022-10-19 处理机之间的连接频带比较低处理机之间的连接频带比较低通过输入输出接口,处理机之间互为外围设备进行连接。例如,IBM公司的机器都可以通过通道到通道的连接器CTC(Chan
5、nel To Channel)把两个不同计算机系统的IOP连接起来。通过并行口或串行口通过并行口或串行口把多台计算机连接起来。例如,用串行口加一个MODEL拨号上网,也可以直接连接;多台计算机之间的连接需要有多个接口。通过通过Ethernet网络接口网络接口连接多台计算机。速度达10Mb、100Mb、1Gb,Mynet已经达到1.28Gb和2.56Gb。当通信速度要求更高时,可以通过一个通道和仲裁开关CAS(Channel and Arbiter Switch)直接载存储器总线之间建立连接。在CAS中有一个高速的通信缓冲存储器。9.1.1 9.1.1 松散偶合多处理机多处理机2022-10-1
6、9 通通 过过 输输 入入输输 出出接接 口口 连连接接 的的 多多处处 理理机机CPU0CPU1CPUn-1LM0LM1IOP0IOP1互 连 网 络LMn-1IOPn-12022-10-19 模块0 模块n-1通通过过消消息息传传送送系系统统连连接接的的松松散散偶偶合合多多处处理理机机CPU0CPUn-1LM0IOP0互连网络LMn-1IOPn-1CASCAS2022-10-19 处理机之间共享主存储器,通过高速总线或高速开关连接。处理机之间共享主存储器,通过高速总线或高速开关连接。每个CPU能够访问任意一个存储器模块通过映象部件MAP把全局逻辑地址变换成局部物理地址通过互连网络寻找合适的
7、路径,并分解访问存储器的冲突 多个输入输出处理机IOP也连接在互连网络上,输入输出设备与CPU共享主存储器。处理机个数不能太多处理机个数不能太多,一般几个到十几个。紧密偶合方式要求有很高通信频带要求有很高通信频带。可以采用如下措施:(1)采用高速互连网络(2)增加存储模块个数,一般nm,取12倍之间。(3)每个存储模块再分成多个小模块,并采用流水线方式工作。(4)每个CPU都有自己的局部存储器LM。(5)每个CPU设置一个Cache。9.1.9.1.2 紧密偶合多处理机多处理机2022-10-19 紧紧密密偶偶合合多多处处理理机机模模型型CPU0CPU1CPUn-1MAPMAPIOP0IOP1
8、CPU-MM-IOP 互连网络MAPIOPd-1MM0MM1MMm-12022-10-19 带带 有有 二二 维维 共共 享享 存存 储储 器器 和和 局局 部部 C a ch e 及及 存存 储储 器器 的的 多多 处处 理理 机机C P U0C P U1C P Up-1M A PM A PIO P0IO P1C P U-M M 互 连 网 络M A PIO Pd-1C P U-IO P 互 连 网 络L ML MC acheC acheC acheM M0,0M M0,n-1M M1,0M M1,n-1M Mm-1,0M Mm-1,n-1L M2022-10-191 1、结构灵活、结构灵活
9、并行处理机:专用,PE数很多(几千个),固定有限的通信多处理机:多处理机:通用通用,几十个,几十个,高速灵活的通信高速灵活的通信2 2、程序并行性、程序并行性并行处理机的并行性存在于指令内部,识别比较容易。多处理机的并行性存在于指令外部并行性存在于指令外部,在多个任务之间,识别难度较大。一个简单的例子:Y=A+B*C*D/E+F。用两个处理机:用两个处理机:CPU1:B*C,A+F,A+B*C*D/E+FCPU2:D/E,B*C*D/E,9.1.3 9.1.3 多处理机系统的特点多处理机系统的特点2022-10-193 3、并行任务派生、并行任务派生 并行处理机把同种操作集中,由指令直接启动各
10、PE同时工作。多处理机用专门的指令来表示并发关系用专门的指令来表示并发关系,一个任务开始执行时能够派生出与它并行执行的另一些任务。如果任务数多于处理机数,多余的任务进入排队器等待。如果任务数多于处理机数,多余的任务进入排队器等待。4 4、进程同步、进程同步 并行处理机仅一个CU,自然是同步的。多处理机执行不同的指令,工作进度不会也不必保持相同。先做完的要停下等待。有数据相关和控制相关也要停下等待。要采取特殊的同步措施来保持程序所要求的正确顺序。要采取特殊的同步措施来保持程序所要求的正确顺序。5 5、资源分配和进程调度、资源分配和进程调度 并行处理机的PE是固定的,用屏蔽改变实际参加操作的PE数
11、目。多处理机执行并发任务,需用处理机的数目不固定,各处理机进出任务的时刻不相同,所需共享资源的品种、数量随时变化。资源分配和进程调度问题资源分配和进程调度问题,对整个系统的效率有很大的影响。2022-10-19 引起峰值性能下降的原因:引起峰值性能下降的原因:(1)由于处理机之间通信而产生的延迟。(2)一台处理机与其它处理机同步所需的开销。(3)当没有足够多任务时,一台或多台处理机处于空闲状态。(4)由于一台或多台处理机执行无用的工作。(5)系统控制和操作调度所需的开销。研究多处理机的目的:研究多处理机的目的:单处理机的速度提高很快,为什么还要研究多处理机?单处理机的速度提高很快,为什么还要研
12、究多处理机?提前5年得到速度高10倍的机器。或用1/10的价格获得一台高性能的机器。在某些适合进行并行处理得应用领域,可以达到:提前提前1010年得到速度高年得到速度高100100倍的机器。倍的机器。或用或用1/1001/100的价格获得一台高性能的机器。的价格获得一台高性能的机器。9.2 多处理机性能模型2022-10-19 并行性在很大程度上依赖于并行性在很大程度上依赖于R/CR/C比值比值,其中:R代表程序执行时间,C代表通信开销。通常:R/C比值小,并行性低。R/C比值大,并行性高。如果把作业分解成较大的块,就能得到较大的R/C比值,但是所得到的并行性比最大可能的并行性要小得多。R/C
13、R/C比值是衡量任务粒度(比值是衡量任务粒度(Task GranularityTask Granularity)大小的尺度。)大小的尺度。粗粒度(Coarsegrain)并行:R/C比值比较大,通信开销小。细粒度(Finegrain)并行:R/C比值比较小,通信开销大。细粒度并行需要的处理机多,粗粒度并行需要的处理机少。细粒度并行性的基本原理是把一个程序尽可能地分解成能并行执行的小任务。在极端情况下,一个小任务只完成一个操作。指令级并行指令级并行。2022-10-19 目标:目标:由由M个任务组成的程序,在个任务组成的程序,在N台处理机组成的系统上运台处理机组成的系统上运行,求最短执行时间?行
14、,求最短执行时间?为了简单起见,基本模型仅考虑由两台处理机组成的系统。总处理时间总处理时间Rmax(MK,K)C(MK)K 其中:R:每个任务的执行时间,C:通信开销,K:任务分配参数。直观看:当通信时间比较小时,把M个任务平均分给两台处理机,当通信时间很大时,把M个任务分配给一台处理机。9.2.1 9.2.1 基本模型基本模型2022-10-19 时时间间 时时间间 总的处理时间100 总的处理时间 50 90 80 40 70 60 通信时间 30 50 40 20 执行时间 30 20 10 通信时间 10 执行时间 0 0 10 20 30 40 50 0 10 20 30 40 50
15、 任任务务分分配配参参数数 k 任任务务分分配配参参数数 k ()最佳分配参数 K0 ()最佳分配参数 KM/22022-10-19 通信时间:通信时间:C(M-K)K是一个开口向下的二次函数,任务执行时间是两根相交的直线。当通信时间比较大时,总时间的最小值发生的两个端点,当通信时间比较小时,总时间的最小值发生的中点。结论:结论:(1)总时间的最小值只可能出现在中点或两个端点总时间的最小值只可能出现在中点或两个端点,(2)如果总时间的最小值发生在中点 即M个任务平均分给两台处理机,必须满足:M R R M/2+C M/2 M/2 R/C M/2 总时间最短的结论:总时间最短的结论:当当R/CM
16、/2时,把所有任务分配给同一台处理机,时,把所有任务分配给同一台处理机,K0;当当R/CM/2时,把任务平均地分配给两台处理机,时,把任务平均地分配给两台处理机,KM/2。2022-10-19 M个任务分配给个任务分配给N台处理机,求总处理时间的最小值。台处理机,求总处理时间的最小值。实际的最小值发生在极端分配情况下,或者将所有的任务集实际的最小值发生在极端分配情况下,或者将所有的任务集中在一台处理机上,或者将任务平均分配给所有处理机。中在一台处理机上,或者将任务平均分配给所有处理机。先讨论平均分配平均分配方法:个任务平均分给台处理机(P):11个任务平均分给台处理机(P):9.2.2 9.2
17、.2 N N台处理机系统的基本模型台处理机系统的基本模型方案P1P2P3执行时间通信时间 总处理时间一2112R5C2R+5C二二2 22 20 02 2R R4 4C C2 2R R+4 4C C方案P1P2P3P4P5执行时间 通信时间 总处理时间一322223R48C3R+48C二332213R47C3R+47C三三3 33 33 32 20 03 3R R4 45 5C C3 3R R+4 45 5C C2022-10-19 M个任务平均分配给个任务平均分配给N台处理机的最佳分配方法:台处理机的最佳分配方法:有 台处理机,每台分给 个任务;如果M/N0,则:另有1台处理机分得剩下的 个
18、任务;剩下的 台处理机不分配任何任务。例如:101个任务平均分给50台处理机:有33台处理机,每台分给3个任务;另有台处理机分给个任务;剩下的16台处理机不分配任务。NMM/NM/NMM/mod1/NMMN2022-10-19 假设Ki个任务分给了第台处理机:第一项求出N台处理机中最大执行时间;第二项计算出Ki与(MKi)任务之间两两通信的开销时间;第二项是关于Ki的二次函数。其中,Ki最多有3个取值:、0 当 M 是 N 的倍数时,当当R/CR/CM/2M/2时采用平均分配方法,时采用平均分配方法,当当R/CR/CM/2M/2时采用集中分配方法。时采用集中分配方法。)(2)(21221Nii
19、NiiikMCNMRkMkCNMR总处理时间NM/NMM/mod)11(22NMCNRM总处理时间2022-10-19 多处理机系统的加速比:一个计算问题在一台处理机上运行时间与在多处理机系统一个计算问题在一台处理机上运行时间与在多处理机系统上运行时间的比值称为多处理机系统的加速比上运行时间的比值称为多处理机系统的加速比当M是N的倍数时,有:如果M和N较小,R/C较大,即分母中的第一项远大于第二项,则加速比与处理机台数N成正比。当处理机台数N很大,加速比 ,趋近于一个常数。这时如果再增加处理机,性能的提高很小。21)222)(加速比NMCRNCRNMMCNRMRM)(2122NiikMCNMR
20、RM加速比CMR22022-10-19 每个任务要和其它所有任务通信,而通信的内容相同。把M个任务分配给N台处理机时,当M是N的倍数时,总处理时间RMNCN 很明显,这个函数有一个极小值。(RMNCN)N0 解得:因此得到最小的总处理时间:这种模型的加速比为:当M是N的倍数时,该多处理机系统的最大加速比为:9.2.3 9.2.3 通信开销为线性函数的模型通信开销为线性函数的模型CNNMR总处理时间CRMCN RMCCRMCCCRMCRM2/总处理时间的最小值CRMCRMCRM22最大加速比CNNMRRM加速比2022-10-19 由于通信与计算可以在两个独立的功能部件中进行,因此,由于通信与计
21、算可以在两个独立的功能部件中进行,因此,能够采用重叠或流水线方式并行进行。能够采用重叠或流水线方式并行进行。一个理想模型,通信与计算完全重叠。对于两台处理机的系统:当当R/CM/2时,执行时间与通信时间的交点就是总处理时间时,执行时间与通信时间的交点就是总处理时间的最小值;的最小值;当当R/CM/2时,采用平均分配方法,在这一点运行时间足够时,采用平均分配方法,在这一点运行时间足够长,完全能够屏蔽通信时间。长,完全能够屏蔽通信时间。9.2.4 9.2.4 通信与计算完全重叠的模型通信与计算完全重叠的模型)(2,(122NiikMCNMRMax总处理时间2022-10-19 时时间间 时时间间
22、50 50 40 通信时间 40 总处理时间最小 30 30 20 执行时间 20 执行时间 10 总处理时间最小 10 通信时间 0 0 10 20 30 40 50 0 10 20 30 40 50通通信信与与计计算算完完全全重重叠叠的的模模型型2022-10-19 直线与二次曲线的交点是关键点:R(MK)C(MK)K即:KR/C(其中:1KM/2)总处理时间总处理时间R(MR/C),),两台处理机系统的加速比在1与2之间;当R/CM/2,即把任务平均分配给两台处理机时,加速比最大;当R/C逐渐减为1时,加速比也逐渐减为1,最优分配变得越来越不均衡了。至于N台处理机的系统:当N比较大时,近
23、似为:处理机数目N由下面一个关于R/C和M的函数式 给出。CMR/11加速比)11(22NCMNRM2NMCRCMRN22022-10-19 通信链路随通信链路随的增加而增加,让每台处理机与别的任何一台的增加而增加,让每台处理机与别的任何一台处理机都有专门的链路相连。处理机都有专门的链路相连。当任务数M是处理机数N的倍数时,尽可能平分任务可以使总处理时间达到最小:把处理机台数作为自变量,这个函数有一个极大值。由于分母大于1,因此总处理时间的极大值出现在2时,当当=2=2时,随着处理机台时,随着处理机台增加,总处理时间肯定减小。增加,总处理时间肯定减小。9.2.5 9.2.5 具有多条通信链的模
24、型具有多条通信链的模型)(总处理时间NiikMNCNMR1222)11(22NNCMNRM总处理时间CMRNNMCNMCNRMNNCMNRMN21202220)11(22(322222022-10-19 为了验证N台处理机是否比一台处理机效果更佳:相等点在:在相等点参数R/C与N成反比例,N越大,允许的粒度越小;N台处理机的总性能等价于一台处理机。总结上面几个模型,可以得出如下结论:总结上面几个模型,可以得出如下结论:(1)多处理机系统结构所需的额外开销多处理机系统结构所需的额外开销,包括调度,对共享资源的竞争,同步,处理机之间通信等。(2)当处理机台数增加时,额外开销时间也增加当处理机台数增
25、加时,额外开销时间也增加。实际上,额外开销的增加可能比处理机数目的线性增加更快。(3)R/CR/C比值越大,越有利于计算过程比值越大,越有利于计算过程。如果采用粗粒度,能够获得较大的R/C比值;但是并行程度将大为降低。(4)为了使价格和性能都比较合理,处理机数目存在一个极大值为了使价格和性能都比较合理,处理机数目存在一个极大值,这个值主要依赖于机器的系统结构、基本技术(尤其是通信技术)和具体的应用问题。)11)(2(2NNCMNRMRMNMCR22022-10-19 在并行处理机和多处理机系统中,采用局部在并行处理机和多处理机系统中,采用局部CacheCache会引会引起起CacheCache
展开阅读全文