-计算机系统结构(版)李学干课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《-计算机系统结构(版)李学干课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机系统 结构 李学干 课件
- 资源描述:
-
1、第6章 向量处理机 6.1 向量的流水处理和向量流水处理机向量的流水处理和向量流水处理机6.2 阵列处理机的原理阵列处理机的原理 6.3 SIMD计算机的互连网络计算机的互连网络6.4 共享主存构形的阵列处理机中并行存储器的无冲突访问共享主存构形的阵列处理机中并行存储器的无冲突访问6.5 脉动阵列流水处理机脉动阵列流水处理机 6.6 本章小结本章小结第6章 向量处理机 6.1 向量的流水处理和向量流水处理机向量的流水处理和向量流水处理机 6.1.1 向量的处理和向量的流水处理向量的处理和向量的流水处理虽然向量运算比标量运算更易发挥出流水线的效能,但处理方式选择不当也不行。 第6章 向量处理机
2、【例【例 6-1】 计算D=A(B+C),其中A、B、C、D都是有N个元素的向量,应该采用什么方式处理才能充分发挥流水线的效能如果采用逐个求D向量元素的方法,即访存取ai、bi、ci元素求di,再取ai+1、bi+1、ci+1求di+1, 则这种处理方式称为横向(水平)处理方式。 第6章 向量处理机 6.1.2 向量流水处理机的结构举例向量流水处理机的结构举例向量流水处理机的结构因具体机器的不同而不同。 图6 - 1只画出了CRAY-1中央处理机中有关向量流水处理部分的简图。 第6章 向量处理机 图 6-1 CRAY-1的向量流水处理部分简图第6章 向量处理机 CRAY-1有标量类和向量类指令
3、共128条,其中有4种向量指令如图6 - 2所示。 第种源向量分别取自两个向量寄存器组Vj、Vk,结果送向量寄存器组Vi。第种与第 种的差别只在于它的一个操作数取自标量寄存器Sj。 第6章 向量处理机 图 6-2 CRAY-1的四种向量指令第6章 向量处理机 6.1.3 通过并行、链接提高性能通过并行、链接提高性能一般可采取让多个流水线功能部件并行、流水线链接、加快条件语句和稀疏矩阵处理、加快向量的归约操作等办法来提高向量流水处理的性能。 第6章 向量处理机 以CRAY-1的向量流水为例,向量寄存器组Vi在同一时钟周期内可接收一个结果分量并为下次操作再提供一个源分量。每个Vi组都有单独的总线连
4、到各功能部件上,而每个功能部件也都有把运算结果送回向量寄存器组的输出总线。所谓Vi冲突,指的是并行工作的各向量指令的源向量或结果向量使用了相同的Vi。所谓功能部件冲突,指的是同一个功能部件被要求并行工作的多条向量指令所使用。 第6章 向量处理机 第一、二条指令无任何冲突,可以并行执行。第三条指令与第一、二条指令出现Vi冲突,存在先写后读数相关,本来是不能并行执行的,但若能把第一、二条指令的结果分量直接链接进第三条指令所用的功能部件,那第三条指令就能与第一、二条指令在大部分时间内并行。它们的链接过程如图6 - 3所示。 第6章 向量处理机 图 6-3 通过链接技术实现向量指令之间大部分时间并行
5、第6章 向量处理机 6.1.4 提高向量流水处理速度的其他办法提高向量流水处理速度的其他办法1. 条件语言和稀疏矩阵的加速处理条件语言和稀疏矩阵的加速处理当程序中出现条件语句或进行稀疏向量、矩阵运算时,难以发挥出向量处理的优点。2. 向量递归操作的加速处理向量递归操作的加速处理CRAY-1的向量指令还可以通过让源向量和结果向量使用同一个向量寄存器组,并控制分量计数器值的修改,来实现递归操作。 第6章 向量处理机 图6 - 4画出了其部分时间关系示意图。设源/结果向量寄存器组用V0,另一源向量寄存器组用V1。在指令开始执行前,先把V0的零分量(V00)置“0”。V1置入需要运算的全部浮点数分量。
6、向量长度寄存器VL的内容假定置为64。 第6章 向量处理机 图 6-4 递归向量和的部分时间关系第6章 向量处理机 运算结束后,V0中各个分量的内容如下: )1V(0)1V()0V()0V()1V(0)1V()0V()0V()1V(0)1V()0V()0V()1V(0)1V()0V()0V()1V(0)1V()0V()0V()1V(0)1V()0V()0V()1V(0)1V()0V()0V()1V(0)1V()0V()0V(77076606550544043303220211010000第6章 向量处理机 第二部分)1V()1V()1V()0V()0V( )1V()1V()1V()0V()0V
7、()1V()1V()1V()0V()0V()1V()1V()1V()0V()0V()1V()1V()1V()0V()0V(1571571511311311102102109191980808第6章 向量处理机 第三至第七部分)1V()1V()1V( )1V()1V()1V()1V( )1V()0V()0V( )1V()1V()1V()1V()0V()0V(5547393123157554755168016816第6章 向量处理机 (V056)=(V048)+(V156) =(V10)+(V18)+(V116)+(V124)+(V132) +(V140)+(V148)+(V156)(V057)=
8、(V049)+(V157) =(V11)+(V19)+(V117)+(V125)+(V133) +(V141)+(V149)+(V157) 第八部分(结果部分)第6章 向量处理机 (V058)=(V050)+(V158) =(V12)+(V110)+(V118)+(V126)+(V134) +(V142)+(V150)+(V158)(V059)=(V051)+(V159) =(V13)+(V111)+(V119)+(V127)+(V135) +(V143)+(V151)+(V159)第八部分(结果部分)第6章 向量处理机 (V060)=(V052)+(V160) =(V14)+(V112)+(
9、V120)+(V128)+(V136) +(V144)+(V152)+(V160)(V061)=(V053)+(V161) =(V15)+(V113)+(V121)+(V129)+(V137) +(V145)+(V153)+(V161)第八部分(结果部分)第6章 向量处理机 (V062)=(V054)+(V162) =(V16)+(V114)+(V122)+(V130)+(V138) +(V146)+(V154)+(V162)(V063)=(V055)+(V163) =(V17)+(V115)+(V123)+(V131)+(V139) +(V147)+(V155)+(V163)第八部分(结果部
10、分)第6章 向量处理机 6.2.1 阵列处理机的构形和特点阵列处理机的构形和特点1. 阵列处理机的构形阵列处理机的构形 阵列处理机有两种构形,两者的差别主要在于存储器的组成方式和互连网络的作用不同。构形构形1 图6 - 5是具有分布式存储器的阵列处理机的构形。 构形构形2 图6 - 6是具有集中式共享存储器的阵列处理机构形。 6.2 阵列处理机的原理阵列处理机的原理 第6章 向量处理机 图 6-5 具有分布式存储器的阵列处理机构形第6章 向量处理机 图 6-6 具有集中式共享存储器的阵列处理机构形第6章 向量处理机 2. 阵列处理机的特点阵列处理机的特点 阵列处理机的单指令流多数据流处理方式和
11、由它产生的特殊结构是以诸如有限差分、矩阵、信号处理、线性规划等一系列计算问题为背景发展起来的。 第6章 向量处理机 6.2.2 ILLIAC 的处理单元阵列结构的处理单元阵列结构由于阵列处理机上的并行算法的研究是与结构紧密联系在一起的,因此,下面先介绍ILLIAC 阵列机上处理单元的互连结构。ILLIAC 采用如图6 - 5所示的分布存储器构形,其处理单元阵列结构如图6 - 7所示。 第6章 向量处理机 图 6-7 ILLIAC 处理单元的互连结构第6章 向量处理机 6.2.3 ILLIAC 的并行算法举例的并行算法举例1. 矩阵加矩阵加阵列处理机解决矩阵加是最简单的一维情况。两个88的矩阵A
12、、B相加,所得的结果矩阵C也是一个88的矩阵。只需把A、B、C居于相应位置的分量存放在同一个PEM内,且在全部64个PEM中,让A、B和C的各分量地址均对应取相同的地址、+1和+2即可,如图6 - 8所示。 第6章 向量处理机 图 6-8 矩阵相加的存储器分配举例第6章 向量处理机 2. 矩阵乘矩阵乘矩阵乘是二维数组运算,比矩阵加要复杂。设A、B和C为3个88的二维矩阵,给定A和B,计算C=AB的64个分量的公式为其中,0i7且0j7。kjikkijbac71第6章 向量处理机 让J=07各部分同时在PE0PE7上运算,这样只需K、I二重循环,速度可提高为原来的8倍,即只需64次乘、加时间。其
13、程序流程图如图6 - 9所示。 第6章 向量处理机 图 6-9 矩阵乘程序执行流程图第6章 向量处理机 然而为了让各个处理单元PEi尽可能只访问所带局部存储器PEMi,以保证高速处理,就必须要求对矩阵A、B、C各分量在局部存储器中的分布采用如图6 - 10所示的方案。 第6章 向量处理机 图 6-10 矩阵乘的存储器分配举例第6章 向量处理机 3. 累加和累加和这是一个将N个数的顺序相加转为并行相加的问题。为得到各项累加的部分和与最后的总和,要用到处理单元中的活跃标志位。只有处于活跃状态的处理单元才能执行相应的操作。为叙述方便起见,取N=8,即有8个数A(I)顺序累加,其中0I7。 第6章 向
14、量处理机 图6 - 11描绘了阵列处理机上累加和的计算过程。最后一列框中的数字表明各处理单元每次循环后相加的结果。图中用数字07分别代表A(0)A(7)。画有阴影线的处理单元表示此时不活跃。第6章 向量处理机 图 6-11 阵列处理机上累加和的计算过程第6章 向量处理机 6.3.1 互连网络的设计目标与互连函数互连网络的设计目标与互连函数在SIMD计算机中,无论是处理单元之间,还是处理单元与存储分体之间,都要通过互连网络进行信息交换。 6.3 SIMD计算机的互连网络计算机的互连网络 第6章 向量处理机 6.3.2 互连网络应抉择的几个问题互连网络应抉择的几个问题在确定PE之间通信的互连网络时
15、,需要对操作方式、控制策略、交换方法和网络的拓扑结构作出抉择。循环互连网络的模型如图6 - 12所示。 第6章 向量处理机 图 6-12 循环互连网络的模型第6章 向量处理机 6.3.3 基本的单级互连网络基本的单级互连网络 1. 立方体单级网络立方体单级网络立方体单级网络(Cube)的名称来源于图6 - 13所示的三维立方体结构。 第6章 向量处理机 图 6-13 三维立方体结构第6章 向量处理机 如010只能连到000、011、110,不能直接连到对角线上的001、100、101、111。所以,三维的立方体单级网络有3种互连函数: Cube0、Cube1和Cube2,其连接方式如图6 -
展开阅读全文