计算机体系结构chapter54课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《计算机体系结构chapter54课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机体系结构 chapter54 课件
- 资源描述:
-
1、向量的流水处理n提高流水性能方法:n增加流水线段数,以减少tn每个时钟同时启动多条指令n减少相关,减少功能变换次数,增加处理指令条数。向量的流水处理(续)n向量操作特点n向量元素间操作相互独立,且为相同操作n相当于标量循环,对指令带宽的访问要求不高n可采用多体交叉存储器,减少访存延迟。n向量操作很适合于流水处理或并行处理。向量的流水处理(续)n向量处理过程n置VL、VM、An取向量到Vn运算。n向量的分量间采取的是流水方式。n并行处理机(SIMD)处理向量时采取的是并行方式。向量的流水处理(续)n向量处理工作方式 如:D=A(B+C)n横向加工:bi+ci-k,k*ai-din产生N次相关,2
2、N次功能切换,适合标量循环n纵向加工:bi+ci-ki,ki*ai-din产生1次相关,1次功能切换,可流水处理n纵横处理:对向量分组,组内纵向、组间横向处理向量流水处理机n向量流水处理机的指令系统n向量流水处理机的结构n超级向量流水处理机举例向量流水处理机的指令系统n包含有向量型和标量型两类指令n向量型运算类指令n向量V1运算得向量V2,如V2=SIN(V1)n向量V运算得标量S,如n向量V1与向量V2运算得向量V3,V3=V1V2n向量V1与标量S运算得向量V2,V2=S*V1n特殊操作指令n向量比较指令n向量压缩指令n归并指令n向量传送指令niiVS1向量流水处理机的结构n1972年首次
3、交付使用CRAY-1向量流水处理机n分布异构型多处理机系统,由中央处理机、诊断维护控制处理机、大容量磁盘存储子系统、前端处理机组成n6个流水线单功能部件:整数加、逻辑运算、移位、浮点加、浮点乘和浮点迭代求倒数n向量寄存器由512个64位寄存器组成,分成8组主 存V0V7 向量寄存器组向量寄存器组(864个个)加加向量向量功能功能部件部件标量寄存器标量寄存器 S0S7加加浮点浮点功能功能部件部件VM向量控制向量控制 移位移位逻辑运算逻辑运算相乘相乘迭代求倒数迭代求倒数向量控制向量控制向量长度寄存器向量长度寄存器 VLBTR/W地址寄存器地址寄存器 A超级向量流水处理机举例n1972年成立CRAY
4、公司,至今生产了400台以上的超级计算机n1979年CRAY-1S,CRAY-1改进型,有10条流水线n1983年CRAY X-MP,用4台CRAY-1n1985年CRAY-2Sn1988年CRAY Y-MP,8台处理机n1991年CRAY Y-MP C-90n1996年12月,克雷研究公司也被SGI公司以7.5亿美元收购 n2000年,被Tera公司合并,同年更名Crayn目前产品:MTA、SV1、SX_6、T3En2002年Cray X1。运算速度最高为每秒52万亿次,支持65.5TB存储器。n宣布了在2010年以前实现能够连续地处理每秒1000万亿次nCray公司称,他们将在2008年使
5、用四核心的AMD Opteron处理器建造XT4超级计算机,并将在2009年接近1Pflops(每秒1000万亿次浮点运算)能力。n网址:超级向量流水处理机举例(续)nCDC公司1973年推出第一台超级计算机STAR-100n1964年CDC-6600 RISC特征n1982年 CYBER 205n1999年 被Syntegra收购nETA10:8个CPUn网址:几种超级计算机的向量性能和标量性能机器型号Fujitsu VP400Cray ISCray 2SCray X-MPCray Y-MPHitachi S820NEC SX2向量性能Mflops标量性能Mflops向量平衡点85.09.8
6、0.90151.511.20.93143.313.10.92201.617.00.92737.317.80.98424.29.50.98207.16.60.97向量平衡点(vector balance point)定义为:为了使向量硬件设备和标量硬件设备的利用率相等,一个程序中向量代码所占的百分比。4 指令级高度并行的超级计算机 n超标量处理机n超流水线处理机n超标量超流水线处理机n超长指令字处理机 超标量处理机n采用多指令流水线(度=m)n配置多套功能部件、指令译码电路和多组总线,并且寄存器也备有多个端口和多组总线。n适合于求解稀疏向量、矩阵nIBM RS/6000、DEC 21064、In
7、tel i960CA、Tandem Cyclone(飓风)等超标量处理机(续)取指译码执行存结果部件时间度m=3的超标量处理机时空图超标量处理机基本结构n一般流水线处理机:n一条指令流水线n一个多功能操作部件,每个时钟周期平均执行指令的条数小于1。n多操作部件处理机:n一条指令流水线n多个独立的操作部件,操作部件可以采用流水线,也可以不流水n多操作部件处理机的指令级并行度小于1n超标量处理机典型结构:n多条指令流水线n进的超标量处理机有:定点处理部件CPU,浮点处理部件FPU,图形加速部件GPUn大量的通用寄存器,两个一级高速Cachen超标量处理机的指令级并行度大于1举例:Motorola公
8、司的MC88110n10个操作部件n两个寄存器堆:整数部件通用寄存器堆,32个32位寄存器;浮点部件扩展寄存器堆,32个80位寄存器。每个寄存器堆有8个端口,分别与8条内部总线相连接,有一个缓冲深度为4的先行读数栈和一个缓冲深度为3的后行写数栈。n两个独立的高速Cache中,各为8KB,采用两路组相联方式。n转移目标指令Cache,在有两路分支时,存放其中一路分支上的指令超标量处理机MC88110的结构整数部件整数部件位操作浮点加乘法部件除法部件图形部件图形部件内部总线读数存数部件通用寄存器堆扩展寄存器堆目标指令指令分配转移部件数据Cache(8KB)指令Cache(8KB)系统总线32位地址
9、总线32位数据总线单发射与多发射n单发射处理机:n每个周期只取一条指令、只译码一条指令,只执行一条指令,只写回一运算结果n取指部件和译码部件各设置一套n可以只设置一个多功能操作部件,也可以设置多个独立的操作部件n操作部件中可以采用流水线结构,也可以不采用流水线结构n 设计目标是每个时钟周期平均执行一条指令,ILP的期望值1单发射处理机的指令流水线时空图IF时钟周期指令I1I2I3IDEXWRIFIDEXWRIFIDEXWR123456IFIDFA1 FA2 FA3MD1 MD2 MD3ALLS浮点加法部件乘除法部件定点ALU部件取数存数部件WR来自指令Cache通用寄存器后行写数栈单发射与多发
10、射(续)n多发射处理机:n每个周期同时取多条指令、同时译码多条指令,同时执行多条指令,同时写回多个运算结果n需要多个取指令部件,多个指令译码部件和多个写结果部件n设置多个指令执行部件,复杂的指令执行部件一般采用流水线结构n设计目标是每个时钟周期平均执行多条指令,ILP的期望值大于1多发射处理机的指令流水线时空图IF时钟周期指令I1I2I3IDEXWR123456I4I5I6IFIDEXWRI7I8I9IFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDFA1 FA2 FA3MD1 MD2 MD3ALLS浮点加法部件乘除法部件定
11、点ALU部件取数存数部件WRIFIDWRn超标量处理机:n一个时钟周期内能够同时发射多条指令的处理机称为超标量处理机n必须有两条或两条以上能够同时工作的指令流水线n先行指令窗口:n能够从指令Cache中预取多条指令n能够对窗口内的指令进行数据相关性分析和功能部件冲突的检测n窗口的大小:一般为2至8条指令n采用目前的指令调度技术,每个周期发射2至4条指令比较合理举例nIntel公司的i860、i960、Pentium处理机,Motolora公司的MC88110处理机,IBM公司的Power 6000处理机等每个周期都发射两条指令nTI公司生产的SuperSPARC处理机以及Intel的Penti
12、um III处理机等每个周期发射三条指令n操作部件的个数多于每个周期发射的指令条数。4个至16个操作部件n超标量处理机的指令级并行度:1ILPm;m为每个周期发射的指令条数。IFIDFA1 FA2 FA3MD1 MD2 MD3ALLS浮点加法部件乘除法部件定点ALU部件取数存数部件WRIFIDWRIFID先行指令窗口超流水线处理机n两种定义:n一个周期内能够分时发射多条指令的处理机称为 超流水线处理机。n指令流水线有8个或更多功能段的流水线处理机称为超流水线处理机。n提高处理机性能的不同方法:n超标量处理机是通过增加硬件资源为代价来换取处理机性能的。n超流水线处理机则通过各硬件部件充分重叠工作
13、来提高处理机性能。n两种不同并行性:n超标量处理机采用的是空间并行性n超流水线处理机采用的是时间并行性指令执行时序n每隔1/n个时钟周期发射一条指令,流水线周期为1/n个时钟周期n在超标量处理机中,流水线的有些功能段还可以进一步细分n例如:ID功能段可以再细分为译码、读第一操作数和读第二操作数三个流水段。也有些功能段不能再细分,如WR功能段一般不再细分。n因此有超流水线的另外一种定义:有8个或8个以上流水段的处理机称为超流水线处理机超流水线处理机(续)147102581136912147102581136912147102581136912147102581136912取指译码执行存结果每个时
14、钟周期分时发送3条指令的超流水线举例:MIPS R4000nMIPS R4000处理机每个时钟周期包含两个流水段,是一种很标准的超流水线处理机结构。指令流水线有8个流水段n有两个Cache,指令Cache和数据Cache的容量各8KB,每个时钟周期可以访问Cache两次,因此在一个时钟周期内可以从指令Cache中读出两条指令,从数据Cache中读出或写入两个数据。n主要运算部件有整数部件和浮点部件译译 码码数数 据据C C a a c c h h e e标标 志志标标 志志指指 令令C C a a c c h h e e译译 码码存存 入入缓缓 冲冲 对对 准准 器器IB U S写写 入入 缓
15、缓 冲冲 器器数数 据据标标 志志地地 址址D B U S 系系 统统 控控 制制浮浮 点点存存 储储 管管 理理 部部 件件寄寄 存存 器器 堆堆指指 令令 快快 表表浮浮 点点 流流 水水 线线 专专 用用 通通 路路指指 令令 C ach e控控 制制快快 表表 TL B浮浮 点点 控控 制制 寄寄 存存 器器 D V A浮浮 点点 乘乘 法法 部部 件件地地 址址 部部 件件浮浮 点点 除除 法法 部部 件件数数 据据 C ach e控控 制制程程 序序 计计 数数 器器浮浮 点点 加加 法法 部部 件件流流 水水 线线通通 用用 寄寄 存存 器器 堆堆转转 换换 部部 件件控控 制制
展开阅读全文