第二章并行程序设计基础(并行计算基础)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第二章并行程序设计基础(并行计算基础)课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 并行 程序设计 基础 计算 课件
- 资源描述:
-
1、l组成并行计算机的各个部分:节点(node):每个节点由多个处理器构成,可以直接进行输入输出(I/O)操作;互联网络(interconnect network):所有节点通过互联网络相互连接通信;内存(memory):内存由多个存储模块组成1、与节点对称的分布在互联网络的两侧;2、位于各个节点的内部。内存模块与节点分离内存模块位于节点内部l解决内存墙(memory wall)性能瓶颈问题;l节点内部的cache称为二级cache(L2 cache);l处理器内部更小的cache成为一级cache(L1 cache);lL1 cache连接CPU寄存器和L2 cache,负责缓存L2 cache
2、中的数据到寄存器中。l并行计算机的多级存储结构主要包括两个问题:Cache的映射策略,即cache如何从内存中取得数据进行存储;节点内部或者节点之间内存的访问模式。lcache原理,cache以cache线为基本单位,每条cache包含L个字,每个字8个字节。例如,L=4,则表示cache线包含4*8=32个字节。内存空间分割成块(block),每个块大小与cache线长度一致,数据在内存和cache之间的移动以cache线为基本单位。For i=1 to M Ai=Ai+2*Bi l如果操作数存在cache中,称该次访问是命中的,否则,该次操作是“扑空”的。lcache的映射策略(内存块和c
3、ache线之间如何建立相互映射关系):直接映射策略(direct mapping strategy):每个内存块只能被唯一的映射到一条cache线中;K路组关联映射策略(K-way set association mapping strategy):Cache被分解为V个组,每个组由K条cache线组成,内存块按直接映射策略映射到某个组,但在该组中,内存块可以被映射到任意一条cache线;全关联映射策略(full association mapping strategy):内存块可以被映射到cache中的任意一条cache线。lUMA(Uniform Memory Access)模型:该模型内
4、存模块与节点分离,分别位于互联网络的两侧 物理存储器被所有节点共享;所有节点访问任意存储单元的时间相同;发生访存竞争时,仲裁策略平等对待每个节点,即每个节点机会均等;各节点的CPU可带有局部私有高速缓存;外围I/O设备也可以共享,且每个节点有平等的访问权利。lNUMA(Non-Uniform Memory Access)模型:该模型内存模块分布在各个节点内部,所有局部内存模块均构成并行计算机的全局内存模块。内存模块在物理上是分布的,在逻辑上是全局共享的,这种模型也称之为“分布式共享访存模型”物理存储器被所有节点共享,任意节点可以直接访问任意内存模块;节点访问内存模块的速度不同,访问本地存储模块
5、的速度一般是访问其他节点内存模块的3倍以上;发生访存竞争时,仲裁策略对节点可能是不等价的;各节点的CPU可带有局部私有高速缓存(cache);外围I/O设备也可以共享,但对各节点是不等价的。lCOMA(Cache-Only Memory Access)模型:全高速缓存存储访问模型 各处理器节点中没有存储层次结构,全部高速缓存组成了全局地址空间;利用分布的高速缓存目录进行远程高速缓存的访问;COMA中的高速缓存容量一般都大于2级高速缓存容量;使用COMA时,数据开始时可以任意分配,因为在运行时它最终会被迁移到要用到它的地方。lSIMD同步并行计算模型共享存储的SIMD模型(PRAM模型);分布存
6、储的SIMD模型(SIMD互联网络模型)lMIMD异步并行计算模型异步PRAM模型BSP模型LogP模型C3模型lSIMD共享存储模型假定存在着一个容量无限大的共享存储器,有有限或无限个功能相同的处理器,且均具有简单的算术运算和逻辑判断功能,在任何时刻各处理器均可通过共享存储单元相互交换数据。lSIMD共享存储模型(PRAM模型)PRAM-EREW(Exclusive-Read and Exclusive-Write),不允许同时读和同时写;PRAM-CREW(Concurrent-Read and Exclusive-Write),允许同时读但不允许同时写;PRAM-CRCW(Concurr
7、ent-Read and Concurrent-Write),允许同时读和同时写。l优点:适合于并行算法的表达、分析和比较;使用简单,很多诸如处理器间通信、存储管理和进程同步等并行计算机的低级细节均隐含于模型中;易于设计算法和稍加修改便可运行在不同的并行计算机上;且有可能加入一些诸如同步和通信等需要考虑的方面。lSIMD分布存储模型采用一维线性连接的SIMD模型,简记为SIMD-LC采用网孔连接的SIMD模型,简记为SIMD-MC采用树形连接的SIMD模型,简记为SIMD-TC采用树网连接的SIMD模型,简记为SIMD-MT采用立方连接的SIMD模型,简记为SIMD-CC采用立方环连接的SIM
8、D模型,简记为SIMD-CCC采用洗牌交换连接的SIMD模型,简记为SIMD-SE采用蝶形连接的SIMD模型,简介为SIMD-BF采用多级互联网络连接的SIMD模型,简记为SIMD-MINlAPRAM特点:每个处理器都有其本地存储器、局部时钟和局部程序处理器间的通信经过共享全局存储器无全局时钟,各处理器异步地独立执行各自的指令处理器任何时间依赖关系需明确地在各处理器的程序中加入同步障(Synchronization Barrier)一条指令可在非确定但有限的时间内完成。lAPRAM模型中有四类指令:全局读,将全局存储单元中的内容读入本地存储器单元中局部操作,对本地存储器中的数执行操作,其结果存
9、入本地存储器中全局写,将本地存储器单元中的内容写入全本地存储器单元中同步,同步是计算中的一个逻辑点,在该点各处理器均需等待别的处理器到达后才能继续执行其局部程序l大同步并行BSP(Bulk Synchronous Parallel)模型 作为计算机语言和体系结构之间的桥梁,由下述三个参数描述分布存储的并行计算机模型:处理器/存储器模块(下文简称处理器);处理器模块之间点到点信息传递的路由器;执行以时间间隔L为周期的路障同步器。l特点:将处理器和路由器分开,强调了计算任务和通信任务的分开,而路由器仅施行点到点的消息传递,不提供组合、复制或广播等功能,这样做既掩盖了具体的互联网络拓扑,又简化了通信
展开阅读全文