[数学]高性能计算教案-第三讲-last课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《[数学]高性能计算教案-第三讲-last课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 性能 计算 教案 第三 last 课件
- 资源描述:
-
1、并行计算并行计算第 三 讲第二章李李 粤粤 2/52静态互连网络特性比较李李 粤粤 3/52空间并行计算的分类空间并行计算的分类指令流/数据流分类法,即费林-Flynn分类法。节点机耦合程度分类法。SIMD(单指令多数据流)和MIMD(多指令多数据流)SIMD是同步运行,即各个处理器分别在来自存储器的不同数据流上并行执行相同的指令流;各个处理器同步使用连接网络。MIMD是异步运行,即各个处理器在各自的数据流上执行自己的指令流;各个处理器异步使用连接网络。MIMD分为PVP(并行向量处理机),SMP(对称多处理机),DSM(分布共享存储多处理机),MPP(大规模并行处理机),COW(工作站机群)
2、。根据系统的存储器类型分为紧耦合和松耦合。李李 粤粤 4/52空间并行计算的发展空间并行计算的发展80 年代百家争鸣早期:以 MIMD 并行计算机的研制为主中期:SMP(共享存储多处理机)后期:具有强大计算能力的并行机90 年代:体系结构框架趋于统一(DSM、MPP、NOW)2000 年至今:前所未有大踏步发展(Cluster 机群、Constellation 星群、MPP-专用高性能网络)李李 粤粤 5/52五种结构特性一览表五种结构特性一览表属性PVPSMPMPPDSMCOW结构类型MIMDMIMDMIMDMIMDMIMD处理器类型专用定制商用商用商用商用互连网络定制交叉开关总线、交叉开关
3、定制网络定制网络商用网络(以太ATM)通信机制共享变量共享变量消息传递共享变量消息传递地址空间单地址空间单地址空间多地址空间单地址空间多地址空间系统存储器集中共享集中共享分布非共享分布共享分布非共享访存模型UMAUMANORMANUMANORMA代表机器Cray C-90,Cray T-90,银河1号IBM R50,S G I P o w e r Challenge,曙光1号Intel Paragon,IBMSP2,曙光1000/2000Stanford DASH,Cray T 3DBerkeley NOW,Alpha Farm李李 粤粤 6/52并行计算机体系结构并行计算机体系结构q 组成要
4、素l 结点(node):一个或多个处理器组成l 互联网络(interconnetct network):连接结点l 内存(memory):多个存储模块组成李李 粤粤 7/52并行计算机访存模型(并行计算机访存模型(1)UMA(Uniform Memory Access)模型:均匀存储访问模型。COMA(Cache-Only Memory Access)模型:全高高速缓存速缓存存储访问。CC-NUMA(Coherent-Cache Nonuniform Memory Access)模型:高速缓存高速缓存一致性非均匀存储访问模型。NUMA(Non-Uniform Memory Access)模型:
5、非均匀存储访问模型。李李 粤粤 8/52Cache(高速缓冲区)(高速缓冲区)内存访问速度 处理器执行速度Cache:CPU与内存间的临时存储器它的容量比内存小的多但是交换速度却比内存要快得多。工作原理:当CPU要读取一个数据时,首先从缓存中查找,如果找到就立即读取并送给CPU处理;如果没有找到,就用相对慢的速度从内存中读取并送给CPU处理,同时把这个数据所在的数据块调入缓存中。李李 粤粤 9/52Cache类别类别L2 cache:在结点内部的cacheL1 cache:在处理器内部的cache,更小容量它的容量比内存小的多但是交换速度却比内存要快得多。L1 cache 连接CPU 寄存器和
6、L2 cache,负责缓存L2 cache 中的数据到寄存器中。李李 粤粤 10/52多级存储结构示意图多级存储结构示意图位于最顶层的是CPU,它从寄存器中读取数据;寄存器从L1 cache中读取数据。CPU、寄存器和L1 cache 构成微处理器芯片(chip)。L1 cache 从L2 cache 中读取数据,而后者从本地局部内存中获取数据。李李 粤粤 11/52解决方案解决方案为了编制发挥处理器峰值性能的高性能并行程序一个是cache 的映射策略,即cache 是如何从内存中取数并存储的;另一个是结点内部或者结点之间内存的访问模式。李李 粤粤 12/52Cache使用原理使用原理Cach
7、e以cache线(line)为其基本组成单位,每条cache线包含L个字,每个字为8个字节。例如,L=4,则表示cache线包含4 x 8=32 个字节;数据从内存调入cache时,不是以该单个数据字为单位,而是以该数据所在的内存块为单位,将该块的L个字一次调入cache,存储在对应的cache线中。内存空间分割成块(block),每块大小与cache 线长度一致(L个字)。数据在内存和cache 之间的移动,以cache 线为基本单位:如果cache 中的数据单元要求写入内存空间,则也必须以cache 线为单位,即该数据单元所在cache 线中的所有内容一次写入内存中对应的块中。李李 粤粤
8、13/52Cache的作用的作用for(int i=0;I M;i+)a(i)=a(i)+5.0*b(i);如果没有cache,则内存读访问次数为2M次。原因:原因:程序的数据访问具有局部性,即程序中连续使用的数据一般存储在内存的连续位置。因此,通过cache 线的一次调入,随后的数据访问可能就落在cache 线中,从而达到减少内存访问的次数。如果有cache,则内存访问次数下降为2M/L次。李李 粤粤 14/52Cache设计的设计的几个关键问题cache 容量cache 线大小cache 个数cache 的映射策略合适的长度价格和性能的平衡cache 线越大,则一次载入的内存数据也越多,提
展开阅读全文