GPGPU所引领的高性能计算课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《GPGPU所引领的高性能计算课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GPGPU 引领 性能 计算 课件
- 资源描述:
-
1、技术支持中心技术支持中心2010-01-282 图形处理器(GPU):graphics processing units 用于通用计算目的的图形处理器(GPGPU):General-Purpose computation on GPUs3 处理器硬件: 提高制程:130nm-90nm-65nm-45nm-32nm? 多核心: 2003年单核-双核-4核-2008年6核-? (12核?) 多线程: 多线程-单线程-多线程(Sun T1,Xeon Nahelam) 超长指令字(VLIW):安腾、Xeon(Woodcrest)、Opteron(Shanghai) 系统硬件: 加速部件:FPGA(CR
2、AY X4/X5),CELL(IBM Roadrunner) 高速网络:千兆-Myrinet/万兆-InfiniBand 软件: 采用消息传递的MPI并行化 采用共享内存的线程并行 编译器优化4CPU发展规律: “摩尔定律” :每18个月,同一面积芯片上可以集成的晶体管数量将翻一番,而价格下降一半 由于物理定律的限制,采用提高CPU制程和主频的办法遇到了工艺上的壁垒,暂时无法突破GPU发展规律: 1993年开始,GPU的性能以每年2.8倍的速度增长峰值发展趋势带宽发展趋势5GPU性能的飞跃 1993年开始,GPU的性能以每年2.8倍的速度增长。 1985年渲染1帧图片需要CRAY 1超级计算机
3、23小时 如今可以很容易的在1/30秒以内完成1帧的相对低廉的GPU设计和生产价格GPGPU浮点性能的快速发展 无法利用的浮点计算能力 比CPU高一个数量级的浮点性能年份年份CPUGPU2004Intel 3GHz Pentium 4Nvidia GeForce 6800 Ultra6 GFLOPS40 GFLOPS2006Intel 3.0 GHz Core2 DuoNVIDIA GeForce 8800 GTX24 GFLOPS330 GFLOPS2008Intel 3.0 GHz Xeon E5472Nvidia Tesla C106048 GFLOPS933 GFlops6CPU和GP
4、U的联系 都是计算机体系结构中的重要部分 超大规模集成电路元件 能够完成浮点运算功能GPU的设计目标与CPU是不同的: CPU的微架构是按照兼顾“指令并行执行”和“数据并行运算”的思路而设计。CPU的大部分晶体管主要用于构建控制电路和CacheCPU的5%是ALU,控制电路设计更加复杂CPU的内存延迟是GPU的1/10 GPU其实是由硬件实现的一组图形函数的集合。GPU控制电路相对简单,而且对Cache的需求小,所以可以把大部分的晶体管用于计算单元GPGPU的40%是ALUGPGPU的内存带宽是CPU的10倍7众多的处理单元(ALU)nVIDIA Tesla C1060具有240个ALU(1.
5、296GHz)AMD/ATI HD 4870 x2具有1600个ALU(0.75MHz)Intel/AMD处理器具有2个ALU高数据带宽的运算nVIDIA Tesla C1060内存带宽:102GB/sAMD/ATI HD 4870 x2内存带宽:230GB/s最新的I620r-G最大内存带宽:64GB/s高效的并行性在目前主流的GPU中,配置16个片段处理流水线,6个顶点处理流水线多条流水线可以在单一控制部件的集中控制下运行,也可以独立运行超长图形流水线超长图形流水线的设计以吞吐量的最大化为目标(如nVIDIA GeForce 3流水线有800个流水步)在对大规模的数据流并行处理方面具有明显
6、的优势。8在现代GPU概念出现以前,特殊的图形硬件只出现在诸如 Silicon Graphics(SGI)等图形工作站上,具有基于硬件的顶点变换和纹理映射功能.第一代现代图形处理第一代现代图形处理器器出现在1998 年后期,主要代表为 Nvidia TNT2,ATI Rage 和 3DFX Voodoo3.这些处理器主要处理光栅化部分,有些芯片支持多纹理,可以在光栅化过程中完成多幅纹理的融合操作.从 1999 年后期开始,第二代第二代GPUGPU(Nvidia GeForce256,GeForce 2 和 ATI Radeon 7500)可以处理顶点的矩阵变换和进行光照计算,但此时还未出现真正
7、的可编程性.第三代第三代GPU GPU (Nvidia GeForce3,GeForce4,ATI Radeon 8500,2001 年和 2002年早期)代表着第一次重要变革,这时可以将图形硬件的流水线作为流处理器来解释可以将图形硬件的流水线作为流处理器来解释. .顶点级出现可编程性顶点级出现可编程性,而在像素级出现有限的可编程性.在像素级程序中,访问纹理的方式和格式受到一定限制,只有定点数可用.正是这个时候,采用 GPU作通用计算开始出现.第四代第四代GPU GPU (Nvidia GeForce FX series,ATI Radeon 9700/9800)的像素和顶点可编程性更通用化,
8、可以包含上千条指令.依赖纹理更为灵活,可以用作索引进行查找.GPU GPU 具备了浮点功能具备了浮点功能, ,纹理不再限制在纹理不再限制在00,1,1范围范围, ,从而可以用作任意数组从而可以用作任意数组,这一点是对通用计算的一个重要贡献.第五代第五代GPU GPU 以 Nvidia GeForce 6800 为代表,功能相对以前更为丰富、灵活.顶点程序可以访问纹理,支持动态分支操作支持动态分支操作; ;像素程序开始支持分支操作像素程序开始支持分支操作, ,包括循环、包括循环、if/elseif/else、重复等、重复等, ,支持子函支持子函数调用数调用,64 位浮点纹理滤波和融合,多个绘制目
9、标. 第六代第六代GPU GPU (Nvidia Tesla C870, AMD FireStream 9250)的浮点运算能力已达到或接近浮点运算能力已达到或接近1TFLOPS,1TFLOPS,在此前提下,硬件厂商纷纷加大力度推广适用于自己GPU的编程模式.910地震模拟计算生物学商业风险计算医学成像模式识别信号处理物理仿真11SeismicCity公司软件在nVIDIA Tesla S870可以达到CPU配置20倍的性能提升Headwave解决方案让地球物理学家能够对他们的数据进行高级过滤处理,也能实现查看数TB的数据12 CUDA加速的WRF 代码 13使用 GPGPU加快高级 MRI
10、重建速度Stone 等人计算体层重建Batenburg, Sijbers, 等人14利用GPGPU加速HMMERScalable InformaticsMUMmerGPU:使用GPGPU进行高吞吐量DNA序列比对Schatz等人15 分子动力学(molecular dynamics,MD)模拟是认为分子之间作用力遵守牛顿力学的一种科学计算方法,现已广泛应用到生物、医药、材料、能源、机电的等领域中。 中国科学院过程工程研究所多相复杂系统国家重点实验室进行了GPGPU上的分子动力学(MD)模拟。16 UIUC大学NAMD和VMD程序在18个CPU的机群上有100倍的加速。 3个C870的工作站实际
11、达到705Gflops计算能力直接自洽场(SCF)计算Ufimtsev 以及 Martinez双电子积分评估安田幸司18 仿真一条单独的神经 需要每秒解200,000,000个微分方程 一条神经需40亿次浮点运算 这就意味着要处理一个感觉神经数组,需要进行超过10万亿次的浮点运算 用GPU实现模拟 与X86 CPU相比要快130倍19Black-Scholes option prizing4.7 GOptions/s加速比: up to 197X2021Tesla GPGPU可以看作之前的Nvidia Quadro专业卡的通用计算版本GTX200的240个流处理器被分为10组并行的材质处理簇T
12、PC( Texture Processing Cluster )每个TPC由3个流处理器单元SM( Streaming Multiprocessors )组成每个SM由8个流处理器SP(Stream Processor);每个TPC内的24个流处理器共享L1缓存(TPC的核内内存)每个SM可以支持1024个并行线程整个GTX200核心可以支持30720个线程C1060 GPGPU个人高性能计算机个人高性能计算机S1070 Server应用领域加速卡桌面高性能计算企业级机群GPU数目144处理器内核频率1.296 GHz1.296GHz1.2961.44GHz处理器核心数目240960960单精
13、度浮点峰值933 Gflops3.73Tflops3.73 to 4.14TFlops双精度浮点峰值78Gflops311Gflops311 to 345 GFlops专用内存4GB16GB16GB内存位宽512位 GDDR3512位 GDDR3512位 GDDR3内存带宽102GB/s408GB/s408GB/s安装环境dual slots 全长卡(X16 PCI-e) 40db桌面系统标准1U机架式功耗187.8W800W800WCUDA(统一计算设备架构)Compute Unified Device Architecture在nVIDIA GT200系列显卡和Tesla系列通用计算系统上
14、 C 语言的函式库来编写应用程序的软件开发环境, CUDA 主要分为 Library,runtime和Driver 三个部分nVIDIA CUDA为一款完整的软件开发方案,内含支持GPU的C语言编译器、调试工具( Debugger )、性能分析软件(Profiler)、驱动程序及标准函数库CUDA开发者社区:http:/ 程序执行区域 Host CPU Device(Kernel) GPU 分工 CPU调度 GPU运算 并行机制 海量线程 线程索引Index2526 2006年7月24日,AMD购并ATI 2006年11月,发布首款流处理器Fire Stream 580. 2007年11月,F
15、ire Stream 9170,处理能力达到500Gflops 2008年11月,Fire Stream 9270,处理能力达到1.2Tflops 2008年底推出 Stream SDK,将ATI 4870 x2引入高性能计算领域,浮点处理能力达到2.4Tflops。27CPUCPU发送指令发送指令GPUGPU接受命令接受命令, ,并执行命令并执行命令庞大的庞大的计算单元组计算单元组高带宽的高带宽的GPUGPU内存内存AMD FireStream 9250200 GFLOPS 双精度浮点峰值1 TFLOPS 单精度浮点峰值800个处理器核心处理器核心主频625MHz1 GB GDDR3 显卡内
16、存显存带宽:108.8GB/s单 PCIe 2.0 插槽功耗90WAMD FireStream 9270240 GFLOPS 双精度浮点峰值1.2 TFLOPS 单精度浮点峰值800个处理器核心处理器核心主频750MHz2 GB GDDR5 显卡内存显存带宽:108.8GB/s双 PCIe 2.0 插槽功耗160W29Radeon HD 4870 X2$2992.4 TFLOPS750 MHz 1600GDDR5 2 GB260 W双精度浮点处理能力双精度浮点处理能力核心频率核心频率处理器核心数量处理器核心数量内存类型内存类型显存容量显存容量最大功耗最大功耗显存带宽显存带宽230 GB/sec
展开阅读全文