图形硬件与GPU体系结构04修改71张课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《图形硬件与GPU体系结构04修改71张课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 图形 硬件 GPU 体系结构 04 修改 71 课件
- 资源描述:
-
1、ic.expert gmail摘要图形硬件的历史早期GPGPU通用计算 现代GPU体系结构 基于现代GPU的编程模型展望OpenGL三维图形流水线Vertex ProcessingFragment ProcessingRasterizerFramebufferTextureSGI Infinite Reality产品2019发售,SGI图形设备的巅峰之作Tile-based RenderingHP VISUALIZE FX698年商业发售分离式图形卡典范光栅加速卡(Rast)几何加速卡(GA)纹理加速卡(TA)98年商业发售Intel第一块图形卡单芯片图形卡无几何加速单元Intel 740 9
2、9年商业发售第一块集成TnL几何定点变换单元的消费级图形卡S3G Savage 2000传统GPU图形流水线在2000年前后,图形加速卡完成了从分离式元件和分离式板卡到单芯片图形硬件的整合。图形硬件翻开了新的一页,开始了可编程化的征途。u2019年DirectX7(增加TnL)u2000年 DirectX8(增加Vertex shader)u2019年 DirectX9(增加Pixel shader)u2019年 DirectX9.0c(增加动态分支)u2019年DirectX10DirectX 9.0传统GPU体系结构Split-Shader Architecture(SSA)Post-ve
3、rtex CacheHierarchical-ZFast-Z ClearZ/Color CompressionPerfetch Texture Cache Matrox Parhelia 5123Dlabs P10NV30(nVIDIA Gefroce5)DX9 GPU通用计算的开始DX9.0c-class(NV4X)GPU才引入动态分支操作(Dynamic Control)Z Buffer+Render to Texture+Clip可以用来模拟动态分支操作传统静态分支架构下的GPGPU计算基于GPU的MPEG2运动估计算法Shader Unit对通用计算支持的改进HLSL程序映射到下面三个
4、模块中:PSU(Pixel Shader Unit)TMU(Texture Mapping Unit)BP(Branch Processor)图灵完备(Turing Completeness)一条无限长的纸带 TAPE。(Data Memory)一个读写头 HEAD。(Load/Store)一套控制规则 TABLE。它根据当前机器所处的状态以及当前读写头所指的格子上的符号来确定读写头下一步的动作,并改变状态寄存器的值,令机器进入一个新的状态。(Program,包含Branch,Add)一个状态寄存器状态寄存器。(Program Counter)NV40(nVIDIA Gefroce6)NV40
5、与SGI Infinity Reality体系结构的变化?NV47(nVIDIA Gefroce7)Split Shader Unit 架构的巅峰之作多通道存储器技术?Graphics programVertex processorsFragment processorsPixel operationsOutput imageDX10 Unified Shader ArchitectureDX10带来了什么?USA(统一渲染架构)Float32精度不限制数量的Dynamic Flow Control4096 Temp Register大于64K的着色程序指令长度DX10还差什么?通信(Comm
6、unication)访存(Memory access)Shader Unit的改进基于FIFO的Shader Unit(传统GPU)Shader Unit的改进基于Thread的Shader Unit(DX10级别GPU)NV50架构图编程模型:流计算(Stream Computing)什么是流计算?流计算主要解决什么问题?NV50在传统流计算上增加了什么限制?流计算机基本概念流计算起源于传统的DSP应用,典型的应用:视频编解码数字图像处理模式识别计算机图形处理软件无线电以上流计算的特点:可实现的硬件/软件流水线传统流计算的特点:Stream processing is especially
7、suitable for applications that exhibit three application characteristics:Compute Intensity,the number of arithmetic operations per I/O or global memory reference.In many signal processing applications today it is well over 50:1 and increasing with algorithmic complexity.Data Parallelism exists in a
8、kernel if the same function is applied to all records of an input stream and a number of records can be processed simultaneously without waiting for results from previous records.Data Locality is a specific type of temporal locality common in signal and media processing applications where data is pr
9、oduced once,read once or twice later in the application,and never read again.Intermediate streams passed between kernels as well as intermediate data within kernel functions can capture this locality directly using the stream processing programming model.传统流计算处理器Imagine Stream Processor传统流计算处理器Imagi
10、ne architecture is the three tiered storage bandwidth hierarchya streaming memory system(2.1GB/s),a 128KB stream register file(25.6GB/s),direct forwarding of results among arithmetic units via local register files(435GB/s).Imagine is able to sustain performance of up to 18.3GOPS on key applications.
展开阅读全文