AI芯片产业生态梳理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《AI芯片产业生态梳理课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AI 芯片 产业 生态 梳理 课件
- 资源描述:
-
1、AI芯片产业生态梳理芯片产业生态梳理Page 2目录目录AI芯片分类1AI芯片产业生态2中国AI芯片公司3 4Page 3AI芯片分类芯片分类从功能上分从功能上分Training训练 通过大量的数据输入或采取增强学习等非监视学习方法,训练出一个复杂的深度神经网络模型,涉及海量的训练数据和复杂的深度神经网络构造,运算量巨大,需要庞大的计算规模,对于处理器的计算能力、精度、可扩展性等性能要求很高,主要使用NVIDIA的GPU集群来完成,Google自主研发的ASIC芯片TPU2.0也支持训练环节的深度网络加速,Inference推理 利用训练好的模型,使用新的数据去“推理出各种结论,如视频监控设备
2、通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。Inference的计算量相比Training少很多,但仍然涉及大量的矩阵运算。在推理环节,GPU、FPGA和ASIC都有很多应用价值。可以分为Training(训练)和Inference(推理)两个环节Page 4AI芯片分类芯片分类从应用场景分从应用场景分Cloud/DataCenter云端 在深度学习的Training阶段,由于对数据量及运算量需求巨大,单一处理器几乎不可能独立完成一个模型的训练过程,Training环节目前只能在云端实现,在设备端做Training目前还不是实际。在Inference阶段,由于目前训练出来的
3、深度神经网络模型大多仍非常复杂,其推理过程仍然是 计算密集型和存储密集型的,假设部署到资源有限的终端用户设备上难度很大,因此,云端推理目 前在人工智能应用中需求更为明显。GPU、FPGA、ASIC(Google TPU1.0/2.0)等都已应用于云端Inference环境。Device/Embedded设备端 在设备端Inference领域,智能终端数量庞大且需求差异较大,如高级辅助驾驶ADAS、虚拟现实VR等设备对实时性要求很高,推理过程不能交由云端完成,要求终端设备本身需要具备足够的推理计算能力,一些低功耗、低延迟、低本钱的专用芯片也会有很大的市场需求。可以分成“Cloud/DataCen
4、ter(云端)和“Device/Embedded(设备端)两大类Page 5AI芯片分类芯片分类从技术架构分从技术架构分通用芯片 GPU FPGA基于FPGA的半定制化芯片 深鉴科技DPU、百度XPU(256核、基于FPGA的云计算加速芯片与赛灵思Xilinx合作)全定制化ASIC芯片 TPU 寒武纪 Cambricon-1A等类脑计算芯片 IBM TrueNorth、Westwell西井科技、高通Zeroth等Page 6AI芯片分类象限图芯片分类象限图TrainingInferenceGPU VSCloud/DataCenterDevice/Embedded?GPU/FPGA /ASICF
5、PGA /ASICPage 7AI芯片产业生态芯片产业生态Inference On Device设备端推理设备端推理MobileADASCVNLPVRInference On Cloud云端推理GPUFPGAASICTrainingOn Cloud云端训练GPUASICTrainingOn Device设备端训练?Page 8Training训练训练CPU VS GPU 架构架构ControlALUALUALUALUCacheDRAMDRAMCPUGPUPage 9CPU和和GPU比照说明比照说明CPU架构 u2007年以前,人工智能研究受限于当时算法、数据等因素,对于芯片并没有特别强烈的需求
6、,通用的CPU芯片即可提供足够的计算能力。uGoogle Brain工程,使用包含16000个CPU核的并行计算平台,训练超过10亿个神经元的深度神经网络。uCPU的串行构造并不适用于深度学习所需的海量数据运算需求,u用CPU做深度学习训练效率很低,在早期使用深度学习算法进展语音识别的模型中,拥有429个神经元的输入层,整个网络拥有156M个参数,训练时间超过75天。u在内部构造上,CPU中70%晶体管都是用来构建Cache(高速缓冲存储器)和一局部控制单元,负责逻辑运算的局部(ALU模块)并不多,指令执行是一条接一条的串行过程。GPU架构 uGPU整个就是一个庞大的计算矩阵,GPU具有数以千
7、计的计算核心、可实现10-100倍应用吞吐量,u还支持对深度学习至关重要的并行计算能力,可以比传统处理器更加快速,大大加快了训练过程。uGPU 由并行计算单元和控制单元以及存储单元构成,拥有大量的核(多达几千个)和大量的高速内存,擅长做类似图像处理的并行计算,以矩阵的分布式形式来实现计算。同CPU不同的是,GPU的计算单元明显增多,特别适合大规模并行计算。Page 10通用计算通用计算GPUNVIDIA一家独大一家独大u 2021年NVIDIA就开场布局人工智能产品,u 2021年发布了新一代PASCAL GPU芯片架构,这是NVIDIA的第五代GPU架构,也是首个为深度学习而设计的GPU,它
8、支持所有主流的深度学习计算框架。u 2021年上半年,NVIDIA又针对神经网络训练过程推出了基于PASCAL架构的TESLA P100芯片以及相应的超级计算机DGX-1。DGX-1包含TESLA P100 GPU加速器,采用NVLINK互联技术,软件堆栈包含主要深度学习框架、深度学习SDK、DIGITS GPU训练系统、驱动程序和CUDA,能够快速设计深度神经网络(DNN),拥有高达170TFLOPS的半精度浮点运算能力,相当于250台传统效劳器,可以将深度学习的训练速度加快75倍,将CPU性能提升56倍。Page 11Training市场市场NVIDIA竞争对手竞争对手GoogleTrai
9、ning市场目前能与NVIDIA竞争的就是Google。今年5月份Google发布了TPU 2.0,TPU(TensorProcessing Unit)是Google研发的一款针对深度学习加速的ASIC芯片,第一代TPU仅能用于推理,而目前发布的TPU 2.0既可以用于训练神经网络,又可以用于推理。TPU2.0包括了四个芯片,每秒可处理180万亿次浮点运算。Google还找到一种方法,使用新的计算机网络将64个TPU组合到一起,升级为所谓的TPU Pods,可提供大约11500万亿次浮点运算能力。Google表示,公司新的深度学习翻译模型如果在32块性能最好的GPU上训练,需要一整天的时间,而
10、八分之一个TPU Pod就能在6个小时内完成同样的任务。目前Google 并不直接出售TPU芯片,而是结合其开源深度学习框架TensorFlow为AI开发者提供TPU云加速的效劳,以此开展TPU2的应用和生态,比方TPU2同时发布的TensorFlow Research Cloud(TFRC)。Page 12传统传统CPU/GPU厂家也进入厂家也进入Training市场市场u 传统CPU/GPU厂家Intel和AMD也在努力进入这Training市场,如Intel推出的Xeon Phi+Nervana方案,u AMD的下一代VEGA架构GPU芯片等,但从目前市场进展来看很难对NVIDIA构成威
11、胁。u 初创公司中,英国Graphcore公司 的IPU处理器(IntelligenceProcessing Unit)据介绍也同时支持Training和Inference。该IPU采用同构多核架构,有超过1000个独立的处理器;支持All-to-All的核间通信,采用BulkSynchronous Parallel的同步计算模型;采用大量片上Memory,不直接连接DRAM。u 总之,对于云端的Training(也包括Inference)系统来说,业界比较一致的观点是竞争的核心不是在单一芯片的层面,而是整个软硬件生态的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+
展开阅读全文