制约AI产业发展的硬件瓶颈.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《制约AI产业发展的硬件瓶颈.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 制约 AI 产业 发展 硬件 瓶颈
- 资源描述:
-
1、制约AI产业发展的硬件瓶颈陈怡然陈怡然杜克大学电子与计算机工程系副教授杜克进化智能中心联合主任美国自然科学基金委新型可持续智能计算中心主任制约制约AI产业发展的硬件瓶颈产业发展的硬件瓶颈The Hardware Bottlenecks Hindering Development of AI Industry人工智能发展的三次浪潮人工智能发展的三次浪潮ENIACUNIVAC IIBM 7090Pentium IVIBM 360/75CDC 7600SDS 920DEC-CK-10Apple IISun-2Sun-3AT&T Globalyst 600Power Tower 180eFijitsu
2、 SPARC64 VIIIfxGateway-486DX2/66IBM PCMAC IIfxIBM PS/2 90PowerMac 8100/80AMD Athlon FX-57Mac G4DELL 340/2GMac G3Intel Core 2 QX9770第一次第一次兴兴起起Perception,1957 第二次第二次兴兴起起MLP,19862012 AlexNet2014 GoogleNet2014 VGG192015 ResNet1522016 DenseNet2502012,GTX 5802013,GTX780Ti2014,GTX9802014,GTX9802015,GTX9802
3、015,GTX9802016,GTX10802016,GTX1080第三次第三次兴兴起起CNN,2012GPU相对性能相对性能相对网络深度相对网络深度https:/ 计算、存储分离计算、存储分离v 串行计算串行计算v 计算精度高计算精度高 单线程性能受限于所运行指令单线程性能受限于所运行指令之间的数据依赖关系之间的数据依赖关系 内存带宽瓶颈内存带宽瓶颈 片上功率密度上限片上功率密度上限现有现有AI计算芯片计算芯片2014-2018v硬件神经元v高速存储,高速互联v经典机器学习算法寒武纪2014-2017vSP:流式处理器vSM:流式多处理器vSFU:特殊函数处理器英伟达GPU2014-2017
4、v基于算法优化的FPGA神经网络硬件加速器赛灵思深鉴科技2016-2018vTPU脉冲阵列v混合精度计算部件v加速神经网络推断和训练v谷歌云TPU服务谷歌TPU一:大容量存储和高密度计算一:大容量存储和高密度计算ILSVRC12:AlexNet8 层层/1.4G 操作操作ILSVRC15:ResNet34152 层层/3.9G 操作操作ILSVRC14:VGG1619 层层/15.5G操作操作模型复杂度越来越高模型复杂度越来越高剪枝(剪枝(Pruning)非结构化剪枝结构化剪枝尽可能减少权重数量极大减小存储空间在AlexNet等网络上压缩10 x以上剪枝同时维持结构化的存储访问减小存储的同时提
5、高运算速度达到3x左右的速度提升非0值0值无效访问有效访问结构化剪枝结构化剪枝CNN:剪除部分通道,缩小卷积核,剪除整层(W.Wen et al.,2016)5.175.17倍加速倍加速低精度量化低精度量化0.8 0.75 spike probabilities-1 1 0.5 0.1 0.20 0.60 0.3 connectivity probabilities p 1 1 spike samples(a)Tea learning(b)Tea deploying x y w x w y z z connectivity samples c1 c0 ON!ON!OFF!低精度量化低精度量化最
6、小化目标最小化目标:概率正则化概率正则化a=b=0.5零偏差零偏差最大化偏差最大化偏差低精度神经网络训练低精度神经网络训练参数服务器p=p+p降低通信开销DistBelief by Google三值量化降低通信开销三值量化降低通信开销Wei Wen et al.,CEI NIPS,2017截取前截取前截断后截断后三值量化三值量化最终结果最终结果降低训练的通信开销降低训练的通信开销Wei Wen et al.,CEI NIPS,2017v降低梯度的精度降低梯度的精度v训练加速训练加速v保证网络模型的保证网络模型的精确性精确性生产环境测试生产环境测试:128:128节点节点GPUGPU集群;高速互
7、连网络集群;高速互连网络参参数数服服务务器器计计算算节节点点TernGradTernGrad3x 3x 训练加速,训练加速,2%2%精确性降低精确性降低手势识别手势识别医疗诊断医疗诊断自动驾驶自动驾驶目标定位目标定位机器翻译机器翻译语音识别语音识别二:面向特定领域的架构设计二:面向特定领域的架构设计应用场景越来越丰富应用场景越来越丰富面向面向RNN的优化的优化CE隐隐藏藏CE 输输出出CE输输出出CE 输输出出CE输输出出 多功能管理单元(多功能管理单元(TMUTMU)数据重用数据重用v内存效率内存效率 内在并行内在并行 数据模式转换数据模式转换 激活函数近似激活函数近似v资源利用资源利用 定
8、制化定制化PEPEv设计可扩展性设计可扩展性相比相比CPU平台(平台(Intel Xeon E5-2630),),性能提高性能提高16倍,能耗倍,能耗降低降低60.7倍倍面向面向LSTM的优化的优化蓝色条带:蓝色条带:LSTMLSTM中的隐藏结构中的隐藏结构结构化稀疏结构化稀疏LSTMLSTM中的隐藏结构中的隐藏结构下一层权重下一层权重x hhWei Wen et al.,CEI ICLR,2018优化后模型性能提升优化后模型性能提升10.5910.59倍倍面向面向GAN的优化的优化GANGANFan Chen et.al,CEI,ASPDAC,2018 相比于相比于GPUGPU平台,性能提升
展开阅读全文