书签 分享 收藏 举报 版权申诉 / 76
上传文档赚钱

类型机器学习与深度学习网络和架构课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4546062
  • 上传时间:2022-12-18
  • 格式:PPT
  • 页数:76
  • 大小:1.54MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《机器学习与深度学习网络和架构课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    机器 学习 深度 网络 架构 课件
    资源描述:

    1、机器学习与深度学习网络和架构目录目录p 机器学习的基础p 神经元网络p 深层神经元网络p 延伸和应用p 深层学习实现架构p 未来和思考小学生解方程小学生解方程 a 3+b=10 a 8+b=30 a =?b =?高中,高中,大学大学 -矩阵,矢量矩阵,矢量线性回归及分类线性回归及分类 机器学习背景机器学习背景 Y 是一个N 维向量 XT 是一转置矩阵 N*(p+1)是 一个 p+1 的向量线性回归:,给定 X,和 Y,计算 以最佳匹配X,Y 的关系。N p+1 。即为线性回归模型的 参数。k 表明对应的维度,Xk 的重要性什么为最佳匹配?参数估计方法一:参数估计方法一:最小化误差平方和最小化误

    2、差平方和 机器学习背景机器学习背景0)(RSS 正则化正则化 L2(Ridge)Regularization限制参数的大小,以避免过拟合 正则化正则化 L1 Regularization(Lasso)限制参数的大小,以避免过拟合pjj.1|No closed form for 逻辑回归逻辑回归)|0(0 xXGPP011)|1(PxXGPPxPPT01logxxTTeeP11xTeP110jG1x2xnx1逻辑回归逻辑回归 -参数训练参数训练jG1x2xnx1训练目标函数:最大似然对数概率01101log)log)1(log)(PxgPgPgiNiiNiii牛顿迭代:目录目录p 机器学习的基础

    3、p 神经元网络p 深层神经元网络p 延伸和应用p 深层学习实现架构p 未来和思考神经元网络神经元网络 p 单层前向网络p 两阶段回归或分类p K-Class 分类p 最底层为数据层p 最上层为输出层p 中间层为隐含层p 这种简单的 NN称为Perceptron神经元网络神经元网络 -输入层到隐含层输入层到隐含层p 中间层为输入层线性组合的某函数vev11)(p 其中为激活函数:sigmoid神经元网络神经元网络-激活函数激活函数p 为激活(Activation)函数(红线)p 0 线性函数神经元网络神经元网络 ,隐含层到输出层隐含层到输出层 p 输出层为中间层的线性组合p 回归问题kkTTg)

    4、(p K-Class 分类问题,softmax函数 KlTTklkeeTg.1)(训练神经元网络训练神经元网络:参数集合及维度参数集合及维度p 神经元网络参数集合 训练神经元网络训练神经元网络 优化参数求导优化参数求导 p 最小化目标函数:最小误差平方和及求导 训练神经元网络训练神经元网络-Back Propagationp 梯度下降迭代算法输出层误差:ki隐含层误差:smiBP 算法算法 p 初始化参数 p 两阶段算法:Two-Passp 前向 Forward-Pass:给定参数,计算输出值p 后向 Backward-Pass:计算输出层误差,计算隐含层误差,更新参数 BP算法图示(1985

    5、)input vectorhidden layersoutputsBack-propagate error signal to get derivatives for learningCompare outputs with correct answer to get error signal神经元网络小结神经元网络小结目录目录p 机器学习的基础p 神经元网络p 深层神经元网络p 延伸和应用p 深层学习实现架构p 未来和思考BP算法在深层神经元网络中的问题算法在深层神经元网络中的问题 依赖于标注的训练数据依赖于标注的训练数据 目前大量数据为非标注数据 训练时间长,训练时间长,很难规模化很难规模

    6、化 多层神经元网络训练很慢 会停驻在性能较差的本地优化点会停驻在性能较差的本地优化点 浅层网络,该问题不明显 深层网络,问题显著支持向量基支持向量基(SVM)一个特殊的神经元网络一个特殊的神经元网络 Still Perceptron 一个特殊的单隐含层网络 每个训练案例用于构造一个特征,该特征用于测量改训练案例和测试案例的距离 SVM训练选择自由特征集以及特征的权重 1990-2010 很多让放弃NN,选择 SVMnon-adaptivehand-codedfeaturesoutput units e.g.class labelsinput units e.g.pixelsSketch of

    7、a typical perceptron from the 1960sBombToy深层信任网络(Deep Belief Net,DBN)是部分解决了以上问题的神经元网络谁重新激活了神经元网络?谁重新激活了神经元网络?Geoffrey Hinton 出生于:1947 专业:学士,心理学,1970,博士,人工智能,1978 多伦多大学教授 Google 研究中心 1986:神经元网络BP算法发明人之一 深度学习主要贡献人I GET VERY EXCITED WHEN WE DISCOVER A WAY OF MAKING NEURAL NETWORKS BETTER AND WHEN THATS

    8、 CLOSELY RELATED TO HOW THE BRAIN WORKS.谁重新激活了神经元网络?谁重新激活了神经元网络?NCAP:神经计算和自适应感知项目 2004 NCAP ResearchersYoshua BengioYann Lecun (FaceBook)Andrew Ng (Baidu)20 OthersCore Team 深度学习的深度学习的 2006年,Geoffery Hinton Science发表DBN文章。2012年,Hinton,ImageNet,26%-15%。2012年,Andrew Ng和分布式系统顶级专家Jeff Dean,Google Brain项目

    9、,16000个CPU核的并行,10亿个神经元的深度神经网络 2012年,微软首席研究官Rick Rashid在21世纪的计算大会上演示了一套自动同声传译系统 2013年,Hinton-Google;Yann LeCun-Facebook;用户图片信息提取2013年,百度成立了百度研究院及下属的深度学习研究所(IDL),2014年,Andrew Ng-Badidu可信任网络可信任网络 Belief Nets(BN)一个BN 是一个由随机变量组成的有向非循环图一部分变量为可观察已知变量如何由已知变量推断出非观察变量的状态调整变量之间连接的参数优化:最大可能重新生成观察变量stochastichid

    10、den causevisible effectWe will use nets composed of layers of stochastic binary variables with weighted connections.Later,we will generalize to other types of variable.可信任,信任什么?随机的二元单元(Bernoulli variables)隐含层的神经元的状态为0或1 该神经元激活的概率为输入层加权和的 sigmoid 函数001jjijiiwsbsp)exp(1)(11jjijiwsb)(1ispRestricted Bol

    11、tzmann Machines(RBM)限制神经元之间的链接以简化参数学习.只包含一个隐含层.多隐含层后期引入 隐含层单元之间无链接.给定输入可观察矢量,隐含层单元之间独立 隐含层和输入层之间为无向链接hiddenijvisibleRBM 训练训练0jihvjihvijijijijt=0 t=1 t=2 t=infinityjijiijijhvhvwvp0)(log从可观察训练矢量开始,交替更新隐含层和可观察矢量层单元 a fantasy小结一个基础的小结一个基础的DBN网络网络p 决定DBN的隐含层数以及隐含层的神经元数p 每两层之间依据RBM单独依次训练参数p 训练完的两层网络简单叠加起来

    12、成为深层网络p 利用BP算法对叠加后的网络连接参数进一步优化p RBM Pseudo 代码p For t=0 to n:p Vt -Ht 基于sigmoid函数 和Gibbs 采样p Ht -Vt+1 基于sigmoid函数 和Gibbs 采样p Vt+1 -Ht+1 基于sigmoid函数 和Gibbs 采样p 更新参数W:pRBM Code 目录目录p 机器学习的基础p 神经元网络p 深层神经元网络p 延伸和应用p 深层学习实现架构p 未来和思考 深度学习目前常用的架构深度学习目前常用的架构 深度神经元全连网络 DNN(Deep Neural Nets),Tensor-DNN 卷积神经元网

    13、络 CNN(Convolutional Neural Nets)深度叠拼神经元网络 DSN(Deep Stacking Nets);Kernel-DSN,Tensor-DSN 循环神经元网络 RNNs(Recurrent and recursive Neural Nets)DNN在语音识别中的应用在语音识别中的应用DNN在语音识别中的应用在语音识别中的应用语音识别中的语音识别中的BottleNeck 特征特征图像识别中的神经元网络应用图像识别中的神经元网络应用 卷积神经元网络 Convolution Neural Network(CNN)输入层可以使多元的,也可以是一元的图像识别中的神经元网络

    14、应用图像识别中的神经元网络应用:卷积层:卷积层p 输入:维度的矩阵 X p 输出:维度的矩阵 p 连接输入和输出的参数:维度的矩阵 WNN)1()1(MNMNMM)(1010bjaiMaMbabcijxwxcX图像识别中的神经元网络应用图像识别中的神经元网络应用:Pooling 层层p 输入:region,矩阵p 输出:A single value,p 连接输入输出层参数:无p 最大值 poolingp 均值poolingkk)1()1(MNMN)1()1(kMNkMN图像识别中的神经元网络应用图像识别中的神经元网络应用:全连层:全连层p 同DNN卷积神经元网络的架构卷积神经元网络的架构Ima

    15、geNet 2012年年 竞赛竞赛ImageNet 2013年年 竞赛竞赛目前图像中物体识别性能语音识别中语音识别中CNN的使用的使用(2013,Sainath IEEE)循环神经元网络循环神经元网络 RNNRNN 同同 DNN 的比较的比较Back Propagation Through Time(BPTT)p 三类参数p 训练方式可等同于前向网络在时域的组合双向双向RNN 实现实现训练算法:u RBM 初始化每个时间点t的 网络u BPTT,BP算法的扩展优化参数训练神经元网络在自然语言处理中的应用 语言模型 信息分类 信息聚类 信息提取 搜索 翻译 词向量语义表示一批关键的文章一批关键的

    16、文章Yoshua Bengio,Rejean Ducharme,Pascal Vincent,and Christian Jauvin.A neural probabilistic language model.Journal of Machine Learning Research(JMLR),3:11371155,2003.PDFRonan Collobert,Jason Weston,Lon Bottou,Michael Karlen,Koray Kavukcuoglu and Pavel Kuksa.Natural Language Processing(Almost)from Scr

    17、atch.Journal of Machine Learning Research(JMLR),12:2493-2537,2011.PDFAndriy Mnih&Geoffrey Hinton.Three new graphical models for statistical language modelling.International Conference on Machine Learning(ICML).2007.PDFAndriy Mnih&Geoffrey Hinton.A scalable hierarchical distributed language model.The

    18、 Conference on Neural Information Processing Systems(NIPS)(pp.10811088).2008.PDFMikolov Tom.Statistical Language Models based on Neural Networks.PhD thesis,Brno University of Technology.2012.PDFTurian Joseph,Lev Ratinov,and Yoshua Bengio.Word representations:a simple and general method for semi-supe

    19、rvised learning.Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics(ACL).2010.PDFEric Huang,Richard Socher,Christopher Manning and Andrew Ng.Improving word representations via global context and multiple word prototypes.Proceedings of the 50th Annual Meeting of th

    20、e Association for Computational Linguistics:Long Papers-Volume 1.2012.PDFMikolov,Tomas,Wen-tau Yih,and Geoffrey Zweig.Linguistic regularities in continuous space word representations.Proceedings of NAACL-HLT.2013.PDFDNN 语言模型语言模型RNN 语言模型语言模型u没有必要定义上下文长度u没有投影层(No Word Embedding)u前一层的隐含链接下一个词的隐含层其他的深度学

    21、习架构:其他的深度学习架构:Deep Stacking Network(DSN)特点 u 线性和非线性层交替u 训练更容易并行u优化目标凸函数(convex)目录目录p 机器学习的基础p 神经元网络p 深层神经元网络p 延伸和应用p 深层学习实现架构p 未来和思考深度学习实现的物理架构深度学习实现的物理架构挑战:u训练数据规模庞大u 计算开销大u训练过程收敛难u训练用时久解决方案:uGPU 计算资源并行uCPU 集群几万神经元,几千万参数工业界深度学习平台架构工业界深度学习平台架构百度百度FacebookGoogle腾讯腾讯平台名称PaddleN/ADisbliefCotsMariana应用模

    22、型&数据CPU/GPU GPUGPUCPUGPUGPU&CPU硬件规模1.6W3台GPU服务器参数规模Downpour SGD和L-BFGS10亿主要应用人脸识别和提取语音识别图形语音识别,图像粗粒深度学习开源软件深度学习开源软件KaldiCuda-CovnetCaffeTheanoTorch7OverFeat领域语音识别图像分类Matlab 免费版图像识别及特征提取GPU/CPUGPUGPUGPUGPU/CPUGPU算法SGDSGD设计者Uni John HopkinsUiv of Toronto纽约大学功能 GPUGPUCPUGPU&CPUGPU实现语言C+CudaC+CudaPython

    23、腾讯深度学习平台腾讯深度学习平台 Mariana DNN的GPU数据并行框架 CNN的GPU数据并行和模型并行框架 DNN CPU集群框架GPU服务器为主4-6 Nvidia Tesla GPU Cards(系列高端科学计算用)2000流处理器/GPU card并行计算深度学习并行策略深度学习并行策略 模型并行 将训练数据划分为多份,每份数据有一个模型实例进行训练,再将多个模型实例产生的梯度合并后更新模型 数据并行 模型并行指将模型划分为多个分片,每个分片在一台服务器,全部分片协同对一份训练数据进行训练 流式控制DNN GPU 的并行架构的并行架构 DNN的数据并行框架通过同步随机梯度下降进行

    24、训练。每个GPU卡各自训练,并各自产生一份梯度值,然后进行参数交换。自适应学习率算法,使得支持自适应学习率所需交换的数据量降低了一个数量级。参数交换的成本CNN-GPU并行架构并行架构 -腾讯腾讯u模型拆分u数据拆分u流式控制 GPU卡分组 组内两个GPU卡做模型并行,组间做数据并行CNN-GPU并行架构并行架构 -腾讯腾讯u模型拆分u数据拆分u流式控制 GPU卡分组 组内两个GPU卡做模型并行,组间做数据并行DNN CPU并行架构并行架构目录目录p 机器学习的基础p 神经元网络p 深层神经元网络p 延伸和应用p 深层学习实现架构p 未来和思考IBM Synapse 自适应塑料可伸缩电子神经形

    25、态系统自适应塑料可伸缩电子神经形态系统SyNAPSE is a DARPA-funded program to develop electronic neuromorphic machine technology that scales to biological levels.More simply stated,it is an attempt to build a new kind of computer with similar form and function to the mammalian brain.Such artificial brains would be used t

    26、o build robots whose intelligence matches that of mice and cats.SyNAPSE is a backronym standing for Systems of Neuromorphic Adaptive Plastic Scalable Electronics.It started in 2008 and as of January 2013 has received$102.6 million in funding.It is scheduled to run until around 2016.The project is pr

    27、imarily contracted to IBM and HRL who in turn subcontract parts of the research to various US universities.IBM Synapse 自适应塑料可伸缩电子神经形态系统自适应塑料可伸缩电子神经形态系统2007Apr-Todd Hylton joins DARPA to found the project2008Apr-DARPA publishes a solicitation for applications May-Due date for initial proposals Oct-Wi

    28、nning contractors announced Nov-Phase 0 start2009Sep-Phase 1 start Nov-Announcement of cat-scale brain simulation20102011Aug-Announcement of neuromorphic chip implementation Sep-Phase 2 start Dec-Announcement of first memristor chip2012Feb-Todd Hylton leaves DARPA,Gill Pratt takes over as program ma

    29、nager May-Neuromorphic architecture design published Nov-TrueNorth/Compass simulation of 530 billion neurons announced2013Feb-Expected announcement of multi-core neurosynaptic chips(1 million neurons per chip)Mar-Phase 3 to begin(estimated date)2014Oct-Phase 4 to begin(estimated date)20152016Program

    30、 end猫脑机猫脑机 2009 IBM Dawn-the Blue Gene/P supercomputer 150K CPU ,144T Memory 模拟猫脑 Cortical simulations with 109 neurons,1013 synapses,16亿神经元,万亿链接Criticism of the cat brain simulation claim Brain WallSyNAPSE(Systems of Neuromorphic Adaptive Plastic Scalable Electronics)The Brain Wall:A Neural Network

    31、 Visualization Tool by IBM SyNAPSE Researchers 数字神经元芯片数字神经元芯片,CMOS,Memristor Synapse 的合作者的合作者 DARPA-program managed by Gill PrattIBM Research-Cognitive Computing group led by Dharmendra ModhaColumbia University Medical Center-Theoretical neuroscience research,development of neural network models,led

    32、 by Stefano FusiCornell University-Asynchronous VLSI circuit design,the neurosynaptic core,led by Rajit ManoharUniversity of California,Merced-environment research,led by Christopher KelloUniversity of Wisconsin-Madison-Simulation,theory of consciousness,computer models,led by Giulio TononiHRL Labor

    33、atories-Memristor-based processor development led by Narayan SrinivasaBoston University:Stephen Grossberg,Gail Carpenter,Yongqiang Cao,Praveen PillyGeorge Mason University:Giorgio Ascoli,Alexei SamsonovichPortland State University:Christof TeuscherSet Corporation:Chris LongStanford University:Mark S

    34、chnitzerThe Neurosciences Institute:Gerald Edelman,Einar Gall,Jason FleischerUniversity of California-Irvine:Jeff KrichmarUniversity of Michigan:Wei LuSynapse 投入经费投入经费 102 Million Dollars IBM&collaboratorsHRL&collaboratorsTotal(IBM+HRL)November 2008(phase 0)$4,879,333$5.9 million$10.8 millionAugust 2009(phase 1)$16.1 million$10.7 million$26.8 millionAugust 2011(phase 2)$21 million$17.9 million$38.9 millionTotal$42 million$34.5 million$76.5 million

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:机器学习与深度学习网络和架构课件.ppt
    链接地址:https://www.163wenku.com/p-4546062.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库