书签 分享 收藏 举报 版权申诉 / 21
上传文档赚钱

类型深度学习-基于Python语言和Tensorflow平台第15章-优化器的选择与设置课件.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:3530930
  • 上传时间:2022-09-12
  • 格式:PPTX
  • 页数:21
  • 大小:2.41MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《深度学习-基于Python语言和Tensorflow平台第15章-优化器的选择与设置课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    深度 学习 基于 Python 语言 Tensorflow 平台 15 优化 选择 设置 课件
    资源描述:

    1、Email:谢琼优化器的选择与设置第15章深度学习基于Python语言和Tensorflow平台了解优化器的作用了解学习率调节的作用010203target目标了解主流优化器的特点目 录 导 航123优化器在神经网络训练中的作用主流优化器简介优化器的对比与选择Contents优化器的作用优化器在神经网络的训练中具有相当重要的地位,它的主要作用是根据误差函数的计算结果来调节可变参数,使得神经网络的输出越来越符合预期。目前为止,我们用的优化器一直是RMSProp,这是一个优秀的优化器,还有许多其他的优化器可用知识补充:梯度下降算法神经网络调节可变参数是依据反向传播算法的,但其实反向传播算法主要是用

    2、于将最终计算出来的误差反向依次传递到神经网络的各层,真正控制参数调节原则的是“梯度下降”(Gradient Descent)算法误差loss是可变参数w的函数,即loss=f(w)调节神经网络的目标是获得loss最小时的w值wmin梯度就是该切线的斜率但误差函数的曲线并非总是如此简单需要避免最终结果在较高的“谷底”知识补充:学习率对训练的影响学习率控制的是调节可变参数的幅度,是优化器的一个参数设置项。形象地说,学习率代表下山的步幅,越大越快,但容易走过头目 录 导 航123优化器在神经网络训练中的作用主流优化器简介优化器的对比与选择Contents普通梯度下降算法普通梯度下降普通梯度下降(Gr

    3、adient Gradient DesentDesent,简称,简称GDGD)算法是最基本的也最简单的优化算法,)算法是最基本的也最简单的优化算法,其其特特点是每一步的步长是一定的(点是每一步的步长是一定的(学习率不变学习率不变),每一步),每一步都都计算梯度并保持计算梯度并保持不断不断下降,使下降,使得误差逐步变小,直至梯度变平或再次变大得误差逐步变小,直至梯度变平或再次变大。随机梯度下降算法随机梯度下降(Stochastic Gradient Descent,简称SGD)的方法则是仅随机使用一组数据来进行梯度计算,也就是下山过程中每次走的一步带有一定的随机性,这样可以比普通梯度下降算法节省

    4、很多时间,但缺陷是有更大的可能陷入局部最优解(即到达非最低的谷底)批量梯度下降算法批量梯度下降(Batch Gradient Descent,简称BGD,有时也叫迷你批量梯度下降算法)算法是综合了普通梯度下降和随机梯度下降算法之后折中的一种方法。在这种方法中,每次会从全部训练数据中选取其中的一部分来进行训练之后再进行梯度计算。可以看出,批量梯度下降算法理论上应该比随机梯度下降算法准确度稍高但速度稍慢。动量优化算法动量优化算法主要的改进是在进行梯度计算时,增加了一个动量参数来一定程度上保持前一次的方向。动量即“惯性”,类似奔跑下山时,虽然随时会调整方向,但受到惯性的影响,还是会保持一定的方向或者

    5、说改变方向会较慢。使用动量优化算法,因为可以保持“下山”的大方向不变,理论上可以加快随机梯度下降算法的速度。内斯特洛夫梯度加速算法内斯特洛夫梯度加速(Nesterov Accelerated Gradient,简称NAG)算法是对动量优化算法的进一步改进,它对动量的改变根据下一步的情况做了一定的预测,从而加速了动量算法的梯度下降过程。Adagrad算法Adagrad算法是一种可以自己调节学习率的算法,随着梯度调整的过程,学习率会逐步下降,这样可以避免一些学习率过大导致的跳过最优解的情况。同时,Adagrad算法对可变参数会自动根据一定的规则来使用不同的调整幅度。Adadelta和RMSProp

    6、算法Adadelta和RMSProp这两种算法非常类似,都是对Adagrad算法的一个改进,它们试图解决Adagrad算法中对学习率过于激进而单调的不断减少带来的问题。Adam算法Adam(Adaptive Moment Estimation,可变动量估算)算法是对每一个可变参数都计算动态学习率的算法。Adam算法同时使用了动量和学习率自适应,结合了两类算法的优点,是目前首要推荐的算法目 录 导 航123优化器在神经网络训练中的作用主流优化器简介优化器的对比与选择Contents优化率效率比对总的来说,Adam是首选,RMSProp和Adadelta可以作为备选,普通梯度下降算法相对最慢优化器

    7、的选择与调节optimizer=tf.train.GradientDescentOptimizer(0.001)除了选择合适的优化器之外,优化器的学习率参数是最不可忽视的因素,当训练结果始终无法提升的时候,可以适当调节学习率试试互助互利 共同进步深度学习 基于Python语言和Tensorflow平台更多样书申请和资源下载需求,请登录人邮教育社区()海量图书方便查询免费申请样书下载配套资源优惠购书成为作者囊括各大品类,您想要的应有尽有教师免费申请样书,我们将安排快递迅速送达教学视频、PPT课件、教学案例、习题答案、模拟试卷等丰富资源免费下载教师可以申请最低折扣学生直接优惠购买图书欢迎写文章投稿,我们强大的编辑团队将为您提供专业和高效的编辑出版服务

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:深度学习-基于Python语言和Tensorflow平台第15章-优化器的选择与设置课件.pptx
    链接地址:https://www.163wenku.com/p-3530930.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库