第章神经网络Part课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第章神经网络Part课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 神经网络 Part 课件
- 资源描述:
-
1、BP网络和BP算法v线性不可分问题:感知器模型的局限线性不可分问题:感知器模型的局限v三层感知器三层感知器v多层网络的表达能力多层网络的表达能力vBP网络:多层感知器网络:多层感知器vBP算法:反向传播算法的思想和流程,算法:反向传播算法的思想和流程,训训练协议,隐含层的作用,实用技术练协议,隐含层的作用,实用技术反向传播算法(BP算法)v敏感度的反向传播反向传播算法(BP算法)vBP算法流程:算法流程:Step1:选定权系数初值选定权系数初值Step2:重复下述过程直至收敛重复下述过程直至收敛(对各个样本依对各个样本依次计算次计算)vStep2.1 前馈前馈:从前向后各层计算各单元从前向后各
2、层计算各单元jxjijiinetx11jjjnetxf nete反向传播算法(BP算法)vStep2.2:对输出层计算对输出层计算vStep2.3:从后向前计算各隐层从后向前计算各隐层vStep2.4:计算并保存各个权值修正量计算并保存各个权值修正量jj1jjjjjyxxx1jjjjkkkxx ijjix反向传播算法(BP算法)vStep2.5:修正权值修正权值 1ijijijtt以上算法是对每个样本作权值修正(单样本)以上算法是对每个样本作权值修正(单样本)也可以对各个样本计算也可以对各个样本计算 后求和,按照总误差修后求和,按照总误差修正权值(批处理)正权值(批处理)jBP算法的训练协议v
3、训练协议训练协议(学习协议学习协议):神经网络训练过程中神经网络训练过程中如何根据训练样本调整权值如何根据训练样本调整权值v三种最有用的训练协议:三种最有用的训练协议:随机训练随机训练(stochastic training):模式随机从训模式随机从训练集中选取,每输入一个模式,权值就更新一次练集中选取,每输入一个模式,权值就更新一次成批训练成批训练(batch training):所有模式一次全部所有模式一次全部送入网络,然后才进行一次权值更新送入网络,然后才进行一次权值更新在线训练在线训练(online training):每种模式只提供一每种模式只提供一次,每提供一种模式,权值更新一次次
4、,每提供一种模式,权值更新一次BP算法的训练协议v随机反向传播随机反向传播BP算法的训练协议v成批反向传播成批反向传播累计更新累计更新BP算法的训练协议v在线反向传播隐含层的作用v隐含层的作用:隐含层的作用:学习到一组非线性映射,将样本映学习到一组非线性映射,将样本映射到线性可分的空间射到线性可分的空间v非线性弯曲能力,本质上是一种非线性的特征映射非线性弯曲能力,本质上是一种非线性的特征映射v异或问题的例子:异或问题的例子:隐含层的作用v隐含层的非线性弯曲能力隐含层的非线性弯曲能力1-60个回合的非线性映射和个回合的非线性映射和误差的变化误差的变化总误差总误差各个模式上的误差各个模式上的误差B
5、P算法的优缺点v优点:优点:理论基础牢固理论基础牢固 推导过程严谨推导过程严谨 物理概念清晰物理概念清晰 通用性好通用性好 所以,它是目前用来训练所以,它是目前用来训练多层前向网络多层前向网络(BP网络)网络)较好的算法。较好的算法。BP算法的优缺点v缺点:缺点:BP算法只能收敛于算法只能收敛于局部最优解局部最优解,不能保证收敛,不能保证收敛于全局最优解;于全局最优解;当隐层元的数量足够多时,网络对训练样本的识当隐层元的数量足够多时,网络对训练样本的识别率很高,但对测试样本的识别率有可能很差,别率很高,但对测试样本的识别率有可能很差,即网络的即网络的推广能力推广能力有可能较差。有可能较差。BP
6、算法的实用技术v输出函数(激活函数)输出函数(激活函数)v输入信号尺度变换输入信号尺度变换vc c类问题的目标输出类问题的目标输出v带噪声的训练法带噪声的训练法v人工人工“制造制造”数据数据v隐单元数隐单元数v权值初始化权值初始化v学习率学习率v冲量项冲量项v权值衰减权值衰减BP算法的实用技术v输出函数(激活函数)应具备的性质输出函数(激活函数)应具备的性质非线性:非线性:非线性特征映射,否则三层网络将等同非线性特征映射,否则三层网络将等同于两层网络的计算能力于两层网络的计算能力饱和性:饱和性:存在最大和最小值,即输出有上下界存在最大和最小值,即输出有上下界连续性:连续性:在整个自变量范围内都
7、有定义在整个自变量范围内都有定义光滑性:光滑性:在整个自变量范围内一阶导数存在在整个自变量范围内一阶导数存在最好有单调性:最好有单调性:导数在自变量范围内不变号,避导数在自变量范围内不变号,避免引入不必要的局部极值免引入不必要的局部极值Sigmoid函数满足上述性质,因此被广泛采用函数满足上述性质,因此被广泛采用BP算法的实用技术v输入信号尺度变换输入信号尺度变换鱼分类的例子:鱼分类的例子:x1:质量质量 x2:长度长度vx1=1500克,克,x2=0.3米,则网络权值的调整主要由米,则网络权值的调整主要由x1 控制控制 v x1=1.5千克,千克,x2=300毫米,则网络权值的调整主要由毫米
8、,则网络权值的调整主要由x2控制控制 解决方案:解决方案:输入特征尺度变换,使得输入特征尺度变换,使得v每个特征在整个训练集上的均值为零每个特征在整个训练集上的均值为零v每个特征的方差相同,如都为每个特征的方差相同,如都为1.0规范化规范化BP算法的实用技术vc c类问题的目标输出类问题的目标输出Sigmoid函数的饱和值函数的饱和值1.716永远不可能达到,永远不可能达到,存在误差存在误差c c类问题的判决准则:类问题的判决准则:如果样本如果样本x属于第属于第i类,则类,则第第i个输出单元的目标输出为个输出单元的目标输出为+1,其他输出单元,其他输出单元为为-1例如:例如:四类情况,四类情况
9、,x属于第属于第3类类,目标输出则为,目标输出则为 (-1,-1,+1,-1)BP算法的实用技术v带噪声的训练法带噪声的训练法当训练集很小时,当训练集很小时,可以构造一个虚拟的或替代的训练模可以构造一个虚拟的或替代的训练模式来使用式来使用(建立概率模型)(建立概率模型),就好像它们是从源分布中,就好像它们是从源分布中抽样出来的正常的训练模式抽样出来的正常的训练模式在没有具体特定信息时,一个自然的假设就是此代替模在没有具体特定信息时,一个自然的假设就是此代替模式应该加入一个式应该加入一个d维噪声,以获得真实的训练点维噪声,以获得真实的训练点这种有噪声的训练方法实际上可用于任一分类方法,尽这种有噪
10、声的训练方法实际上可用于任一分类方法,尽管对于高度局部化的分类器(如最近邻分类器)它通常管对于高度局部化的分类器(如最近邻分类器)它通常并不改善准确率并不改善准确率BP算法的实用技术v人工人工“制造制造”数据数据在训练模式不足的情况下,有时可以人工制造一在训练模式不足的情况下,有时可以人工制造一些训练些训练 样本样本需要利用问题的先验知识,如某种需要利用问题的先验知识,如某种“几何不变几何不变性性”,制造出一些能传达更多信息的训练样本,制造出一些能传达更多信息的训练样本数据变换:数据变换:例如字符识别问题中例如字符识别问题中v旋转旋转v缩放缩放v字符笔画宽窄变化字符笔画宽窄变化BP算法的实用技
11、术v隐单元数:隐单元数:隐单元个数决定了网络的表达能力,从隐单元个数决定了网络的表达能力,从而决定了判决边界的复杂度而决定了判决边界的复杂度简单问题需要较少的隐单元简单问题需要较少的隐单元复杂问题需要较多隐单元复杂问题需要较多隐单元过少隐单元造成神经网络表示能力下降过少隐单元造成神经网络表示能力下降过多隐单元造成对训练集的过多隐单元造成对训练集的“过拟合过拟合”v经验规则经验规则选取隐单元个数,使得网络中总的权值数大致为选取隐单元个数,使得网络中总的权值数大致为样本数的样本数的1/10BP算法的实用技术v权值初始化权值初始化ijjiijjkkkxx fnet 若若 则则 无法更新无法更新权值初
12、始化方法:权值初始化方法:假设一个隐单元可以接收假设一个隐单元可以接收d个输入单元的输入个输入单元的输入 初始权值应该在初始权值应该在 上均匀分布上均匀分布 此时,隐单元的净激活范围:此时,隐单元的净激活范围:-1net+1 Sigmoid函数在函数在-1net+1的范围内几乎是线性的的范围内几乎是线性的0jkij1,1ddBP算法的实用技术v学习率:学习率:不同学习率的收敛效果不同学习率的收敛效果vSigmoid网络的学习率:网络的学习率:初始化学习率约为初始化学习率约为0.1;如;如果发散,则调小学习率;如果学习速度过慢,则调果发散,则调小学习率;如果学习速度过慢,则调大学习率。大学习率。
13、BP算法的实用技术v冲量项(冲量项(momentummomentum)v 问题:问题:在在 的区域,权值无法更的区域,权值无法更新新 0J wwBP算法的实用技术v冲量项(冲量项(momentummomentum)误差曲面的误差曲面的“平坦区平坦区”较小,学较小,学习速度慢习速度慢解决方法:解决方法:如果让当前学习保持上一步学如果让当前学习保持上一步学习的习的“惯性惯性”,则可以较快,则可以较快 通过通过“平坦区平坦区”“惯性惯性”的度量:冲量的度量:冲量 J wwBP算法的实用技术v冲量项(冲量项(momentummomentum)上一步(第上一步(第m步)的更新量步)的更新量第第m+1步的
14、步的BP算法更新量算法更新量带冲量的反向传播学习规则带冲量的反向传播学习规则 1mmm BPm 11BPmmmm0101退化为退化为BP算法算法匀速学习匀速学习通常取:通常取:0.9BP算法的实用技术v带冲量的随机反向传播算法带冲量的随机反向传播算法BP算法的实用技术v带冲量的随机反向传播算法带冲量的随机反向传播算法BP算法的实用技术v权值衰减权值衰减一种简化网络以及避免过拟合的方法是加入一个一种简化网络以及避免过拟合的方法是加入一个启发式规则:即启发式规则:即权值应当比较小权值应当比较小实践中,实践中,较小的权值往往可以提高神经网络性能。较小的权值往往可以提高神经网络性能。小权值更加适合线性
15、的模型小权值更加适合线性的模型基本方法:基本方法:从具有从具有“非常多非常多”的权值网络开始,的权值网络开始,在训练中衰减所有的权值在训练中衰减所有的权值oldwww1newoldww01神经网络v引言:人工智能联结主义的学说引言:人工智能联结主义的学说v人工神经网络的发展人工神经网络的发展v人工神经网络的基本概念人工神经网络的基本概念v感知器模型感知器模型vBP网络和网络和BP算法算法v径向基函数网络和学习算法径向基函数网络和学习算法v竞争学习和侧抑制竞争学习和侧抑制v自组织特征映射网络自组织特征映射网络vHopfield神经网络神经网络径向基函数网络v径向基函数网络(径向基函数网络(RBF
16、网络)网络)是一种常用的前馈神是一种常用的前馈神经网络。经网络。v 特征:特征:只有一个隐层;只有一个隐层;隐层单元采用隐层单元采用径向基函数径向基函数作作为输出函数;为输出函数;输入层到输隐层单元间的权输入层到输隐层单元间的权值固定为值固定为1;输出结点为线性求和单元输出结点为线性求和单元隐层到输出结点的权值可调隐层到输出结点的权值可调径向基函数网络v径向基函数的作用往往是局部的,离中心越远函数径向基函数的作用往往是局部的,离中心越远函数值越小。值越小。常用的径向基函数是高斯函数常用的径向基函数是高斯函数。ikxxxix其中:其中:输入向量输入向量第第i个隐结点的中心个隐结点的中心v径向基函
17、数径向基函数(Radial Basis Function):):某种沿某种沿径向对称的标量函数径向对称的标量函数。通常定义为空间中任意一点。通常定义为空间中任意一点到某一中心之间欧氏距离的单调函数。记为:到某一中心之间欧氏距离的单调函数。记为:22exp2iixxkxx径向基函数网络v可以从两个方面理解可以从两个方面理解RBF网络网络 函数逼近:函数逼近:把网络看成对未知函数把网络看成对未知函数 f(x)的逼近的逼近器。一般任何函数都可以表示成一组基函数的加器。一般任何函数都可以表示成一组基函数的加权和,这相当于用隐层单元的输出函数构成一组权和,这相当于用隐层单元的输出函数构成一组基函数来逼近
18、基函数来逼近f(x)。线性分类:线性分类:把隐层看做是对输入的非线性映射把隐层看做是对输入的非线性映射(通常将低维线性不可分的样本映射到高维空(通常将低维线性不可分的样本映射到高维空间),再用线性分类器(输出结点的输出函数是间),再用线性分类器(输出结点的输出函数是线性函数)分类。线性函数)分类。RBF网络学习算法vRBF网络中有三组参数可调:网络中有三组参数可调:隐层基函数的中心、方差,以及隐层结点与输隐层基函数的中心、方差,以及隐层结点与输出结点之间的权值。出结点之间的权值。vRBF网络学习算法的两个阶段网络学习算法的两个阶段 确定确定RBF函数的中心:函数的中心:无师学习无师学习 训练隐
展开阅读全文