BP神经网络bp设计1课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《BP神经网络bp设计1课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- BP 神经网络 设计 课件
- 资源描述:
-
1、3.4 基于基于BP算法的多层前馈网络模型算法的多层前馈网络模型n三层三层BP网络网络 o1 ok ol W1 Wk Wl y1 y2 yj ym V1 Vm x1 x2 xi xn-1 xn输入层输入层隐层隐层输出层输出层数学表达数学表达n模型的数学表达模型的数学表达输入向量:输入向量:X=(x1,x2,xi,xn)T隐层输出向量:隐层输出向量:Y=(y1,y2,yj,ym)T输出层输出向量:输出层输出向量:O=(o1,o2,ok,ol)T期望输出向量:期望输出向量:d=(d1,d2,dk,dl)T输入层到隐层之间的权值矩阵:输入层到隐层之间的权值矩阵:V=(V1,V2,Vj,Vm)隐层到输
2、出层之间的权值矩阵:隐层到输出层之间的权值矩阵:W=(W1,W2,Wk,Wl)各个变量之间如何建立联系,来描述整个网络各个变量之间如何建立联系,来描述整个网络?神经网络的学习神经网络的学习n学习的过程:学习的过程:w神经网络在外界输入样本的刺激下不断改变网络的连神经网络在外界输入样本的刺激下不断改变网络的连接权值乃至拓扑结构,以使网络的输出不断地接近期接权值乃至拓扑结构,以使网络的输出不断地接近期望的输出。望的输出。n学习的本质:学习的本质:w对可变权值的动态调整对可变权值的动态调整n学习规则:学习规则:w权值调整规则,即在学习过程中网络中各神经元的连权值调整规则,即在学习过程中网络中各神经元
3、的连接权变化所依据的一定的调整规则。接权变化所依据的一定的调整规则。nBPBP算法是一种学习规则算法是一种学习规则)()()()(ttd,t,trjjjXXWWBP算法的基本思想算法的基本思想n学习的类型:有导师学习学习的类型:有导师学习n核心思想:核心思想:w将输出误差将输出误差以某种形式以某种形式通过隐层向输入层逐层反传通过隐层向输入层逐层反传n学习的过程:学习的过程:w信号的正向传播信号的正向传播 误差的反向传播误差的反向传播将误差分摊给各层的所有将误差分摊给各层的所有单元各层单元的误单元各层单元的误差信号差信号修正各单元权修正各单元权值值BP算法的学习过程算法的学习过程n正向传播:正向
4、传播:w输入样本输入层各隐层输出层输入样本输入层各隐层输出层n判断是否转入反向传播阶段:判断是否转入反向传播阶段:w若输出层的实际输出与期望的输出(教师信号)不符若输出层的实际输出与期望的输出(教师信号)不符n误差反传误差反传w误差以某种形式在各层表示修正各层单元的权值误差以某种形式在各层表示修正各层单元的权值n网络输出的误差减少到可接受的程度网络输出的误差减少到可接受的程度进行到预先设定的学习次数为止进行到预先设定的学习次数为止建立权值变化量与误差之间的关系建立权值变化量与误差之间的关系n输出层与隐层之间的连接权值调整输出层与隐层之间的连接权值调整n隐层和输入层之间的连接权值调整隐层和输入层
5、之间的连接权值调整jkjkwEwj=0,1,2,m;k=1,2,l (3.4.9a)ijijvEvi=0,1,2,n;j=1,2,m (3.4.9b)式中负号表示梯度下降,常数式中负号表示梯度下降,常数(0,1)表示比例系数,反映了表示比例系数,反映了训练速率。可以看出训练速率。可以看出BP算法属于算法属于学习规则类,这类算法常被学习规则类,这类算法常被称为误差的梯度下降称为误差的梯度下降(Gradient Descent)算法。算法。初始化 V、W、Emin,、q=1,p=1,E=0输入样本,计算各层输出:m21jfyTjj,.,),(XVl21kfoTjk,.,),(YW计算误差:P1pl
6、1k2kkod21E)(计算各层误差信号:l21koo1odkkkk,.,)(okm21jyy1wjjl1kjkokyj,.,)(调整各层权值:m10jl21kjyokjkwjkw,.,.,n10 xm21jxvviyjijij,.,.,Y p 增 1,q 增 1 pP?N N E=0,p=1 EEmin Y 结束BP算法的程序实现算法的程序实现(1)初始化;初始化;PppPRMEEE11(4)计算各层误差信号;计算各层误差信号;(5)调整各层权值;调整各层权值;(6)检查是否对所有样本完成一次检查是否对所有样本完成一次 轮训;轮训;(7)检查网络总误差是否达到精检查网络总误差是否达到精 度要
7、求。度要求。(2)输入训练样本对输入训练样本对X Xp、d dp计算各层输出;计算各层输出;(3)计算网络输出误差;计算网络输出误差;BP算法的程序实现算法的程序实现初始化 V、W计数器 q=1,p=1输入第一对样本计算各层输出计算误差:P1pl1k2kkod21E)(Y p 增 1 pP?N用 E 计算各层误差信号 调整各层权值 q 增 1 N ErmsEmin E=0,p=1 Y 结束 然后根据总误差计算各层的然后根据总误差计算各层的误差信号并调整权值。误差信号并调整权值。P1pl1k2pkpkod21E)(总 另一种方法是在所有样本输另一种方法是在所有样本输入之后,计算网络的总误差:入之
8、后,计算网络的总误差:多层前馈网的主要能力多层前馈网的主要能力(1)非线性映射能力非线性映射能力 多层前馈网能学习和存贮大量输入多层前馈网能学习和存贮大量输入-输出模式映射输出模式映射关系,而无需事先了解描述这种映射关系的数学方程。关系,而无需事先了解描述这种映射关系的数学方程。只要能提供足够多的样本模式对供只要能提供足够多的样本模式对供BP网络进行学习训网络进行学习训练,它便能完成由练,它便能完成由n维输入空间到维输入空间到m维输出空间的非线维输出空间的非线性映射。性映射。多层前馈网的主要能力多层前馈网的主要能力(2)泛化能力泛化能力 当向网络输入训练时未曾见过的非样本数据时,当向网络输入训
9、练时未曾见过的非样本数据时,网络也能完成由输入空间向输出空间的正确映射。这网络也能完成由输入空间向输出空间的正确映射。这种能力称为多层前馈网的泛化能力。种能力称为多层前馈网的泛化能力。(3)容错能力容错能力 输入样本中带有较大的误差甚至个别错误对网络的输入样本中带有较大的误差甚至个别错误对网络的输入输出规律影响很小。输入输出规律影响很小。误差曲面与误差曲面与BP算法的局限性算法的局限性 误差函数的可调整参误差函数的可调整参数的个数数的个数nw等于各层权值等于各层权值数加上阈值数,即:数加上阈值数,即:)1()1(mlnmnw 误差误差E是是nw+1维空间中维空间中一个形状极为复杂的曲面,一个形
10、状极为复杂的曲面,该曲面上的每个点的该曲面上的每个点的“高度高度”对应于一个误差值,每个点对应于一个误差值,每个点的坐标向量对应着的坐标向量对应着nw个权值,个权值,因此称这样的空间为误差的因此称这样的空间为误差的权空间。权空间。误差曲面的分布误差曲面的分布BP算法的局限性算法的局限性n曲面的分布特点曲面的分布特点-算法的局限性算法的局限性n(1)存在平坦区域存在平坦区域-误差下降缓慢,影响收敛速度误差下降缓慢,影响收敛速度n(2)存在多个极小点存在多个极小点-易陷入局部最小点易陷入局部最小点 曲面分布特点曲面分布特点1:存在平坦区域:存在平坦区域n平坦误差的梯度变化小平坦误差的梯度变化小 接
11、近于零接近于零okjokikywE存在平坦区域的原因分析存在平坦区域的原因分析n 接近于零的情况分析接近于零的情况分析n造成平坦区的原因:造成平坦区的原因:各节点的净输入过大各节点的净输入过大 f(x)1.0 0.5x0)1()(kkkkokoood30mjjjkywok对应着误差的某个谷点对应着误差的某个谷点 平坦区平坦区 曲面分布特点曲面分布特点2:存在多个极小点:存在多个极小点 n误差梯度为零误差梯度为零n多数极小点都是局部极小,即使是全局极小往多数极小点都是局部极小,即使是全局极小往往也不是唯一的。往也不是唯一的。单权值单权值双权值双权值曲面分布特点曲面分布特点2:存在多个极小点:存在
12、多个极小点nBP算法算法w以误差梯度下降为权值调整原则以误差梯度下降为权值调整原则n误差曲面的这一特点误差曲面的这一特点w使之无法辨别极小点的性质使之无法辨别极小点的性质n导致的结果:导致的结果:w因而训练经常陷入某个局部极小点而不能自拔,从而因而训练经常陷入某个局部极小点而不能自拔,从而使训练无法收敛于给定误差。使训练无法收敛于给定误差。标准标准BP算法的改进引言算法的改进引言n误差曲面的形状固有的误差曲面的形状固有的n算法的作用是什么?算法的作用是什么?w调整权值,找到最优点调整权值,找到最优点n那么如何更好地调整权值?那么如何更好地调整权值?w利用算法使得权值在更新的过程中,利用算法使得
13、权值在更新的过程中,走走合适的路径,合适的路径,比如跳出平坦区来提高收敛速度,跳出局部最小点等等比如跳出平坦区来提高收敛速度,跳出局部最小点等等n如何操作?如何操作?w需要在进入平坦区或局部最小点时进行一些判断,通过需要在进入平坦区或局部最小点时进行一些判断,通过改变某些参数来使得权值的调整更为合理。改变某些参数来使得权值的调整更为合理。标准的标准的BP算法内在的缺陷:算法内在的缺陷:易形成局部极小而得不到全局最优;易形成局部极小而得不到全局最优;训练次数多使得学习效率低,收敛速度慢;训练次数多使得学习效率低,收敛速度慢;隐节点的选取缺乏理论指导;隐节点的选取缺乏理论指导;训练时学习新样本有遗
14、忘旧样本的趋势。训练时学习新样本有遗忘旧样本的趋势。针对上述问题,国内外已提出不少有效的改进针对上述问题,国内外已提出不少有效的改进算法,下面仅介绍其中算法,下面仅介绍其中3种较常用的方法。种较常用的方法。3.5 标准标准BP算法的改进算法的改进n改进改进1:增加动量项:增加动量项n改进改进2:自适应调节学习率:自适应调节学习率n改进改进3:引入陡度因子引入陡度因子改进改进1:增加动量项:增加动量项n提出的原因:提出的原因:w标准标准BP算法只按算法只按t时刻误差的梯度降方向调整,时刻误差的梯度降方向调整,而没有考虑而没有考虑t时刻以前的梯度方向时刻以前的梯度方向w从而常使训练过程发生振荡,收
15、敛缓从而常使训练过程发生振荡,收敛缓慢。慢。n方法:方法:)1()(ttWXW为动量系数,一般有为动量系数,一般有(0 0,1 1)n实质:实质:w从前一次权值调整量中取出一部分迭加到本次权值调整从前一次权值调整量中取出一部分迭加到本次权值调整量中量中n作用:作用:w动量项反映了以前积累的调整经验,对于动量项反映了以前积累的调整经验,对于t时刻的调整时刻的调整起阻尼作用。起阻尼作用。w当误差曲面出现骤然起伏时,可减小振荡趋势,提高训当误差曲面出现骤然起伏时,可减小振荡趋势,提高训练速度。练速度。改进改进1:增加动量项:增加动量项改进改进2:自适应调节学习率:自适应调节学习率n提出的原因:提出的
16、原因:w标准标准BP算法中,学习率算法中,学习率也称为步长,确定一也称为步长,确定一个从始至终都合适的最佳学习率很难。个从始至终都合适的最佳学习率很难。w平坦区域内,平坦区域内,太小会使训练次数增加;太小会使训练次数增加;w在误差变化剧烈的区域,在误差变化剧烈的区域,太大会因调整量过大太大会因调整量过大而跨过较窄的而跨过较窄的“坑凹坑凹”处,使训练出现振荡,处,使训练出现振荡,反而使迭代次数增加。反而使迭代次数增加。改进改进2:自适应调节学习率:自适应调节学习率n基本思想:基本思想:w自适应改变学习率,使其根据环境变化增大或减小。自适应改变学习率,使其根据环境变化增大或减小。n基本方法:基本方
17、法:w设一初始学习率,若经过一批次权值调整后使总误差设一初始学习率,若经过一批次权值调整后使总误差,则本次调整无效,且,则本次调整无效,且=(1)。改进改进3:引入陡度因子引入陡度因子n提出的原因:提出的原因:w误差曲面上存在着平坦区域。误差曲面上存在着平坦区域。w权值调整进入平坦区的原因是神经元输出进入了转移函权值调整进入平坦区的原因是神经元输出进入了转移函数的饱和区。数的饱和区。n基本思想:基本思想:w如果在调整进入平坦区后,设法压缩神经元的净输入,如果在调整进入平坦区后,设法压缩神经元的净输入,使其输出退出转移函数的不饱和区,就可以改变误差函使其输出退出转移函数的不饱和区,就可以改变误差
18、函数的形状,从而使调整脱离平坦区。数的形状,从而使调整脱离平坦区。o 1 =1 1 21 net 0改进改进3:引入陡度因子引入陡度因子n基本方法:基本方法:w在原转移函数中引入一个陡度因子在原转移函数中引入一个陡度因子w当发现当发现E接近零而接近零而d-o仍较大时,可判断已进入仍较大时,可判断已进入平坦区,此时令平坦区,此时令1;w当退出平坦区后,再令当退出平坦区后,再令=1。/11neteo改进改进3:引入陡度因子引入陡度因子 作用分析:作用分析:w1:net坐标压缩了坐标压缩了倍,神经倍,神经元的转移函数曲线的敏感区段元的转移函数曲线的敏感区段变长,从而可使绝对值较大的变长,从而可使绝对
19、值较大的net退出饱和值。退出饱和值。w=1:转移函数恢复原状,对绝转移函数恢复原状,对绝对值较小的对值较小的net具有较高的灵敏具有较高的灵敏度。度。w应用结果表明该方法对于提高应用结果表明该方法对于提高BP算法的收敛速度十分有效。算法的收敛速度十分有效。o 1 =1 1 21 net 0n基于基于BP算法的多层前馈网络模型算法的多层前馈网络模型nBP算法的实现算法的实现w基本思想基本思想w推导过程推导过程w程序实现程序实现nBP学习算法的功能学习算法的功能nBP学习算法的局限性学习算法的局限性nBP学习算法的改进学习算法的改进3.6 BP网络设计基础网络设计基础n一一、训练样本集的准备、训
20、练样本集的准备w1.输入输出量的选择输入输出量的选择w2.输入量的提取与表示输入量的提取与表示w3.输出量的表示输出量的表示n二、输入输出数据的归一化二、输入输出数据的归一化n三、网络训练与测试三、网络训练与测试1 输出量的选择输出量的选择n 输出量输出量:代表系统要实现的功能目标代表系统要实现的功能目标 系统的性能指标系统的性能指标 分类问题的类别归属分类问题的类别归属 非线性函数的函数值非线性函数的函数值一一 、训练样本集的准备、训练样本集的准备输入量的选择输入量的选择n输入量选择的两条基本原则输入量选择的两条基本原则w必须选择那些对输出影响大且能够检测或提取的必须选择那些对输出影响大且能
21、够检测或提取的变量变量w各输入变量之间互不相关或相关性很小各输入变量之间互不相关或相关性很小一一 、训练样本集的准备、训练样本集的准备输入输出量的性质输入输出量的性质n从输入、输出量的性质来看,可分为两类:一类从输入、输出量的性质来看,可分为两类:一类是数值变量,一类是语言变量。是数值变量,一类是语言变量。w数值变量数值变量的值是数值确定的连续量或离散量。的值是数值确定的连续量或离散量。w语言变量语言变量是用自然语言表示的概念,其是用自然语言表示的概念,其“语言值语言值”是是用自然语言表示的事物的各种属性。用自然语言表示的事物的各种属性。当选用语言变量作为网络的输入或输出变量时,需当选用语言变
22、量作为网络的输入或输出变量时,需将其语言值转换为离散的数值量。将其语言值转换为离散的数值量。一一 、训练样本集的准备、训练样本集的准备2.2.输入量的提取与表示输入量的提取与表示XC=(111100111)T XI=(111100111)T XT=(111100111)T(1)文字符号输入文字符号输入一一 、训练样本集的准备、训练样本集的准备x(t)xn x1 t 0 1 2 3 4 5 n(2)曲线输入)曲线输入TpnpipppxxxxX),.,.,(21p=1,2,P一一 、训练样本集的准备、训练样本集的准备(3)函数自变量输入函数自变量输入w一般有几个输入量就设几个分量,一般有几个输入量
23、就设几个分量,1个输入分量对应个输入分量对应1个输入层节点。个输入层节点。(4)图象输入图象输入w在这类应用中,一般先根据识别的具体目的从图象中在这类应用中,一般先根据识别的具体目的从图象中提取一些有用的特征参数,再根据这些参数对输入的提取一些有用的特征参数,再根据这些参数对输入的贡献进行筛选,这种特征提取属于图象处理的范畴。贡献进行筛选,这种特征提取属于图象处理的范畴。一一 、训练样本集的准备、训练样本集的准备3.3.输出量的表示输出量的表示(1)“n中取中取1”表示法表示法 “n中取中取1”是令输出向量的分量数等于类别数,输入是令输出向量的分量数等于类别数,输入样本被判为哪一类,对应的输出
24、分量取样本被判为哪一类,对应的输出分量取1,其余,其余 n-1 个分个分量全取量全取0。例如,用。例如,用 0001、0010、0100 和和 1000可分别表可分别表示优、良、中、差示优、良、中、差4个类别。个类别。(2)“n-1”表示法表示法 如果用如果用n-1个全为个全为0的输出向量表示某个类别,则可的输出向量表示某个类别,则可以节省一个输出节点。例如,用以节省一个输出节点。例如,用000、001、010和和100也也可表示优、良、中、差可表示优、良、中、差4个类别。个类别。(3)数值表示法数值表示法 对于渐进式的分类,可以将语言值转化为二值之间对于渐进式的分类,可以将语言值转化为二值之
25、间的数值表示。数值的选择要注意保持由小到大的渐进关的数值表示。数值的选择要注意保持由小到大的渐进关系,并要根据实际意义拉开距离。系,并要根据实际意义拉开距离。一一 、训练样本集的准备、训练样本集的准备二、输入输出数据的归一化二、输入输出数据的归一化 归一化也称为或标准化,是指通过变换处理将归一化也称为或标准化,是指通过变换处理将网络的输入、输出数据限制在网络的输入、输出数据限制在0,1或或-1,1区间区间内。内。进行归一化的主要原因:进行归一化的主要原因:归一化的方法:归一化的方法:进行归一化的主要原因:进行归一化的主要原因:n网络的各个输入数据常常具有不同的网络的各个输入数据常常具有不同的物
展开阅读全文