人工神经网络课程nn04课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《人工神经网络课程nn04课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工 神经网络 课程 nn04 课件
- 资源描述:
-
1、第2章 前馈型人工神经网络M-P模型感知机模型与学习算法多层感知机网络自适应线性单元与网络非线性连续变换单元组成的前馈网络BP算法2022-11-162.3 非线性连续变换单元组成的网络 由非线性连续变换单元组成的前馈网络,简称为BP(Back Propagation)网络。1.网络的结构与数学描述 2.(i).非线性连续变换单元3.对于非线性连续变换单元,其输入、输出变换函数是非线性、单调上升、连续的即可。但在BP网络中,我们采用S型函数:)(111111)(ijnjijixwuiiijnjijiieeufyxwsu2022-11-162.3 非线性连续变换单元组成的网络函数 是可微的,并且
2、这种函数用来区分类别时,其结果可能是一种模糊的概念。当 时,其输出不是1,而是大于0.5的一个数,而当 时,输出是一个小于0.5的一个数。若用这样一个单元进行分类,当输出是0.8时,我们可认为属于A类的隶属度(或概率)为0.8时,而属于B类的隶属度(或概率)为0.2。)(uf)(ufu)(1)()11()(ufufeufu0u0u2022-11-162.3 非线性连续变换单元组成的网络(ii).网络结构与参数 下面以四层网络为例来介绍BP网络的结构和参数,一般情况类似。1x2xnx1y2ymy1 x2 x1nx1 x2 x2 nxlkilkkjjimTmnTnnTnnTnwwwRyyyyRxx
3、xxRxxxxRxxxx,),(),(),(),(212121212211阈值:连接权:网络输出:第二隐层输出:第一隐层输出:网络输入:jiwkjwlkw 2022-11-162.3 非线性连续变换单元组成的网络 网络的输入输出关系为:显然可以将阈值归入为特别的权,从而网络的参数可用 表示(为一个集合)。上述网络实现了一个多元连续影射:2111211,2,1),(,2,1),(,2,1),(njlklklnjkjkjknijijijmlxwfynkxwfxnjxwfxmnRRWxFy:),(WW2022-11-162.3 非线性连续变换单元组成的网络(iii).网络的学习问题学习的目标:通过网
4、络(或 )来逼近一个连续系统,即连续变换函数 。学习的条件:一组样本(对)对于样本对 ,存在 使得 对于所有样本的解空间为:),(WxF)(xG),(,),(),(2211NNyxyxyxSiWmmnnnnnnnpRWWxFypiii222111,),(WiNiWW1),(iiyx2022-11-162.3 非线性连续变换单元组成的网络(iv).Kolmogorov定理Kolmogorov定理(映射神经网络存在定理,1950s)给定任何连续函数 ,则 能够被一个三层前馈神经网络所实现,其中网络的隐单元数为 。注意:定理未解决构造问题。)(,1,0:xfyRfmnf12 n1x2xnx1z2z1
5、2 nz1y2ymy为正有理数。为常数,为连续函数,为连续单调递增函数,其中jjnjkkinijjgmkzgynjjjxz,2,1),(12,2,1,)(12112022-11-162.3 非线性连续变换单元组成的网络2.BP学习算法(i).基本思想 BP算法属于 学习律,是一种有监督学习:对于辅助变量并将阈值归入权参数:则有:(误差)网络实际输出:理想输出或导师值),样本输入:ErroryyytttxxxNNN,(,212121llkkjjwxwxwx ,1,1,1000000)(),(),(21000knklkninjljkjkijijxwfyxwfxxwfx2022-11-162.3 非
6、线性连续变换单元组成的网络考虑第 个样本的误差:进一步得总误差:引入权参数矩阵:和总权参数向量:212)(21|21lmllytytENlmllNNytytEE121121)(21|21)1()1()1(2121)(,)(,)(nmlknnkjnnjiwwwWWW1011(,)TsgcdvecWvecwwwwvecWWW2022-11-162.3 非线性连续变换单元组成的网络根据总误差得到一般性的梯度算法:终止规则:这里用梯度法可以使总的误差向减小的方向变化,直到 或梯度为零结束。这种学习方式使权向量 达到一个稳定解,但无法保证 达到全局最优,一般收敛到一个局部极小解。gssgsggssgNs
7、gsgsgNwEwwEEwxtWEwEwxtWEE,2,11)(),(),(E)0(?0,0EEEWE2022-11-162.3 非线性连续变换单元组成的网络(ii).BP算法的推导 令 为迭代次数,则得一般性梯度下降法:其中 为学习率,是一个大于零的较小的实数。先考虑对于 的偏导数:0njijijikjkjkjlklklkwEnwnwwEnwnwwEnwnw)()1()()1()()1(000000lkw )()()(2011knklklkNllllklllNllkxwuxufytwuuyyEwE2022-11-162.3 非线性连续变换单元组成的网络在上式中,为第 个样本输入网络时,的对应
8、值。另外令则:为了方便,引入记号:kx kx )1()(1)()(lllllyyufufuf)1()(lllllyyytkNllklklklkxnwwEnwnw)()()1(1000niijijjjnjjkjkkknkklklllxwuufxxwuufxxwuufy000),(),(),(122022-11-162.3 非线性连续变换单元组成的网络对于 的偏导数,我们有:kjwlkmllkkkklkmllkjNkjkklkNmlljkklklllNmlljklkllNmllkjkkkklllNmllkjwxxxxwxxxxwxxxwyyytxufwufytwuuxxuuyyEwE)1()1()
9、1()1()1()()()()(11111111111 其中2022-11-162.3 非线性连续变换单元组成的网络这样我们有:类似的推导可得:(iii).BP算法Step 1.赋予初值:Step 2.在 时刻,计算 及其广义误差 jNkkjkjxnwnw)()1(100knkkjjjjjknkkjjiNjjijiwxxxxwxnwnw 1111100)1()1()()1(其中),(,0),5.0)()0(lkkjjisgsgwwwwRandomwlkjyxx,12,2,1,;,2,1,;,2,1,njnkmljkl 0n2022-11-162.3 非线性连续变换单元组成的网络Step 3.修
10、正权值:Step 4.计算修正后的误差:若 ,算法结束,否则返回到Step 2。iNjjijijNkkjkjkNllklkxnwnwxnwnwxnwnw100100100)()1()()1()()1(),),1()1(010 xtnEnENW|,0()1(0sgwEnE或预先给定)2022-11-162.3 非线性连续变换单元组成的网络BP算法的讨论:a).这里的梯度是对于全部样本求的,因此是一种批处理算法,即 Batch-way,它符合梯度算法,稳定地收敛到总误差的一个极小点而结束。(注意:按总误差小于 可能导致算法不收敛.)b).实际中更常用的是对每个样本修改,即自适应算法,当每次样本是随
11、机选取时,可通过随机逼近理论证明该算法也是收敛的。特点是收敛速度快。C).为了使得算法既稳定,又具有快的收敛速度,可以使用批处理与自适应相补充的算法,即选取一组样本(远小于全部样本)进行计算梯度并进行修正,其它不变。2022-11-162.3 非线性连续变换单元组成的网络3.BP网络误差曲面的特性 BP网络的误差公式为:是一种非线性函数,而多层的BP网络中 又是上一层神经元状态的非线性函数,用 表示其中一个样本对应的误差,则有:可见,与 有关,同时也与所有样本对有关,即与 有关。211)(21lNmllytE)(llufyluENlmllxtEExtEytE121),(),()(21WW),(
12、,),(),(2211NNyxyxyxSEW2022-11-162.3 非线性连续变换单元组成的网络假定样本集 给定,那么 是 的函数。在前面考虑的4层网络中,权值参数的总个数为:那么在加上 这一维数,在 维空间中,是一个具有极其复杂形状的曲面。如果在考虑样本,其形状就更为复杂,难于想象。从实践和理论上,人们得出了下面三个性质:(i).平滑区域 误差广义误差)1()(lllllyyyt平滑区域SEW)1()1()1(2211mnnnnnnWE1WnE2022-11-162.3 非线性连续变换单元组成的网络(ii).全局最优解 不唯一 中的某些元素进行置换依然是全局最优解,这从右边的简单模型可以
13、看出。(iii).局部极小 一般情况下,BP算法会收敛到一个局部极小解,即:当 ,算法以希望误差收敛;当 ,算法不以希望误差收敛,但可按梯度绝对值小于预定值结束。*W*W1x2x1 x2 x),(21Wxxfy 00)(WWn)(0WE)(0WE2022-11-162.3 非线性连续变换单元组成的网络4.算法的改进(i).变步长算法(是由一维搜索求得)Step 1.赋予初始权值 和允许误差 ;Step 2.在时刻 ,计算误差 的负梯度(方向):Step 3.若 ,结束;否则从 出发,沿 做一维搜索,求出最优步长 :Step 4.,转 Step 2。)0(W00n)(0nE W)()(00|)(
14、nnEdWWW|)(0nd)(0nW)(0nd)(0n)(minarg)()(000ndnEnW)(0000)()()1(ndnnnWW2022-11-162.3 非线性连续变换单元组成的网络步长(学习率)的确定方法:(a).求最优解:对 求导数,并令其为零,直接求解:(b).迭代修正法:令 0)()(00ndnWE)(0n)()(0)(00nEdnEEnWW0110,0,,其中EifEifoldoldnew2022-11-162.3 非线性连续变换单元组成的网络(ii).加动量项 为了防止震荡并加速收敛,可采用下述规则:注意注意:上式类似于共轭梯度法的算式,但是这里 不共轭。因此可能出现误差
展开阅读全文