《深度学习》课件3.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《深度学习》课件3.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度学习 深度 学习 课件
- 资源描述:
-
1、人脑是一个神奇的世界。它可以让我们认识许多东西,并在认人脑是一个神奇的世界。它可以让我们认识许多东西,并在认识这些东西以后得到很好的泛化能力。就好像我们认识了一个识这些东西以后得到很好的泛化能力。就好像我们认识了一个白猫以后,就能认识其他大大小小,颜色不同的猫一样。或者白猫以后,就能认识其他大大小小,颜色不同的猫一样。或者当我们遇到某些需要做决定的事情时,我们总能根据经验和实当我们遇到某些需要做决定的事情时,我们总能根据经验和实际情况做出一个合乎常理的决策。既然人脑的功能如此强大又际情况做出一个合乎常理的决策。既然人脑的功能如此强大又如此聪慧,那么我们能不能让计算机模仿大脑,从而让它也变如此聪
2、慧,那么我们能不能让计算机模仿大脑,从而让它也变得更加智能呢得更加智能呢?本章简介本章简介3-1 3-1 人脑是如何学习的人脑是如何学习的据估计,人类大脑拥有据估计,人类大脑拥有10001000亿个神经细胞,如果把它们排成一条直线,亿个神经细胞,如果把它们排成一条直线,长度将达到长度将达到10001000公里。大脑是由许多神经元联结而成的巨大网络,如公里。大脑是由许多神经元联结而成的巨大网络,如图图3-13-1所示所示。图图3-1 3-1 人脑神经网络示意图人脑神经网络示意图神经元的树突接收外界感官信息,当神经元的树突接收外界感官信息,当神经元被激活时,神经元通过细胞轴神经元被激活时,神经元通
3、过细胞轴突将信息传导到其他神经元,下一个突将信息传导到其他神经元,下一个神经元的树突继续用来接收其他神经神经元的树突继续用来接收其他神经元的输入信号,以此类推。元的输入信号,以此类推。神经元被激活有一种很特殊的性质:当神经元被刺激的强度未达到神经元被激活有一种很特殊的性质:当神经元被刺激的强度未达到某一阈值时,神经冲动不会发生;而当刺激强度达到或超过某一阈某一阈值时,神经冲动不会发生;而当刺激强度达到或超过某一阈值时,神经冲动能够发生并达到最大强度。此后刺激的强度即使再值时,神经冲动能够发生并达到最大强度。此后刺激的强度即使再持续加强或减弱,已诱发的冲动强度也不再发生变化持续加强或减弱,已诱发
4、的冲动强度也不再发生变化。图。图3-23-2给出给出了一个简单的神经元结构。了一个简单的神经元结构。图图3-2 3-2 神经元的构成神经元的构成举个现实生活中的例子举个现实生活中的例子例如,听说当年的老同学们打算举办一个聚会。你想念当年的老同学,例如,听说当年的老同学们打算举办一个聚会。你想念当年的老同学,正考虑是否去参加。或许会通过如下三个因素设置权重来作出决定。正考虑是否去参加。或许会通过如下三个因素设置权重来作出决定。1.1.天气好吗?天气好吗?2.2.你的前男朋友或者前女朋友会不会出现?你的前男朋友或者前女朋友会不会出现?3.3.这个聚会举办的地点是否便于前往?这个聚会举办的地点是否便
5、于前往?我们可以把天气好设为我们可以把天气好设为1,不好为,不好为0;前任出现;前任出现设为设为-1,不出现设为,不出现设为0;聚会地点交通方便设;聚会地点交通方便设为为1,不方便设为,不方便设为0。我。我们的大脑就会做出相应们的大脑就会做出相应判断,也就判断,也就是神是神经元的树突会受到刺激,并且经元的树突会受到刺激,并且把相应的信息传递给其它神经元,使我们做出把相应的信息传递给其它神经元,使我们做出最终的判断,如图最终的判断,如图3-3所示。所示。图图3 3-3-3 神经元处理信息示意图神经元处理信息示意图jjDecidew x(3-13-1)式式3-13-1,当当DecideDecide
6、数值超过一定值以后,就做出去参加聚会的打算,数值超过一定值以后,就做出去参加聚会的打算,这个值就称为阈这个值就称为阈值值。对应神经元的特性来讲,就是当神经元的刺激对应神经元的特性来讲,就是当神经元的刺激强度达到或超过某一阈值时,神经冲动才能够发生,如图强度达到或超过某一阈值时,神经冲动才能够发生,如图3-43-4所示。所示。图图3-4 3-4 神经元处理不同权重信息示意图神经元处理不同权重信息示意图3-2 3-2 模仿人脑模仿人脑神经元(感知器神经元(感知器)图图3 3-5-5 感知器感知器一个庞大的神经网络是由众多神经元构成的。如果想要构造一个符一个庞大的神经网络是由众多神经元构成的。如果想
7、要构造一个符合要求的大规模神经网络,就必须要从单个神经元入手合要求的大规模神经网络,就必须要从单个神经元入手。种被称种被称为为“感知器感知器”的人工神经元在的人工神经元在20 20 世纪五、六世纪五、六年代由科学家年代由科学家Frank Frank Rosenblatt Rosenblatt 发明出来。发明出来。对应我们上一节所讲的实际问题对应我们上一节所讲的实际问题,神经网络的输出,由分配权重后神经网络的输出,由分配权重后的总和来决定,当这个数值大于或小于某个阈值的时候,我们就会的总和来决定,当这个数值大于或小于某个阈值的时候,我们就会做出去参加还是不参加聚会的决定。假设我们去参加聚会的情况
8、用做出去参加还是不参加聚会的决定。假设我们去参加聚会的情况用数字数字1 1来表示,不去的情况则用来表示,不去的情况则用0 0来表示,那么感知器的工作方法可来表示,那么感知器的工作方法可以用代数形式去表示以用代数形式去表示:10jjjjw xthresholdOutputw xthreshold(3-23-2)这就是一个感知器的基本表示。我们可以根据上述的数学模型,认这就是一个感知器的基本表示。我们可以根据上述的数学模型,认为感知器是一个根据输入与权重来做出决定的设备。为感知器是一个根据输入与权重来做出决定的设备。图图3 3-6-6 感知器网络感知器网络这个例这个例说明了一个感知器如何能权衡不同
9、的依据来进行决策。如说明了一个感知器如何能权衡不同的依据来进行决策。如果遇到更加复杂的问题,我们可以增加感知器网络的复杂程度,以果遇到更加复杂的问题,我们可以增加感知器网络的复杂程度,以增加它的处理能力,如图增加它的处理能力,如图3-63-6所示。所示。inputinput是输入数据。第一列的三个神是输入数据。第一列的三个神经元被称为第一层感知器,分别对应经元被称为第一层感知器,分别对应天气、人员和交通这三天气、人员和交通这三个因个因素。而第素。而第二层的感知器是在权衡上一层的决策二层的感知器是在权衡上一层的决策结果并做出决定结果并做出决定。第。第三层中的感知器三层中的感知器能进行更加复杂的决
10、策。图能进行更加复杂的决策。图3-63-6中第中第三层感知器只有一个神经元,代表输三层感知器只有一个神经元,代表输出出outputoutput。以这种方式,一个多层的。以这种方式,一个多层的感知器网络就可以从事复杂巧妙的决感知器网络就可以从事复杂巧妙的决策。策。一个复杂网络拥有众多感知器,我们不可能依次去设定阈值(人为一个复杂网络拥有众多感知器,我们不可能依次去设定阈值(人为设定阈值也存在不确定性)。同时,神经网络本身也可能存在误差。设定阈值也存在不确定性)。同时,神经网络本身也可能存在误差。因此,我们不妨将阈值左移:因此,我们不妨将阈值左移:jjwxthreshold可以整理为:可以整理为:
11、(3-33-3)jjw xb(3-43-4)我们也可以利用向量点积的形式来代替我们也可以利用向量点积的形式来代替jjw x1000w xbOutputw xb(3-53-5)B称为偏置(称为偏置(Bias),式),式3-5为感知器的一般表达式。为感知器的一般表达式。3-3 3-3 非线性神经元非线性神经元复杂的数学模型很多是非线性的。众多线性模型的叠加无法很复杂的数学模型很多是非线性的。众多线性模型的叠加无法很好地拟合非线性部分,如图好地拟合非线性部分,如图3-73-7所示。所示。为了解决上述问题,我们引入激活函数(为了解决上述问题,我们引入激活函数(Activation FunctionsA
12、ctivation Functions)。)。激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。何非线性函数,这样神经网络就可以应用到众多的非线性模型中。图图3-7 3-7 线性不可分(左)与线性可分(右)样本线性不可分(左)与线性可分(右)样本如何引入激活函数呢?我们通常将激活函数与线性神经元合并在一如何引入激活函数呢?我们通常将激活函数与线性神经元合并在一起使之成为非线性神经元,其原理如图起使之成为非线性神经元,其原理如图3-83-8所示。所示。图图3-8 3-8
13、 非线性神经元原理非线性神经元原理()wxb下面介绍几种典型的激活函数下面介绍几种典型的激活函数 Sigmoid函数函数表达式函数表达式:函数图像函数图像:特点:特点:它能够把输入的连续实值变换为它能够把输入的连续实值变换为0 0和和1 1之间的输出。特别的之间的输出。特别的,如果输入是非常大的负数,那么输出就是,如果输入是非常大的负数,那么输出就是0 0;如果输入是非常;如果输入是非常大的正数,输出就是大的正数,输出就是1 1。(3-73-7)1()1zze图图3-9 Sigmoid3-9 Sigmoid函数函数将上将上述的表达式带入述的表达式带入sigmoidsigmoid函数,得到函数,
14、得到可以看出可以看出:这样看来它似乎还是一个感知机,只不过是将数据压缩进这样看来它似乎还是一个感知机,只不过是将数据压缩进0,10,1范围内。当在范围内。当在0,10,1之间的时候与线性神经元有所偏离,其原因之间的时候与线性神经元有所偏离,其原因就是引入了非线性。就是引入了非线性。(3-93-9)1()1wx bze(3-83-8)()0()1zzzeze Tanh函数函数表达式函数表达式:函数图像函数图像:性质:性质:引入引入TanhTanh非线性函数后,曲线关于坐标轴奇对非线性函数后,曲线关于坐标轴奇对称称。(3-103-10)图图3-10 3-10 TanhTanh函函数数zzzzeee
15、ez)tanh(ReLu 函数函数表达式函数表达式:函数图像函数图像:性质:性质:ReLUReLU函数其实就是一个取最大值函数,但是这并不是全区函数其实就是一个取最大值函数,但是这并不是全区间可导的。由于只需要判断输入是否大于间可导的。由于只需要判断输入是否大于0 0,所以计算速度非常,所以计算速度非常快,收敛速度远快于快,收敛速度远快于sigmoidsigmoid和和tanhtanh函数。函数。ReLuReLu是目前常用的激是目前常用的激活函数。活函数。(3-113-11)图图3-11 3-11 ReLuReLu函数函数Remax(0,)lux3-4 3-4 神经网络架构神经网络架构在了解了
16、单个神经元(感知器)和非线性激活函数后,现在可以在了解了单个神经元(感知器)和非线性激活函数后,现在可以考虑组建较为复杂的神经网络了。本节先介绍一些神经网络的术考虑组建较为复杂的神经网络了。本节先介绍一些神经网络的术语。语。如图如图3-123-12所示,假设我们获得了这样一个神经网络:所示,假设我们获得了这样一个神经网络:图图3-12 3-12 神经网络基本构造神经网络基本构造这个这个网络网络中最左边的称为中最左边的称为输入层输入层(Input Input LayerLayer),其中的神经元称为输入神经元,),其中的神经元称为输入神经元,原始数据由该层输入到神经网络进行后续处原始数据由该层输
17、入到神经网络进行后续处理。最右边的为理。最右边的为输出层输出层(Output LayerOutput Layer),),包含有输出神经元,该输出层是神经网络对包含有输出神经元,该输出层是神经网络对样本处理后的最终结果,例如分类结果样本处理后的最终结果,例如分类结果。在在输入层和输出层之间的是中间层,也被称为输入层和输出层之间的是中间层,也被称为隐藏层或隐含层隐藏层或隐含层(Hidden Hidden LayerLayer)。)。设计网络的输入、输出层通常是比较简单、直接的。设计网络的输入、输出层通常是比较简单、直接的。例如例如,我,我们知道了一朵花的花萼长度、宽度,花瓣的长度、宽度们知道了一朵
18、花的花萼长度、宽度,花瓣的长度、宽度,尝尝试利用这四个特征来确定它是哪一种花试利用这四个特征来确定它是哪一种花。一朵花的四个特征一朵花的四个特征,需,需要要4 4个输入神经元,每个数值代表花朵一种特征的个输入神经元,每个数值代表花朵一种特征的具体数值具体数值。当输出层为一个神经元时,可以根据输出的数字确定花朵的当输出层为一个神经元时,可以根据输出的数字确定花朵的类型。如果输出层是多个神经元,我们可以使用每一个输出神经元代表类型。如果输出层是多个神经元,我们可以使用每一个输出神经元代表一种类型的花,这种方法被称为一种类型的花,这种方法被称为one-hotone-hot。图图3-13 3-13 O
19、ne-hot One-hot 编码示意图编码示意图One-hotOne-hot是一种常用的输出层编码是一种常用的输出层编码方法。例如,我们一共有三种花,方法。例如,我们一共有三种花,则则网络网络的输出层包含有的输出层包含有3 3个神经元,个神经元,如图如图3-133-13所示。所示。3-5 3-5 梯度下降梯度下降我们希望寻找到一个算法,能够自动地调整神经网络的权重和偏置,我们希望寻找到一个算法,能够自动地调整神经网络的权重和偏置,让网络的输让网络的输出出y(x)y(x)能够拟合所有的训练输能够拟合所有的训练输入入x x。但是如何衡量希望但是如何衡量希望输出与实际输出之间的偏差呢?为此引入输出
20、与实际输出之间的偏差呢?为此引入代价函数代价函数(Cost Cost FunctionFunction)的概念,也叫)的概念,也叫损失函数损失函数(Loss FunctionLoss Function)或)或目标函数目标函数。定义如下的代价函数,也被称为二次代价函数:定义如下的代价函数,也被称为二次代价函数:3.5.1 3.5.1 代价函数代价函数21(,)()2xC w by xan(3-123-12)其中其中,w w为为网络中的权重网络中的权重,b b为为网络中的偏置网络中的偏置,n n是是训练输入数据的训练输入数据的个数个数,y(xy(x)表表示目标输出示目标输出,a a代代表当输入表当
21、输入为为x x时时网络的实际输出网络的实际输出。我们把式(我们把式(3-123-12)称为二次代价函数,也被称为)称为二次代价函数,也被称为均方误差均方误差或者或者MSEMSE。代价函数具有如下性质:代价函数具有如下性质:非负性;非负性;所比较的两个函数数值越接近,代价函数值就越小(最小所比较的两个函数数值越接近,代价函数值就越小(最小化)。化)。那么为什么要引入代价函数呢?直接最大化正确分类的数量不是更那么为什么要引入代价函数呢?直接最大化正确分类的数量不是更好吗,何必去最小化好吗,何必去最小化个代价函数这样的间接评估量呢个代价函数这样的间接评估量呢?在在神经网络中,通过调整权重和偏置直接进
展开阅读全文