人工智能深度学习与神经网络2-课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《人工智能深度学习与神经网络2-课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 深度 学习 神经网络 课件
- 资源描述:
-
1、深度学习与神经网络深度学习与神经网络2 参考讲义 深度学习 第4-5章:4.3,5.9 第6章:6.1,6.2,6.3,6.4,6.5 第9章:9.1-9.3 动手学深度学习 第5章:5.1,5.2,5.3,5.4,5.7 第6章:6.1,6.2,6.6,6.7,6.8主要内容 深度学习基础 基于梯度的学习,隐藏单元,架构设计 正向传播、反向传播和计算图 模型构造,参数初始化策略 卷积神经网络 卷积层,通道,池化层 卷积神经网络(LeNet),VGG,残差网络ResNet 循环神经网络:序列建模 循环神经网络RNN,双向RNN,深度循环网络 门控循环单元GRU,长短期记忆LSTM 优化算法主要
2、内容 卷积神经网络 卷积层,通道,池化层 卷积神经网络(LeNet),VGG,残差网络ResNet 循环神经网络:序列建模 循环神经网络RNN,双向RNN,深度循环网络 门控循环单元GRU,长短期记忆LSTM 优化算法深度学习基础 深度学习算法都可以被描述为:特定的数据集、损失函数、优化过程和模型模型是 ,优化过程可以定义为求解损失函数梯度为零。神经网络和线性模型的最大区别,在于神经网络的非线性导致大多数我们感兴趣的代价函数都变得非凸。深度学习基础 当模型和损失函数形式较为简单时,上的误差最小化问题的解可以直接公式表达出来。这类解叫做解析解(analytical solution)。多数深度学
3、习模型只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。这类解叫做数值解(numerical solution)。小批量(mini-batch)样本的随机梯度下降(stochastic gradient descent,SGD)。算法实现过程:深度学习基础 先选取组模型参数的初始值,例如随机选取;接下来对参数进多次迭代,使得每次迭代都可能降低损失函数的值。在每次迭代中,先随机例均匀采样个由固定数训练数据样本所组成的小批量 ;然后求小批量中数据样本的平均损失有关模型参数的导数(梯度);最后此结果与预先设定的个正数的乘积作为模型参数在本次迭代的减小量。深度学习基础 如针对模型 ,可定义平
4、方损失函数通常,我们用训练数据集中所有样本误差的平均来衡量模型预测的质量,即在模型训练中,我们希望找出组模型参数,记为 ,来使得训练样本平均损失最小:深度学习基础 此模型中,其中,代表每个小批量中的样本个数(批量小,batch size),称作学习率(learning rate)并取正数。这的批量小和学习率的值是为设定的,并不是通过模型训练学出的,因此叫做超参数(hyperparameter)。深度学习基础梯度下降梯度下降(gradient descent)假设连续可导的函数 f:R R 的输和输出都是标量这 f(x)是函数 f 在 x 处的梯度。维函数的梯度是个标量,也称导数。找到个常数 0
5、,使得|f(x)|够小,那么可以将?替换为 f(x)并得到深度学习基础 这意味着,如果我们通过来迭代 x,函数 f(x)的值可能会降低。因此在梯度下降中,我们先选取个初始值 x 和常数 0,然后不断通过上式来迭代 x,直到达到停条件,例如 的值已够小或迭代次数已达到某个值。深度学习基础 隐藏层:不同于输出层,训练数据并没有直接指明其他层应该怎么做。学习算法必须决定如何使用这些层来产生想要的输出,但是训练数据并没有说每个单独的层应该做什么。相反,学习算法必须决定如何使用这些层来最好地实现 的近似。因为训练数据并没有给出这些层中的每一层所需的输出,所以这些层被称为 隐藏层(hidden layer
6、)。深度学习基础 该如何选择隐藏单元的类型,这些隐藏单元用在模型的隐藏层中。如整流线性单元 大多数的隐藏单元都可以描述为接受输入向量 x,计算仿射变换 ,然后使用一个逐元素的非线性函数 g(z)。logistic sigmoid 激活函数双曲正切激活函数深度学习基础架构设计 架构(architecture)一词是指网络的整体结构:它应该具有多少单元,以及这些单元应该如何连接。大多数是链式结构:主要的架构考虑是选择网络的深度和每一层的宽度。万能近似定理万能近似定理。另外一个关键点是如何将层与层之间连接起来。深度学习基础深度学习基础正向传播、反向传播和计算图 正向传播深度学习基础 反向传播:指的是
7、计算神经络参数梯度的法。总的来说,依据微积分中的链式法则,沿着从输出层到输层的顺序,依次计算并存储标函数有关神经络各层的中间变量以及参数的梯度。对输输出 X,Y,Z 为任意形状张量的函数 Y=f(X)和 Z=g(Y),通过链式法则,我们有 例子中,它的参数是 W(1)和 W(2),因此反向传播的目标是计算 J/W(1)和 J/W(2)。应用链式法则依次计算各中间变量和参数的梯度,其计算次序与前向传播中相应中间变量的计算次序相反。首先,分别计算目标函数 J=L+s 有关损失项 L 和正则项 s的梯度:深度学习基础 在训练深度学习模型时,正向传播和反向传播之间相互依赖。,正向传播的计算可能依赖于模
8、型参数的当前值。而这些模型参数是在反向传播的梯度计算后通过优化算法迭代的。例如,计算正则化项 另,反向传播的梯度计算可能依赖于各变量的当前值。而这些变量的当前值是通过正向传播计算得到的。如 参数梯度 需要依赖隐藏层变量的当 前值 h。主要内容 深度学习基础 基于梯度的学习,隐藏单元,架构设计 正向传播、反向传播和计算图 模型构造,参数初始化策略 卷积神经网络 卷积层,通道,池化层 卷积神经网络(LeNet),VGG,残差网络ResNet 循环神经网络:序列建模 循环神经网络RNN,双向RNN,深度循环网络 门控循环单元GRU,长短期记忆LSTM 优化算法卷积神经网络 卷积神经网络CNN(con
9、volutional neural network)是含有卷积层(convolutional layer)的神经网络。最常用的维卷积层。它有高和宽两个空间维度,常用来处理图像数据。卷积核(filter)卷积神经网络 维卷积层将输和卷积核做互相关运算,并加上个标量偏差来得到输出。卷积层的模型参数包括了卷积核和标量偏差。在训练模型的时候,通常我们先对卷积核随机初始化,然后不断迭代卷积核和偏差。卷积神经网络 二维卷积层输出的二维数组可以看作是输入在空间维度(宽和高)上某级的表征,也叫特征特征图图(feature map)。影响元素 x 的前向计算的所有可能输入区域(可能大于输入的实际尺寸)叫做 x的
10、感受野感受野(receptive field)。可以通过更深的卷积神经网络使特征图中单个元素的感受野变得更加阔,从而捕捉输入上更大尺寸的特征卷积神经网络填充和步幅 填充(padding)是指在输和宽的两侧填充元素(通常是 0 元素)。图 5.2 我们在原输和宽的两侧分别添加了值为 0 的元素,使得输和宽从 3 变成了 5,并导致输出和宽由 2 增加到 4。卷积神经网络 般来说,如果在的两侧共填充 ph,在宽的两侧共填充 pw 列,那么输出形状将会是卷积神经网络步幅步幅 卷积窗口从输数组的最左上开始,按从左往右、从上往下的顺序,依次在输数组上滑动。我们将每次滑动的数和列数称为步幅(stride)
11、。卷积神经网络通道 前到的输和输出都是维数组,但真实数据的维度经常更。例如,彩图像在和宽两个维度外还有 RGB(红、绿、蓝)三个颜通道。假设彩图像的和宽分别是 h 和w(像素),那么它在内存中可以表为个 3 h w 的多维数组。我们将小为 3 的这维称为通道(channel)维。卷积神经网络卷积神经网络 多输出通道:当输通道有多个时,由于我们对各个通道的结果做了累加,所以不论输通道数是多少,输出通道数总是为 1。设卷积核输通道数和输出通道数分别为 ci 和 co,和宽分别为 kh 和 kw。如果我们希望得到含多个通道的输出,我们可以为每个输出通道分别创建形状为 ci kh kw 的核数组。将它
12、们在输出通道维上连结,卷积核的形状即 co ci kh kw。在互相关运算时,每个输出通道上的结果由卷积核在该输出通道上的核数组与整个输数组计算而来。卷积神经网络卷积神经网络 卷积窗口形状为 1 1(kh=kw=1)的多通道卷积层。我们通常称之为 1 1 卷积卷积层层,并将其中的卷积运算称为 1 1 卷积。因为使了最小窗口,1 1 卷积失去了卷积层可以识别和宽维度上相邻元素构成的模式的功能。实际上,1 1 卷积的主要计算发在通道维上。卷积神经网络 梯度消失/爆炸卷积神经网络 sigmoid导数最大值1/4 推导卷积神经网络 解决方案解决方案 预训练加微调:DBN,Hinton 非饱和的激活函数
13、(如 ReLU、leakrelu、elu)批量归一化(Batch Normalization)梯度截断(Gradient Clipping)残差结构 好的参数初始化方式,如He初始化 正则化 LSTM非饱和的激活函数 ReLuBN(Batch Normalization)批量归一化批量归一化具有加速网络收敛速度,提升训练稳定性的效果。BN利小批量上的均值和标准差,不断调整神经络中间输出,从而使得整个神经络在各层的中间输出的数值更稳定 通过对每一层的输出规范为均值和方差一致的方法,消除了 带来的放大缩小的影响,进而解决梯度消失和爆炸的问题BN(Batch Normalization)对对全连接层
展开阅读全文