书签 分享 收藏 举报 版权申诉 / 39
上传文档赚钱

类型理解玻尔兹曼机和深度学习课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:2253556
  • 上传时间:2022-03-26
  • 格式:PPT
  • 页数:39
  • 大小:1.49MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《理解玻尔兹曼机和深度学习课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    理解 玻尔兹曼机 深度 学习 课件
    资源描述:

    1、理解玻尔兹曼机和深度学习侯越先天津大学网络智能信息技术研究所2014-11-031动机 解释玻尔兹曼机(BM)和深度学习(DL)模型的经验成功 启发面向维数约简、信息抽象和去噪应用的新颖方法和模型2存在的解释 神经生理解释 通用近似解释(可近似性和近似复杂性) 规则化解释3我们的观点 现有解释中包含了有益的启发 现有解释远不完备,玻尔兹曼机和深度学习的有效性需要基于“第一原则”的形式化澄清 信息几何为形式化解释提供了理论工具4维数约简、信息抽象和去噪的“第一原则” 第一原则:维数约简、信息抽象和去噪应该尽可能地保留数据中的主要信息,同时滤除噪声或次要信息 “第一原则”能否被一般地实现?5存在的

    2、方法 常用维数约简、信息抽象和去噪算法实现了“第一原则”吗? 例子:PCA 例子:低通滤波6反思 基于特征空间的模型似乎都建议在特定先验假设之上 为了更一般地实现维数约简、信息抽象和去噪目的,有必要考虑替换的数据表示空间7我们的基本思路 考虑数据的参数空间! 一般地定义生成模型的参数的相对重要性 根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪8例子:log-linear分布族与高斯分布9 满足 参数约减!参数约减!关键技术问题 如何一般地定义参数的相对重要性? 解决方案: 1 定义概率分布或密度之间的距离度量距离度量 2 由参数相对于距离度量的重要性给出参数之间的相对重要性10

    3、度量概率分布(或密度)之间距离的“公理” 1 满足基本的度量三公理 2 似然一致性:可有效反映统计推断的似然性11 度量概率分布(或密度)之间距离的“公理”(续1) 3 重参数化不变性 对于概率分布(或密度)和的任两种参数化和,均有 这里是距离度量 12 度量概率分布(或密度)之间距离的“公理”(续2) 4 相对于变量集上的随机映像的单调性: (1) 如果随机映像对应于充分统计量,则距离度量不变 (2) 否则,距离度量减小13是否存在同时满足上述所有公理的距离度量? 存在且唯一! 里程碑: 1 Fisher (Early 1930) 2 Rao (1945) 3 Cencov (1982)14

    4、Fisher-Rao度量 单参数定义 多参数定义15 Fisher-Rao距离(信息距离) 局域定义: 全局定义:16 Cramer-Rao下界与Fisher-Rao度量的似然一致性Fisher信息决定了参数无偏估计的方差下界 单参数情形 多参数情形由参数估计的渐进正态性及渐进有效性,可直接说明Fisher-Rao度量对应于参数被“误估计”的可能性(似然一致性) 17 参数约简基本思路(Refined) 1 特征空间 - 参数空间 2 利用参数的Fisher信息,定义参数的相对重要性 3 根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪 可信信息优先原则(Confident In

    5、formation First)!18实例:n布尔变量分布个布尔型随机变量个布尔型随机变量的参数化中的任意项,这里表示,其余类似如何对上述分布应用CIF原则? 19实例:n布尔变量分布(续1) 技术困难:各个p参数具有相等的Fisher信息 解决办法:寻找替换的参数表示(利用信息几何)20实例:n布尔变量分布(续2) 布尔变量分布的坐标表示(即参数化) 坐标:-1个归一化的正数 坐标: 坐标: 21 实例:n布尔变量分布(续3)混合坐标: (l-分割混合坐标)在混合坐标系下,参数谱系的信息含量(Fisher信息)可建立显著的层次结构,且低Fisher信息含量的参数可自然地确定中立值! 22玻尔

    6、兹曼机与n布尔变量分布 随机神经网络, 网络的整体能量函数: 玻尔兹曼-吉布斯分布: BM模型参数模型参数 2324玻尔兹曼机与CIF原则(1)结论1(Amari et. al. , 1992):给定目标概率分布: 单层波尔兹曼机(SBM)实现了2-分割混合坐标 上的参数剪切,即: l-分割混合坐标 24 玻尔兹曼机与CIF原则(2) 结论2(Zhao, Hou and et. al., 2013):SBM实现的参数剪切符合CIF原则:保留具有大Fisher信息的参数,同时对小Fisher信息的参数采用中立估计。25 可信参数非可信参数 玻尔兹曼机与CIF原则(3) 结论3(Zhao, Hou

    7、 and et. al., 2013):在所有同维度子流行M中,SBM所实现的映像在期望意义上最大程度地保持概率分布间的Fisher信息距离26 为以为中心的KL等距球面 和分别为在上的投影 玻尔兹曼机与CIF原则(4)结论4(Zhao, Hou and et. al., 2013):给定联合概率分布的分数分数2-分割混合坐分割混合坐标: RBM实现了分数2-分割混合坐标下参数剪切 27 玻尔兹曼机与CIF原则(5) 结论5 (Zhao, Hou and et. al., 2013):RBM实现的参数剪切符合CIF原则:保留具有大Fisher信息的参数,同时对小Fisher信息的参数采用中立估

    8、计28 可信参数非可信参数 玻尔兹曼机与CIF原则(6) 结论6(贝叶斯分析):假设背景分布中的绝大多数p项 趋近于0,则可证明:由任意被BM剪切掉的参数所导致的信息距离损失典型地趋近于0;而任意被BM保留的参数所对应的信息距离典型地大于0。29 ,为小常数,为任意小常数,为的阶数 深度结构 多层CIF原则的应用 逐层保持可信信息、并实现信息抽象 在最高层同时达到“最可信”和“最抽象”的目标30训练波尔兹曼机:-Maximum Likelihood and Contrastive Divergence ML目标:最大化log似然函数 随机梯度方法31UWhx 分别表示在样本分布稳态分布和迭代次

    9、的近似稳态分布上的期望值 正正Gibbs采样:采样: 负Gibbs采样:采样: CD-m:使用近似梯度 受限波尔兹曼机(RBM)-迭代映像算法(IP)为所有RBM稳态分布的集合为正Gibbs采样的样本分布的集合 Whx最小化KL距离: 背景分布 边际稳态分布 32任务任务:5个显式变量概率密度估计受限波尔兹曼机-迭代映像算法(IP)33基于CIF的模型选择 最小化模型误差最大保持Fisher信息距离 如何区分可信参数及非可信参数? 对Fisher信息距离的贡献程度大小34 结论:对于布尔分布,BM为同等参数规模下的最优模型。对BM的模型选择-无隐含节点 参数过多模型复杂过度拟合样本 权衡:模型

    10、复杂度 vs 保留的样本信息 保留可信参数,约减非可信参数35abcdabcdBM模型选择-无隐含节点评价:10变量的概率密度估计;对比模型:随机选边横轴:参数保留比率纵轴:与样本分布(第一行)和真实分布(第二行)的KL距离36BM模型选择-有隐含节点 权衡:模型复杂度 vs 保留的样本信息 RBM + 可视结点边37WhxWhxBM模型选择-有隐含节点评价:10变量的概率密度估计(隐变量10个);对比模型:随机选边横轴:参数保留比率;纵轴:与样本分布(第一行)和真实分布(第二行)的KL距离38问题和回答X. Zhao, Y. Hou et al: Understanding Deep Learning by Revisiting Boltzmann Machines: An Information Geometry Approach. CoRR abs/1302.3931 (2013).Xiaozhao Zhao, Yuexian Hou et al: Extending the Extreme Physical Information to Universal Cognitive Models via a Confident Information First Principle. Entropy 16(7): 3670-3688 (2014). 39

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:理解玻尔兹曼机和深度学习课件.ppt
    链接地址:https://www.163wenku.com/p-2253556.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库