第13章-统计学习理论与支持机简介课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第13章-统计学习理论与支持机简介课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 13 统计 学习理论 支持 简介 课件
- 资源描述:
-
1、模模 式式 识识 别别统计学习理论与支持向量机简介统计学习理论与支持向量机简介要点o 实例学习能力与推广能力o 复杂性与推广能力o 期望风险最小化与期望风险最小化o 支持向量机原理主要内容 o统计学习理论的研究内容o学习问题研究的四个阶段o人物简介o统计学习理论的理论介绍o应用领域o网络资源统计学习理论的研究内容o 人的智慧:n 实例学习能力与推广能力o 基于数据的机器学习问题:n 是现代智能技术中的重要方面n 研究通过对已知数据的学习,找到数据内在的相互依赖关系,从而对未知数据的预测或对性质进行判断统计学习理论的研究内容o 目前机器学习方法存在的问题n 现有机器学习方法(模式识别、神经网络等
2、)共同的理论基础之一是统计学n 传统统计学基础是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设n 实际问题中,样本数有限的,因此理论上优秀的学习方法实际中表现不尽人意统计学习理论的研究内容o 统计学习理论:n 把学习问题看成是一个基于经验数据进行函数估计的一般问题,研究关于学习和推广性的统计理论的基本思想。n 针对小样本情况研究统计学习规律的理论,核心思想是通过控制学习机器的容量实现对推广能力的控制。n SVM是基于统计学习理论而发明的一种工具。学习问题研究的四个阶段o 第一个学习机器的创立(60年代)n 起源与20世纪30年代的Fisher理论没有考虑归纳推断问题,不属于机器学
3、习理论n 1962 Rosenblatt第一个学习机器模型,感知器,感知器为神经元选择适当的系数n 1962 Novikoff 关于感知器的第一个定理,学习理论的开始。学习问题研究的四个阶段n 应用分析学派认为,使学习机器具有推广能力的唯一因素是训练集误差最小,这是不言而喻的;理论分析学派认为需要更智能化的归纳原则。学习问题研究的四个阶段o 学习理论的创立(6070年代)n 其它类型学习机器:Widrow的Madaline自适应学习机;Steinbuch的学习矩阵等。作为解决实际问题的工具来研究,没有作为学习现象的一般模型。为了解决实际问题的的各种逻辑函数程序(决策树等)、隐马尔可夫模型有没有
4、涉及一般学习现象的研究。学习问题研究的四个阶段n 经验风险最小 化原 则 的 理论:1968 Vapnik&Chervonenkis 模式识别问题的VC熵和VC维概念;泛函空间的大数定律,得到收敛速度的非渐进界;1971 Vapnik&Chervonenkis 上述理论的证明,为结构风险最小化奠定基础。19761981,实函数集VC熵和VC维概念;大数定律、完全有界的函数集和无界函数集一致收敛速度的界,以及结构风险最小化原则。学习问题研究的四个阶段1989 Vapnik&Chervonenkis 经验风险最小化归纳原则和最大似然方法的一致性的充分条件。90年代,能够控制推广性能的新学习机器的合
5、成,SVM 学习问题研究的四个阶段o 解决不适定问题的理论:n Tikhonov,Ivanov和Phillips发现解决不适定问题的正则化原则。o 密度估计的非参数方法:n Parzen,Rosenblatt和Chentsov发现的非参数统计学。o 算法复杂度思想:n Kolmogorov,Solomonoff和Chaitin发现的算法复杂性及其与归纳推理的关系。学习问题研究的四个阶段o 神经网络的创立(80年代)n1986 LeCun,Rumelhart,Hinton和Williams多层感知器的后向传播算法 n三个失败(自然语言翻译,通用问题求解器,大系统自动控制机)n理论分析目标的简化,
6、强调复杂理论无用,提倡简单的算法 n术语改变(感知器-神经网络);与生理学家合作;构造利用大脑来推广的模型。n1984 可能近似正确(probably approximately correct,PAC)模型,统计分析用于人工智能领域。学习问题研究的四个阶段o 回到起点(90年代)n统计学习理论开始吸引更多学者n结构风险最小化原则和最小描述长度原则成为一个研究热点n小样本数理论开始展开。n开始研究对任意数目的观测,如何得到最高的推广能力。人物简介Vladimir Vapnik:o1958年硕士毕业于苏联乌兹别克的Uzbek State Universityo19611990莫斯科控制科学研究所
7、,计算机科学研究处的负责人oAT&T实验室研究中心的技术领导;伦敦大学教授 理论介绍:机器学习的基本问题 o 机器学习问题表示 根据 n个独立同分布观测样本:(x1,y1),(x2,y2),(xn,yn),在一组函数 中求一个最优的函数 对依赖关系进行估计,使期望风险最小),(),(,()(0yxdFxfyLR),(0 xf),(xf理论介绍:机器学习的基本问题 o 经验风险最小化学习的目标在于使期望风险最小化,传统的学习方法中采用了所谓经验风险最小化(ERM)准则,即用样本定义经验风险作为对期望风险的估计,设计学习算法使它最小化n 用 ERM准则代替期望风险最小化没有充分的理论论证niiie
8、mpxfyLnR1),(,(1)(理论介绍:机器学习的基本问题 o 复杂性与推广能力n过学习问题n过学习现象原因:一是因为样本不充分,二是学习机器设计不合理,这两个问题是互相关联的。n一个简单的例子,假设有一组实数样本 x,y,y取值在 0,1 之间,那么不论样本是依据什么模型产生的,只要用函数 f(x,)=sin(x)去拟合它们(是待定参数),总能够找到一个 使训练误差为零n由此可看出,有限样本情况下,1)经验风险最小并不一定意味着期望风险最小;2)学习机器的复杂性不但应与所研究的系统有关,而且要和有限数目的样本相适应统计学习理论的核心内容o 统计学习理论就是研究小样本统计估计和预测的理论,
9、主要内容包括四个方面:n 1)经验风险最小化准则下统计学习一致性的条件;n 2)在这些条件下关于统计学习方法推广性的界的结论;n 3)在这些界的基础上建立的小样本归纳推理准则;n 4)实现新的准则的实际方法(算法).n 其中,最有指导性的理论结果是推广性的界,与此相关的一个核心概念是 VC维.统计学习理论的核心内容o VC维n 直观定义:对一个指示函数集,如果存在 h个样本能够被函数集中的函数按所有可能的 种形式分开,则称函数集能够把 h个样本打散;函数集的 VC维就是它能打散的最大样本数目 hn 例如,n维实数空间中线性分类器和线性实函数的 VC维是 n+1;f(x,)=sin(x)的 VC
10、维则为无穷大n VC维反映了函数集的学习能力,VC维越大则学习机器越复杂(容量越大)n 尚没有通用的关于任意函数集 VC维计算的理论h2统计学习理论的核心内容o 推广性的界n经验风险和实际风险之间以至少 1-的概率满足如下关系n该结论从理论上说明学习机器的实际风险是由两部分组成的:一是经验风险(训练误差),另一部分称作置信范围,它和学习机器的 VC维及训练样本数有关n它表明,在有限训练样本下,学习机器的 VC维越高(复杂性越高)则置信范围越大,导致真实风险与经验风险之间可能的差别越大)4/ln()1)/2(ln()()(nhnhRRemp理论介绍:机器学习的基本问题 o 结构风险最小化 n经验
11、风险原则在样本有限时是不合理的,我们需要同时最小化经验风险和置信范围n在传统方法中,选择学习模型和算法的过程就是调整置信范围的过程.因为缺乏理论指导,这种选择过分依赖使用者“技巧”n结构风险最小化(Structural Risk Minimization或译有序风险最小化)即 SRM准则n实现 SRM原则可以有两种思路:1)在每个子集中求最小经验风险,然后选择使最小经验风险和置信范围之和最小的子集;理论介绍:机器学习的基本问题 2)设计函数集的某种结构使每个子集中都能取得最小的经验风险(如使训练误差为 0),然后只需选择选择适当的子集使置信范围最小支持向量机o 核心内容是在1992到 1995
展开阅读全文