最新计算学习理论未讲课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《最新计算学习理论未讲课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 计算 学习理论 讲课
- 资源描述:
-
1、2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏2概述 本章从理论上刻画了若干类型的机器学习问题中的困难和若干类型的机器学习算法的能力 这个理论要回答的问题是:在什么样的条件下成功的学习是可能的?在什么条件下某个特定的学习算法可保证成功运行?这里考虑两种框架:可能近似正确(PAC)确定了若干假设类别,判断它们能否从多项式数量的训练样例中学习得到 定义了一个对假设空间复杂度的自然度量,由它可以界定归纳学习所需的训练样例数目 出错界限框架 考查了一个学习器在确定正确假设前可能产生的训练错误数量2003.12.18机器学习-计算学习理论 作者:Mitc
2、hell 译者:曾华军等 讲者:陶晓鹏9问题框架X表示所有实例的集合,C代表学习器要学习的目标概念集合,C中每个目标概念c对应于X的某个子集或一个等效的布尔函数c:X0,1假定实例按照某概率分布D从X中随机产生学习器L在学习目标概念时考虑可能假设的集合H。在观察了一系列关于目标概念c的训练样例后,L必须从H中输出某假设h,它是对c的估计我们通过h在从X中抽取的新实例上的性能来评估L是否成功。新实例与训练数据具有相同的概率分布我们要求L足够一般,以至可以从C中学到任何目标概念而不管训练样例的分布如何,因此,我们会对C中所有可能的目标概念和所有可能的实例分布D进行最差情况的分析2003.12.18
3、机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏10假设的错误率 为了描述学习器输出的假设h对真实目标概念的逼近程度,首先要定义假设h对应于目标概念c和实例分布D的真实错误率 h的真实错误率是应用h到将来按分布D抽取的实例时的期望的错误率 定义:假设h的关于目标概念c和分布D的真实错误率为h误分类根据D随机抽取的实例的概率)()(Pr)(xhxcherrorDxD2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏11假设的错误率(2)图7-1:h关于c的错误率是随机选取的实例落入h和c不一致的区间的概率真实错误率紧密地依
4、赖于未知的概率分布D 如果D是一个均匀的概率分布,那么图7-1中假设的错误率为h和c不一致的空间在全部实例空间中的比例 如果D恰好把h和c不一致区间中的实例赋予了很高的概率,相同的h和c将造成更高的错误率h关于c的错误率不能直接由学习器观察到,L只能观察到在训练样例上h的性能训练错误率:指代训练样例中被h误分类的样例所占的比例问题:h的观察到的训练错误率对真实错误率产生不正确估计的可能性多大?2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏12PAC可学习性 我们的目标是刻画出这样的目标概念,它们能够从合理数量的随机抽取训练样例中通过合理的计算量
5、可靠地学习 对可学习性的表述 一种可能的选择:为了学习到使errorD(h)=0的假设h,所需的训练样例数 这样的选择不可行:首先要求对X中每个可能的实例都提供训练样例;其次要求训练样例无误导性 可能近似学习:首先只要求学习器输出错误率限定在某常数范围内的假设,其次要求对所有的随机抽取样例序列的失败的概率限定在某常数范围内 只要求学习器可能学习到一个近似正确的假设2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏13PAC可学习性(2)PAC可学习性的定义 考虑定义在长度为n的实例集合X上的一概念类别C,学习器L使用假设空间H。当对所有cC,X上的
6、分布D,和满足0,=1个独立随机抽取的样例,那么对于任意0=1,变型空间VSH,D不是-详尽的概率小于或等于:证明:令h1,.,hk为H中关于c的真实错误率大于的所有假设。当且仅当k个假设中至少有一个恰好与所有m个独立随机抽取样例一致时,不能使变型空间-详尽化。任一假设真实错误率大于,且与一个随机抽取样例一致的可能性最多为1-,因此,该假设与m个独立抽取样例一致的概率最多为(1-)m 由于已知有k个假设错误率大于,那么至少有一个与所有m个训练样例都不一致的概率最多为(当 ,则 )meH|mmmeHHk|)1(|)1(10e12003.12.18机器学习-计算学习理论 作者:Mitchell 译
7、者:曾华军等 讲者:陶晓鹏19有限假设空间的样本复杂度(5)定理7.1基于训练样例的数目m、允许的错误率和H的大小,给出了变型空间不是-详尽的概率的上界 即它对于使用假设空间H的任意学习器界定了m个训练样例未能将所有“坏”的假设(错误率大于的假设)剔除出去的概率 利用上面的结论来确定为了减少此“未剔除”概率到一希望程度所需的训练样例数 由 解出m,得到 meH|)/1ln(|ln1Hm2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏20有限假设空间的样本复杂度(6)式子7.2提供了训练样例数目的一般边界,该数目的样例足以在所期望的值和程度下,使任
8、何一致学习器成功地学习到H中的任意目标概念 训练样例的数目m足以保证任意一致假设是可能(可能性为1-)近似(错误率为)正确的 m随着1/线性增长,随着1/和假设空间的规模对数增长 上面的界限可能是过高的估计,主要来源于|H|项,它产生于证明过程中在所有可能假设上计算那些不可接受的假设的概率和 在7.4节讨论一个更紧凑的边界以及能够覆盖无限大的假设空间的边界2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏21不可知学习和不一致假设 如果学习器不假定目标概念可在H中表示,而只简单地寻找具有最小训练错误率的假设,这样的学习器称为不可知学习器 式7.2基
9、于的假定是学习器输出一零错误率假设,在更一般的情形下学习器考虑到了有非零训练错误率的假设时,仍能找到一个简单的边界 令S代表学习器可观察到的特定训练样例集合,errorS(h)表示h的训练错误率,即S中被h误分类的训练样例所占比例 令hbest表示H中有最小训练错误率的假设,问题是:多少训练样例才足以保证其真实错误率errorD(hbest)不会多于+errorS(hbest)?(上一节问题是这个问题的特例)2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏22不可知学习和不一致假设(2)前面问题的回答使用类似定理7.1的证明方法,这里有必要引入一
10、般的Hoeffding边界 Hoeffding边界刻画的是某事件的真实概率及其m个独立试验中观察到的频率之间的差异 Hoeffding边界表明,当训练错误率errorS(h)在包含m个随机抽取样例的集合S上测量时,则 上式给出了一个概率边界,说明任意选择的假设训练错误率不能代表真实情况,为保证L寻找到的最佳的假设的错误率有以上的边界,我们必须考虑这|H|个假设中任一个有较大错误率的概率22)()(PrmSDeherrorherror22|)()(PrmSDeHherrorherrorHh2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏23不可知学
11、习和不一致假设(3)将上式左边概率称为,问多少个训练样例m才足以使维持在一定值内,求解得到 式7.3是式7.2的一般化情形,适用于当最佳假设可能有非零训练错误率时,学习器仍能选择到最佳假设hH的情形。)/1ln(|ln212Hm2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏24布尔文字的合取是PAC可学习的 我们已经有了一个训练样例数目的边界,表示样本数目为多少时才足以可能近似学习到目标概念,现在用它来确定某些特定概念类别的样本复杂度和PAC可学习性 考虑目标概念类C,它由布尔文字的合取表示。布尔文字是任意的布尔变量,或它的否定。问题:C是可P
12、AC学习的吗?若假设空间H定义为n个布尔文字的合取,则假设空间|H|的大小为3n,得到关于n布尔文字合取学习问题的样本复杂度140)05.0/1ln(3ln101.01)/1ln(3ln1nm2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏25布尔文字的合取是PAC可学习的(2)定理7.2:布尔合取式的PAC可学习性 布尔文字合取的类C是用Find-S算法PAC可学习的 证明:式7.4显示了该概念类的样本复杂度是n、1/和1/的多项式级,而且独立于size(c)。为增量地处理每个训练样例,Find-S算法要求的运算量根据n线性增长,并独立于1/、
13、1/和size(c)。因此这一概念类别是Find-S算法PAC可学习的。2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏26其他概念类别的PAC可学习性 无偏学习器(无归纳偏置)考虑一无偏概念类C,它包含与X相关的所有可教授概念,X中的实例定义为n个布尔值特征,则有 无偏的目标概念类在PAC模型下有指数级的样本复杂度nXCH2|22|)/1ln(2ln21nm2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏27其他概念类别的PAC可学习性(2)K项DNF和K-CNF概念 某概念类有多项式级的样本复杂
14、度,但不能够在多项式时间内被学习到 概念类C为k项析取范式(k项DNF)的形式 k项DNF:T1.Tk,其中每一个Ti为n个布尔属性和它们的否定的合取 假定H=C,则|H|最多为3nk,代入式7.2,得到 因此,k项DNF的样本复杂度为1/、1/、n和k的多项式级 但是计算复杂度不是多项式级,该问题是NP完全问题(等效于其他已知的不能在多项式时间内解决的问题)因此,虽然k项DNF有多项式级的样本复杂度,它对于使用H=C的学习器没有多项式级的计算复杂度)/1ln(3ln1nkm2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏28其他概念类别的PAC
15、可学习性(3)令人吃惊的是,虽然k项DNF不是PAC可学习的,但存在一个更大的概念类是PAC可学习的 这个更大的概念类是K-CNF,它有每样例的多项式级时间复杂度,又有多项式级的样本复杂度 K-CNF:任意长度的合取式T1.Tj,其中每个Ti为最多k个布尔变量的析取 容易证明K-CNF包含了K项DNF,因此概念类k项DNF是使用H=K-CNF的一个有效算法可PAC学习的2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏29无限假设空间的样本复杂度 式子7.2用|H|刻画样本复杂度有两个缺点:可能导致非常弱的边界 对于无限假设空间的情形,无法应用 本
16、节考虑H的复杂度的另一种度量,称为H的Vapnik-Chervonenkis维度(简称VC维或VC(H))使用VC维代替|H|也可以得到样本复杂度的边界,基于VC维的样本复杂度比|H|更紧凑,另外还可以刻画无限假设空间的样本复杂度2003.12.18机器学习-计算学习理论 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏30打散一个实例集合 VC维衡量假设空间复杂度的方法不是用不同假设的数量|H|,而是用X中能被H彻底区分的不同实例的数量 S是一个实例集,H中每个h导致S的一个划分,即h将S分割为两个子集xS|h(x)=1和xS|h(x)=0 定义:一实例集S被假设空间H打散,当且仅当对S
展开阅读全文