机器学习课件p3-贝叶斯学习-.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习课件p3-贝叶斯学习-.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 课件 p3 贝叶斯
- 资源描述:
-
1、第六部分第六部分贝叶斯学习贝叶斯学习参考书目参考书目1.Tom M.Mitchell 机器学习机器学习 机械工业出版社机械工业出版社1.1.李连文李连文 郭海鹏郭海鹏 贝叶斯网络引论贝叶斯网络引论科学出版社科学出版社0 两个示例两个示例树后有几只箱子?树后有几只箱子?可能的情况可能的情况自然语言的二义性自然语言的二义性 lThe girl saw the boy with a telescope.lThe girl saw-with-a-telescope the boy.lThe girl saw the-boy-with-a-telescope.1 贝叶斯公式贝叶斯公式)()()|()|(
2、DPhPhDPDhP 先验概率和后验概率先验概率和后验概率lP(h):h的的先验概率先验概率。表示在没有训练数据前表示在没有训练数据前假设假设h拥有的拥有的初始概率初始概率;l先验概率反映了关于先验概率反映了关于h是一正确假设的机会的是一正确假设的机会的背景知识。如果没有这一先验知识,可以简单背景知识。如果没有这一先验知识,可以简单地将地将每一候选假设赋予相同的先验概率每一候选假设赋予相同的先验概率;lP(D):训练数据:训练数据D的先验概率,的先验概率,P(D|h)表示假表示假设设h成立时成立时D的概率;的概率;lP(h|D):h的的后验概率后验概率。表示给定。表示给定D时时h的成的成立的概
3、率。立的概率。贝叶斯公式贝叶斯公式l提供了从先验概率提供了从先验概率P(h)、P(D)和和P(D|h)计算后计算后验概率验概率P(h|D)的方法,的方法,lP(h|D)随着随着P(h)和和P(D|h)的增长而增长,随着的增长而增长,随着P(D)的增长而减少的增长而减少。l即如果即如果D独立于独立于h时被观察到的可能性越大,时被观察到的可能性越大,那么那么D对对h的支持度越小。的支持度越小。极大后验假设(极大后验假设(MAP)l在候选假设集合在候选假设集合H中寻找给定数据中寻找给定数据D时,可时,可能性最大的假设能性最大的假设h;l确定确定MAP的方法是用贝叶斯公式计算每个的方法是用贝叶斯公式计
4、算每个候选假设的后验概率。候选假设的后验概率。)()|(maxarg)()()|(maxarg)|(maxarghPhDPDPhPhDPDhPhHhHhHhMAP 极大似然假设(极大似然假设(ML)l在某些情况下,可在某些情况下,可假定假定H中每个假设有相同中每个假设有相同的先验概率的先验概率。lP(D|h)常被称为给定常被称为给定h时数据时数据D的的似然度似然度,而使而使P(D|h)最大的假设被称为极大似然假最大的假设被称为极大似然假设;设;l假设空间假设空间H可扩展为任意的互斥命题集合,可扩展为任意的互斥命题集合,只要这些命题的概率之和为只要这些命题的概率之和为1。)|(maxarghDP
5、hHhML 示例示例-医疗诊断医疗诊断l有两个可选的假设:病人有癌症、病人无癌症l可用数据来自化验结果:正+和负-l先验知识:l在所有人口中,患病率是0.008l对确实有病的患者的化验准确率为98%,l对确实无病的患者的化验准确率为97%先验知识的概率表示先验知识的概率表示P(cancer)=0.008,P(cancer)=0.992P(+|cancer)=0.98,P(-|cancer)=0.02P(+|cancer)=0.03,P(-|cancer)=0.97示例示例l假定有一个病人,化验结果为正,是否应将病人断定为有癌症?l求后验概率P(cancer|+)和P(cancer|+)l极大后
6、验假设lP(+|cancer)P(cancer)=0.0078lP(+|cancer)P(cancer)=0.0298lhMAP=cancerl确切的后验概率:上面结果的归一化P(canner|+)=0.0078/(0.0078+0.0298)=0.21lP(cancer|-)=0.79贝叶斯推理贝叶斯推理贝叶斯推理的结果很大程度上依赖于先验概率贝叶斯推理的结果很大程度上依赖于先验概率,同时不是完全接受或拒绝假设,只是在观察,同时不是完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性。到较多的数据后增大或减小了假设的可能性。基本概率公式表基本概率公式表乘法规则:乘法规则:(A
7、 B)=P(A|B)P(B)=P(B|A)P(A)加法规则:加法规则:P(A B)=P(A)+P(B)-P(A B)贝叶斯法则:贝叶斯法则:P(h|D)=P(D|h)P(h)/P(D)全概率法则:如果事件全概率法则:如果事件A1.An互斥,且满足互斥,且满足 则则 niiiAPABPBP1)()|()(11 niiAP)(贝叶斯法则贝叶斯法则l贝叶斯法则为计算给定训练数据下任一假设的后验概率提供了原则性方法,因此可以直接将其作为一个基本的学习方法:计算每个假设的概率,再输出其中概率最大的。2 极大似然与最小误差平方假设极大似然与最小误差平方假设某些学习算法即使没有显式地使用贝叶斯规则,某些学习
8、算法即使没有显式地使用贝叶斯规则,或以某种形式计算概率,但它们或以某种形式计算概率,但它们输出的结果符合输出的结果符合贝叶斯原理贝叶斯原理,是一个,是一个MAP假设;假设;在特定前提下,任一学习算法如果使输出的假设在特定前提下,任一学习算法如果使输出的假设预测和训练数据之间的误差平方和最小化,它将预测和训练数据之间的误差平方和最小化,它将输出一极大似然假设输出一极大似然假设;对于许多神经网络和曲线拟合的方法,如果它们对于许多神经网络和曲线拟合的方法,如果它们试图在训练数据上使误差平方和最小化,此结论试图在训练数据上使误差平方和最小化,此结论提供了提供了基于贝叶斯的理论依据基于贝叶斯的理论依据。
9、最小误差平方假设最小误差平方假设学习器学习器L工作在工作在实例空间实例空间X和和假设空间假设空间H上上,H中的假设为中的假设为X上定义的某种实数值函上定义的某种实数值函数;数;L面临的问题是学习一个从面临的问题是学习一个从H中抽取出的中抽取出的未知目标函数未知目标函数f,给定,给定m个训练样例的集个训练样例的集合,每个样例的目标值被某随机噪声干扰合,每个样例的目标值被某随机噪声干扰,此随机噪声服从正态分布;,此随机噪声服从正态分布;最小误差平方假设最小误差平方假设每个训练样例是序偶每个训练样例是序偶 ,di=f(xi)+ei,ei是代表噪声的随机变量,假定是代表噪声的随机变量,假定ei的值是的
10、值是独立抽取的,并且它们的分布服从独立抽取的,并且它们的分布服从0均值均值的正态分布;的正态分布;学习器的任务是在所有假设有相等的先验学习器的任务是在所有假设有相等的先验概率前提下,输出极大似然假设(即概率前提下,输出极大似然假设(即MAP假设)。假设)。最小误差平方假设最小误差平方假设最小误差平方假设最小误差平方假设l假定有一固定的训练实例集合,因此只考假定有一固定的训练实例集合,因此只考虑相应的目标值序列虑相应的目标值序列D=,且,且di=f(xi)+ei。l假定训练样例是相互独立的,给定假定训练样例是相互独立的,给定h时,时,可将可将P(D|h)写成各写成各p(di|h)的积:的积:mi
11、iHhMLhdph1)|(maxarg最小误差平方假设最小误差平方假设l如果误差如果误差ei服从服从0均值和未知方差均值和未知方差 2的正态的正态分布,那么每个分布,那么每个di服从均值为服从均值为f(xi),方差不,方差不变的正态分布。因此,变的正态分布。因此,p(di|h)可写为方差可写为方差 2、均值、均值f(xi)的正态分布的正态分布;l概率概率di的表达式是在的表达式是在h为目标函数为目标函数f的正确描的正确描述条件下的,所以述条件下的,所以替换替换=f(xi)=h(xi)。最小误差平方假设最小误差平方假设miiiHhmiiiHhmiiiHh)x(hd(miHhmi)d(HhML)x
12、(hd(minarg)x(hd(maxarg)x(hd(lnmaxargemaxargemaxarghiii1212212222112121221212121212222 最小误差平方假设最小误差平方假设上式说明了极大似然假设等价于使训练值上式说明了极大似然假设等价于使训练值和假设预测值之间误差的平方和最小的那和假设预测值之间误差的平方和最小的那个假设。个假设。这个结论的前提是:训练值等于真实目标这个结论的前提是:训练值等于真实目标值加上随机噪声,其中随机噪声从一个均值加上随机噪声,其中随机噪声从一个均值为值为0的正态分布中独立抽取。的正态分布中独立抽取。采用正态分布的合理性采用正态分布的合理
13、性p数学计算的简洁性;数学计算的简洁性;p对许多物理系统的噪声都有良好的近似;对许多物理系统的噪声都有良好的近似;p中心极限定力显示,足够多的独立同分布随机中心极限定力显示,足够多的独立同分布随机变量的和服从正态分布;变量的和服从正态分布;p由许多独立同分布的因素的和所生成的噪声将由许多独立同分布的因素的和所生成的噪声将成为正态分布。成为正态分布。3 贝叶斯最优分类器贝叶斯最优分类器l给定训练数据,最可能的假设是什么?给定训练数据,最可能的假设是什么?l给定训练数据,对新实例的最可能的分类是什给定训练数据,对新实例的最可能的分类是什么?么?l第二个问题的解决可以将第一个问题的结果(第二个问题的
14、解决可以将第一个问题的结果(MAP)应用到新实例上得到;)应用到新实例上得到;l还存在更好的算法还存在更好的算法.一个例子一个例子l一个包含三个假设一个包含三个假设h1,h2,h3的假设空间;的假设空间;l假定已知训练数据时三个假设的后验概率分别是假定已知训练数据时三个假设的后验概率分别是0.4,0.3,0.3,因此,因此h1为为MAP假设。假设。l若一新实例若一新实例x被被h1分类为正,被分类为正,被h2和和h3分类为反;分类为反;l计算所有假设,计算所有假设,x为正例的概率为为正例的概率为0.4,为反例的,为反例的概率为概率为0.6;l这时最可能的分类与这时最可能的分类与MAP假设生成的分
15、类不同假设生成的分类不同。贝叶斯最优分类器贝叶斯最优分类器l一般而言,一般而言,新实例的最可能分类可通过合新实例的最可能分类可通过合并所有假设的预测得到,权重为其后验概并所有假设的预测得到,权重为其后验概率。率。l如果新实例的可能分类可取某集合如果新实例的可能分类可取某集合V中的中的任一值任一值vj,那么概率,那么概率P(vj|D)为新实例分类为新实例分类为为vj的概率的概率 HhiijjiDhPhvPDvP)|()|()|(贝叶斯最优分类器贝叶斯最优分类器u新实例的最优分类为使P(vj|D)最大的vj值 HhiijVvijDhPhvP)|()|(maxarg贝叶斯最优分类器贝叶斯最优分类器-
16、示例示例u新实例的可能分类集合为新实例的可能分类集合为V=+,-uP(h1|D)=0.4,P(-|h1)=0,P(+|h1)=1uP(h2|D)=0.3,P(-|h2)=1,P(+|h2)=0uP(h3|D)=0.3,P(-|h3)=1,P(+|h2)=0 40.)|()|(HhiiiDhPhP HhiijHhviijDhPhvP)|()|(maxarg,60.)|()|(HhiiiDhPhP贝叶斯最优分类器贝叶斯最优分类器使用相同的假设空间和相同的先验概率,使用相同的假设空间和相同的先验概率,没有其他方法能比其平均性能更好。贝叶没有其他方法能比其平均性能更好。贝叶斯最优分类器在给定可用数据、
17、假设空间斯最优分类器在给定可用数据、假设空间及这些假设的先验概率下使新实例被正确及这些假设的先验概率下使新实例被正确分类的可能性达到最大分类的可能性达到最大Gibbs算法算法贝叶斯最优分类器能从给定训练数据中获贝叶斯最优分类器能从给定训练数据中获得最好的性能,但算法的开销很大。得最好的性能,但算法的开销很大。一个替代的、非最优的方法是一个替代的、非最优的方法是Gibbs算法:算法:p按照按照H上的后验概率分布,从上的后验概率分布,从H中随机选择中随机选择假设假设h;p使用使用h来预言下一个实例来预言下一个实例x的分类。的分类。Gibbs算法算法l在一定条件下,在一定条件下,Gibbs算法的误分
18、类率的期算法的误分类率的期望值最多为贝叶斯最优分类器的望值最多为贝叶斯最优分类器的两倍两倍。确。确切地讲,期望值是在随机抽取的目标概念切地讲,期望值是在随机抽取的目标概念上作出的,抽取过程按照学习器假定的先上作出的,抽取过程按照学习器假定的先验概率。验概率。朴素贝叶斯分类器朴素贝叶斯分类器(Naive Bayes Classifier)l学习任务:学习任务:每个实例每个实例x可由可由属性值的合取属性值的合取描述描述,而目标函数,而目标函数f(x)从某有限集合从某有限集合V中取值。中取值。l贝叶斯方法的新实例分类目标是在给定描述贝叶斯方法的新实例分类目标是在给定描述实例的属性值实例的属性值下,得
19、到最可能的目下,得到最可能的目标值标值vMAP:),.,|(maxargnjvMAPaavPvj1 朴素贝叶斯分类器朴素贝叶斯分类器)()|,.,(maxarg),.,()()|,.,(maxargjjnVvnjjnVvMAPvPvaaPaaPvPvaaPvjj111 朴素贝叶斯分类器朴素贝叶斯分类器l基于训练数据估计两个数据项的值基于训练数据估计两个数据项的值估计估计P(vj)很容易:计算每个目标值很容易:计算每个目标值vj出现在训出现在训练数据中的频率。练数据中的频率。u估计估计P(a1,.an|vj)遇到数据稀疏问题,除非有一遇到数据稀疏问题,除非有一个非常大的训练数据集,否则无法获得可
展开阅读全文