参数估计与非参数估计课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《参数估计与非参数估计课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数估计 课件
- 资源描述:
-
1、第五章第五章 参数估计与非参数估计参数估计与非参数估计 参数估计与监督学习 参数估计理论 非参数估计理论 5-1 参数估计与监督学习贝叶斯分类器中只要知道先验概率,条件概率或后验概概率 P(i),P(x/i),P(i/x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计P(i),P(x/i),P(i/x)一参数估计与非参数估计参数估计:先假定研究的问题具有某种数学模型,如 正态分布,二项分布,再用已知类别的学习 样本估计里面的参数。非参数估计:不假定数学模型,直接用已知类别的学习 样本的先验知识直接估计数学模型。二监督学习与无监督学习监督学习:在已知类别样本指导下的学习和训练,参数
2、估计和非参数估计都属于监督学习。无监督学习:不知道样本类别,只知道样本的某些 信息去估计,如:聚类分析。5-2参数估计理论 一最大似然估计一最大似然估计假定:待估参数是确定的未知量 按类别把样本分成M类X1,X2,X3,XM 其中第i类的样本共N个 Xi =(X1,X2,XN)T 并且是独立从总体中抽取的 Xi中的样本不包含 (ij)的信息,所以可以对每一 类样本独立进行处理。第i类的待估参数根据以上四条假定,我们下边就可以只利用第i类学习样本来估计第i类的概率密度,其它类的概率密度由其它类的学习样本来估计。),.,(21nTij 1.一般原则:一般原则:第i类样本的类条件概率密度:P(Xi/
3、i)=P(Xi/ii)=P(Xi/i)原属于i类的学习样本为Xi=(X1,X2,XN,)T i=1,2,M求求i的最大似然估计就是把的最大似然估计就是把P(Xi/i)看成看成i的函数,求的函数,求出使它最大时的出使它最大时的i值。值。学习样本独立从总体样本集中抽取的 N个学习样本出现概率的乘积取对数:NkiXkPiXPiiXPii1)|()|().|(NkikikNkXPXP11)|(log)|(log对i求导,并令它为0:有时上式是多解的,上图有5个解,只有一个解最大即.0)|(log.11NkikpXP0)|(log.0)|(log111ikNkpikNkXPXPP(Xi/i),即为的估值
4、利用上式求出ii 2.多维正态分布情况 已知,未知,估计 服从正态分布所以在正态分布时)|(iiXP0)|(log1XPkNk121|2log21)|(XXXPkkTnk NkkX110NkkX1101i待估参数为代入上式得所以这说明未知均值的最大似然估计正好是训练样本的算术平均。110)(NkkNXNkkXN11 ,均未知 A.一维情况:n=1对于每个学习样本只有一个特征的简单情况:(n=1)由上式得 即学习样本的算术平均 样本方差21211,1222212log21)|(logXXPkik0)(1)|(log11211XXPkNkikNk代入02)(21)|(log12212212Nkki
5、kNkXXPNkkXN1111NkXkN122121 讨论:1.正态总体均值的最大似然估计即为学习样本的算术平均 2.正态总体方差的最大似然估计与样本的方差不同,当N较大的时候,二者的差别不大。B多维情况:n个特征(学生可以自行推出下式)估计值:结论:的估计即为学习样本的算术平均 估计的协方差矩阵是矩阵 的算术 平均(nn阵列,nn个值)NkkXN111XTXNkNkk121XXkTk二.贝叶斯估计 最大似然估计是把待估的参数看作固定的未知量,而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量,通过对第i类学习样本Xi的观察,使概率密度分布P(Xi/)转化为后验概率P(/Xi),再求贝
6、叶斯估计。估计步骤:确定的先验分布P(),待估参数为随机变量。用第i类样本xi=(x1,x2,.xN)T求出样本的联合概率密度分布P(xi|),它是的函数。利用贝叶斯公式,求的后验概率 dPXPPXPXPiii)()|()().|()|((证明略)求贝叶斯估计dXPi)|(下面以正态分布的均值估计为例说明贝叶斯估计的过程 一维正态分布一维正态分布:已知2,估计 假设概率密度服从正态分布 P(X|)=N(,2),P()=N(0,02)第i类学习样本xi=(x1,x2,.xN)T,i=1,2,M 第i类概率密度P(x|i,xi)=P(x|xi)所以后验概率 (贝叶斯公式)dPXPPXPXPiii)
7、()|()().|()|(因为N个样本是独立抽取的,所以上式可以写成 其中 为比例因子,只与x有关,与无关 P(Xk|)=N(,2),P(u)=N(0,02)其中a,a包含了所有与无关的因子NkkiPXPaXP1)().|()|(dPXPai)()|(121exp2121exp21)|(00221kNkiXaXP 21exp10022NkkXa)1(2)1(21exp 200122202NkkXNaP(|xi)是u的二次函数的指数函数P(|xi)仍然是一个正态函数,P(|Xi)=N(N,N2)另外后验概率可以直接写成正态形式:比较以上两个式子,对应的系数应该相等 21exp21)|(2NNNi
8、XP0201222022111NkkNNXNN解以上两式得 将N,N2代入P(|Xi)可以得到后验概率,再用公式 02022120202NXNNkkN2022022NN的估计求,)|(dXPi 对的估计为 若令P()=N(0,02)=N(0,1)与最大似然估计相似,只是分母不同 02022120202NXNNkkNNNkkXNN111NidXP)|(三贝叶斯学习1.贝叶斯学习的概念:求出的后验概率之后,直接去推导总体分布即当观察一个样本时,N=1就会有一个的估计值的修正值当观察N=4时,对进行修正,向真正的靠近当观察N=9时,对进行修正,向真正的靠的更近当N,N就反映了观察到N个样本后对的最好
9、推测,而N2反映了这种推测的不确定性,N,N2,N2 随观察样本增加而单调减小,且当N,N2 0 当N,P(|xi)越来越尖峰突起N,P(|xi)函数,这个过程成为贝叶斯学习。dXPXPdXPXPXXPiii)|()|()|()|()|(2类概率密度的估计 在求出u的后验概率P(|xi)后,可以直接利用式 推断类条件概率密度。即P(x|xi)P(x|i,xi)一维正态:已知2,未知的后验概率为dxPxPxxPii)|()|()|(服从正态分布21exp21)|(21exp21)|()|(22xxPxPxPNNNiidxPxPdxPxPxxPiii)|()|()|()|()|(代入dxNNN21
10、exp2121exp2122dxxNNNNNNNN21exp21exp2122222222222221exp2122222NNNx为正态函数),(22NNN 结论:把第i类的先验概率P(i)与第i类概率密度P(x|xi)相乘可以 得到第i类的后验概率P(i/x),根据后验概率可以分类。对于正态分布P(x|xi),用样本估计出来的N代替原来的 用 代替原来的方差 即可。把估计值N作为的实际值,那么使方差由原来的 变 为 ,使方差增大22N2222N多维正态(已知,估计)设P(x|)=N(,)P()=N(0,0).根据Bayes公式,仿上面步骤可以得到:N,N 有以下关系21exp)|(1NNNT
11、iaxP).(.1011ANN).(.)(100111BxNkkNN其中a与无关这就是在多维情况下,对的估计 NANN10:)(011式得由010101)1(1)1(0)(1 NNxNBNkkNN式得:代入分类器设计就可以代入将BayesdxPxPxxPiiN)|()|()|(5-3非参数估计 参数估计要求密度函数的形式已知,但这种假定有时并不成立,常见的一些函数形式很难拟合实际的概率密度,经典的密度函数都是单峰的,而在许多实际情况中却是多峰的,因此用非参数估计。非参数估计:直接用已知类别样本去估计总体密度分布,方法有:用样本直接去估计类概率密度p(x/i)以此来设计分类器,如窗口估计 用学习
展开阅读全文