《模式识别原理与应用》课件第3章.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《模式识别原理与应用》课件第3章.ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别原理与应用 模式识别 原理 应用 课件
- 资源描述:
-
1、第3章概率密度函数估计第第3章概率密度函数估计章概率密度函数估计3.1概率密度函数估计概述概率密度函数估计概述3.2参数估计的基本概念与评价准则参数估计的基本概念与评价准则3.3概率密度函数的参数估计概率密度函数的参数估计3.4概率密度函数的非参数估计概率密度函数的非参数估计习题习题第3章概率密度函数估计3.1概率密度函数估计概述概率密度函数估计概述第2章介绍了几种经典的统计分类决策规则,其中,均假设已知先验概率P(i)与类条件概率密度p(x|i)。但是在很多情况中,能够利用的只有有限个样本,而p(x|i)和P(i)是未知的,需要根据已有样本进行参数估计,然后将估计值当作真实值来使用。第3章概
2、率密度函数估计因此,在统计分类决策中,把分类器设计过程分为两步:第一步是利用统计推断中的估计理论,根据样本集,估计p(x|i)和P(i),分别记为 和 ;第二步是将估计量 和代入统计分类决策规则中,实现分类器设计。这样的分类器设计过程称为基于样本的两步统计分类决策。)|(ipx)(iP)|(ipx)(iP第3章概率密度函数估计当然,基于样本的两步统计分类器性能与理论上的统计分类器不同。人们希望当样本数目N时,基于样本的分类器能收敛于理论上的结果。事实上,利用统计学中估计量的性质,只要能够说明,当N时,和分别收敛于p(x|i)和P(i)。根据概率密度函数形式是否已知,概率密度函数估计分为参数估计
3、和非参数估计。)|(ipx)(iP第3章概率密度函数估计(1)参数估计就是在已知概率密度函数的形式,但其中的某些参数是未知的情况下,利用样本集对概率密度函数的某些参数进行估计。例如,若p(x|i)是均值为i,协方差矩阵为i的正态分布,那么只需要估计i和i。参数估计的方法很多,大致可以分为确定性参数估计方法与随机参数估计方法。确定性参数估计方法把参数看做确定而未知的,典型方法为最大似然估计。随机参数估计方法把未知参数当做具有某种分布的随机变量,典型方法为贝叶斯估计。第3章概率密度函数估计(2)非参数估计就是在概率密度函数的形式未知的条件下,直接利用样本来推断概率密度函数。常用的非参数估计方法有P
4、arzen窗法和kN近邻法。第3章概率密度函数估计3.2参数估计的基本概念与评价准则参数估计的基本概念与评价准则3.2.1参数估计的基本概念参数估计的基本概念1.统计量统计量设观测样本为x1,x2,xN,统计量g(x1,x2,xN)是x1,x2,xN的(可测)函数,与任何未知参数无关。统计量的概率分布称为抽样分布。2.参数空间参数空间未知参数的全部可容许值组成的集合称为参数空间,记为。第3章概率密度函数估计3.点估计、点估计、估计量和估计值估计量和估计值点估计是确定待定参数的单个估计值,即要构造一个统计量作为参数的估计。在统计学中,称为的估计量。把样本的观测值代入统计量g,得到一个具体数值,这
5、个数值在统计学中称为的估计值。),(21Ngxxx第3章概率密度函数估计【例 3.1】设一维观测样本xi=s+vi(i=1,2,N)其中:s为信号;vi为噪声。信号s的估计(量)可以取为样本均值,即xNxxxxxxgsNN2121),(第3章概率密度函数估计4.区间估计区间估计利用抽样分布估计参数可能位于的区间,即要求用区间d1,d2作为可能取值范围的一种估计。这个区间称为置信区间,这类估计称为区间估计。本章要求估计概率密度函数的某些参数,属于点估计问题。第3章概率密度函数估计3.2.2参数估计的评价准则参数估计的评价准则评价一个估计的“好坏”,不能仅仅以一次抽样结果得到的估计值与参数真值之间
6、的偏差来确定,需要从统计角度来进行分析。下面讨论估计应该具有的性能。1.无偏性无偏性(估计的均值性质估计的均值性质)定义定义3.1若估计量的均值等于的真实值,即对所有的,有E()=(3-1)第3章概率密度函数估计则称是的无偏估计。如果式(3-1)不成立,则称是的有偏估计,且定义的偏差为:B()(3-2)例如,在例3.1中,1212()()()()()()()NNE xE xE xE vE vE vE ssNN 如果噪声是零均值的,即对所有的i,E(vi)=0,可得为s的一个无偏估计;反之,为有偏估计。s s第3章概率密度函数估计定义定义3.2若对所有的有lim()0Nb(3-3)则称=g(x1
7、,x2,xN)是的一个渐进无偏估计。【例例 3.2】考虑平稳过程的自相关函数R(l)=Ex(t)x(t+l)的两个估计lNtltxtxlNlR11)()(1)(第3章概率密度函数估计lNtltxtxNlR12)()(1)(试确定这两个估计的无偏性。解解对上面两式取期望可得,111()()()()N ltE R lE x t x tlR lNl211()()()(1)()N ltlE R lE x t x tlR lNN第3章概率密度函数估计显然,是R(l)的无偏估计;是R(l)的有偏估计,但是R(l)的渐进无偏估计,即)(1lR)(2lR)(2lR2lim()()NE R lR l虽然是R(l
8、)的无偏估计,而是R(l)的有偏估计(但渐进无偏),但是,估计中分母与l有关,因此,一般使用,而不用。)(1lR)(1lR)(1lR)(2lR)(2lR第3章概率密度函数估计2.Cramer-Rao下界下界(估计的方差性质估计的方差性质)除了偏差以外,一个估计的基本特性还体现在方差上。一般地,要得到精确的方差是比较困难的,人们希望得到方差可能达到的下界。下面的定理3.1表明,无偏估计的方差存在一个下界,常称为Cramer-Rao下界。定理3.1令x=(x1,x2,xN)为样本向量,p(x|)为x的联合概率密度函数,与参数有关。若是的一个无偏估计,且ln(|)px存在,则第3章概率密度函数估计2
9、21var()ln(|)EpEx(3-4)当且仅当ln(|)()()pI x时,上式等号成立。其中2ln(|)()pIEx(3-5)为 Fisher 信息量,为Cramer-Rao下界。1/()I第3章概率密度函数估计证明证明由是的一个无偏估计,可得0()(|)Efdxx上式两边对求偏导,有0()(|)fdxx()(|)fdxx()(|)(|)fdfdxxxx()(|)ln(|)1ffdxxx第3章概率密度函数估计所以()(|)ln(|)1ffdxxx(3-6)即()(|)(|)ln(|)1fffdxxxx(3-7)由柯西-许瓦尔兹不等式可得22()(|)ln(|)(|)1fdffdxxxxx
10、(3-8)第3章概率密度函数估计也就是221()(|)ln(|)(|)fdffdxxxxx(3-9)当且仅当时,上式等号成立。其中,K()是的某个不包含x的正函数。注意到,是的一个无偏估计,即E()=,因此ln(|)()()fK x第3章概率密度函数估计22var()()(|)Efdxx(3-10)此外22ln(|)ln(|)(|)Efffdxxxx(3-11)从而可得221var()ln(|)EfEx(3-12)第3章概率密度函数估计下面证明,K()=I()。一方面,对两边求得偏导ln(|)()()fK x22ln(|)()()()fK K x(3-13)再取期望可得22ln(|)()fK
11、E x(3-14)第3章概率密度函数估计另一方面,对 两边求的偏导(|)1f d xx(|)0fdxx(3-15)进而有ln(|)(|)0ff dxxx(3-16)再求的偏导22ln(|)ln(|)(|)(|)0ffff ddxxxxxx(3-17)第3章概率密度函数估计即22ln(|)ln(|)ln(|)(|)(|)0ffff df dxxxxxxx(3-18)可得222ln(|)ln(|)ffEE xx(3-19)因此222ln(|)ln(|)()()ffK EEI xx(3-20)第3章概率密度函数估计【例例 3.3】设观测样本可表示为xn=A+vn(n=1,2,N)vn为零均值、方差2
12、的高斯白噪声,求A的无偏估计的Cramer-Rao下界。解解x=(x1,x2,xN)的联合概率密度函数为22212212211(|)exp2211exp2(2)NnnNnNnpAxAxAx第3章概率密度函数估计上式两边取对数,有222211ln(|)ln(2)2NNnnpAxA x求关于A的偏导222212121ln(2)2ln(|)1()NNnnNnnxApAAAxANgA xx第3章概率密度函数估计由定理3.1可得,A的无偏估计为1()NnnxAgNxFisher信息为2()NI ACramer-Rao下界为21/()I AN第3章概率密度函数估计3.有效性(估计的选择)有效性(估计的选择
13、)一般来说,如果与都是的无偏估计,则选择方差较小者。若,则称比更有效,并称1122)var()var(21%100)var()var(21RE(3-21)为相对于的“相对有效性”。21第3章概率密度函数估计定义定义3.3任何一个方差等于Cramer-Rao下界的无偏估计称为优效估计。一个优效估计是最有效的估计,也是方差最小的无偏估计,因此,又称其为最小方差无偏估计。例如,在例3.3中,若观测样本相互独立,则是的优效估计。1NnnAxN第3章概率密度函数估计当与不全是的无偏估计时,我们要同时考虑偏差与方差,即均方误差准则。设是的某个估计,均方误差定义为1222()ME(3-22)均方误差准则就是
14、选择均方误差较小者,即若,则选择。1)()(2212MM第3章概率密度函数估计通过简单的推导,可以证明222()var()()MEb(3-23)对于无偏估计,因此,均方误差就是方差。0)(b)(2M)var(第3章概率密度函数估计4.一致性一致性(估计的渐进特性估计的渐进特性)定义定义3.4=g(x1,x2,xN)是的一致估计(弱一致估计),若当样本量N时,依概率收敛于,即,01limPN(3-24)或等价于0limPN(3-25)下面的定理3.2给出了一致估计的一个充分条件。第3章概率密度函数估计定理定理3.2设=g(x1,x2,xN)是基于N个观测样本获得的的估计。若)(lim EN,2l
15、im()0NEE,则是的一致估计。证明证明由)(lim EN,2lim()0NEE,可知lim()lim()0NNbE2lim var()lim()0NNEE第3章概率密度函数估计0此外,有222222()()()()EEIEIEIEIP 其中,为示性函数,也就是说,若中的条件满足 ,则取1,否则,取0。)|(|I)|(|I)|(|I|第3章概率密度函数估计由上式可得2222()var()()EbP因此2222lim var()lim()var()()limlim0NNNNbbP例如,在例3.3中,若观测样本相互独立,则 1NnnAxN是A的一致估计。第3章概率密度函数估计定义定义3.5 若均
16、方收敛于,即,则称是的均方一致估计;若以概率1收敛于,即,则称是的强一致估计。以概率1收敛也称为几乎处处收敛。因为均方收敛与以概率1收敛总意味着依概率收敛,因此,均方一致性与强一致性包含弱一致性。),(21Ngxxx0)(lim2MN),(21Ngxxx1limNP第3章概率密度函数估计3.3概率密度函数的参数估计概率密度函数的参数估计在概率密度函数的参数估计中,假定:参数是未知的量;类条件概率密度p(x|j)具有某种确定的函数形式,例如正态分布、指数分布、分布等,但其中某些参数未知。p(x|j)与参数j有关,并记作p(x|j,j)。第3章概率密度函数估计本节主要讨论监督参数估计方法。假设样本
17、集有m种类别,按类别把样本集分开,得到m个样本子集X1,X2,Xm,其中,Xj中的样本都是从概率密度函数为p(x|j)的总体中抽取出来的,类Xi中的样本只对i提供有关信息,而没有关于j(ji)的任何信息。监督参数估计的问题就是从样本提供的信息来得到参数1,2,m(每类得到参数)的估计值。我们可以对每一类独立地进行处理,利用Xj中的样本估计j,j=1,2,m。这样就可将p(x|j,j)中的类别标志j去掉,用代替j,以简化符号。第3章概率密度函数估计3.3.1最大似然估计最大似然估计最大似然(ML)估计是一种常用的、有效的方法,就是求使似然函数达到最大的参数值作为估计,其中,假设参数是确定(非随机
18、)而未知的量。设某一类样本集X=x1,x2,xN,具有概率密度p(xk|)(k=1,2,N),并且样本是独立抽取的。N个随机样本的联合密度为121(|)(,|)(|)NNkkpppxx xxx(3-26)第3章概率密度函数估计称p(x|)为样本集X的似然函数。p(x|)是的函数,记为L(),即121()(,|)(|)NNkkLppx xxx(3-27)最大似然估计法的基本思想是:事件x=x1,x2,xN在观察(从概率总体中抽取样本)中出现了,那么,可以认为p(x|)达到了最大值。使p(x|)达到最大值的就是的最大似然估计,记为ML,即第3章概率密度函数估计最大似然估计ML可以通过令()max(
19、)MLLL(3-28)0)(L(3-29)求得。在很多情况下,特别是对于指数密度函数,使用似然函数的对数要比似然函数本身更加方便、简捷。对数函数是单调递增的,因此,使对数似然函数最大的值也必然使似然函数达到最大。L()的自然对数称为对数似然函数,记为H(),即第3章概率密度函数估计NkkpLH1)|(ln)(ln)(x(3-30)求上式对的偏导等于零时的解,同样可得ML,即0)|(ln)(1NkkpHx(3-31)若有p个分量,即=1,2,pT,则1,2,TMLMLp ML。由下面p个联立方程确定:第3章概率密度函数估计0)|(ln)(1NkkiipHx),2,1(pi(3-32)事实上,式(
20、3-32)中p个联立方程只是最大似然估计的必要条件。若式(3-32)的解能使似然函数达到最大,则就是的最大似然估计。若式(3-32)没有唯一解,则根据具体情况决定取舍。第3章概率密度函数估计【例例 3.4】考虑一维正态分布的参数估计。设样本(一维)x1,x2,xN都是由独立的抽样试验采集的,且密度函数服从正态分布,其均值与方差2未知,求均值和方差的最大似然估计。解解设1=,2=2,=(1,2)T,则xk的密度函数为221(|)exp22kkxp x第3章概率密度函数估计样本的似然函数为2212121122221()(|)exp2(2)1exp2(2)NNkkNNkkNkNNkxLp xx对数似
21、然函数为212121()ln()()ln 2ln222NkkNNHLx 第3章概率密度函数估计因此11121()()NkkHx21212221()()22NkkNHx由联立方程111221212221()()01()()022NkkNkkHxNHx第3章概率密度函数估计可得均值与方差2的最大似然估计分别为xxNNiiML11 NiiMLxxN1221上述结果可以类似地推广到多元正态分布。设样本(d维)x1,x2,xN服从d元正态分布,其均值向量与协方差矩阵未知,则xk的密度函数为第3章概率密度函数估计11211(|)exp22Tkkkdpxxx通过类似的推导,均值向量与协方差矩阵的最大似然估计
22、分别为11NMLiiNx11NTMLiMLiMLiNxx第3章概率密度函数估计3.3.2贝叶斯估计贝叶斯估计在贝叶斯估计中,把未知的参数当作具有某种分布的随机变量,其密度函数为p(),寻求一个真实参数的估计值,使由此引起的风险达到最小。设是属于参数空间的参数,是判定空间A中的一个估计,与的非负实值函数C(,)表示用估计所付出的代价,称为代价函数。对于一维参数,常用的代价函数有以下3个。第3章概率密度函数估计(1)绝对偏差:),(C(2)平方偏差:2),(C(3)均匀偏差:0(,)1C 它们的示意图如图3-1所示,其中,估计误差。e第3章概率密度函数估计图 3-1代价函数的示意图(a)绝对偏差;
23、(b)平方偏差;(c)均匀偏差第3章概率密度函数估计定义定义3.6代价函数C(,)的数学期望称为风险函数,记为R,即),(CER(3-33)使风险函数达到最小的估计称为Bayes估计。假设样本集X=x1,x2,xN,风险函数可以用积分形式表示为第3章概率密度函数估计1212121212121212(,)(,)(,)(,)(,)(|,)(,)(,)(|,)NNNNNNNNRE CCpd dddCppd dddpCpdd dd x xxx xxx xxx xxx xxx xxx xxx xx(3-34)因为p(x1,x2,xN)非负,所以,只要使达到最小,就能使R=EC(,)最小,即12(,)(|
24、,)NCpd x xx12minmin(,)(|,)NRCpd x xx(3-35)下面介绍代价函数为平方偏差与均匀函数两种情况下的Bayes估计。第3章概率密度函数估计1.二次代价函数的二次代价函数的Bayes估计估计取代价函数为平方偏差 2),(C,此时21212121212()(|,)2()(|,)2(|,)2(|,)22(|,)0NNNNNpdpdpdpdEx xxx xxx xxx xxx xx第3章概率密度函数估计从而可得二次代价函数的Bayes估计为:),|(21NBayesExxx(3-37)其中1212(|,)(|,)NNEpdx xxx xx(3-38)是在给定样本集x1,
25、x2,xN的条件下的条件均值。2.均匀代价函数的均匀代价函数的Bayes估计估计取代价函数为均匀偏差,此时,风险函数为第3章概率密度函数估计12121(,)1(|,)unifNNNRppddd x xxx xxxx(3-39)从而1212minmin 1(|,)max(|,)unifNNRpdpdx xxx xx当较小时),|(2),|(2121NNpdpxxxxxx(3-40)第3章概率密度函数估计因此),|(max211NBayespxxx(3-41)其中,),|(max211Npxxx表示使),|(21Npxxx达到最大值的值。此时,Bayes估计由下式求出:0),|(21Npxxx(3
展开阅读全文