《模式识别原理与应用》课件第3章.ppt

上传人（卖家）：momomo

文档编号：7939013

上传时间：2024-09-06

格式：PPT

页数：116

大小：930.50KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《《模式识别原理与应用》课件第3章.ppt》由用户（momomo）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 模式识别原理与应用模式识别原理应用课件

资源描述：: 1、第3章概率密度函数估计第第3章概率密度函数估计章概率密度函数估计3.1概率密度函数估计概述概率密度函数估计概述3.2参数估计的基本概念与评价准则参数估计的基本概念与评价准则3.3概率密度函数的参数估计概率密度函数的参数估计3.4概率密度函数的非参数估计概率密度函数的非参数估计习题习题第3章概率密度函数估计3.1概率密度函数估计概述概率密度函数估计概述第2章介绍了几种经典的统计分类决策规则,其中,均假设已知先验概率P(i)与类条件概率密度p(x|i)。但是在很多情况中,能够利用的只有有限个样本,而p(x|i)和P(i)是未知的,需要根据已有样本进行参数估计,然后将估计值当作真实值来使用。第3章概
2、率密度函数估计因此,在统计分类决策中,把分类器设计过程分为两步:第一步是利用统计推断中的估计理论,根据样本集,估计p(x|i)和P(i),分别记为和 ;第二步是将估计量和代入统计分类决策规则中,实现分类器设计。这样的分类器设计过程称为基于样本的两步统计分类决策。)|(ipx)(iP)|(ipx)(iP第3章概率密度函数估计当然,基于样本的两步统计分类器性能与理论上的统计分类器不同。人们希望当样本数目N时,基于样本的分类器能收敛于理论上的结果。事实上,利用统计学中估计量的性质,只要能够说明,当N时,和分别收敛于p(x|i)和P(i)。根据概率密度函数形式是否已知,概率密度函数估计分为参数估计
3、和非参数估计。)|(ipx)(iP第3章概率密度函数估计(1)参数估计就是在已知概率密度函数的形式,但其中的某些参数是未知的情况下,利用样本集对概率密度函数的某些参数进行估计。例如,若p(x|i)是均值为i,协方差矩阵为i的正态分布,那么只需要估计i和i。参数估计的方法很多,大致可以分为确定性参数估计方法与随机参数估计方法。确定性参数估计方法把参数看做确定而未知的,典型方法为最大似然估计。随机参数估计方法把未知参数当做具有某种分布的随机变量,典型方法为贝叶斯估计。第3章概率密度函数估计(2)非参数估计就是在概率密度函数的形式未知的条件下,直接利用样本来推断概率密度函数。常用的非参数估计方法有P
4、arzen窗法和kN近邻法。第3章概率密度函数估计3.2参数估计的基本概念与评价准则参数估计的基本概念与评价准则3.2.1参数估计的基本概念参数估计的基本概念1.统计量统计量设观测样本为x1,x2,xN,统计量g(x1,x2,xN)是x1,x2,xN的(可测)函数,与任何未知参数无关。统计量的概率分布称为抽样分布。2.参数空间参数空间未知参数的全部可容许值组成的集合称为参数空间,记为。第3章概率密度函数估计3.点估计、点估计、估计量和估计值估计量和估计值点估计是确定待定参数的单个估计值,即要构造一个统计量作为参数的估计。在统计学中,称为的估计量。把样本的观测值代入统计量g,得到一个具体数值,这
5、个数值在统计学中称为的估计值。),(21Ngxxx第3章概率密度函数估计【例 3.1】设一维观测样本xi=s+vi(i=1,2,N)其中:s为信号;vi为噪声。信号s的估计(量)可以取为样本均值,即xNxxxxxxgsNN2121),(第3章概率密度函数估计4.区间估计区间估计利用抽样分布估计参数可能位于的区间,即要求用区间d1,d2作为可能取值范围的一种估计。这个区间称为置信区间,这类估计称为区间估计。本章要求估计概率密度函数的某些参数,属于点估计问题。第3章概率密度函数估计3.2.2参数估计的评价准则参数估计的评价准则评价一个估计的“好坏”,不能仅仅以一次抽样结果得到的估计值与参数真值之间
6、的偏差来确定,需要从统计角度来进行分析。下面讨论估计应该具有的性能。1.无偏性无偏性(估计的均值性质估计的均值性质)定义定义3.1若估计量的均值等于的真实值,即对所有的,有E()=(3-1)第3章概率密度函数估计则称是的无偏估计。如果式（3-1）不成立，则称是的有偏估计，且定义的偏差为：B()(3-2)例如,在例3.1中,1212()()()()()()()NNE xE xE xE vE vE vE ssNN 如果噪声是零均值的,即对所有的i,E(vi)=0,可得为s的一个无偏估计;反之,为有偏估计。s s第3章概率密度函数估计定义定义3.2若对所有的有lim()0Nb(3-3)则称=g(x1
7、,x2,xN)是的一个渐进无偏估计。【例例 3.2】考虑平稳过程的自相关函数R(l)=Ex(t)x(t+l)的两个估计lNtltxtxlNlR11)()(1)(第3章概率密度函数估计lNtltxtxNlR12)()(1)(试确定这两个估计的无偏性。解解对上面两式取期望可得，111()()()()N ltE R lE x t x tlR lNl211()()()(1)()N ltlE R lE x t x tlR lNN第3章概率密度函数估计显然,是R(l)的无偏估计;是R(l)的有偏估计,但是R(l)的渐进无偏估计,即)(1lR)(2lR)(2lR2lim()()NE R lR l虽然是R(l
8、)的无偏估计,而是R(l)的有偏估计(但渐进无偏),但是,估计中分母与l有关,因此,一般使用,而不用。)(1lR)(1lR)(1lR)(2lR)(2lR第3章概率密度函数估计2.Cramer-Rao下界下界(估计的方差性质估计的方差性质)除了偏差以外,一个估计的基本特性还体现在方差上。一般地,要得到精确的方差是比较困难的,人们希望得到方差可能达到的下界。下面的定理3.1表明,无偏估计的方差存在一个下界,常称为Cramer-Rao下界。定理3.1令x=(x1,x2,xN)为样本向量,p(x|)为x的联合概率密度函数,与参数有关。若是的一个无偏估计,且ln(|)px存在，则第3章概率密度函数估计2
9、21var()ln(|)EpEx(3-4)当且仅当ln(|)()()pI x时，上式等号成立。其中2ln(|)()pIEx(3-5)为 Fisher 信息量,为Cramer-Rao下界。1/()I第3章概率密度函数估计证明证明由是的一个无偏估计,可得0()(|)Efdxx上式两边对求偏导,有0()(|)fdxx()(|)fdxx()(|)(|)fdfdxxxx()(|)ln(|)1ffdxxx第3章概率密度函数估计所以()(|)ln(|)1ffdxxx(3-6)即()(|)(|)ln(|)1fffdxxxx(3-7)由柯西-许瓦尔兹不等式可得22()(|)ln(|)(|)1fdffdxxxxx
10、(3-8)第3章概率密度函数估计也就是221()(|)ln(|)(|)fdffdxxxxx(3-9)当且仅当时,上式等号成立。其中,K()是的某个不包含x的正函数。注意到,是的一个无偏估计,即E()=,因此ln(|)()()fK x第3章概率密度函数估计22var()()(|)Efdxx(3-10)此外22ln(|)ln(|)(|)Efffdxxxx(3-11)从而可得221var()ln(|)EfEx(3-12)第3章概率密度函数估计下面证明,K()=I()。一方面,对两边求得偏导ln(|)()()fK x22ln(|)()()()fK K x(3-13)再取期望可得22ln(|)()fK
11、E x(3-14)第3章概率密度函数估计另一方面,对两边求的偏导(|)1f d xx(|)0fdxx(3-15)进而有ln(|)(|)0ff dxxx(3-16)再求的偏导22ln(|)ln(|)(|)(|)0ffff ddxxxxxx(3-17)第3章概率密度函数估计即22ln(|)ln(|)ln(|)(|)(|)0ffff df dxxxxxxx(3-18)可得222ln(|)ln(|)ffEE xx(3-19)因此222ln(|)ln(|)()()ffK EEI xx(3-20)第3章概率密度函数估计【例例 3.3】设观测样本可表示为xn=A+vn(n=1,2,N)vn为零均值、方差2
12、的高斯白噪声,求A的无偏估计的Cramer-Rao下界。解解x=(x1,x2,xN)的联合概率密度函数为22212212211(|)exp2211exp2(2)NnnNnNnpAxAxAx第3章概率密度函数估计上式两边取对数,有222211ln(|)ln(2)2NNnnpAxA x求关于A的偏导222212121ln(2)2ln(|)1()NNnnNnnxApAAAxANgA xx第3章概率密度函数估计由定理3.1可得,A的无偏估计为1()NnnxAgNxFisher信息为2()NI ACramer-Rao下界为21/()I AN第3章概率密度函数估计3.有效性（估计的选择）有效性（估计的选择
13、）一般来说，如果与都是的无偏估计，则选择方差较小者。若，则称比更有效，并称1122)var()var(21%100)var()var(21RE(3-21)为相对于的“相对有效性”。21第3章概率密度函数估计定义定义3.3任何一个方差等于Cramer-Rao下界的无偏估计称为优效估计。一个优效估计是最有效的估计，也是方差最小的无偏估计，因此，又称其为最小方差无偏估计。例如，在例3.3中，若观测样本相互独立，则是的优效估计。1NnnAxN第3章概率密度函数估计当与不全是的无偏估计时，我们要同时考虑偏差与方差，即均方误差准则。设是的某个估计，均方误差定义为1222()ME(3-22)均方误差准则就是
14、选择均方误差较小者，即若，则选择。1)()(2212MM第3章概率密度函数估计通过简单的推导,可以证明222()var()()MEb(3-23)对于无偏估计，因此，均方误差就是方差。0)(b)(2M)var(第3章概率密度函数估计4.一致性一致性(估计的渐进特性估计的渐进特性)定义定义3.4=g(x1,x2,xN)是的一致估计(弱一致估计),若当样本量N时,依概率收敛于,即,01limPN(3-24)或等价于0limPN(3-25)下面的定理3.2给出了一致估计的一个充分条件。第3章概率密度函数估计定理定理3.2设=g(x1,x2,xN)是基于N个观测样本获得的的估计。若)(lim EN，2l
15、im()0NEE，则是的一致估计。证明证明由)(lim EN，2lim()0NEE，可知lim()lim()0NNbE2lim var()lim()0NNEE第3章概率密度函数估计0此外，有222222()()()()EEIEIEIEIP 其中，为示性函数，也就是说，若中的条件满足，则取1，否则，取0。)|(|I)|(|I)|(|I|第3章概率密度函数估计由上式可得2222()var()()EbP因此2222lim var()lim()var()()limlim0NNNNbbP例如，在例3.3中，若观测样本相互独立，则 1NnnAxN是A的一致估计。第3章概率密度函数估计定义定义3.5 若均
16、方收敛于，即，则称是的均方一致估计；若以概率1收敛于，即，则称是的强一致估计。以概率1收敛也称为几乎处处收敛。因为均方收敛与以概率1收敛总意味着依概率收敛，因此，均方一致性与强一致性包含弱一致性。),(21Ngxxx0)(lim2MN),(21Ngxxx1limNP第3章概率密度函数估计3.3概率密度函数的参数估计概率密度函数的参数估计在概率密度函数的参数估计中,假定:参数是未知的量;类条件概率密度p(x|j)具有某种确定的函数形式,例如正态分布、指数分布、分布等,但其中某些参数未知。p(x|j)与参数j有关,并记作p(x|j,j)。第3章概率密度函数估计本节主要讨论监督参数估计方法。假设样本
17、集有m种类别,按类别把样本集分开,得到m个样本子集X1,X2,Xm,其中,Xj中的样本都是从概率密度函数为p(x|j)的总体中抽取出来的,类Xi中的样本只对i提供有关信息,而没有关于j(ji)的任何信息。监督参数估计的问题就是从样本提供的信息来得到参数1,2,m(每类得到参数)的估计值。我们可以对每一类独立地进行处理,利用Xj中的样本估计j,j=1,2,m。这样就可将p(x|j,j)中的类别标志j去掉,用代替j,以简化符号。第3章概率密度函数估计3.3.1最大似然估计最大似然估计最大似然(ML)估计是一种常用的、有效的方法,就是求使似然函数达到最大的参数值作为估计,其中,假设参数是确定(非随机
18、)而未知的量。设某一类样本集X=x1,x2,xN,具有概率密度p(xk|)(k=1,2,N),并且样本是独立抽取的。N个随机样本的联合密度为121(|)(,|)(|)NNkkpppxx xxx(3-26)第3章概率密度函数估计称p(x|)为样本集X的似然函数。p(x|)是的函数,记为L(),即121()(,|)(|)NNkkLppx xxx(3-27)最大似然估计法的基本思想是:事件x=x1,x2,xN在观察(从概率总体中抽取样本)中出现了,那么,可以认为p(x|)达到了最大值。使p(x|)达到最大值的就是的最大似然估计,记为ML,即第3章概率密度函数估计最大似然估计ML可以通过令()max(
19、)MLLL(3-28)0)(L(3-29)求得。在很多情况下,特别是对于指数密度函数,使用似然函数的对数要比似然函数本身更加方便、简捷。对数函数是单调递增的,因此,使对数似然函数最大的值也必然使似然函数达到最大。L()的自然对数称为对数似然函数,记为H(),即第3章概率密度函数估计NkkpLH1)|(ln)(ln)(x(3-30)求上式对的偏导等于零时的解,同样可得ML,即0)|(ln)(1NkkpHx(3-31)若有p个分量,即=1,2,pT,则1,2,TMLMLp ML。由下面p个联立方程确定:第3章概率密度函数估计0)|(ln)(1NkkiipHx),2,1(pi(3-32)事实上,式(
20、3-32)中p个联立方程只是最大似然估计的必要条件。若式(3-32)的解能使似然函数达到最大,则就是的最大似然估计。若式(3-32)没有唯一解,则根据具体情况决定取舍。第3章概率密度函数估计【例例 3.4】考虑一维正态分布的参数估计。设样本(一维)x1,x2,xN都是由独立的抽样试验采集的,且密度函数服从正态分布,其均值与方差2未知,求均值和方差的最大似然估计。解解设1=,2=2,=(1,2)T,则xk的密度函数为221(|)exp22kkxp x第3章概率密度函数估计样本的似然函数为2212121122221()(|)exp2(2)1exp2(2)NNkkNNkkNkNNkxLp xx对数似
21、然函数为212121()ln()()ln 2ln222NkkNNHLx 第3章概率密度函数估计因此11121()()NkkHx21212221()()22NkkNHx由联立方程111221212221()()01()()022NkkNkkHxNHx第3章概率密度函数估计可得均值与方差2的最大似然估计分别为xxNNiiML11 NiiMLxxN1221上述结果可以类似地推广到多元正态分布。设样本(d维)x1,x2,xN服从d元正态分布,其均值向量与协方差矩阵未知,则xk的密度函数为第3章概率密度函数估计11211(|)exp22Tkkkdpxxx通过类似的推导,均值向量与协方差矩阵的最大似然估计
22、分别为11NMLiiNx11NTMLiMLiMLiNxx第3章概率密度函数估计3.3.2贝叶斯估计贝叶斯估计在贝叶斯估计中,把未知的参数当作具有某种分布的随机变量,其密度函数为p(),寻求一个真实参数的估计值,使由此引起的风险达到最小。设是属于参数空间的参数,是判定空间A中的一个估计,与的非负实值函数C(,)表示用估计所付出的代价,称为代价函数。对于一维参数,常用的代价函数有以下3个。第3章概率密度函数估计(1)绝对偏差:),(C(2)平方偏差:2),(C(3)均匀偏差:0(,)1C 它们的示意图如图3-1所示,其中,估计误差。e第3章概率密度函数估计图 3-1代价函数的示意图(a)绝对偏差;
23、(b)平方偏差;(c)均匀偏差第3章概率密度函数估计定义定义3.6代价函数C(,)的数学期望称为风险函数,记为R,即),(CER(3-33)使风险函数达到最小的估计称为Bayes估计。假设样本集X=x1,x2,xN,风险函数可以用积分形式表示为第3章概率密度函数估计1212121212121212(,)(,)(,)(,)(,)(|,)(,)(,)(|,)NNNNNNNNRE CCpd dddCppd dddpCpdd dd x xxx xxx xxx xxx xxx xxx xxx xx(3-34)因为p(x1,x2,xN)非负,所以,只要使达到最小,就能使R=EC(,)最小,即12(,)(|
24、,)NCpd x xx12minmin(,)(|,)NRCpd x xx(3-35)下面介绍代价函数为平方偏差与均匀函数两种情况下的Bayes估计。第3章概率密度函数估计1.二次代价函数的二次代价函数的Bayes估计估计取代价函数为平方偏差 2),(C，此时21212121212()(|,)2()(|,)2(|,)2(|,)22(|,)0NNNNNpdpdpdpdEx xxx xxx xxx xxx xx第3章概率密度函数估计从而可得二次代价函数的Bayes估计为：),|(21NBayesExxx(3-37)其中1212(|,)(|,)NNEpdx xxx xx(3-38)是在给定样本集x1,
25、x2,xN的条件下的条件均值。2.均匀代价函数的均匀代价函数的Bayes估计估计取代价函数为均匀偏差,此时,风险函数为第3章概率密度函数估计12121(,)1(|,)unifNNNRppddd x xxx xxxx(3-39)从而1212minmin 1(|,)max(|,)unifNNRpdpdx xxx xx当较小时),|(2),|(2121NNpdpxxxxxx(3-40)第3章概率密度函数估计因此),|(max211NBayespxxx(3-41)其中，),|(max211Npxxx表示使),|(21Npxxx达到最大值的值。此时,Bayes估计由下式求出:0),|(21Npxxx(3
26、-42)此时，这种估计称为最大后验概率估计。第3章概率密度函数估计此时,这种估计称为最大后验概率估计。对于单个参数的估计,可以利用式(3-37)或式(3-41)分别求解单个参数的估计。容易证明,当p()服从均匀分布,即对于所有的,p()是一个常量,这时最大后验概率估计和最大似然估计的结果相同。第3章概率密度函数估计【例例 3.5】设一维样本集X=x1,x2,xN是取自正态分布N(,2)的样本集,其中均值为未知的参数,方差2已知。未知参数是随机参数,它有先验分布N(0,20),0、20已知。求的贝叶斯估计。解解对于二次代价函数的贝叶斯估计(|)pX d由上式可知,要求,首先求的后验分布p(|X)
27、第3章概率密度函数估计1(|)()(|)(|)()(|)()Nkkp XppXp xpp Xpd其中，比例因子1(|)()p Xpd，仅与有关，而与无关。由于2(|)(,)kp xN，),()(200Np第3章概率密度函数估计因此22022100220221020222210011(|)expexp22221exp2111exp22NkkNkkNkkxpXxNx上式中,与无关的因子全部包含在因子与中。因此,p(|X)是的二次函数的指数函数,所以仍是一个正态密度函数,我们把p(|X)写成N(N,2N),即第3章概率密度函数估计(|)pX=222exp21NNN其中0220222020NmNNNN
28、2202022NNNkkNxNm11第3章概率密度函数估计的贝叶斯估计为(|)pX d=0220222020NmNNNN密度函数p(|X)的均值0220222020NmNNNN，是样本均值mN与先验均值0的线性组合,二者的系数非负,且和为1,因此,N介于mN与0之间。第3章概率密度函数估计一般地,00,此时,当N时,NmN,也就是说,如果增加样本数N,能从样本得到不随、0变化的N。若0=0,则,N=0,说明先验值0很可靠,以致不论做多少样本观测,都不改变其结果。若,则N=mN,说明先验值十分没有把握。只要/0不是无穷大,则增加样本数,就会使N接近mN,此时0、20的具体值就不太重要了。0N第3
29、章概率密度函数估计3.3.3贝叶斯学习贝叶斯学习贝叶斯学习是指在求出待定参数的后验分布后,不再去估计,而是直接求总体分布p(x|X),即dXppdXpXp)|()|()|,()|(xxx(3-43)其中(,)(,)(|,)(,)(|)(,|)()()()()(|)(|)(|)(|)()pXpp Xpp XpXp Xp Xp Xpp XpppXp Xxxxxxxx第3章概率密度函数估计现在还需要讨论p(x|X)是否收敛于p(x)的问题,其中p(x)是x的真实总体分布,它的参数为真实参数。为了明确表示样本集X中的样本个数,用XN表示由N个样本组成的样本集,即XN=x1,x2,xN。假设样本之间相互
30、独立,当N1时,有)|()|()|(1NNNXppXpx)1(N(3-44)此外,后验概率与样本个数的关系为第3章概率密度函数估计11(|)()(|)(|)()(|)(|)()(|)(|)()NNNNNNNp XppXp Xpdpp Xppp Xpdxx1111(|)(|)()(|)(|)()NNNNNNppXp XppXp Xdxx11(|)(|)(|)(|)NNNNppXppXdxx(3-45)第3章概率密度函数估计随着样本数的增加,我们可以得到一个密度函数序列p(),p(|x1),p(|x1,x2),这个过程称为递推贝叶斯方法。如果该密度函数序列收敛于一个以真实参数为中心的函数,则p(x
31、|XN)收敛到p(x),即lim(|)()NNpXpxx称这一性质为贝叶斯学习。第3章概率密度函数估计在例3.5中得到后验概率密度p(|X),N反映了在观察到一组样本集后对的推断,而2N则反映了对这一推断的不确定性。由于2N随着N的增加而单调减少,说明每增加一个观察样本都可以减少对推测的不确定性。当N增加时,p(|X)的峰会变得越来越突起,当N时,它趋近于函数,如图3-2所示。因此,正态分布具有贝叶斯学习的性质。第3章概率密度函数估计图 3-2正态分布的贝叶斯学习示意图第3章概率密度函数估计在例3.5中得到后验概率密度p(|X)以后,由下式可以求出样本x的概率密度函数,即(|)(|)(|)p
32、x Xp xpX d222211expexp2222NNNxddxxNNNNNNNNNNN2222222222222222222exp21)(2exp21第3章概率密度函数估计222221exp2()2NNNx22222222222221exp22NNNNNNNNxd )(2exp2122222NNNx(3-46)第3章概率密度函数估计即p(x|X)是正态密度函数，均值为，方差为，即N22N)|(Xxp),(22NNN(3-47)由式(3-47)可知,贝叶斯学习和贝叶斯估计得到的总体均值是相同的,都是N;贝叶斯学习得到的总体概率密度函数的形式与已知形式相同,只是用N代替,用2+2N代替2。由于
33、用N代替真实值会带来不确定性的增加,因而方差2增加为2+2N。第3章概率密度函数估计3.4 概率密度函数的非参数估计概率密度函数的非参数估计 3.3节讨论了概率密度函数的参数估计,其中假设概率密度函数的形式是已知的。但是,在大部分情况下,概率密度函数的形式是未知的。本节讨论在函数形式未知情况下的概率密度函数估计,即非参数估计方法。3.4.1非参数估计的基本原理非参数估计的基本原理设样本x的概率密度函数为p(x),则x属于区域的概率P为第3章概率密度函数估计xx dpP)(3-48)上式表明,概率P是密度函数p(x)的一种平均形式,对P的估计就是估计出p(x)的这个平均值。假设x1,x2,xN是
34、N个独立抽取的样本,其概率密度函数为p(x)。N个样本中有k个属于区域的概率为(1)kkN kkNPC PP(3-49)第3章概率密度函数估计其中，!()!kNNCkNk。为一个随机量，k的数学期望为：1 NkkE kkPNP(3-50)k的分布在其均值附近有一个陡峭的峰,可以认为 k/N 是P的一个很好的估计,也是概率密度函数平均值的一个好的估计。进一步假设p(x)是连续的,并且的范围很小,以至于p(x)在上几乎是不变的,那么,第3章概率密度函数估计VpdpP)()(xxx(3-51)其中,x是中的一个点,V是的“体积”。综合上述分析,p(x)的估计为/()Pk NpVVx(3-52)在式(
35、3-52)中,如果固定,即体积V固定,样本数N,则k/NP,此时,第3章概率密度函数估计 ()()pdPpVdxxxx(3-53)即式(3-52)得到的是概率密度函数p(x)的空间平均估计值。要想得到概率密度函数p(x),而不是p(x)的空间平均估计值,就需要让的体积V趋近于0。若把样本数N固定,令V趋于0,以至于不包含任何样本,此时,p(x)0,这种估计是没有意义的;或者恰有一个或几个样本同x重合,此时,p(x)为无穷大,同样也没有意义。第3章概率密度函数估计事实上,样本数目总是有限的,从而要求体积不能任意小,因此,所得到的密度函数估计结果还是一定范围内的平均值。为了估计x点处的密度,构造一
36、个包含x的区域序列1,2,。假设N时刻的样本数为N,N的体积为VN,N中的样本数为 kN,则p(x)的估计pN(x)为/()NNNkNpVx(3-54)第3章概率密度函数估计如果满足以下三个条件:limNNk(3-55)lim0NNV(3-56)lim/0NNkN(3-57)那么,pN(x)收敛于p(x)。上述三个条件表明:当N增大时,N中的样本数也增加;VN不断减少,以使pN(x)趋于p(x);尽管在区域N中落入了大量的样本,但与样本总数相比,还是可以忽略的。第3章概率密度函数估计满足上述三个条件的区域序列主要有两种选择方法:(1)Parzen窗法。选定一个中心在x处的区域N,其体积为VN(
37、例如,然后计算落入其中的样本数kN,用来估计局部密度pN(x)的值。(2)kN近邻法。选定一个kN值(例如),以x为中心构造一个区域N,其体积为VN,使N恰好包含kN个样本,这时的体积VN用来估计pN(x)。1NVNNkN第3章概率密度函数估计3.4.2Parzen窗法窗法假设x为d维空间中的一个点,超立方体N以x为中心、边长为hN,则其体积VN为dNNVh(3-58)对于d维空间中的任意一个样本xi,若矢量xxi中的每一个分量的绝对值都小于hN/2,则xi属于区域N,否则就不属于N。为了计算N包含的样本数kN,构造一个d维空间的窗函第3章概率密度函数估计11,1,2,()20,jujdels
38、eu(3-59)其中,u=(u1,u2,ud)。称为Parzen窗函数。从而,样本数kN可表示为()u1NiNiNkhxx(3-60)将式(3-60)代入式(3-54),可得估计第3章概率密度函数估计111()NiNiNNpNVhxxx(3-61)式(3-61)是Parzen窗法估计的基本表达式。为了使pN(x)成为一个概率密度函数,即pN(x)非负,且积分为1,要求窗函数满足下面两个条件:(u)0(3-62)()1duu(3-63)上述两式表明,窗函数本身满足密度函数的要求。第3章概率密度函数估计事实上,由式(3-61)可知,(u)的非负性能够保证pN(x)的非负性,进一步有11111111
39、()()1NNNiiNiiiNNNNpddddNVhNVhNxxxxxxxxuu(3-64)从而证明了pN(x)是一个概率密度函数。因此,只要一个函数满足条件式(3-62)和式(3-63),它就能够作为窗函数。除了上面选择的超立方体窗函数以外,还有更一般的形式。以一维窗函数为例,主要有下面三个窗函数:第3章概率密度函数估计 (1)方窗函数(如图3-3(a)所示):1,1/20,uuelse(2)正态窗函数(如图3-3(b)所示):21exp22uu(3)指数窗函数(如图3-3(c)所示):1exp2uu第3章概率密度函数估计图3-3 三种窗函数(a)方窗函数；(b)正态窗函数；(c)指数窗函数
40、第3章概率密度函数估计下面分析窗的宽度hN对pN(x)的影响。令1()NNNqVhxx(3-65)则pN(x)可以写成如下形式的平均值:11()NNNiipqNxxx(3-66)由VN=hdN可知,hN既影响qN(x)的幅度,又影响它的宽度。第3章概率密度函数估计如果h选得很大,则qN(x)的幅度就很小。此时,qN(x)宽度很大,只有当xi离x较远时,才能使qN(xxi)与qN(0)相差较大。因此,pN(x)就变成N个宽度较大的慢变函数的平均值,从而降低估计分辨率。反过来,如果hN选得很小,则qN(xxi)的峰值就很大,且出现在x=xi附近。此时,pN(x)就是N个以样本为中心的尖脉冲的平均值
41、,从而使估计不稳定。第3章概率密度函数估计综上所述,hN的选取对pN(x)的影响很大,如果hN太大,则估计的分辨率太低,反之则估计的统计变动太大。因此,当样本数目有限时,需要作适当的折衷;当样本数目无限时,则让VN随N的增大而缓慢地趋于零,从而使pN(x)收敛于p(x)。下面讨论pN(x)的收敛性。第3章概率密度函数估计对于固定的x,pN(x)与随机样本集x1,x2,xN有关,是一个随机量。如果:(1)密度函数p(x)在x处连续;(2)窗函数满足如下条件:()0u()1duusup()uu1lim()0diiuuu(3-67)(3-68)第3章概率密度函数估计(3)体积VN满足:limNNN
42、V(3-69)lim0NNV(3-70)则pN(x)是p(x)的渐进无偏估计、均方一致估计和弱一致估计,即lim()()NNE ppxx2lim()()0NNEppxx(3-71)(3-72)第3章概率密度函数估计lim()()1NNPppxx0()(3-73)注:条件(u)0,使pN(x)具有概率密度函数的性质。式(3-67)要求窗函数(u)是有界的;式(3-68)要求窗函数(u)随u的增长而快速地趋近于零。一般的窗函数都能满足这两个条件。式(3-69)和式(3-70)要求体积VN随着N的增长而趋于零,但其趋于零的速率低于1/N。例如,()1duu1/NVVN或1/logNVVN。第3章概率
43、密度函数估计证明证明先证明pN(x)的渐进无偏性。样本xi的概率密度函数就是未知密度函数p(x),因此1111()()()()()NiNNNiNNNNpE pEpdqpdNVhVhxxxvxxvvxvvv在上式中,当N时,VN0,qN(xv)趋于以x为中心的一个狄拉克函数,因此,当p(x)在x处连续时,有第3章概率密度函数估计lim()lim()()NNNNpE ppxxx再证明pN(x)的均方一致性。pN(x)的方差为2221222222()()()11()11()111()()11 ()NNNNiNiNNiNNNNNNNNNNNvEppEpN VhNNEpNVhNpdpN VVhNpdN
44、VhVhxxxxxxxxxxrrrxxrxrrr221()sup()1 ()()()NNNNpNqpdpN VNxxrrrx第3章概率密度函数估计式中，当N时,21()0NpNx，NN V，()()()Nqpdpxrrrx从而2lim()0NNvx(3-74)由式(3-71)和式(3-74),容易验证式(3-72)和式(3-73)成立。事实上,第3章概率密度函数估计2222()()()()()()()()()NNNNNNE ppE ppppvppxxxxxxxxx22222()()()()()()()NNNNEppvppPppxxxxxxx0()【例例 3.6】设p(x)是均值为零,方差为1的
45、一维正态分布密度,选择窗函数为正态窗函数:第3章概率密度函数估计 21exp22uu取1/NhhN其中,h1是可调节的参量,以考察h1估计的影响。p(x)的估计pN(x)为第3章概率密度函数估计111()NiNiNNxxpxNhh当得到一组正态分布随机样本后,就可以计算出pN(x),如图3-4所示,这些结果依赖于N和h1。第3章概率密度函数估计图 3-4 单一正态分布的实验结果第3章概率密度函数估计当N=1时,pN(x)是一个以第一个样本为中心的正态形状的单峰。当N=16时,若h1=1/4,单个样本的作用还是可见的;但对于h1=1与h1=4,单个样本的作用就变得模糊。在样本数没有达到无穷多,抽
46、样存在不规则的情况下,pN(x)出现一些不规则的扰动。当N趋向无穷时,pN(x)收敛于平滑的正态分布密度曲线。因此,要想得到较精确的估计,需要大量的样本。第3章概率密度函数估计【例例 3.7】若和hN与例3.6一样,假设未知密度是两个均匀分布密度的混合:)(uelsexxxp02025.025.21)(用Parzen窗法对这个密度函数进行估计,如图3-5所示。第3章概率密度函数估计图 3-5两个均匀分布的实验结果第3章概率密度函数估计当 N=1时,看到的是窗函数本身;当N=16时,难以分辨哪个估计更好;当N=256,h1=1时,估计结果就接近真实分布了。从上述两个例子可以看出,非参数估计的优
47、点是它的普适性:无论是规则分布还是不规则分布,单峰还是多峰分布,都可以用这个方法得到概率密度函数估计,而且只要有足够多的样本,非参数估计就可以收敛于任何复杂的未知密度。非参数估计的缺点是,要想得到满意的结果,需要的样本数比参数估计要多得多,从而需要大量的计算时间和存储量,特别是,当样本维数较大时,会出现“维数灾难”。第3章概率密度函数估计3.4.3kN近邻法近邻法在Parzen窗估计中,存在一个体积序列V1,V2,VN的选择问题。当选择时,对于有限的N,估计的结果对V1的取值比较敏感。如果V1取值太小,则大部分体积将是空的,从而pN(x)变得不稳定;如果V1取值太大,则pN(x)变得平坦,从
48、而难以反映真实的分布。1/NVVN第3章概率密度函数估计为了解决上述问题,人们提出了kN近邻估计法。在kN近邻法中,体积是数据的函数,而不是样本数N的函数。假设存在N个样本,需要估计密度函数p(x)。先确定N的某个函数kN,再构造一个以点x为中心的区域N,使N恰好包含kN个样本。这些kN个样本称为x的kN个近邻。kN近邻法中pN(x)的估计为/()NNNkNpVx第3章概率密度函数估计约束条件为limNNk lim0NNVlim/0NNkN可以取,其中,k1为某个大于零的常数,并使kN1。类似于Parzen窗法,当样本数N有限时,估计的结果受到k1的影响;当N时,pN(x)将收敛于未知分布p(
49、x)。1NkkN第3章概率密度函数估计此外,kN近邻估计也需要很多样本,特别是当样本维数较大时,同样会出现“维数灾难”。【例例 3.8】对于例3.6和例3.7中的正态分布和双峰分布密度,kN近邻估计的结果如图3-6所示。第3章概率密度函数估计图 3-6kN近邻估计的实验结果第3章概率密度函数估计习习题题3-1令xi(i=1,2,N)是独立的观测样本,xi是平稳过程,均值为=E(xi),方差为2=E(xi)2。试证明:(1)样本均值NiixNx11是的无偏估计;(2)样本方差NiixxNs12211是2的无偏估计。第3章概率密度函数估计3-2设样本(d维)x1,x2,xN服从d元正态分布,其均
50、值向量为,协方差矩阵为。求证:(1)11NMLiiNx是的无偏估计(2)11 1NTiMLiMLiNxx是的无偏估计。第3章概率密度函数估计3-3设X=x1,x2,xN为来自二项分布的样本集,即1(,)(1),0,1 01xxf x PPPxP试求参数P的最大似然估计量。P第3章概率密度函数估计3-4令x服从指数概率密度函数的分布:elsexexpx00)|(假设有N个样本X=x1,x2,xN都独立地服从分布p(x|),求参数的最大似然估计。第3章概率密度函数估计3-5设X=x1,x2,xN是来自某一类型的训练样本子集,其概率密度分布为elsexxp00/1)|(试证明参数的最大似然估计。ma

展开阅读全文