参数估计与非参数估计课件.ppt

上传人（卖家）：晟晟文业

文档编号：4966638

上传时间：2023-01-29

格式：PPT

页数：49

大小：648.01KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《参数估计与非参数估计课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 参数估计课件

资源描述：: 1、第五章第五章参数估计与非参数估计参数估计与非参数估计参数估计与监督学习参数估计理论非参数估计理论 5-1 参数估计与监督学习贝叶斯分类器中只要知道先验概率，条件概率或后验概概率 P(i),P(x/i),P(i/x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计P(i),P(x/i),P(i/x)一参数估计与非参数估计参数估计：先假定研究的问题具有某种数学模型，如正态分布，二项分布，再用已知类别的学习样本估计里面的参数。非参数估计：不假定数学模型，直接用已知类别的学习样本的先验知识直接估计数学模型。二监督学习与无监督学习监督学习：在已知类别样本指导下的学习和训练，参数
2、估计和非参数估计都属于监督学习。无监督学习：不知道样本类别，只知道样本的某些信息去估计，如：聚类分析。5-2参数估计理论一最大似然估计一最大似然估计假定：待估参数是确定的未知量按类别把样本分成M类X1，X2，X3，XM 其中第i类的样本共N个 Xi =(X1,X2,XN)T 并且是独立从总体中抽取的 Xi中的样本不包含 (ij)的信息，所以可以对每一类样本独立进行处理。第i类的待估参数根据以上四条假定，我们下边就可以只利用第i类学习样本来估计第i类的概率密度，其它类的概率密度由其它类的学习样本来估计。),.,(21nTij 1.一般原则：一般原则：第i类样本的类条件概率密度：P(Xi/
3、i)=P(Xi/ii)=P(Xi/i)原属于i类的学习样本为Xi=(X1,X2,XN,)T i=1,2,M求求i的最大似然估计就是把的最大似然估计就是把P(Xi/i)看成看成i的函数，求的函数，求出使它最大时的出使它最大时的i值。值。学习样本独立从总体样本集中抽取的 N个学习样本出现概率的乘积取对数：NkiXkPiXPiiXPii1)|()|().|(NkikikNkXPXP11)|(log)|(log对i求导,并令它为0：有时上式是多解的,上图有5个解,只有一个解最大即.0)|(log.11NkikpXP0)|(log.0)|(log111ikNkpikNkXPXPP(Xi/i)，即为的估值
4、利用上式求出ii 2.多维正态分布情况已知,未知,估计服从正态分布所以在正态分布时)|(iiXP0)|(log1XPkNk121|2log21)|(XXXPkkTnk NkkX110NkkX1101i待估参数为代入上式得所以这说明未知均值的最大似然估计正好是训练样本的算术平均。110)(NkkNXNkkXN11 ，均未知 A.一维情况：n=1对于每个学习样本只有一个特征的简单情况：(n=1)由上式得即学习样本的算术平均样本方差21211,1222212log21)|(logXXPkik0)(1)|(log11211XXPkNkikNk代入02)(21)|(log12212212Nkki
5、kNkXXPNkkXN1111NkXkN122121 讨论：1.正态总体均值的最大似然估计即为学习样本的算术平均 2.正态总体方差的最大似然估计与样本的方差不同，当N较大的时候，二者的差别不大。B多维情况：n个特征（学生可以自行推出下式）估计值：结论：的估计即为学习样本的算术平均估计的协方差矩阵是矩阵的算术平均（nn阵列，nn个值）NkkXN111XTXNkNkk121XXkTk二.贝叶斯估计最大似然估计是把待估的参数看作固定的未知量，而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量，通过对第i类学习样本Xi的观察，使概率密度分布P(Xi/)转化为后验概率P(/Xi)，再求贝
6、叶斯估计。估计步骤:确定的先验分布P(),待估参数为随机变量。用第i类样本xi=(x1,x2,.xN)T求出样本的联合概率密度分布P(xi|)，它是的函数。利用贝叶斯公式,求的后验概率 dPXPPXPXPiii)()|()().|()|(（证明略）求贝叶斯估计dXPi)|(下面以正态分布的均值估计为例说明贝叶斯估计的过程一维正态分布一维正态分布:已知2,估计假设概率密度服从正态分布 P(X|)=N(,2),P()=N(0,02)第i类学习样本xi=(x1,x2,.xN)T,i=1,2,M 第i类概率密度P(x|i,xi)=P(x|xi)所以后验概率 (贝叶斯公式)dPXPPXPXPiii)
7、()|()().|()|(因为N个样本是独立抽取的，所以上式可以写成其中为比例因子,只与x有关,与无关 P(Xk|)=N(,2),P(u)=N(0,02)其中a,a包含了所有与无关的因子NkkiPXPaXP1)().|()|(dPXPai)()|(121exp2121exp21)|(00221kNkiXaXP 21exp10022NkkXa)1(2)1(21exp 200122202NkkXNaP(|xi)是u的二次函数的指数函数P(|xi)仍然是一个正态函数,P(|Xi)=N(N,N2)另外后验概率可以直接写成正态形式：比较以上两个式子,对应的系数应该相等 21exp21)|(2NNNi
8、XP0201222022111NkkNNXNN解以上两式得将N,N2代入P(|Xi)可以得到后验概率，再用公式 02022120202NXNNkkN2022022NN的估计求,)|(dXPi 对的估计为若令P()=N(0,02)=N(0,1)与最大似然估计相似，只是分母不同 02022120202NXNNkkNNNkkXNN111NidXP)|(三贝叶斯学习1.贝叶斯学习的概念：求出的后验概率之后，直接去推导总体分布即当观察一个样本时，N=1就会有一个的估计值的修正值当观察N=4时，对进行修正，向真正的靠近当观察N=9时，对进行修正，向真正的靠的更近当N,N就反映了观察到N个样本后对的最好
9、推测，而N2反映了这种推测的不确定性,N,N2,N2 随观察样本增加而单调减小，且当N,N2 0 当N，P(|xi)越来越尖峰突起N,P(|xi)函数，这个过程成为贝叶斯学习。dXPXPdXPXPXXPiii)|()|()|()|()|(2类概率密度的估计在求出u的后验概率P(|xi)后，可以直接利用式推断类条件概率密度。即P(x|xi)P(x|i，xi)一维正态：已知2，未知的后验概率为dxPxPxxPii)|()|()|(服从正态分布21exp21)|(21exp21)|()|(22xxPxPxPNNNiidxPxPdxPxPxxPiii)|()|()|()|()|(代入dxNNN21
10、exp2121exp2122dxxNNNNNNNN21exp21exp2122222222222221exp2122222NNNx为正态函数),(22NNN 结论：把第i类的先验概率P(i)与第i类概率密度P(x|xi)相乘可以得到第i类的后验概率P(i/x)，根据后验概率可以分类。对于正态分布P(x|xi)，用样本估计出来的N代替原来的用代替原来的方差即可。把估计值N作为的实际值，那么使方差由原来的变为 ,使方差增大22N2222N多维正态（已知，估计）设P(x|)=N(,)P()=N(0,0).根据Bayes公式，仿上面步骤可以得到：N,N 有以下关系21exp)|(1NNNT
11、iaxP).(.1011ANN).(.)(100111BxNkkNN其中a与无关这就是在多维情况下，对的估计 NANN10:)(011式得由010101)1(1)1(0)(1 NNxNBNkkNN式得：代入分类器设计就可以代入将BayesdxPxPxxPiiN)|()|()|(5-3非参数估计参数估计要求密度函数的形式已知，但这种假定有时并不成立，常见的一些函数形式很难拟合实际的概率密度，经典的密度函数都是单峰的，而在许多实际情况中却是多峰的，因此用非参数估计。非参数估计:直接用已知类别样本去估计总体密度分布，方法有：用样本直接去估计类概率密度p(x/i)以此来设计分类器,如窗口估计用学习
12、样本直接估计后验概率p(i/x)作为分类准则来设计分类器如k近邻法.1.密度估计:一个随机变量X落在区域R的概率为P P(X)为P(X)在R内的变化值,P(X)就是要求的总体概率密度 RP(x)RxPdxxPPRr)(假设有N个样本X=(X1,X2,XN)T都是按照P(X)从总体中独立抽取的若N个样本中有k个落入在R内的概率符合二项分布其中P是样本X落入R内的概率 Pk是k个样本落入R内的概率数学期望:E(k)=k=NP 对概率P的估计:。是P的一个比较好的估计设P(x)在R内连续变化,当R逐渐减小的时候,小到使P(x)在其上几乎没有变化时，则其中是R包围的体积 PpCPkNk
13、kNk1NkP NkNkdxxPPR)(NkVxPdxxPPR)()(RdxV 条件密度的估计：(V足够小)讨论:当V固定的时候N增加,k也增加,当时只反映了P(x)的空间平均估计而反映不出空间的变化 N固定,体积变小当时,k=0时时所以起伏比较大,噪声比较大,需要对V进行改进.NkPVxP)(VNkxP)(Nk1NkPVVNkxP1)(0V0)(VNkxP0kVNkxP)(对体积V进行改进：为了估计X点的密度,我们构造一串包括X的区域序列R1,R2,.RN.对R1采用一个样本进行估计，对R2采用二个样本进行估计.。设VN是RN的体积，KN是N个样本落入VN的样本数则密度的第N次估
14、计：VN是RN的体积 KN是N个样本落入VN的样本数PN(x)是P(x)的第N次估计VNk(x)PNN若若PN(x)收敛于收敛于P(x)应满足三个条件：应满足三个条件：，当N时，VN，N，VN0 这时虽然样本数多，但由于VN，落入VN内的样本KN 也减小，所以空间变化才反映出来，N ，kN ，N与KN同相变化，KN的变化远小于N的变化。因此尽管在R内落入了很多的样本，但同总数N比较,仍然是很小的一部分。0limVNNKNNlim0limNKNN如何选择VN满足以上条件：使体积VN以N的某个函数减小，如 (h为常数)使KN作为N的某个函数，例 VN的选择使RN正好包含KN个近邻 V1K1，V
15、2K2，.VRKR Kn近邻法NhVNNKN窗口法2.Parzen窗口估计假设RN为一个d维的超立方体，hN为超立方体的长度超立方体体积为：，d=1，窗口为一线段 d=2，窗口为一平面 d=3，窗口为一立方体 d3，窗口为一超立方体窗口的选择：hVdNN其他.021|,1)(uu|exp)(uu 方窗函数指数窗函数21exp21)(2uu正态窗函数(u)(u)(u)hN 正态窗函数(u)是以原点x为中心的超立方体。在xi落入方窗时，则有在VN内为1 不在VN内为0落入VN的样本数为所有为1者之和密度估计22hxxhxxNiNi1212|hhhxxNNNiNiNiNhxxK1)|(NiNiN
16、NNNhxxVNVNKxP1)|(11)(讨论：每个样本对估计所起的作用依赖于它到x的距离，即|x-xi|hN/2时，xi在VN内为1，否则为0。称为的窗函数，取0，1两种值，但有时可以取0,0.1,0.2多种数值，例如随xi离x接近的程度，取值由0,0.1,0.2到1。)|(hxxNihxxNi|)|(hxxNi 要求估计的PN(x)应满足：为满足这两个条件，要求窗函数满足：窗长度hN对PN(x)的影响若hN太大,PN(x)是P(x)的一个平坦,分辨率低的估计,有平均误差若hN太小,PN(x)是P(x)的一个不稳定的起伏大的估计,有噪声误差为了使这些误差不严重，hN应很好选择hxhxxd
17、hxxhxxNixNiNiNi|0)|()|(0)|(1)(0)(dxxPxPNN例1：对于一个二类（1，2）识别问题，随机抽取1类的6个样本X=(x1，x2，.x6)1=(x1，x2，.x6)=(x1=3.2，x2=3.6，x3=3，x4=6，x5=2.5，x6=1.1)估计P(x|1)即PN(x)解：选正态窗函数)21exp(21)(2uu)|(21exp21)|()(2hxxhxxuNiNi0123456x6x5x3x1x2x4xx是一维的上式用图形表示是6个分别以3.2，3.6，3，6，2.5，1.1为中心的丘形曲线(正态曲线)，而PN(x)则是这些曲线之和。)05|1.1|(21ex
18、p134.0.)05|2.3|(21exp134.0)|(11)(221xxhxxVNxPNiNiNN5.0665.0VN665.0h,NhhV11NNN，其中选由图看出，每个样本对估计的贡献与样本间的距离有关，样本越多，PN(x)越准确。例2：设待估计的P(x)是个均值为0，方差为1的正态密度函数。若随机地抽取X样本中的1个、16个、256个作为学习样本xi,试用窗口法估计PN(x)。解：设窗口函数为正态的，1，0hN:窗长度，N为样本数，h1为选定可调节的参数。)|(21exp21)|(2hxxhxxNiNiNhh1N设NiiNiNiNhNxxNhhxxhNNxP112111|21exp2
19、11)|(1)(v用窗法估计单一正态分布的实验Parzen001.001.01.00.10.10001.001.01.00.10.10001.001.01.00.10.1025.01h202202202001.001.01.00.10.1011h41hN=N=256N=16N=1讨论：由图看出,PN(x)随N,h1的变化情况当N1时，PN(x)是一个以第一个样本为中心的正态形状的小丘，与窗函数差不多。当N16及N=256时 h10.25 曲线起伏很大，噪声大 h11 起伏减小 h14 曲线平坦，平均误差当N时，PN(x)收敛于一平滑的正态曲线，估计曲线较好。例3。待估的密度函数为二项分布
20、解：此为多峰情况的估计设窗函数为正态解：此为多峰情况的估计设窗函数为正态x-2.5-210.2502P(x)025.01)(xP-0.25x-20 x2x为其它NhhuuN12,21exp21)(001.001.01.00.10.10001.001.01.00.10.10001.001.01.00.10.1025.01h202202202001.001.01.00.10.1011h41hN=N=256N=16N=1v用窗法估计两个均匀分布的实验Parzen当N=1、16、256、时的PN(x)估计如图所示当N1时，PN(x)实际是窗函数。当N16及N=256时 h10.25 曲线起伏大 h
21、11 曲线起伏减小 h14 曲线平坦当N时，曲线较好。结论：由上例知窗口法的优点是应用的普遍性。对规则分布，非规则分布，单锋或多峰分布都可用此法进行密度估计。要求样本足够多，才能有较好的估计。因此使计算量，存储量增大。3.KN近邻估计：近邻估计：在窗口法中存在一个问题是对hN的选择问题。若hN选太小，则大部分体积将是空的（即不包含样本），从而使PN(x)估计不稳定。若hN选太大，则PN(x)估计较平坦，反映不出总体分布的变化，而KN近邻法的思想是以x为中心建立空胞，使v，直到捕捉到KN个样本为止。称KN-近邻估计 v的改进，样本密度大，VN;样本密度小，VN;P(x)的估计为：NkN取,VN
22、k(x)PNNN使使PN(x)收敛于收敛于P(x)的充分必要条件：的充分必要条件：，N与KN同相变化，KN的变化远小于N的变化 KNNlim0limNKNN)(11)()(111|VxPVVNKxPxPNNNN，所以因为V1为N=1时的VN值NVNxPxPNNxPNKxPNKVNKNNNNN1)(1)()()(时，当KN近邻估计对KN和VN都作了限制KN近邻法作后验概率的估计近邻法作后验概率的估计由KN近邻估计知N个已知类别样本落入VN内为KN个样本的概率密度估计为：N个样本落入个样本落入VN内有内有KN个，个，KN个样本内有个样本内有Ki个样本属于个样本属于i类类则联合概率密度：NVVNK
23、NN1VNkxPNNN)()()|(),(iiNiiNPxPvNkxP根据Bayes公式可求出后验概率：类别为i的后验概率就是落在VN内属于i的样本ki与VN内总样本数KN的比值MjiNiNNiiiiiiNxPxPPxPPxPxP11),(),()()|()()|()|(VNkxPxPNNMjjN1),()(VNkxPNiiN),(kkxPNiiN)|(后验概率的估计：K近邻分类准则：对于待分样本x，找出它的k个近邻，检查它的类别，把x归于样本最多的那个类别。K近邻分类的错误率随K，Pk,最低的错误率为Bayes分类。P*PK 4、最近邻分类准则：待分样本x，找一个离它最近的样本，把x归于最近的样本一类。错误率：M为类别数P(e)为Bayes估计的错误率最近邻分类法则的错误率P比K近邻错误率还大，但最大不会超过贝叶斯分类器错误率的二倍。)(2)(12)()(ePePMMePPePMM1MM1PP(e)BayesK近邻最近邻

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：参数估计与非参数估计课件.ppt
链接地址：https://www.163wenku.com/p-4966638.html

晟晟文业

内容提供者

实名认证

联系作者