模式识别课件-模式识别导论本(二)-.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《模式识别课件-模式识别导论本(二)-.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 课件 导论
- 资源描述:
-
1、模式识别导论 模式识别第二讲:Bayes决策理论模式识别导论l2.1 基于最小错误率的Bayes判别法l2.2 基于Bayes判别的几种判别规则l基于最小风险的Bayes决策lNeyman-pearson决策l最小最大决策l序贯分类决策l2.3 正态分别模式的统计决策l正态分别概率密度函数的定义与性质l多元正态概率模型的Bayes判别函数l2.4 概率密度函数的估计l2.5 Bayes分类器的错误概率模式识别导论l 如果模式表现为具有确定性特征,在特征空间中各类互不重叠,那么可以用线性判别函数(广义线性)l 但事实上并不完全是这样,许多观测结果具有不确定性,这时用概率法则。如图 模式识别导论全
2、概率(total probability)和Bayes规则(有关知识复习)设有M个事件MiAi,2,1,由基础概率论可知 MiiAP11于是,对于任意一个事件B,它的概率由下式确定(全概率公式):MiiiAPABPBP1|iABP|iA为 出现的条件下,事件B出现的概率,模式识别导论即条件概率,由下式定义:APABPABP,|ABP,是两个事件A和B同时出现的联合概率需要注意的是,虽然说事件B是任意的,但事实上,从全概率公式可以看出,它和事件 中的某个或某几个或全部是有联系的,iA这种联系就是:中的某个或某几个或全部都出现的话,B必定出现,否则,P(B)为0 iA BPBAPAPABP|由条件
3、概率的定义得到模式识别导论 MiiiAPABPAPABPBPAPABPBAP1|变换一下,再利用全概率公式:上面的公式很容易扩展到随机变量(random variable),这时事件的概率应该变成是随机变量的概率密度函数 均值和方差(mean and variance)xp是随机变量x的概率密度函数 模式识别导论它的均值和方差分别定义为 dxxxpxE dxxpxEx22统计独立性(statistical independence)设有两个(或多个)随机变量x、y当且仅当下式成立时 ypxpyxpyx,称x和y是统计独立的,这时容易证明 yExExyE模式识别导论正态分布(normal dis
4、tribution)正态分布是最常见和常用的分布形式。由于中心极限定理(central limited theorem)所表述的事实,使得正态分布最具实用意义 一元正态分布多元正态分布模式识别导论首先我们介绍一个在推导多元正态分布时有用的公式。设有一组随机变量 pxxx21,用随机向量x来表示,把它通过某种变换g变换到随机向量y后,概率密度函数是怎么变化的呢?设变换是按照式yg(x)进行的,式中,g(g1,g2,gp)T,那么y和x的概率密度函数由如下关系:模式识别导论 Jxyxypp其中,|J|是雅可比行列式的绝对值:pppppxgxgxgxgxxx111121,J模式识别导论一个最简单的变
5、换是线性变换,即 BAxy AByAyxy1pp标准正态分布的均值为零,方差为1,其概率密度函数的数学表达式 xxxp 2exp212模式识别导论分布函数则由下式求得:XXXerfdxxdxxpXxpXP2212121exp212 dxxXerfx02exp2式中称为误差函数设有随机变量 其中X服从标准正态分布,则变换公式(这时都是一元变量),得到一般正态分布的概率密度表达式 XY 221exp21xyp模式识别导论设随机向量X由 p个随机变量 pXXX21,组成,它们是是独立同分布的,且都服从标准正态分布,那么这p个随机变量的联合概率密度函数为:212/21111,exp22pppiipii
6、p xxxp xx对随机向量X做变换:AXY应用前述变换公式模式识别导论 yAAyAy112/21exp21TTpp因为Y的协方差矩阵(covariance matrix),由下式确定:TTEAAyy yyy12/12/21exp21Tpp所以模式识别导论上式即为多元正态分布(multivariable normal distribution)的概率密度函数 样本均值:一个随机变量经过n次观测,获得观测数据y1,y2,yn,这n个观测数据的样本均值为:niiyny11样本均值和总体均值一般是不相同的,但样本均值是总体均值的很好近似:的方差是随机变量ynyyE22,var,模式识别导论2.1 2
7、.1 基于最小错误率的基于最小错误率的BayesBayes决策决策一、两类问题例如:细胞识别问题。设1正常细胞,2异常细胞。某地区经大量统计获先验概率P(1),P(2)。若取该地区某人细胞,问属何种细胞,此时只能由先验概率决定。这种分类器意义不大221121),()(),()(xxPPPP模式识别导论不过一般总是不止这么一点信息的。假设我们对细胞的某个特征x进行了测量,它具有概率密度函数1|xp现假设我们对某未知细胞进来了这个特征的测量,获得测量值x,那么这个测量值对我们判别该细胞来自哪一类有什么样的影响呢?设细胞来自 同时具有测量值x的概率为i)()|()()|(),(,xpxPPxpxpx
8、piiiii模式识别导论 21)()()()(|jjjiiiiiPpPpxpPpPxxxx全概率公式这就是Bayes公式。当给定某未知细胞特征的测量值的条件下,来自于 的概率。这个概率称为后验概率。所以后验概率的计算可以通过先验概率和类概率密度i模式识别导论221121),()(),()(xxPxPxxPxP则若则若一般地,设N N个样本分为两类1,2。每个样本抽出n个特征,x x=(x1,x2,x3,xn)T判别规则:决策面按照判别规则将多维特征空间分成m个类别区域,这些区域的边界面决策面方程用解析形式表示决策面判别函数用以表述判别规则的函数模式识别导论)(,)()(ln)()(ln)()4
9、()(,)()()()()()3()(),()()()()()2()(),()()()1(12211221221121取对数方法似然比形式类条件概率密度后验概率PPppgPPppgPpPpgPPgxxxxxxxxxxxx若已知先验概率P(1),P(2),类条件概率密度p(x x|1),p(x x|2)。则可得贝叶斯判别函数四种形式:模式识别导论决策规则:2112212112212122112121)()(ln)()(ln)()4()()()()()3()()()()()2()()()1(xxxxxxxxxxxxxPPppgPpPpPpPpPP模式识别导论Bayes决策的基本思想是:要求判别归属
10、时依概率最大作出决策,这样的结果可以使分类的错误率最小 xxxxxdpePdePeP|,对两类问题,如果P(1|x)P(2|x),则有 1x如果此时作出2x的决策则是错误的可以认为条件错误率为P(2|x)模式识别导论xxx|21PPePxxxx|2112PPPP如果令t为两类的分界面,则在特征向量X是一维时,t为x轴上的一个点,它将x轴分为两个区域R1和R2。R1为 R2t,t xxxxxxxxxxdPpdPpdpPdpPePtttt112212|(2-1-9)模式识别导论模式识别导论Bayes决策,实际上是对每个x都使P(e|x)取数值最小的,这样(2-1-9)式的积分必然达到最小,即平均错
11、误率P(e)达到最小。这就证明了贝叶斯决策确实使错误率最小。模式识别导论例例:某地区细胞识别:P(1)=0.9,P(2)=0.1 未知细胞测量得特征x,1,2有该特征的概率分别如下,该细胞属于正常细胞还是异常细胞?设1为正常细胞。P(x|1)=0.2,P(x|2)=0.4.),()(),()(,182.0)(1)(818.01.04.09.02.09.02.0)()()()()(211211221111用所以先验概率起很大作因为属正常细胞。因为PPPPPPPPPPPjjjxxxxxxxx解解:先计算后验概率:模式识别导论例:设有一维两类问题,特征x的概率密度函数)1(exp(1)|()exp(
12、1)|(2221xxpxxp令P(1)=P(2)=0.5,计算使错误率最小的阈值 5.0 )1(exp()exp(:0220 xxxx解:模式识别导论g(x)nxxxX.21特征向量判别计算决策21x阈值单元分类器设计:两类情况:多类情况:=(1,2,m),x=(x1,x2,xn)判别函数:M类有M个判别函数g1(x),g2(x),gm(x).每个判别函数有前述的四种形式。决策规则:),.,2,1(,)()(max)()()(1MixPxPPxPxgijjMjiiiiijMjiiixPxPPxPxg)(ln)(lnmax)(ln)(ln)(1另一种形式的判别函数:0)()(),()(xgxgx
13、gxgjiji即g1(x)Maxg(x)nxxxX.21特征向量判别计算决策ixg2(x)gn(x)最大值选择器.决策面方程:模式识别导论最小风险最小风险Bayes分类器分类器假定要判断某人是正常(1)还是肺病患者(2),于是在判断中可能出现以下情况:第一类,判对(正常正常)11;第二类,判错(正常肺病)21;第三类,判对(肺病肺病)22;第四类,判错(肺病正常)12。当发生错误时,由此引起的损失或风险是不同的,因此引入最小风险Bayes分类器。先说明几个概念:模式识别导论行动i:表示把模式x判决为i类的一次动作。损失函数ii表示模式X本来属于i类而判为i所受损失。因为这是正确判决,故损失最小
14、。损失函数ij=表示模式X本来属于j类判为i所受损失。因为这是错误判决,故损失最大。风险R(期望损失):对未知X采取一个判决行动(X)所付出的代价(损耗)条件风险(也叫条件期望损失,对于给定的X,采取i的损失):1,1,2,.,.()MiijijjjREPia aMxx在整个特征空间中定义期望风险,期望风险:)(,平均风险xxxxdPRR模式识别导论对于给定的x,如果采取决策,从决策表可见,对应于决策,可以在M个,j=1,2,m当中任取一个损失函数,其相应概率为P(j|x)。损失 状态决策123m123aij1112131m2122232m1a2a3aam模式识别导论条件风险只反映对某x取值的
15、决策行动i所带来的风险。期望风险则反映在整个特征空间不同的x取值的决策行动所带来的平均风险。最小风险Bayes决策规则:kiMikxxRxR则若,min,.,2,1对于实际问题,最小风险贝叶斯决策可按下列步骤进行:在已知P(j),p(x|j),j=1,2,m,并给出待识别的x的情况下,根据贝叶斯公式计算出后验概率:iimijjjPxPPxPxP|1模式识别导论aii,2,1,xRi|利用计算出的后验概率及决策表,按(2-2-3)计算出采取的条件风险 xRi|kaixRxRik,2,1|min|k对(2)中得到的a个条件风险值,i=1,2,a,进行比较,找出使条件风险最小的决策,即,则就是最小风
16、险贝叶斯决策 结论:最小风险Bayes决策不仅取决于先验概率,还取决于损失函数。实际工作中,损失函数的确定需要根据不同的具体问题而定模式识别导论1211122122例:已知正常细胞先验概率为()0.9,异常为()0.1,正常和异常细胞具有特征x的概率分别为()0.2,()0.4,0,6,1,0iiPPP xP x 二类问题:把x归于1时风险:把x归于2时风险:)()()()()()(22212122121111xPxPxRxPxPxR122111221221112112由上例中计算出的后验概率:()0.818,()0.182条件风险:()()()1.092()()0.818因为()()异常细胞
17、,因决策类风险大。因6较大,决策损失起决定作用。jjjPxPxRxPxPxRxPxRxRxx模式识别导论10,0 1:1,()()()()1()()()时用函数时后验概率最小,就相当于最大,这时便得到最小错误率分类器。ijMiijiijjjij ij iiiiijijRxPxPxPxPxRxPx下面我们会看到,Bayes决策是最小风险Bayes决策的特殊情况:模式识别导论在一类错误率固定使另一类错误率最小的判别准则在一类错误率固定使另一类错误率最小的判别准则(聂曼-皮尔逊判决neyman-pearson))(1xP)(2xP1R2X1X12R考虑两类决策问题,其两类错误率为P1(e)(本属第一
18、类被判为第二类)和P2(e)(反之)。由于实际工作中常常要求限制某一类错误率不得大于某个常数而使另一类错误率尽可能地小,例如在癌细胞识别中,我们已经认识到把异常误判为正常的损失更为严重,常常要求这种误判为错误率P2(e)很小,即P2(e)=是一个很小的常数,在这种条件下再要求P1(e)即把正常误判为异常的错误率尽可能地小。这是一个条件极值问题 00,211|RdxxpeP 122|RdxxpeP模式识别导论)()(021ePePr设:dxxpdxxpRR11|1|12考虑到:dxxpxpdxxpxpdxxpdxxprRRRR210120021|1|1|1112求R1使r取得极小值。运用拉氏乘数
19、法,得到模式识别导论由此式分别对x和求导,令 0 xr0r21|xpxp14-2-13,2-2-2|021dxxpR可以推知,当我们选择满足条件0|21xpxp的点x的全体组成为R1,就可以保证这时的r比其他任何R1的取法要小。因为此时可以保证R1能使被积函数取正的最大的域。对于其他任何新的取法,不妨设121111)(RRRR那么在R11上,0|21xpxp那么在R12上,0|21xpxpR1模式识别导论dxxpxpdxxpxprdxxpxpdxxpxpdxxpxprRRRRRR)|(|()|(|()1(|11211121111212121210210上式第二项积分为正,第三项积分为负,因此r
20、r 模式识别导论同理,当选择 的点x 组成区域R2可以使所求的目标函数最小,综上,有判别规则0|21xpxp21|xPxP21x可以看出聂曼皮尔逊决策规则与最小错误率贝叶斯决策规则都是以似然比为基础的,所不同的只是最小错误率决策所用的阈值是先验概率之比P(2)/P(1),而聂曼皮尔逊决策所用的阈值则是Lagrange乘子它是(2-2-13)和(2-2-14)方程的解。模式识别导论这里,判决阈值 又是由 决定的,即适当选取002)(ep020()p e当给定后,拉格朗日乘子 可由式其中为判别边界g()2p x|dx)g()但显式求解很困难,因为是 的单调函数,可以用试探法模式识别导论例例:两类的
21、模式分布为二维正态协方差矩阵为单位矩阵1=2=I,设20.04求聂曼-皮尔逊准则 T.解:解:TT0,1,0,121 22exp212exp21)(21exp212exp21)(22212222221111xxPxxPTTxxxxxx同理:所以因为是两类正态模式识别导论的不同直线。判别边界是平行于对于不同式有了判别边界和判别形即判别式为:判别边界为:如右图所示22112111121,ln212exp2exp2exp)()(:xxxxxxxPPxx42 12141111x2x12345.07.0345.07.0模式识别导论2/)1(exp212/)1(exp(21)|()|()|(2122221
22、212121xdxxxxpxppx边缘密度的的函数,需求由于界面只是x121ln21021exp21dxx模式识别导论nx211121ndyy2exp2121ln2/10令 x1-1=y 则 y=故 4211/21/4Y-1.693-1.347-1-0.653-0.307X1-0.693-0.34700.3470.6930.0460.0890.01590.2580.3780模式识别导论最大最小判别准则最大最小判别准则:前边的讨论都是假定先验概率不变,现在讨论在P(i)变化时如何使最大可能风险最小,先验概率P(1)与风险R间的变化关系如下:.)(,11)(12122212111212211122
23、212221121222211212212111121122122121的线性函数就是被确定,风险一旦,对二类情况有:关系:与风险PRdxxPdxxPPdxxPRdxxPdxxPPPdxxPPxPPdxxPPxPPdxxPxxRdxxPxxRdxxPxxRRPRi整个样本空间中的期望风险模式识别导论 1222221211121221122212221dxxPdxxPbdxxPabPaR其中:)(1xP)(2xP12X1X12 。使最大风险为不变,变化,则平行,与横坐标这时直线如图所示,这时候最大风险为最小即无关与使如果选择关系为一条曲线与选择不同时,当关系为直线关系与区间固定时,当a:0.,0
24、,3;,2;,1112221222222121112122111211211121212RPPRdxxPaRdxxPdxxPPRbPRRPPR 这样,就得出最小风险与先验概率的关系曲线,如图所示:讨论:1PR固定21,*RA选择不同21,)(1*P1PR*RB)(1*P不变变化RP1模式识别导论 .,0.0,2121211222112112两类错误概率相等若选取损失为满足应该使边界所以在最大最小判别中ePePdxxPdxxPb上式证明,所选的判别边界,使两类的概率相等:ePeP21这时可使最大可能的风险为最小,这时先验概率变化,其风险不变模式识别导论序贯分类序贯分类迄今为止所讨论的分类问题,关
展开阅读全文