《模式识别原理与应用》课件第4章.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《模式识别原理与应用》课件第4章.ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别原理与应用 模式识别 原理 应用 课件
- 资源描述:
-
1、第4章线性判别分析第第4章线性判别分析章线性判别分析4.1线性判别函数线性判别函数4.2线性分类器线性分类器4.3分段线性分类器分段线性分类器4.4近邻分类器近邻分类器习题习题第4章线性判别分析4.1线性判别函数线性判别函数利用样本直接设计分类器,可以避开各类的概率密度函数的估计,其基本思想就是设定一组判别函数,并利用样本直接计算判决函数中的有关参数。在满足要求的情况下,应尽量选择简单的函数形式,最简单的是线性形式,这就是线性判别函数,有时也称线性判决函数。由线性判别函数构成的分类器称为线性分类器。本节重点分析线性判别函数的几何意义,并在此基础上介绍线性分类器设计的方法。第4章线性判别分析4.
2、1.1线性判别函数的几何意义线性判别函数的几何意义线性判别函数的形式如下:0(),1,2,Tiiigwimxw x(4-1)其中:wi 称为权向量;wi0 称为阈值权。wi和wi0 的值需根据样本集来确定。线性分类器设计的关键在于确定权向量wi和阈值权wi0。第4章线性判别分析1.两类问题的讨论两类问题的讨论在两类情况下,判决函数具有简单的形式:若,则判决(或)2;若,则判决(或);若,则不作判决或作任意判决,即可判成、2中的任意一类。两类判决区域的分界面为)()(21xxgg)()(21xxgg)()(21xxgg1x2x第4章线性判别分析)()(21xxgg即0)()(201021wwTx
3、ww(4-2)令21www20100www(4-3)(4-4)则式(4-2)变成了如下形式:00 wTxw(4-5)第4章线性判别分析其中:12(,)Tdw www,12(,)Tdx xxx,为d矢量;w0为常数。进一步,式(4-5)改写为01 1220()0Tddgww xw xw xwxw x(4-6)其几何意义为d维欧几里德空间中的一个超平面。(1)w是超平面的法向量。对于两类分类问题,线性判决函数的几何意义在于利用一个超平面实现对特征空间Rd的划分。若以H表示超平面,则对H上的任意两点x1、x2有第4章线性判别分析110()0Tgwxw x(4-7a)220()0Tgwxw x(4-7
4、b)示意图为图4-1。式(4-7)可化为:0)(21 xxwT(4-8)由x1、x2的任意性可知,w和H上任一向量正交,即w是超平面H的法向量。第4章线性判别分析图4-1 超平面示意图第4章线性判别分析如果取最大判决,即当)()(21xxgg时,判决 ,1x否则判决2x,从而得出w指向R1,称R1中的点在H的正侧,R2中的点在H的负侧。(2)g(x)是x到超平面距离的一种代数距离。设xp为x在H上的投影,r是x到H的垂直距离,w方向上的单位法向量为,其中,w2=wTw,则x可以分解为2Tww w第4章线性判别分析wwxxrp(4-9)如图4-2所示,判别函数为00()()()()TpTTppg
5、rwwrgrrwxwxww ww xwxww第4章线性判别分析图4-2 超平面的法向量第4章线性判别分析由上式可得:wx)(gr(4-10)据此可得结论:g(x)是x到超平面距离的一种代数距离。所谓代数距离,是和绝对距离相对而言的,指的是该距离有符号,当符号为正时,表明x对应的点在超平面的正侧,反之在负侧。第4章线性判别分析当x=0时,g(x)=w0,即原点到超平面的代数距离为 w00wr(4-11)由式(4-11)可知,若w00,则原点在超平面的正侧;若w00;在负侧时,g(x)0,原点在H正侧,故包含原点的H右侧就是R1。2.多类问题的讨论多类问题的讨论所谓多类问题,是指类别数m3的情形。
6、多类情况下可以按下述三种方法进行划分。(1)任意两个模式类之间分别用单个超平面分开。对于m类中的任意两类:i、j,ij,可以确定一个超平面Hij,能把i和j两类分开,两类各占Hij的一侧。显然,对于m类的判决问题,最多需要确定的超平面个数为第4章线性判别分析)1(212mmCmHij的方程为 0()Tijijijgwxw x()()jiijgg xx(4-12a)(4-12b)其中,ij,i,j=1,2,m。gij(x)判决准则为 第4章线性判别分析0()(,1,2,)0iijjgi jmxxx(4-13)事实上,gij(x)的判决结果与gji(x)的判决结果是一致的。因此,只需用gij(x)
7、=wTijx+wij0(i0,g13(x)0的区域;2的判决区域位于g12(x)0的区域;3的判决区域位于g13(x)0,g23(x)0,gj(x)0条件只能区分属于1和不属于1。此时特征空间中还可能存在不确定区域,如图中g1(x)0,g2(x)0,g3(x)0,g2(x)0,g3(x)0的区域;2的判决区域位于g1(x)0,g3(x)0的区域;3的判决区域位于g1(x)0,g2(x)0的区域。图中的IR1、IR2、IR3区域是有两个判决函数大于0的区域,IR4区域是三个判决函数均小于0的区域,这些区域内样本无法分类。第4章线性判别分析图 4-7例4.3示例图第4章线性判别分析对于x=(x1,
8、x2)T=(6,5)T,代入判决函数可得g1(x)=1,g2(x)=6,g3(x)=4,所以x2。(3)每一模式类都有一个判别函数。对于m类的判决问题,可以确定m个超平面,它的判决函数为0()Tiiigwxw x(4-16)判决准则为,则xi。其中拒判区域为gi(x)=gj(x),ij。()max()ijjggxx第4章线性判别分析对于前面两种情况中的不确定区域,由于不确定区域内任何两类的判别函数值不相等,按最大判决思想,可以做出类别判决,因此这种情况下不存在不确定区域。图4-8画出了m=3时的判决区域划分示意图。第4章线性判别分析图 4-8 每一类具有一个判决函数的情况第4章线性判别分析【例
9、例 4.4】一个三类问题,三个判决函数为 23212211)(1)()(xgxxgxxgxxx请画出各类判决区域,并判断x=(x1,x2)T=(1,1)T属于哪一类。解解各类的判决区域如图4-9所示,分别计算得g1(x)=0,g2(x)=1,g3(x)=1,因为g2(x)g3(x),g2(x)g1(x),所以x2。第4章线性判别分析图 4-9 例4.4示例图第4章线性判别分析4.1.2广义线性判别函数广义线性判别函数线性判决函数的优点是简单易行,但在解决实际问题时经常会遇到非线性判决函数的情况,图4-10所示的两类问题(一维)就属于这种情况。对此类问题,一种处理方法是将非线性判决函数转变为线性
10、判决函数。第4章线性判别分析图 4-10 一维特征空间中非线性可分图示第4章线性判别分析由图4-10可知,1的决策区域为(,a)和(b,+),2的决策区域为(a,b),由此可以建立一个二次函数g(x)=(xa)(xb)=c0+c1x+c2x2,对应的决策规则为 210)(0)(xxgxxg若选择下列非线性变换:212,TTy yx xy,1212,TTa ac ca第4章线性判别分析于是二次判决函数就可以化为向量y的线性函数:2001()Tiiig xca yca y(4-17)对于更一般的二次判决函数(Quadratic Discriminant Function),可以表示为 didjji
11、ijdiiixxwxwwg1110)(x(4-18)第4章线性判别分析因为xixj=xjxi,不失一般性,这里假设wij=wji。因此二次判决函数就由另外的个系数来产生更复杂的分界面。取yi=fi(x)为二次式或一次式,可使g(x)变为线性函数,即 2/)1(dd001()dTiiigwa ywxa y(4-19)变换后的特征空间的维数为 ,称上式为广义线性判决函数,向量a称为广义权向量。这样,原来的问题就通过从x到y的映射简化为寻找一个齐次线性分类器问题。d2/)3(dd第4章线性判别分析4.1.3线性判别函数设计的一般步骤线性判别函数设计的一般步骤在分析几何意义时,已经指出了将多类线性判决
12、问题转化为多个两类判决问题的解决方法,这种方法的优点是两类问题的解决比较简单,缺点是存在拒绝域。由于两类问题的解决具有普遍意义,因此,线性分类器的设计重点是两类情况下的设计问题。两类情况下判决函数的形式为0)(wgTxwx第4章线性判别分析设计线性判别函数的任务就是在一定条件下,寻找最好的w和w0。具体地说,需要先给出分类器性能优劣的数学描述,所谓的“最好”是相对于某种特定的判决准则而言的,不同的准则下所得到的最好分类器未必相同。一般来说,设计两类的线性分类器需要以下三步:(1)选择样本集z=x1,x2,xN。样本集中的样本来自两类且类别已知,同一类中的样本是独立抽取的,应具有相同的分布特性。
13、第4章线性判别分析(2)确定一个准则函数J,要求满足以下两个条件:J是样本集、w和w0的函数;J的值反映分类器性能,它的极值对应于“最好”的决策。(3)用最优化技术求解准则函数,得到极值点对应的w*和w*0。当J的求解比较困难,不能得到全局最优解或是求全局最优结果比较困难时,往往通过求局部最优解(次优解)来降低求解难度,或者用计算解代替解析解。第4章线性判别分析4.2线线 性性 分分 类类 器器本节主要讨论几种典型的线性分类器设计,其关键在于最优准则以及相应的求解方法。4.2.1基于错误概率的线性分类器设计基于错误概率的线性分类器设计基于错误概率的线性分类器设计,实质上就是分析在哪些特定条件下
14、,最小错误概率的贝叶斯分类器是一种线性分类器,从而也表明,线性分类器具有很好的分类性能,在特定条件下可以达到最小的错误概率。第4章线性判别分析由第2章可知,最大后验概率判决准则(也称为最小错误概率判决准则)为)()|(max)()|(,2,1iimijjPpPpxx若则jx其判别函数可表示为()(|)()iiigpPxx(4-20)第4章线性判别分析当类概率密度函数为正态分布或接近正态分布时,即 11221(|)(2)exp()()2dTiiiiipxxx(4-21)取自然对数有 111()()()ln(2)lnln()222TiiiiiidgP xxx(4-22)第4章线性判别分析进一步,若
15、各类是等协方差阵的正态分布,即 mii,2,1 则判决函数可以不考虑 的作用,简化判决函数为 idln21)2ln(211()()()ln()2TiiiiigP xxx1012TTiiw xxw x(4-23)第4章线性判别分析其中 1ii w(4-24)101ln()2iTiiiwP(4-25)观察式(4-23),第一项与类别号i无关,可以不考虑,进一步简化判决函数为 112Txx0()Tiiigwxw x(4-26)第4章线性判别分析此时的线性分类器具有最小错误概率,在错误概率作为性能指标的情况下,是最优的结果。若增加各类等概率的条件,即 miPPi,2,1 )(则式(4-23)中的lnP
16、(i)不起作用,判别函数可以写成进一步简化判别函数 101()()()2TiTiiiigw xw xxx第4章线性判别分析gi(x)=wTix+wi0 (4-27)式(4-27)与式(4-26)是一致的,此时,1012iTiiw 以上的判决函数均为取最大值判决,即)(max)(xxjjigg则判决xi(4-28)这里,是马氏(Mahalanobis)距离平方。在各类等概率条件下,可将系数1/2舍去,将马氏距离平方直接作为判决函数,即 1()()Tiixx第4章线性判别分析1()()()Tiiigxxx(4-29)决策准则改为取最小值判决:)(min)(xxjjigg,则xi(4-30)称这种分
17、类器为线性距离分类器。若在上述条件的基础上再增加条件:类内各特征间相互独立,且具有相同方差,即 第4章线性判别分析2 I 则121iii w1021122iTTiiiiw 与该线性分类器等价的线性距离分类器简化为 2()()()Tiiiigxxxx(4-31)第4章线性判别分析此时判决函数是x到i的欧几里德距离平方,称此时的贝叶斯分类器为最小距离分类器。距离分类器的几何意义在于将样本归入与它最相似的类,这里把类均值i看做是每一类的代表点,将点x到代表点i的距离看成是相似度的度量,距离越小,相似度越高。第4章线性判别分析4.2.2Fisher线性判决线性判决Fisher在1936年发表的论文中首
18、次提出了线性判决函数,称为Fisher线性判决函数。Fisher线性判决的基本思想是寻找一个最好的投影方向,当特征向量x从d维空间映射到这个方向上时,两类能最好地分开。这个方法实际上涉及特征维数的压缩问题。特征向量x从d维空间映射到一维空间的方法很多,在数学上也很容易实现,但投影方向选择的不同,投影结果的可分性也不同,如图4-11所示 第4章线性判别分析图 4-11不同方向上的投影具有不同的可分性第4章线性判别分析在图4-11中,二维空间中的两类1、2是可分开的,在x1方向上作投影后,两类仍是可分的,但在x2方向上作投影后,两类产生了重叠,变成了不可分。由此可见,由d维空间到一维空间的映射关键
19、是找出最易于分类的投影方向。第4章线性判别分析设来自两类的样本集为Z=x1,x2,xN,xi(i=1,2,N)为d维矢量,类别数m=2,两类样本数分别为N1、N2,对应样本子集为Z1、Z2。对xi(i=1,2,N)做如下变换可实现d维空间到一维空间的映射:(1,2,)TiiyiNw x(4-32)第4章线性判别分析则由Z1、Z2可以得到两个相应的集合Y1、Y2。在上述变换过程中,w不同,对应的映射结果也不同,相应地,映射结果的可分离程度也不同。所以,寻找最好的投影方向,在数学上就表现为寻找最好的变换方向w*。选择最好的投影方向,首先需确定类间可分性“最好”的数学表示,并将其表达为一个准则函数J
20、,J的极值对应最好的类间可分性。对于Fisher线性判决而言,为了定义准则函数,需先建立几个参量,下面按d维空间和一维空间分别介绍。第4章线性判别分析1.d 维空间维空间(1)各类样本的均值向量i:1 (1,2)iiiiNxx(4-33)(2)样本类内离散度矩阵Si和总类内离散度矩阵Sw:()()(1,2)iTiiiixSxx(4-34)12wSSS(4-35)第4章线性判别分析若考虑先验概率,则总类内离散度矩阵Sw定义为1122()()wPPSSS(4-36)令Tdieee),(21xx(4-37)则2212221212121)(dddddTiieeeeeeeeeeeeeeexx(4-38)
21、第4章线性判别分析x距离i越远,xi2=e21+e22+e2d越大,该距离平方正好是矩阵(xi)(xi)T 的迹。由此可知,第i类的类内离散度矩阵Si的迹是类内各点到类中心i的距离平方的和,从而反映了该类样本集的离散程度。Si的迹越大,样本集分布越分散。第4章线性判别分析(3)样本类间离散度矩阵Sb:1212()()TbS(4-39)若考虑先验概率,则类间离散度矩阵Sb定义为 121212()()()()TbPPS(4-40)类似地,Sb 的迹为 2212121()()dblllTrS(4-41)第4章线性判别分析2.一维空间一维空间(1)各类样本的均值:i1 (1,2)iiyYiyiN(4-
22、42)(2)类内离散度 和总类内离散度:)2,1(iSiwS2()(1,2)iiiy YSyi(4-43)21SSSw(4-44)第4章线性判别分析总类内离散度反映两类的类内离散程度,类内的分散程度越小,越便于分类,也即越小越好。定义Fisher线性判决函数为wS21212()()FJSSw(4-45)在Fisher线性判决函数中,分子反映了映射后两类中心的距离平方,该值越大,类间可分性越好;分母反映了两类的类内离散度,其值越小越好;从总体上来讲,JF(w)的值越大越好,在这种可分性评价标准下,使JF(w)达到最大值的w即为最佳投影方向。第4章线性判别分析为了求出JF(w)的极大值点,需要将J
23、F(w)转化为w的显式函数。iiZTiYyiiNyNxxw)(111 (1,2)iTTiZiiNxwxw(4-46)所以 2212121212TTTTw w wwTb w S w(4-47)第4章线性判别分析2()iiiyYSy2()iTTiZxw xw()()iTTTTiiZxw xw x w wTi w S w(4-48)第4章线性判别分析因此12TTTwwS w S ww S ww S w(4-49)故Fisher线性判决函数化为()TbFTwJw S www S w(4-50)上式中的JF(w)是著名的广义瑞利(Rayleigh)商。由于JF(w)与w的函数关系比较复杂,极值点不易求解
24、,为此,令分母等于非零常数,在此约束条件下求极值,用Lagrange乘数法求解,设 第4章线性判别分析0TwCw S w(4-51)定义目标函数:(,)()TTbwLCww S ww S w(4-52)其中,为Lagrange乘子,对上式求关于w的梯度:(,)2bwLwS wS ww(4-53)极值点满足:*0bwS wS w(4-54)第4章线性判别分析由于Sw是对称的和半正定的,当样本数目Nd时通常是非奇异的,因而有 1*wbS S ww(4-55)即w*是S-1wSb的特征向量,可以利用一般求解特征矢量的方法求解。Fisher利用Sb的性质实现了w*的解析求解,具体方法如下:第4章线性判
25、别分析*1212TbS ww*1212 Tw12R(4-56)其中*21wTR(4-57)为一标量,所以Sbw*总在12方向上,即两中心点的连线方向,如图4-12所示。第4章线性判别分析图 4-12Sbw*方向示意图第4章线性判别分析从而有*1*112()wbwRwS S wS(4-58)求得*112()wRwS(4-59)忽略常量因子,得 R*112()wwS(4-60)第4章线性判别分析利用w*,将样本x往该方向上投影,可得 xwTy)(*(4-61)在投影空间内的决策准则为:若yy0,则x1,否则x2。Fisher线性分类器具有如下性质:(1)当维数d和样本数N都很大时,在两类的先验概率
展开阅读全文