特征的选择与提取课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《特征的选择与提取课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特征 选择 提取 课件
- 资源描述:
-
1、第六章 特征的选择与提取 P1766.1 基本概念6.2 类别可分离性判据6.3 按距离度量的特征提取方法6.4 按概率距离判据的特征提取方法6.5 基于熵函数的可分性判据6.6 基于K-L变换的特征提取6.7 特征提取方法小结6.8 特征选择1第1页,共92页。本章学习目的l1了解特征空间选择在设计模式识别系统、解决模式识别具体问题中是至关重要的。l2了解描述量选择,特征组合优化的两种基本方法,一是对原特征空间进行删选原特征空间进行删选,另一种是通过变换改造原特征空间变换改造原特征空间。l3掌握典型的线性变换典型的线性变换对原特征空间优化的基本方法,进一步深入理解模式识别处理问题的基本方法确
2、定准则函数确定准则函数,并通过计算进行优化。l4了解并掌握特征选择方法使用的一些基本问题。2第2页,共92页。本章难点l1透彻理解什么叫特征空间的优化特征空间的优化,为什么要对特征空间进行优化。l2对特征空间进行优化,要用到一些数学工具,如向量点积向量点积、线性线性变换变换、正交变换正交变换、解决条件极值问题的拉格朗日乘子方法解决条件极值问题的拉格朗日乘子方法等。l3讨论利用K-L变换对特征空间进行降维,其中部分推导中用了正交变换正交变换,条件极值问题条件极值问题等数学工具,又涉及矩阵的特征值与特征矩阵的特征值与特征向量向量问题。另一方面要体会使用K-LK-L变换的好处变换的好处,如果对傅里叶
3、变换、及对信号进行时域分析与在频域分析等概念已有一定理解,可有助于对使用K-L变换方法的理解。3第3页,共92页。6.1 基本概念l分类器设计方法的研究固然重要,但如何确定合适的特征空间确定合适的特征空间是设计模式识别系统另一个十分重要、甚至更为关键的问题。l如果所选用的特征空间选用的特征空间能使同类物体分布具有紧致性紧致性,即各类样本分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。l反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。l本章内容属于如何构造一个特征空间如何构造一个特征空间,即对要识别的事物用什么方法进行描述描述、
4、分析分析。4第4页,共92页。(1)物理量的获取与转换l物理量的获取与转换,指用什么样的传感器获取电信号。如摄取景物则要用摄像机;文字与数字识别,首先要用扫描仪等设备,手写体文字所用传感器与印刷体文字可能不同。这些都属于物理量的获取,并且已转换成电信号,为计算机分析打下了基础l对从传感器中得到的信号,可以称之为原始信息原始信息,因为它要经过加工、处理才能得到对模式分类更加有用的信号。5第5页,共92页。(2)描述事物方法的选择与设计l在得到了原始信息之后,要对它进一步加工,以获取对分类最有效的信息。这部分信息必须对原始信息进行加工,而设计所要信息的形式是十分关而设计所要信息的形式是十分关键的键
5、的。l例如对阿拉伯数字的识别可以提出各种不同的想法,有的提出分析从框架的左边框到数字之间的距离变化反映了不同数字的不同形状,这可以用来作为数字分类的依据。l又有的方案则是强调分析不同截面的信号,如在框架的若干部位沿不同方向截取截面分析从背景到字,以及从字到背景转换的情况,如AB截面切割字符三次,CD截面切割字符一次等。6第6页,共92页。(3)特征空间的优化 l这个层次的工作发生在已有了特征的描述方法之后,也就是已有了一个初始的特征空间,如何对它进行改造与优化的问题。l一般说来要对初始的特征空间进行优化是为了降维降维。即初始的特征空间维数较高。能否改成一个维数较低的空间较低的空间,称为优化称为
6、优化,优化后的特征空间应该更有利于后续的分类计算。l所谓优化是要求既降低特征的维数,又能提高分类器的性能优化是要求既降低特征的维数,又能提高分类器的性能。l两种基本方法:特征选择特征选择(删掉部分特征)特征的组合优化特征的组合优化(一种映射),也就是说新的每一个特征是原有特征的一个函数。7第7页,共92页。数学表达为了说得更明确,假设已有D维特征向量空间Y=y1,y2,yD,则所谓特征选择特征选择是指从原有的D维特征空间,删去一些特征描述量,从而得到精简后的特征空间。在这个特征空间中,样本由d维的特征向量描述:X=x1,x2,xd ,dD。由于X只是Y的一个子集,因此每个分量xi必然能在原特征
7、集中找到其对应的描述量xiyj。而特征提取特征提取则是找到一个映射关系:A:YX 使新样本特征描述维数比原维数降低。其中每个分量xi是原特征向量各分量的函数,即 xi=xi(y1,y2,yD)因此这两种降维的基本方法是不同的两种降维的基本方法是不同的。在实际应用中可将两者结合起来使用,比如先进行优化组合,然后再进一步选择其中一部分,或反过来。8第8页,共92页。思考题9第9页,共92页。思考题l1什么叫特征空间?如果我们用颜色、尺寸、重量来衡量水果的构造,其特征空间是几维空间?l2如果用颜色、尺寸与重量组成的特征空间来区分苹果与梨,你认为这三种度量中的哪种最有效?为什么?能否想像这两种水果在这
8、个三维空间的分布?如果用这个特征空间来区分红苹果与樱桃,你想像一下这两类水果在特征空间如何分布?能否对这两种情况设计更经济有效的特征空间?10第10页,共92页。思考题l3如果两类物体在一个二维特征空间如图分布,能否用删除其中任一维来优化特征空间?有没有什么方法能得到一个对分类很有利的一维特征空间?11第11页,共92页。思考题l4上题的答案可用下图Y1与Y2组成的空间表示?你认为哪个分量可以删掉?l5你有没有办法将原在X1、X2空间表示的数改成用Y1、Y2空间表示?12第12页,共92页。l特征选择与特征提取的任务任务:求出一组对分类最有效的特征,所谓有效有效是指在特征维数减少到同等水平时,
9、其分类性能最佳其分类性能最佳。l因此需要有定量分析比较方法,判断所得到的特征维数及所使用特征是否对分类最有利,这种用以定量检验分类用以定量检验分类性能的准则称为类别可分离性判据性能的准则称为类别可分离性判据。6.2 类别可分离性判据13第13页,共92页。6.2 类别可分离性判据(续)l对特征空间进行优化是一种计算过程对特征空间进行优化是一种计算过程,其基本方法仍然是模式识别的典型方法,即找到一种准则(或称判据),采用优化方法,使这种准则达到一个极值。l判据,最理想的情况是与计算错误率有关的判据最理想的情况是与计算错误率有关的判据,贝叶斯公式就直接反映错误率,但在实际中运用有困难,因此又提出一
10、些其它实用性强的判据实用性强的判据。这些判据多多少少与错误率有关。大体分两类:基于距离的可分性判据基于距离的可分性判据,是一种以计算样本在特征空间离散程度为基础的准则;基于概率密度分布的判据基于概率密度分布的判据。14第14页,共92页。l6.3.1基于距离的可分性判据l6.3.2 按欧氏距离度量的特征提取方法6.3 按距离度量的特征提取方法15第15页,共92页。6.3.1基于距离的可分性判据l基于距离的可分性判据的实质是实质是Fisher准则的延伸准则的延伸,即综合考虑不同类样本的类内聚程度类内聚程度与类间的离散程度类间的离散程度这两个因素。l基于距离度量是人们常用来进行分类的重要依据,因
11、为一般情况下同类物体在特征空间呈聚类状态,即从总体上说同类物体内各样本同类物体内各样本由于具有共性由于具有共性,类内样本间距离应比跨类样本间距离小类内样本间距离应比跨类样本间距离小。lFisher准则正是以使类间距离尽可能大类间距离尽可能大同时又保持类内距离较小类内距离较小这一种原理为基础的。l特征选择与特征提取中也使用类似的原理,被称为基于距离的可基于距离的可分性判据分性判据。16第16页,共92页。6.3.1基于距离的可分性判据(续1)l为了度量类内、类间的距离,也可用另一种描述方法,即描述样本离散程度的方法。在讨论Fisher准则时曾用过两个描述离散度的矩阵。l一个是类间离散矩阵Sb:l
12、另一个是类内离散度矩阵SW:SWS1+S2及(6-1)(6-2)17第17页,共92页。6.3.1基于距离的可分性判据(续2)l以上式子是针对两类别情况的,如果推广至c类别情况,同时考虑各类的先验概率Pi不等,则可将上列各式表示成:ll其中 为所有样本的总均值向量,Pi表示各类别的先验概率,Ei表示i类的期望符号。m(6-3)(6-4)18第18页,共92页。6.3.1基于距离的可分性判据(续3)l利用(6-3)与(6-4)式可以将基于距离的可分性判据基于距离的可分性判据表示成以下形式:l1 计算特征向量间平均距离特征向量间平均距离的判据 l其中“tr”表示矩阵的迹。(6-5)式实际上是从计算
13、特征向量间总特征向量间总平均距离的公式平均距离的公式推导得到的,该式可写成该式可写成:l其中Pi、Pj分别表示各类的先验概率,ni、nj分别是第i与j类的样本个数,用来表示第i类第k个样本与j类第l个样本之间的距离度量。在欧氏距离情况下有:(6-6)(6-5)(6-7)19第19页,共92页。6.3.1基于距离的可分性判据(续4)im利用均值向量 与总均值向量 ,有代入(6-6)式可得:(6-10)中右边括弧里的前一项涉及类内各特征向量之间的平方距离类内各特征向量之间的平方距离,后一项则是类间距离项类间距离项。后一项可写成:m(6-8)(6-9)(6-10)20第20页,共92页。6.3.1基
14、于距离的可分性判据(续5)cicjjiTjijiciiTiimmmmPPmmmmP11121)()()()((6-11)显然利用(6-10)与(6-11)就可得到(6-5)。需指出需指出的是由(6-6)推导的各式是利用有限样本数据有限样本数据,因此得到的都是母体各量的估计值,而(6-5)式用的是母体的离散度矩阵。2 考虑类内类间欧氏距离的其它判据考虑类内类间欧氏距离的其它判据 上面的判据Jd(X)是计算特征向量的总平均距离,以下一些判据则基于使类间离散度尽量大,类内离散度尽量小的考虑而提出:P18621第21页,共92页。6.3.1基于距离的可分性判据(续6)其中 表示是矩阵对应的行列式|)(
15、5wbwSSSXJ(6-12)(6-13)(6-14)(6-15)22第22页,共92页。6.3.2 按欧氏距离度量的特征提取方法 P185 基于距离可分性判据的特征优化过程特征优化过程是通过一个线性变换实现的通过一个线性变换实现的。设在原特征空间一个样本向量表示成Y(D维),在优化特征空间中,样本向量表示成X(d维)。X与Y之间的关系是:其中W是一个Dd维矩阵,现在的问题是要利用判据找出一种线性变换,利用这种变换,实现这种判据的极值化。例如使上一节定义的判据J2(x)达到极值。(6-16)23第23页,共92页。6.3.2 按欧氏距离度量的特征提取方法(续1)如果对特征空间实行一个DD矩阵的
16、非奇异线性变换,J2,J3与J4,J5 都保持不变。例如若对原特征空间实行一DD线性变换A,则离散度矩阵 ,而映射变换后的J2(X)有:,为原空间(即y)离散度矩阵。,为映射后(即x)离散度矩阵bS*wS*bSwSp18724第24页,共92页。6.3.2 按欧氏距离度量的特征提取方法(续2)l下面讨论的特征提取变换,只考虑是降维的,即用Dd矩阵(dD)进行变换。其目的是在维数d的条件下,使相应的判据为最大。l在使用J2判据的情况下,可以将J判据表示成变换变换W的函数,有(6-17)利用特征值方法可求出使J2(W)最大的W解。如果W是一个DD的线性变换,则J2是不变的,而此时(6-17)可进一
17、步表示成(6-18)用WD代替(6-17)中的W,以强调是DD变换 25第25页,共92页。6.3.2 按欧氏距离度量的特征提取方法(续3)l如果 是 的各特征值对应的特征向量所组成的矩阵,则由(6-18)式可得 l其中i表示 的各特征值。(6-19)式表明D维特征空间中,J2判据的值是 矩阵的全部特征值之和全部特征值之和。l那么由对应于d个最大的特征值的特征向量所组成的矩阵最大的特征值的特征向量所组成的矩阵W(Dd),就能使所得到的d维特征满足J2判据最大的要求。l虽然J2,J3,J4乃至J5所采用的计算方法各不相同,但都得到一个同样的结论,如果矩阵 的特征值 按大小顺序列为:则选择前d个特
18、征值所对应的特征向量组成变换矩阵W(W=u1,u2,ud,都可使这些判据达到最大值,即 (6-19)D,21diiWJ12)(26第26页,共92页。6.3.2 按欧氏距离度量的特征提取方法(续4)l例6.1给定先验概率相等的两类,其均值向量分别为 ,协方差矩阵是:求用J2判据的最优特征提取。解:根据前面的分析,应先求 ,再求此矩阵的特征矩阵。今有混合均值 类间离散度矩阵:T0,1,0)(2121TiTiibS)()(212121412127第27页,共92页。6.3.2 按欧氏距离度量的特征提取方法(续5)类内离散度矩则接着,需求 的特征值矩阵。由于这是一个两类别分类问题,总均值向量值是两个
19、均值向量1和2的线性求和,则 中只有一个是独立的,因此 的秩是1,换句话说 只有一个非零特征值,W是D1矩阵,是一个向量W,求该向量需解方程:28第28页,共92页。6.3.2 按欧氏距离度量的特征提取方法(续6)或wwSTw121211)(41wT)(4121是标量,所以TwSw8,5,1 41)(211这就是所要求的解 因此利用W向量对原始的两维样本进行线性变换,得到新的一维分布,特征空间从两维降到一维,并满足J2判据。该特征空间实质上就是对应于Fisher准则求得的线性分类器法向向量,如果讨论的是多类别问题,则优化后的维数至多为类别减1。29第29页,共92页。6.4 按概率距离判据的特
20、征提取方法l这一节讨论如何依据不同类别分布概率密度函数来优化空间不同类别分布概率密度函数来优化空间,首先我们要回顾一下类分布概率密度函数在本课中表示为P(x|i),显然不同类别在特征空间X中的分布要尽可能不一样,则分类就比较容易,同俗的讲,不同类别在特征空间的不同区域聚集,则分类就容易,它们重迭的程度越低,越有利于分类,因此这一类可分性判据就是用各种方式来度量它们之间重迭的程度,一种是用P(x|1)到P(x|2)之间的乘积来计算其重迭程度,像Bhattacharya距离等,另一种用两者间的比值,成为散度。这一节只要了解这些最基本概念即可。6.4.1 基于概率分布的可分性判据6.4.2 按概率距
21、离判据提取特征30第30页,共92页。6.4.1 基于概率分布的可分性判据 P180l上一节讨论的是样本在特征空间的分布距离作为特征提取的依据。该种原理直观,计算简便。但是这种原理没有考虑概率分布,因此当不同类样本中有部分在特征空间中交迭分布时,简单地按距离划分,无法表明与错误概率之间的联系。下面讨论一些基于概率分布的可分性判据。l先研究两类情况:完全可分(图a),完全不可分(图b)(a)(b)=p(x|w2)31第31页,共92页。6.4.1 基于概率分布的可分性判据(续1)l如果我们不考虑各类的先验概率,或假设两类样本的先验概率相等,那末从两类条件概率分布可以看出:l如果两类条件概率分布互
22、不交迭,即对p(X|2)0处都有p(X|1)0,如图(a)所示,则这两类就完全可分;l另一种极端情况是对所有X都有p(X|1)p(X|2),如图(b)所示,则两类就完全不可分。l可采用p(X|1)及p(X|2)这两个分布密度函数之间的距离分布密度函数之间的距离Jp来度量概概率分布交迭的程度。率分布交迭的程度。任何函数 ,如果满足下列条件:1.Jp是非负,即Jp0 2.当两类完全不交迭时Jp达到其最大值 3.当两类分布密度相同时,Jp0 都可用来作为类分离性的概率距离度量32第32页,共92页。6.4.1 基于概率分布的可分性判据(续2)l一些常用的概率距离度量一些常用的概率距离度量l(一)Bh
23、attacharyya距离和Chernoff界限 Bhattacharyya距离的定义用下式表示 显然,当p(X|1)p(X|2)对所有X值成立时JB0,而当两者完全不交迭时JB为无穷大。Chernoff界限的定义与其相似,为 其中S取0,1区间的一个参数。不难看出s=0.5时JC=JB。Bhattacharyya距离与错误率的上界有直接关系,不仅可用来对特征空间进行降特征空间进行降维优化维优化,而且也用来对分类器的错误率作出估计对分类器的错误率作出估计。dxxpxpJssC)|()|(ln21133第33页,共92页。6.4.1 基于概率分布的可分性判据(续3)m(二)散度另一种常用的基于概
24、率距离度量的判据是利用似然比或对数似然比。对两类问题,其对数似然比为:对i类及j 类的平均可分性信息分别定义为:因此,可定义散度JD为区分i和j 的总的平均信息:m散度和Bhattacharyya距离都满足类别可分离性判据条件34第34页,共92页。6.4.1 基于概率分布的可分性判据(续4)lJB和JD都比较复杂,当概率分布具有某种参数形式,尤其是正态分布时,这些判据可以进一步简化。假定 二类都是d维正态分布,分别表示为:即 对数似然比 35第35页,共92页。6.4.1 基于概率分布的可分性判据(续5)l利用矩阵迹的性质ATB=tr(BAT),其中A、B表示向量,上式可改写成:将其代入Ii
25、j的计算公式,并化简得:由JD的定义 得:36第36页,共92页。6.4.1 基于概率分布的可分性判据(续6)l如果两类协方差矩阵相等,即 ,则 上式右部称为Mahalanobis距离的平方。从该式中可以看出在协方差矩阵相等条件下的散度与6.3.1中定义的Jd很相似,它们都是对样本在特征空间分散程度的描述,只是Jd是用欧氏距离度量,而JD是在协方差矩阵相等的条件下用Mahalanobis距离度量。l在正态分布时Bhattacharyya距离JB可表示成:37第37页,共92页。6.4.1 基于概率分布的可分性判据(续7)l当 时,而 JB与散度JD的表达式只差一个常系数。38第38页,共92页
展开阅读全文