特征选择课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《特征选择课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特征 选择 课件
- 资源描述:
-
1、第七章 特征选择王文伟 Wang Wenwei,Dr.-Ing.Tel:18971562600Email:Web:http:/ 特征选择2Table of Contents7.1 引言7.2 特征的评价准则7.3 特征选择的最优算法7.4 特征选择的次优算法7.5 特征选择的遗传算法7.6 以分类性能为准则的特征选择7.7 讨论 电子信息学院第七章 特征选择37.1 基本概念u特征的选择与提取是模式识别中重要而困难的一个环节:分析各种特征的有效性并选出最具可分性的若干特征是模式识别系统设计的关键步骤。降低特征维数在很多情况下是有效设计分类器的重要课题。u讨论的重点是从一组给定的特征中选择一部分
2、特征进行分类。引言数据获取预处理特征提取与选择分类决策分类器设计信号空间特征空间x xa第七章 特征选择47.1.1 三大类特征u三大类特征:物理、结构和数学特征物理和结构特征:易于为人的直觉感知,但有时难于定量描述,因而不易用于机器判别。数学特征:易于用机器定量描述和判别,如基于统计的特征。u讨论的重点是根据学习样本来选择和提取数学特征,而物理和结构特征的测量与分析涉及研究对象本身的物理规律。引言第七章 特征选择5一个例子:鱼的分拣u两类鱼Sea bassSalmonuPattern Classification,2001引言第七章 特征选择6特征1:长度第七章 特征选择7特征2:亮度第七章
3、 特征选择8模式分类:线性、二次、最近邻分类器第七章 特征选择97.1.2 有关特征的基本概念u特征形成(acquisition):信号获取或测量原始测量,其值域称为测量空间:对象表示x x=测量空间的点原始特征:通过基本计算产生基本特征y yu实例:数字图象中的各像素灰度值人体的各种生理指标u原始测量和原始特征分析:原始测量往往不能反映对象(类别)本质。高维原始特征不利于分类器设计:计算量大,数据冗余,样本分布十分稀疏。引言第七章 特征选择10特征的选择与提取u两类提取有效信息、压缩特征空间的方法:特征选择和特征提取u特征选择(selection):从原始特征中挑选出一些最有代表性、分类性能
4、最好的特征。u特征提取(extraction):用映射(或变换)的方法把高维原始特征变换为较少的新特征。u特征的选择与提取与具体问题有很大关系,目前没有理论能给出对任何问题都有效的特征选择与提取方法。引言第七章 特征选择11特征的选择与提取举例u细胞图像自动分类:原始测量:(正常与异常)细胞的数字图像原始特征(特征的形成,找到一组代表细胞性质的特征):细胞面积,胞核面积,形状系数,光密度,核内纹理,核浆比 等等压缩特征:原始特征的维数仍很高,需压缩以便于分类 特征选择:挑选最有分类信息的特征,方法有:专家知识,数学方法 特征提取:数学变换傅立叶变换或小波变换用PCA方法作特征压缩引言第七章 特
5、征选择127.2 特征的评价准则u两大类评价特征优劣的方法:Wrapper方法:将特征选择和分类器性能结合在一起,在分类过程中表现优异的的特征子集会被选中为最优特征子集。Filter方法:不考虑所使用的分类器。根据独立于分类器的指标J来评价所选择的特征子集S,在所有可能的特征子集中搜索出使得J最大的特征子集作为最优特征子集。u特征有效性=类别可分离性Jij(x)判据:根据Jij(x)衡量不同特征及其组合对分类是否有效的定量准则第七章 特征选择13实用类别可分离性判据u实际的类别可分离性判据应满足的条件:与错误率或其上下界有单调关系度量特性:当特征独立时有可加性:单调性:u常见类别可分离性判据:
6、基于类内类间距离基于概率分布基于熵函数0,if ;0,if ;ijijijjiJij Jij JJ121(,.,)()dijdijkkJx xxJx12121(,.,)(,.,)ijdijddJx xxJx xxx第七章 特征选择147.2.1 基于类内类间距离的可分性判据u类间可分性:=不同类任意两两样本间的平均距离()()111111()(,)2jinnccijdijklijklijJPPnn xxx(7-1)()()()()()()(,)()()ijijTijklklklxxxxxxsquared Euclidian()11iniikkinmx1ciiiPmm()111()(,)(,)i
7、ncidikiiikiJPnxxmm m(7-5)类内平均距离类间距离1111(,)(,)2ccciiijijiijPPP m mm m(7-6)可分性判据第七章 特征选择15基于距离的可分性判据的矩阵形式1()()cTbiiiiSPmm mm()()111()()inciiTwikikiikiSPnxmxm()tr()dwbJSSx基于距离的准则概念直观,计算方便,但与错误率没有直接联系样本类间离散度矩阵样本类内离散度矩阵类间可分离性判据可分性判据第七章 特征选择16特征可分性评价判据可分性判据FEATEVAL Evaluation of feature set for classifica
8、tionJ=FEATEVAL(A,CRIT,T)J=FEATEVAL(A,CRIT,N)A input dataset CRIT string name of a method or untrained mapping T validation dataset(optional)N number of cross-validations(optional)DESCRIPTION Evaluation of features by the criterion CRIT for classification,using objects in the dataset A.The larger J,t
9、he better.Resulting J-values are incomparable over the various methods.第七章 特征选择177.2.2 基于概率的可分性判据u基于概率的可分性判据:用概率密度函数间的距离(交叠程度)来度量类别可分性。1212()(|),(|),pJg ppP P dxxxx可分性判据p(x|1)p(x|2)p(x|1)p(x|2)p(x|1)p(x|2)第七章 特征选择18散度u散度:区分i,j两类的总的平均可分性信息(|)()(|)(|)ln(|)iDijjiijjpJIIppdpxxxxxxx(|)()ln(|)iijjplpxxx(|
10、)()()(|)ln(|)iijijijpIE lpdpxxxxxxx可分性判据对数似然比对第i类的平均可分性信息第七章 特征选择19正态分布条件下的散度u正态分布条件下的散度判据可以用分布参数表示,特别是u一维正态分布:if(,),(,),iiijjjijNN 1()()()TDijijJxMahalanobis距离可分性判据22()()ijDJx第七章 特征选择207.2.3 基于熵函数的可分性判据u熵函数:衡量后验概率分布的集中程度。后验概率越集中,就越有利于分类。1(|),.,(|)ccHJPPxxuShannon熵:121(|)log(|)cciiiJPP xxu平方熵:2212 1
11、(|)cciiJPxu熵函数期望表征类别的分离程度:()()()EJEHHpdxxxx可分性判据熵越小,关于类别的不确定性就越小,可分性越好第七章 特征选择217.2.4 类别可分离性判据应用举例u图像分割:灰度图像二值化,Otsu阈值算法(Otsu thresholding)。u图像有L阶灰度,ni是灰度为i的像素数,图像总像素数 N=n1+n2+nL灰度为i的像素概率:pi=ni/N类间方差:2221122()()()Bk1211112111,1kLLiiiiikiiikLiiiikipipippp可分性判据第七章 特征选择22Otsu thresholdingu灰度图像的最佳阈值:21a
12、 rg m a x()LBktku灰度图像二值化Otsu算法演示及程序分析:可分性判据第七章 特征选择23u特征选择:=从原始特征中挑选出一些最有代表性、分类性能最好的特征进行分类。u从D个特征中选取d个,共有CdD种组合。若不限定特征个数d,则共有2D种组合。典型的组合优化问题u要解决两个问题:选择的标准:可分离性判据快速寻优算法vs.穷举法 7.3 特征选择方法dDC第七章 特征选择24u从是否直接考虑分类器性能看Wrapper方法:将特征选择和分类器结合在一起,在分类过程中表现优异的的特征子集会被选作最优特征子集。Filter方法:不考虑所使用的分类器。根据独立于分类器的指标J来评价所选
展开阅读全文