模式识别讲义-特征提取和特征选择课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《模式识别讲义-特征提取和特征选择课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 讲义 特征 提取 选择 课件
- 资源描述:
-
1、模式识别 第八讲特征选择与特征提取回顾:n贝叶斯分类的原理n最小错误率贝叶斯分类n最小风险贝叶斯分类n最大似然比贝叶斯分类n正态分布情况下的贝叶斯分类1、分类器的错误率错误率是评价一个分类器的重要指标错误率受分类决策方法、训练集、测试集和偶然因素的影响分类错误是一个概率事件,错误率应由概率方式表达Pe错误率Ped(n)训练集上利用n个样本得到的错误率估计Pet(n)测试集上利用n个样本得到的错误率估计 分类器的错误率最小错误率当当这时错误率为则若使错误率最小条件:(多维积分)总错误率:第二类判错:第一类判错:211221211122min22112211221122121121),(),()(
2、).(,),()()()()()()()()()()()()()()()()()()()()()()()()()(1212xxPxxPxePxPxxPxPdxxPPdxxPPePxPPxPPdxxpPdxxpPePPePPePdxxpRxPePdxxpRxPePTTYYRRRR)()(11Pxp)()(22PxpTY1R2Rx2、二类贝叶斯分类中的错误率计算量很大)总错误率)()()()(.)()(.)()(.)()()()(.)()()(11121222321111312iMiMjjjMMMMMMMPRxPPRxPRxPRxPPRxPRxPRxPPRxPRxPRxPePijMiiRiMiii
3、idxPxPPRxPMPi11)()()()()(用平均正确分类概率:,计算相对简单。错误率:)(1)(MPeP3、多类贝叶斯分类中的错误率模式识别 第八讲特征选择与特征提取内容n基本概念n距离定义n特征提取算法n特征选择算法一 基本概念复习(1)特征:特征是从对应于一个模式类的所有信息中提取出来的,可以用来进行模式识别的部分属性。特征可以是数值型的,也可以是非数值型的。特征一定有确切的定义和表示方法。(2)特征空间:特征空间中的每一个点(每一种取值),都代表了一个模式。特征空间中的一个区域,则代表了一个模式类。特征:颜色形状特征值:颜色1.24形状0.37特征向量:x=x1,x2 =颜色,形
4、状特征空间一、基本概念1、好的分类器:n特征具有良好的可分性n特征不要重复,去掉相关性高的特征2、特征提取和特征选择的目的n降低特征维数,减少信息冗余n提高特征对类别的分辨能力n寻找对分类最重要的特征3、特征提取n通过某种变换,将原始特征从高维空间映射到低维空间。T:ER=ED T为特征提取器,通常是某种正交变换。4、特征选择n从一组特征中挑选出一些最有效的特征的过程。J(F*)=min J(F),集合F包含d个特征,J()是准则函数w(y)wy1y2x212一、基本概念5、模式类别可分性的测度(1)特征提取和特征选择准则n错误率是最佳的特征提取和特征选择准则函数,但难以计算。n可用的类别可分
5、性测度标准应满足以下要求:n与错误率有单调关系n当特征独立时具有可加性n具有标量测度特性n对特征具单调性dkkijdijxJxxxJ121)().,(jiijijijJJjiJjiJ时,当时,当00).).12121,(,(ddijdijxxxxJxxxJ一、基本概念二、距离(1)类内类间距离的先验概率。是各类,中的样本数,为中的样本数,为),(间距离:的平均值,称为类内类各特征向量之间的距离离,则各类中)为这两个向量间的距,(维特征向量,类中的类及分别为,令类,设一个分类问题共有jijjiinknljlikcicjnnjidjlikjijlikPPnnxxPPxJxxxxijji11)()(
6、11121)()()()()(Dc二、距离(1)类内类间距离 nikiTiiikTiikniciidciiinkikniijlikjlikjlikmmmmmxmxPxJmPmmxmimxxxxxxii1)()(1111)(1)()(T)()()()()(:则总平均向量:表示所有各类样本集的用类样本集的均值向量表示第用)()(,(则有离,两个特征向量之间的距如采用欧氏距离来度量二、距离(1)类内类间距离 尽可能大。尽可能小,我们希望从分类器的性能来看,则散布矩阵分别为令类内散布矩阵和类间bwbwbwbwdiTiciibnikiikTiikniciiwJJJJStrStrSStrxJmmmmPSm
7、xmxPS)()()(11)()(11二、距离(2)概率距离n类间的概率距离可用分布函数之间的距离来度量)(1xp)(2xp)(1xp)(2xp完全可分:若p(x|1)0时,p(x|2)0;完全不可分:对任意x,都有 p(x|1)p(x|2);二、距离(2)概率距离性的概率距离度量则可作为两类之间可分;为、当两类完全不可分是取得最大值;、当两类完全可分时;、满足以下条件:若任何函数 0cb0a2,1),|(),|(21JpJpJpdxPPxpxpgJp二、距离(2)概率距离 几种常见的概率距离:dxxpxpJB21)|()|(ln21Bhattacharyya(巴特查雅)距离1s0 )|()|
展开阅读全文