《模式识别原理与应用》课件第6章.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《模式识别原理与应用》课件第6章.ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别原理与应用 模式识别 原理 应用 课件
- 资源描述:
-
1、第章聚类分析第第6章聚章聚 类类 分分 析析6.1模式相似性测度与聚类准则模式相似性测度与聚类准则6.2基于试探的聚类算法基于试探的聚类算法6.3层次聚类法层次聚类法6.4动态聚类法动态聚类法6.5分解法分解法习题习题第章聚类分析6.1模式相似性测度与聚类准则模式相似性测度与聚类准则聚类分析是以模式相似性为基础,按照某种聚类准则进行判决。本节主要介绍模式相似性测度与聚类准则。6.1.1模式相似性测度模式相似性测度分类在实际工作中经常出现,例如,在古生物研究中,根据骨骼的形状和大小对它们进行分类;在地质勘探中,根据矿石标本的物探和化探指标对标本进行分类,等等。其中,骨骼的形状和大小、标本的物探和
2、化探指标是描述样本特征的具体参数,是分类的依据。第章聚类分析根据测量尺度的不同,模式特征的数值化测量结果主要分为以下三种类型:(1)物理量:特征用连续的量来表示,如长度、重量、压力等。(2)次序量:特征度量没有明确的数量表示,只有次序关系。例如,评价茶叶的质量分成优、良、中、差四等,其中,有次序关系,没有数量表示。第章聚类分析(3)名义量:特征度量既没有数量表示也没有次序关系。例如,电路中的开和关;医疗诊断中的“+”和“-”;天气中的晴天和雨天,等等。为了对模式进行分类,需要定义相似性测度来度量各模式之间的相似性和差异性。一种方法是将每一个样本看成m维特征空间的一个点,并在该空间定义距离,距离
3、较近的点归为一类,距离较远的点划分为不同的类。第章聚类分析另一种方法是利用相似系数,特征越接近的样本之间的相似系数越大(接近于1),把它们归为一类;反过来,彼此无关的样本之间的相似系数接近于0,把它们划分为不同的类。在聚类分析中正确选择距离与相似系数是非常重要的,它直接影响到分类的效果。第章聚类分析1.距离距离用dij表示第i个样本与第j个样本之间的距离,一般要求距离满足三个条件(即距离三公理):(1)非负性:dij0(i,j),当且仅当第i个样本与第j个样本的各个特征相同时,dij=0;(2)对称性:dij=dji(i,j);(3)三角不等式:第章聚类分析kjikijdddkji,(6-1)
4、在模式识别中定义的有些距离并不满足“三角不等式”,只是在广义的角度上也称它为距离。在有些场合,“三角不等式”加强为,maxkjikijddd kji,(6-2)第5章已经给出了几种常用的距离,包括欧几里德(Euclidean)距离、加权欧几里德距离、汉明(Haming)距离、马氏(Mahalanobis)距离、明可夫斯基(Minkowsky)距离和切比雪夫(Chebyshev)距离等。第章聚类分析2.相似系数相似系数用cij表示向量yi与yj的相似系数,一般规定:(1)cij=1 yi=ayj,a0是一常数;(2)|cij|1,对一切i,j;(3)cij=cji,对一切i,j,其中,|cij|
5、越接近于1,yi与yj的关系越密切。当特征用连续的量来表示时,常用的相似系数有如下几种。第章聚类分析1)夹角余弦 夹角余弦是受相似形的启发而产生的。向量(xi1,xi2,xin)T与(xj1,xj2,xjn)T之间的夹角余弦的定义为 12211()()nikjkkijnnikjkkkx xcxx(6-3)第章聚类分析2)相关系数 相关系数是将数据标准化后的夹角余弦,即 12211nikikjkjkkijnnikikjkjkkkxxxxcxxxx(6-4)其中,为第k个分量的平均值(k=1,2,n)。可以借助于相似系数来定义距离,例如:ikx第章聚类分析221ijijcd(6-5)3)指数相似系
6、数 指数相似系数定义为 2213()1exp4nikjkijkkxxcns(6-6)其中,为相应分量的方差。指数相似系数不受量纲变化的影响。2ks第章聚类分析4)特征向量的各分量为非负时的几种相似系数当特征向量的各分量非负时,还有下列几种相似系数:11min(,)max(,)nikjkkijnikjkkxxcxx(6-7)11min(,)1()2nikjkkijnikjkkxxCxx(6-8)第章聚类分析11min(,)nikjkkijnikjkkxxcx x(6-9)5)列联系数和关联系数对于名义量,它们之间的相似系数通过列联表来定义。设名义量yi取值是t1,t2,tp,yj取值是r1,r2
7、,rq,用nkl表示yi取tk、yj取rl的样本数,列成表6-1的形式,称为列联表。第章聚类分析令22111pqijijijnnn n(6-10)其中1qiijjnn1,2,ip(6-11)1pjijinn1,2,jq(6-12)11pqijijnn(6-13)第章聚类分析利用2可以定义名义量之间的相似系数:列联系数 22ijcn(6-14)关联系数2max(1,1)ijcnpq(6-15)2min(1,1)ijcnpq(6-16)第章聚类分析2(1)(1)ijcnpq(6-17)111212122212qqpppqnnnnnnnnn12pttt1n2npniyjy12qryr1n1nqnn表
8、6-1 列联表第章聚类分析6.1.2聚类准则聚类准则在模式分类中,可以有多种不同的聚类方法,将未知类别的N个样本划分到m类中去,从而,需要确定一种聚类准则来评价各种聚类方法的优劣。事实上,聚类的优劣只是就某种评价准则而言的,很难找到对各种准则均表现优良特性的聚类方法。第章聚类分析聚类准则的确定主要有两种方式:(1)试探方式。凭直观和经验,针对实际问题给定一种模式相似性测度的阈值,按最近邻规则指定待分类样本属于某一类别。例如,以欧氏距离作相似性的度量,将一个样本分到某一类时,凭直观和经验规定一个距离阈值作为聚类的判别准则。第章聚类分析(2)聚类准则函数法。定义一种聚类准则函数J,其函数值与样本的
9、划分有关,当J取得极值时,就认为得到了最佳划分。常用的聚类准则函数为误差平方和准则与类间距离和准则。假设有N个样本,在某种相似性测度的准则下属于类1,2,m,类i中有Ni个样本。第章聚类分析1.误差平方和准则误差平方和准则误差平方和准则也可以称为类内距离准则,是一种简单而又应用广泛的聚类准则。类i的均值为1 (1,2,)iiiimNxx(6-18)误差平方和定义为 21imiiJxx(6-19)第章聚类分析J是样本与聚类中心的函数,表示各样本到其被划归类别的中心的距离之平方和。对应一种划分,可求得一个误差平方和J。以误差平方和作为准则时,目的就是要找到使J值最小的那种划分。误差平方和准则适用于
10、同类样本比较密集,各类样本数目相差不大,且类间距离较大的情况。当各类样本数相差很大且类间距离较小时,采用误差平方和准则,就有可能将样本数多的一类拆成两类或多类,从而出现错误聚类。第章聚类分析2.类间距离和准则类间距离和准则全部样本的均值为 11NjjNx(6-20)类间距离和定义为 1()()mTiiiJ(6-21)第章聚类分析加权的类间距离和定义为 1()()mTiiiiNJN(6-22)对应一种划分,可求得一个类间距离和。类间距离和准则是找到使类间距离和达到最大的那种划分。第章聚类分析6.2基于试探的聚类算法基于试探的聚类算法确定一种聚类准则后,每一种分类方法对应于一个J值,其中使J取得极
11、值的分类,就被认为是最佳分类。这种处理方式的计算量太大,可以对某些关键性的参数进行试探性地选取,使聚类准则函数达到最优,这类方法可称为基于试探的聚类算法。第章聚类分析6.2.1基于最近邻规则的试探法基于最近邻规则的试探法设待分类样本集为x1,x2,xN,按最近邻规则进行聚类,算法具体步骤如下:(1)选取任意一个样本作为第一个聚类中心z1,例如,令1类的中心z1=x1,选定一非负的类内距离阈值T。(2)计算下一个样本x2到z1的距离d21。若d21T,则建立一新的聚类中心z2,且2类的中心z2=x2;若d21T,则认为x2在以z1为中心的邻域中,即x2属于1类。第章聚类分析(3)假定已有m类的中
12、心z1,z2,zm,计算尚未确定类别的样本xi到m类中心zj(j=1,2,m)的距离dij。如果所有的dij均满足dijT,则建立一新的聚类中心zm+1,且m+1类的中心zm+1=xi;否则将xi划分到距离其最近的聚类中心所代表的类中。(4)检查是否所有的样本已经确定类别,如果都已确定类别,则转下一步;否则返回(3)。第章聚类分析(5)按照某种聚类准则评价聚类结果,如果不满意,则重新选取第一个聚类中心和类间距离阈值T,返回(2);如果满意,则算法结束。这种方法的聚类结果与第一个聚类中心的选取、待分类样本的排列次序、阈值T的大小以及样本分布的几何特性有关。图6-1表示了距离阈值T的大小和初始聚类
13、中心位置对聚类结果的影响。第章聚类分析图6-1 距离阈值和初始类心对聚类结果的影响第章聚类分析6.2.2最大最小距离聚类算法最大最小距离聚类算法最大最小距离聚类算法是另一种简单的试探法,以类间距离最大作为选取新的聚类中心的条件,以最小距离原则进行样本归类。这种算法通常采用欧氏距离,算法具体步骤如下:(1)选取任意一个样本作为第一个聚类中心z1。(2)选取距离z1最远的样本作为第二个聚类中心z2。第章聚类分析(3)计算所有未作为聚类中心的样本xi与z1、z2的距离di1,di2,并设di=min(di1,di2),若存在则建立第三个聚类中心z3,且z3=xl。其中:d(z1,z2)为z1与z2之
14、间的距离;可用试探法取为一固定分数,例如,。(4)假定已有m个聚类中心z1,z2,zm,计算尚未作为聚类中心的各样本xi到m类中心zj(j=1,2,m)的距离dij,并计算12max(,)liidddz z1/2第章聚类分析1212min(,)maxmin(,)JJJJmiiimiddddddd如果dJd(z1,z2),则建立第m+1个聚类中心zm+1,且zm+1=xJ,并转(4);否则转下一步。(5)将全部样本按最近距离原则划分到各类中。(6)按照某种聚类准则评价聚类结果,如果不满意,则重新选取第一个聚类中心和值,返回(2);如果满意,则算法结第章聚类分析【例例 6.1】10个样本数据如图6
15、-2所示,用最大最小距离聚类算法对样本集分类。解解(1)给定=1/2,选取任意一个样本作为第一个聚类中心z1,令z1=x1。(2)计算其他样本到z1的距离,可得x6距离z1最远,则建立第二个聚类中心z2=x6。第章聚类分析(3)计算所有未作为聚类中心的样本与z1、z2的距离,根据最大最小距离聚类算法,得到第三个聚类中心z3=x7。(4)判断出不再有新的聚类中心,将全部样本按最近距离原则划分到各类中,得到x1,x3,x4为第一类,x2,x6为第二类,x5,x7,x8,x9,x10为第三类。(5)通过直观判断,认为本次分类结果比较合理,对样本集的分类完成。第章聚类分析图6-2 最大最小距离聚类算法
16、示例第章聚类分析6.3层层 次次 聚聚 类类 法法6.3.1层次聚类法概述层次聚类法概述层次聚类法(Hierarchical Clustering Method)又称为系统聚类法,是一种常用的聚类方法。这种方法的基本思想是:首先将N个样本各自看成一类,计算类与类之间的距离,选择距离最小的一对合并成一个新类;计算新类和其他类之间的距离,再将距离最近的两类合并;这样每次减少一类,直至所有的样本划分成两类为止,或者直到满足分类要求。第章聚类分析层次聚类算法的具体步骤如下:(1)初始分类。假设有N个样本,每个样本自成一类,则有N类:G01,G02,G0N(Gki表示第k次合并时的第i类,此步k=0)。
17、(2)计算各类之间的距离,得mm维的距离矩阵Dk,m为类别个数(初始时m=N,k=0)。(3)已求得距离矩阵Dk,找出Dk中类间距离最小的元素,如果它对应着Gki和Gkj,则将类Gki与Gkj合并为一类,由此得到新的分类Gk+11,Gk+12,并令m=m1,计算距离矩阵Dk+1。第章聚类分析 (4)若Dk+1中类间距离最小值大于距离阈值T,则算法停止,所得分类即为聚类结果(或者,如果所有的样本被聚成两类,则算法停止);否则转(3)。层次聚类法将样本逐步聚类,类别由多到少。层次聚类算法的特点是在聚类的过程中类心不断地调整,但样本一旦划到某个类以后就不会再改变了。第章聚类分析6.3.2类与类之间的
18、距离类与类之间的距离层次聚类算法中,需要计算各类之间的距离构成距离矩阵。类与类之间的距离有许多定义的方法,例如可定义为两类之间最近的距离,或者定义为两类重心之间的距离等,采用不同的定义就产生了层次聚类的不同过程。下面介绍常用的8种类间距离定义方法。第章聚类分析1.最短距离法最短距离法用dij表示样本xi和样本xj之间的距离,G1,G2,表示类,定义类与类之间的距离为两类相距最近的样本之间的距离,用Dpq表示类Gp与类Gq的距离,则,minipjqpqijGGDdxx(6-23)若Gpq是Gp与Gq合并而得,则递推可得Gi与Gpq的距离为,min,iqippqiDDD(6-24)第章聚类分析2.
19、最长距离法最长距离法最长距离法就是类与类之间的距离用两类样本之间最远的距离来表示,即,maxipjqpqijGGDdxx(6-25)若Gpq是Gp与Gq合并而得,则递推可得Gi与Gpq的距离为,max,iqippqiDDD(6-26)第章聚类分析3.中间距离法中间距离法设某一步将Gp与Gq合并为类Gpq,需要计算Gpq与任意一类Gi的距离。不失一般性,假设DiqDip。按最短距离法,Di,pq=Dip;按最长距离法,Di,pq=Diq。如图6-3所示,三角形的三个边是Dip、Diq、Dpq,直观上看,在Dip与Diq之间,选择边Dpq的中线为好。第章聚类分析图6-3 中间距离法示意图 第章聚类
展开阅读全文