六章聚类分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《六章聚类分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 课件
- 资源描述:
-
1、六章聚类分析6.1 引言v聚类分析:将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类。v聚类分析和判别归类有着不同的分类目的,彼此之间既有区别又有联系。v聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。2v对于间隔变量,距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。v本章主要讨论具有间隔尺度变量的样品聚类分析方法。v一、距离v二、相似系数5一、距离v设x=(x1,x2,xp)和y=(y1,y2,yp)为两个样品,则所定义的距离一般应满足如下三个条件:(i)非负性:d(x,y)0,d(x,y)=0当且仅当x=y;(ii)对称性:d(x,y)=d(
2、y,x);(iii)三角不等式:d(x,y)d(x,z)+d(z,y)。6常用的距离v1.明考夫斯基(Minkowski)距离v2.兰氏(Lance和Williams)距离v3.马氏距离v4.斜交空间距离71.明考夫斯基距离v明考夫斯基距离(简称明氏距离):这里q0。v明氏距离的三种特殊形式:v(i)当q=1时,称为绝对值距离,常被形象地称作“城市街区”距离;v(ii)当q=2时,这是欧氏距离,它是聚类分析中最常用的一个距离;v(iii)当q=时,称为切比雪夫距离。11,qpqiiidxyx y1,piiidxyx y 1 221,piiidxyx yxyxy1,maxiii pdxy x y
3、8绝对值距离图示9对各变量的数据作标准化处理v当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令 其中 和sii分别为xi的样本均值和样本方差。*,1,2,iiiiixxxipsix102.兰氏距离v当所有的数据皆为正时,可以定义x与y之间的兰氏距离为v该距离与各变量的单位无关,且适用于高度偏斜或含异常值的数据。1,piiiiixydxyx y113.马氏距离vx和y之间的马氏距离为其中S为样本协差阵。1,dx yxySxy124.斜交空间距离vx和y之间的斜交空间距离定义为 其中rij是第i个变量与第j个变量间的相关系数。v当p个变量互不相关时
4、,该距离即为欧氏距离的1/p倍。1 22111,ppiijjijijdxyxyrpx y13名义尺度变量的一种距离定义v例6.2.1 某高校举办一个培训班,从学员的资料中得到这样六个变量:性别(x1),取值为男和女;外语语种(x2),取值为英、日和俄;专业(x3),取值为统计、会计和金融;职业(x4),取值为教师和非教师;居住处(x5),取值为校内和校外;学历(x6),取值为本科和本科以下。现有两名学员:x=(男,英,统计,非教师,校外,本科)y=(女,英,金融,教师,校外,本科以下)一般地,若记配合的变量数为m1,不配合的变量数为m2,则它们之间的距离可定义为故按此定义,本例中x 与y 之间
5、的距离为2/3。21212mdmm14二、相似系数v变量之间的相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。v相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。v聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。15相似系数一般需满足的条件v(1)cij=1,当且仅当xi=axj+b,a(0)和b是常数;(2)|cij|1,对一切i,j;(3)cij=cji,对一切i,j。16两个向量的夹角余弦 cosx yxy171.夹角余弦v变量xi与xj的夹角余弦定义为它是Rn中变量xi的观测向量(x1i,x2i,xni)与
6、变量xj的观测向量(x1j,x2j,xnj)之间夹角ij的余弦函数,即cij(1)=cosij。11 222111nkikjkijnnkikjkkx xcxx182.相关系数v变量xi与xj的相关系数为v如果变量xi与xj是已标准化了的,则它们间的夹角余弦就是相关系数。11 222112nkiikjjkijnnkiikjjkkxxxxcxxxx19v相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。v由距离来构造相似系数总是可能的,如令 这里dij为第i个样品与第j个样品的距离,显然cij满足定义相似系数的三个条件,故可作为相似系数
7、。v距离必须满足定义距离的三个条件,所以不是总能由相似系数构造。高尔(Gower)证明,当相似系数矩阵(cij)为非负定时,如令 则dij满足距离定义的三个条件。11ijijcd2 1ijijdc206.3 系统聚类法v系统聚类法(或层次聚类法,hierarchical clustering method)是通过一系列相继的合并或相继的分割来进行的,分为聚集的(agglomerative)和分割的(divisive)两种,适用于样品数目n不是很大的情形。v聚集系统法的基本思想是:开始时将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与
8、其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。21一开始每个样品各自作为一类22v分割系统法的聚类步骤与聚集系统法正相反。由n个样品组成一类开始,按某种最优准则将它分割成两个尽可能远离的子类,再用同样准则将每一子类进一步地分割成两类,从中选一个分割最优的子类,这样类数将由两类增加到三类。如此下去,直至所有n个样品各自为一类或采用某种停止规则。v聚集系统法最为常用,本节集中介绍其中常用的八种方法,所有这些聚类方法的区别在于类与类之间距离的定义不同。236.3 系统聚类法v一、最短距离法 v二、最长距离法v三、类平均法v四、重心法v*五、中间距离法v六、离差平方和
9、法(Ward方法)v七、系统聚类法的统一v八、类的个数24一、最短距离法v定义类与类之间的距离为两类最近样品间的距离,即,minKLKLiji Gj GDd图6.3.1 最短距离法:DKL=d2325最短距离法的聚类步骤v(1)规定样品之间的距离,计算n个样品的距离矩阵D(0),它是一个对称矩阵。v(2)选择D(0)中的最小元素,设为DKL,则将GK和GL合并成一个新类,记为GM,即GM=GKGL。v(3)计算新类GM与任一类GJ之间距离的递推公式为,minminmin,minmin,MJKJLJMJijijiji Gj Gi Gj Gi Gj GKJLJDdddDD26递推公式的图示理解27
10、最短距离法的聚类步骤 在D(0)中,GK和GL所在的行和列合并成一个新行新列,对应GM,该行列上的新距离值由上述递推公式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作D(1)。v(4)对D(1)重复上述对D(0)的两步得D(2),如此下去直至所有元素合并成一类为止。28v如果某一步D(m)中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。最短距离法最容易产生结,且有一种挑选长链状聚类的倾向,称为链接(chaining)倾向。v由于最短距离法是用两类之间最近样本点的距离来聚的,因此该方法不适合对分离得很差的群体进行聚类。29v例6.3.1
11、 设有五个样品,每个只测量了一个指标,分别是1,2,6,8,11,试用最短距离法将它们分类。记G1=1,G2=2,G3=6,G4=8,G5=11,样品间采用绝对值距离。G1G2G3G4G5G10G210G3540G47620G5109530表6.3.1 D(0)30其中G6=G1G2其中G7=G3G4G6G3G4G5G60G340G4620G59530表6.3.2 D(1)表6.3.3 D(2)G6G7G5G60G740G593031其中G6=G1G2表6.3.4 D(3)G6G8G60G840图6.3.2 最短距离法树形图32二、最长距离法v类与类之间的距离定义为两类最远样品间的距离,即,m
12、axKLKLiji Gj GDd图6.3.3 最长距离法:DKL=d1533v最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。v递推公式:max,MJKJLJDDD34v对例6.3.1采用最长距离法,其树形图如图6.3.4所示,它与图6.3.2有相似的形状,但并类的距离要比图6.3.2大一些,仍分成两类为宜。图6.3.4 最长距离法树形图35异常值的影响v最长距离法容易被异常值严重地扭曲。36v例6.3.2 对305名女中学生测量八个体型指标:x1:身高x5:体重x2:手臂长x6:颈围x3:上肢长x7:胸围x4:下肢长x8:胸宽表6.3.5各对变量之间的相关系数 x1
13、x2x3x4x5x6x7x8x11.000 x20.8461.000 x30.8050.8811.000 x40.8590.8260.8011.000 x50.4730.3760.3800.4361.000 x60.3980.3260.3190.3290.7621.000 x70.3010.2770.2370.3270.7300.5831.000 x80.3820.4150.3450.3650.6290.5770.5391.00037图6.3.5 八个体型变量的最长距离法树形图38三、类平均法v有两种定义。一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离,即定义GK和GL之间的距
14、离为,1KLKLiji Gj GKLDdn n图6.3.6 类平均法39v递推公式:,11MJKJLJMJijijiji Gj Gi Gj Gi Gj GMJMJKLKJLJMMDdddn nn nnnDDnn40v另一种定义方法是定义类与类之间的平方距离为样品对之间平方距离的平均值,即v它的递推公式为v类平均法较好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。22,1KLKLiji Gj GKLDdn n222KLMJKJLJMMnnDDDnn41v对例6.3.1采用(使用平方距离的)类平均法进行聚类。一开始将D(0)的每个元素都平方,并记作 。2(0)DG1G2
15、G3G4G5G10G210G325160G4493640G51008125902(0)D表6.3.642G6G3G4G5G60G320.50G442.540G590.52590表6.3.72(1)DG6G7G5G60G731.50G590.5170表6.3.82(2)D43G6G8G60G851.170G6G8G60G851.170表6.3.92(3)D图6.3.7 类平均法树形图44四、重心法v类与类之间的距离定义为它们的重心(均值)之间的欧氏距离。设GK和GL的重心分别为 ,则GK与GL之间的平方距离为KLxx和 22KLKLKLKLDdx xxxxx图6.3.8 重心法45v合并GK和G
16、L之后的新类GM的重心是 其中nM=nK+nL为GM的样品个数。v重心法的递推公式为v与其他系统聚类法相比,重心法在处理异常值方面更稳健,但是在别的方面一般不如类平均法或离差平方和法的效果好。22222KLKLMJKJLJKLMMMnnn nDDDDnnnKKLLMMnnnxxx46*五、中间距离法v设某一步将GK和GL合并为GM,对于任一类GJ,考虑由DKJ,DLJ和DKL为边长组成的三角形,取DKL边的中线作为DMJ。DMJ的计算公式为2222111222MJKJLJKLDDDD图6.3.9 中间距离法的几何表示47六、离差平方和法(Ward方法)v(类内)离差平方和:类中各样品到类重心(
17、均值)的平方欧氏距离之和。v设类GK和GL合并成新类GM,则GK,GL和GM的离差平方和分别是对固定的类内样品数,它们反映了各自类内样品的分散程度。KLMKiKiKi GLiLiLi GMiMiMi GWWWxxxxxxxxxxxx48类内离差平方和的几何解释v类内离差平方和WK是类GK内各点到类重心点 的直线距离之平方和。kx49v定义GK和GL之间的平方距离为v 也可表达为 v离差平方和法使得两个大的类倾向于有较大的距离,因而不易合并;相反,两个小的类却因倾向于有较小的距离而易于合并。这往往符合我们对聚类的实际要求。2KLMKLDWWW2KLD 2KLKLKLKLMn nDnxxxx1=1
展开阅读全文