第六讲-聚类分析课件.ppt

上传人（卖家）：三亚风情

文档编号：2263436

上传时间：2022-03-27

格式：PPT

页数：112

大小：1.80MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

29 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《第六讲-聚类分析课件.ppt》由用户（三亚风情）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第六聚类分析课件

资源描述：: 1、n俗话说“物以类聚，人以群分”。就是聚类分析的道理。n市场营销中市场细分和客户细分问题n学校里有些同学经常会在一起，关系密切；有些同学很少往来，关系疏远。第一节第一节什么是聚类分析什么是聚类分析例例对10位应聘者做智能检验。3项指标X，Y和Z分别表示数学推理能力，空间想象能力和语言理解能力。其得分如下，选择合适的统计方法对应聘者进行归类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424例子例子k例题分析n我们直观地来看，这个归类是否合理？计算4号和6号得分的离差平方和： (21-2
2、0)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和： (28-18)2+(29-23)2+(28-18)2=236n计算1号和3号得分的离差平方和为482，由此可见一般，归类可能是合理的，欧氏距离很大的应聘者没有被聚在一起。n由此，我们的问题是如何来选择样品间相似的测度指标，如何将有相似性的类连接起来？n基本思想基本思想：根据事物本身的特性研究个体分类的方法；即在没有先验知识的情况下进行的。多元统计分析方法就是对样品或指标进行量化分类的问题，它们讨论的对象是大量的样品，要求能合理地按各自的特性来进行合理的分类，没有任何模式可供参考或依循。n聚类原则聚类原则：同一类中
3、的个体有较大的相似性，不同类中的个体差异很大。n常见方法常见方法：Q型聚类法、R型聚类法、灰色聚类法和模糊聚类法等。聚类的程序n基本程序基本程序：根据一批样品的多个观测指标，具体地找出一些能够度量样品或指标之间相似程度的统计量统计量，然后利用统计量将样品或指标进行归类。如对上市公司的经营业绩进行聚类；又如对企业的经济效益进行评价n由此可知，聚类分析（Cluster Analysis)也是一种分类技术。与多元分析的其他方法相比，该方法较为粗糙，理论上还不完善，但应用方面取得了很大成功。与多元假设检验、回归分析等一起被称为多元分析的三大方法。n聚类分析的步骤：根据已知数据，计算各观察个体或变量之
4、间亲疏关系的统计量。根据某种准则，使同一类内的差别较小，而类与类之间的差别较大，最终将观察个体或变量分为若干类。思考：样品点间、样品点和小类之间、思考：样品点间、样品点和小类之间、小类与小类之间按什么刻画亲疏关系小类与小类之间按什么刻画亲疏关系第二节第二节 “亲疏程度亲疏程度”度量度量一、变量测量尺度的类型一、变量测量尺度的类型二、亲疏程度的测度二、亲疏程度的测度三、样品与小类、小类与小类三、样品与小类、小类与小类之间之间“亲疏程度亲疏程度”的度量方法的度量方法四、聚类分析的几点说明四、聚类分析的几点说明n(1)(1)间隔尺度间隔尺度(Scale)：用数量来表示，其数值由测量（连续）或计数
5、（离散）、统计得到。n(2)(2)顺序尺度顺序尺度(Ordinal)：没有明确的数量表示，只有次序关系，或虽用数量表示，但相邻两数值之间的差距并不相等，它只表示一个有序状态序列。如评价酒的味道，分成好、中、次三等，三等有次序关系，但没有数量表示。n（3)3)名义尺度名义尺度(Nominal)：既没有数量表示也没有次序关系，只有一些特性状态。如眼睛的颜色，化学中催化剂的种类等。一、变量测量尺度的类型一、变量测量尺度的类型二、亲疏程度的测度二、亲疏程度的测度n亲疏程度：包含个体间的相似程度和个体间的差异程度n亲疏程度测定方法：距离：样品间的聚类，Q型聚类分析。相似系数：变量间的聚类， R型聚类
6、分析。 1 1、定义、定义距离距离的准则的准则距离满足条件：;0成立和对一切的jidij;0成立当且仅当jidij;0成立和对一切的jiddjiij.成立和对于一切的jidddkjikij（一）距离（一）距离2 2、常用距离的算法、常用距离的算法（数值型变量）（数值型变量）设和是第i和 j 个样品的观测值，则二者之间的距离为：qpkqjkikijxxqd11)|()(pkjkikijxxqd12)()2(ipiixxx,21ix),(21jpjjxxxjx特别：欧氏距离Euclidean distance(1) (1) 闵可夫斯基距离（闵可夫斯基距离（Minkowski) )pkjkiki
7、jxxqd1) 1(绝对距离(block)闵可夫斯基距离缺点闵可夫斯基距离缺点与指标量纲有关未考虑总体变异对“距离”远近的影响。12A近一些处，应该认为离左侧处，位于右侧位于：近，但从概率论角度看离总体用欧氏距离的话，离哪个总体近？，那么中心，距的中心距现有一点，设有两正态总体，yAxAAyxANyNx5 . 1232),4 ,(),(212212(2)马氏距离（广义欧氏距离）n是印度著名统计学家马哈拉诺比斯是印度著名统计学家马哈拉诺比斯(PCMahalanobis)所定义的一种距离。所定义的一种距离。特点：特点：n考虑了观测变量之间的相关性考虑了观测变量之间的相关性。如果各变量间相互独立，即
8、观测变量的协方差矩阵是对角矩阵，则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。n考虑到了各个观测指标取值的差异程度考虑到了各个观测指标取值的差异程度，不再受各指标量纲的影响。将原始数据做线性变换后，马氏距离不变。n为了对马氏距离和欧氏距离进行一下比较，以便更清楚地看清二者的区别和联系，现考虑一个例子。的马氏距离：维样品，则两个样品间中的总体）的（，协方差为是来自均值向量为pGxxji0,)()(2ji1jixxxxijd19 . 09 . 01,002N19 . 09 . 0119. 011两点。和设) 1, 1 () 1 , 1 (BA05. 1)(MdA20)(
9、MdB2)(UdA2)(UdB例如，假设有一个二维正态总体，它的分布为：马氏距离的缺点马氏距离的缺点：样品协方差矩阵不变不合理。切比雪夫距离：(Chebychev)jkikpkijxxd1max)(pljliljlilijxxxxpd11兰氏距离：兰氏距离：适合于一切变量值大于零的情况。该距离与变量单位无关，对大的异常值不敏感，适用于较大变异的数据，但未考虑变量相关性问题。倍）氏距离（相差一个常数斜交空间距离退化为欧即个变量互不相关时，当的相关系数。与变量是变量,/ )2()(1*21112*pddpxxrrXXXXpdijlkklpkplklljlikjkiijij斜交空间距离可考虑变量
10、间相关性问题000pGqG1G2GnG1G2GnG12dnd121d1nd2ndnd2 样品点间的距离表样品点间的距离表3 3、距离选择的原则距离选择的原则n一般来说，同一批数据采用不同的距离公式，会得到不同的分类结果。产生不同结果的原因，主要是由于不同的距离公式侧重点和实际意义都不相同。因此我们在聚类分析时，应注意距离公式的选择。在选择距离公式时应注意以下原则：n应考虑变量类型应考虑变量类型（不同类型变量计算距离的方法不同）n所选择的亲疏测度指标在实际应用中应有所选择的亲疏测度指标在实际应用中应有明确的意义明确的意义。（欧几里得距离具有明确的空间距离的概念，马氏距离有消除量纲影响的作用）n要
11、综合考虑对要综合考虑对样本观测数据的预处理和将要采用的聚类样本观测数据的预处理和将要采用的聚类分析方法分析方法。（如在进行聚类分析之前已经对变量作了标准化处理，则通常采用欧几里得距离）n适当地考虑适当地考虑研究对象的特点和计算工作量的大小研究对象的特点和计算工作量的大小。（在实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。）（二）相似系数（二）相似系数n夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量ipiiixxx,21x1、夹角余弦、夹角余弦jpjjjxxx,21xpkpkj
12、kikpkjkikijxxxxcij11221cos 2 2、相关系数、相关系数),(;),(2121jpjjjipiiixxxXjxxxXi个样品观测值：第个样品观测值：第之间的相似测度为和jiXXpkpkjjkiikpkjjkiikijxxxxxxxxcij11221)()()(221ijijcd有：有：ijc例如夹角余弦夹角余弦相关系数相关系数三、个体与小类、小类与小类间三、个体与小类、小类与小类间 “亲疏程度亲疏程度”的度量方法的度量方法1 、最短距离（Nearest Neighbor)x21x12x1113d2、最长距离（Furthest Neighbor ）x11x2112d99
13、1dd3、组间平均连接（Between-group Linkage） 4、组内平均连接法（Within-group Linkage)1234566dddddd 每一步均考虑了小类内部相似性的变化克服了最远、最近距离中距离受极端值影响的特点5、重心距离（Centroid clustering)11,xy22,xy为样品数合并成的小类，是npqrDnnnnDnnDnnDpqrqrpqkrqpkrprk 该方法充分利用了所涉及的距离信息，同时将小类的样本数也考虑进来了n是Ward提出的。其原则是：聚类过程中使小类内离差平方和增加最小的两小类首先合并为一类。n步骤：首先各个体自成一类，然后逐步凝聚成
14、小类。随着小类的不断凝聚，类内离差平方和必然不断增大。应选择使类内离差平方和增加最小的两类凝聚，直到所有个体合并成一类为止。6、离差平方和法连接(Wards method)例如：例如：例：5商厦个体间欧氏距离CASEEuclidean distanceABCDEABCDE0.0008.06217.80426.90730.4148.0620.00025.45634.65538.21017.80425.4560.0009.22012.80626.90734.6559.2200.0003.60630.41438.21012.8063.6060.000例题分析nD、E首先聚成一类，A、B、C与该小类n
15、最近邻距离依次为26.907、34.655、9.22n最远距离30.414、38.210、12.806n组间平均连接距离（26.907+30.414）/2、（34.655+38.210）/2、（9.22+12.806）/2n组内平均连接距离（26.907+30.414+3.606）/3、（34.655+38.210+3.606）/3、（9.22+12.806+3.606）/3n重心法：606. 32121414.3021907.2621,2121,21,21,EDDEADDADEDAD 四、聚类分析的几点说明四、聚类分析的几点说明（1 1）1 1、选择变量、选择变量（1）根据聚类分析的目的选
16、择聚类变量（聚类是在选变量的基础上对样本数据进行的，分类结果是各变量综合计算的结果）（2）各变量的变量值不应有数量级上的差异（数量级对距离有较大影响，将影响最终聚类结果）（3）变量之间不能高度相关（如变量间有较强的线性相关关系，那么计算距离时同类变量将重复“贡献”，将在距离中有较高的权重，因而使最终的聚类结果偏向该类变量）2 2、计算相似性指标。、计算相似性指标。3 3、聚类、聚类（1）选择聚类的方法（2）确定形成的类数根据分类问题本身的专业知识结合实际需要来选择；用多种分类方法去作，把其中的共性取出来，反映了事物的本质，将有争议的样品暂放在一边；观察样品散点图，从直觉上来判断所采用
17、的聚类方法是否合理。4 4、聚类结果的解释和证实、聚类结果的解释和证实对聚类结果进行解释是希望对各个类的特征进行准确的描述，给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析，通常的做法是计算各类在各聚类变量上的均值，对均值进行比较，还可以解释各类别的原因。四、聚类分析的几点说明四、聚类分析的几点说明（2）第三节第三节系统聚类法系统聚类法一、含义：一、含义：又叫层次聚类。聚类过程是又叫层次聚类。聚类过程是按一定层次进行的，有按一定层次进行的，有Q Q型聚类和型聚类和R R型型聚类。聚类。二、聚类步骤二、聚类步骤三、常用的聚类方法三、常用的聚类方法四、系统聚类法的性质四、系统聚
18、类法的性质二、步骤：n1、对数据进行变换处理，消除量纲；n2、构造n个类，每个类只包含一个样品；n3、n个样品两两间的距离dij；n4、合并距离最近的两类为一新类；n5、计算新类与当前各类的距离，重复（4）、（5），直到所有的类合并为一类；n6、画聚类图；n7、决定类的个数和类。 1、根据样品的特征，规定样品之间的距离，共有个。将所有距离列表，记为D D（0）表。 2、选择D D（0）表中最小的非零数，不妨假设，于是将和合并为一类，记为。pqdpGqGqprGGG，2nCijd3、分别删除D（0）表的第p行和第q列，并新增一行和一列，利用递推公式计算新类与其它类之间的距离。产生D（
19、1）表。4、在D（1）表再选择最小的非零数，其对应的两类又构成新类，分别删除D（1）表的相应的行和列，并新增一行和一列，再利用递推公式计算新类与其它类之间的距离。结果，产生D（2）表。类推直至所有的样本点归为一类为止。例题：下表给出了某地区九个农业区的七项指标表表某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据区代号人均耕地x1（hm2/人）劳均耕地x2（hm2/个）水田比重x3（%）复种指数x4（%）粮食亩产x5（kg/ hm2）人均粮食x6（kg/人）稻谷占粮食比重x7（% ）G10.2941.0935.63113.64510.51036.412.2G20.3150
20、.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17 表表极差标准化处理后的数据极差标准化处理后的数据x
21、1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00它们经过极差标准化处理后，如下表所
22、示。minmaxminxxxxx 根据上述数据，计算可得九个农业区之间的绝对值距离矩阵如下040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)(99ijdD 在距离矩阵D中，除对角线元素外，d49=d94=0.51为最小者，故将第4区与第9区并为一类，划去第9行和第4列；
23、在余下的元素中，除对角线元素外，d75= d57=0.83为最小者，故将第5区与第7区并为一类，划掉第7行和第5列；在第二步之后余下的元素之中，除对角线元素外，d82= d28=0.88为最小者，故将第2区与第8区并为一类，划去对应的行和列；在第三步之后余下的元素中，除对角线元素外，d43= d34=1.23为最小者，故将第3区与第4区并为一类，划去对应的行和列，此时，第3、4、9区已归并为一类；用Block距离计算距离，对某地区的九个农业区进行聚类分析,步骤如下: 在第四步之后余下的元素中，除对角线元素外，d21= d12=1.52为最小者，故将第1区与第2区并为一类，划去对应的行和
24、列，此时，第1、2、8区已归并为一类；在第五步之后余下的元素中，除对角线元素外，d65= d56=1.78为最小者，故将第5区与第6区并为一类，划去对应的行和列，此时，第5、6、7区已归并为一类；在第六步之后余下的元素中，除对角线元素外，d31= d13=3.10为最小者，故将第1区与第3区并为一类，划去对应行、列，此时，第1、2、3、4、8、9区已归并为一类；在第七步之后余下的元素中，除去对角线元素外，只有d51= d15=5.86，故将第1区与第5区并为一类，划去对应行、列，此时，第1、2、3、4、5、6、7、8、9、区均归并为一类；G1G2G8G3G4G9G5G7G6根据上述步骤，
25、可以作出聚类过程的谱系图n以当前某个样品与已经形成的小类中的各样品距离中的最小值作为当前样品与该小类之间的距离。 Gr= Gp,Gq, drl=mindpl,dql。n类Gp与Gq之间的距离定义为两类最近样品的距离，即：qpijpqGGdMinDjixx，：定义距离：三、常用的种类三、常用的种类1、最短距离法（、最短距离法（Nearest Neighbor）假设第p类和第q类合并成第r类，第r类与其它各旧类的距离按最短距离法为：qplDDMinDqlplrl，递推公式：最短距离法的分析步骤n定义样品之间的距离，计算n个样品的距离矩阵D(0)，开始每个样品自成一类，显然这时Dijdijn找出D
26、(0)中非对角线最小元素，设为Dpq，将Gp和Gq合并为一个新类，记为Gr，即Gr = Gp,Gq 。n按计算公式计算出新类与其它类的距离。n重复以上步骤，直到所有元素并为一类为止。如果某一步最小元素不止一个，则对应这些最小元素的类可以同时合并。例：为了研究以下5省区某年城镇居民生活消费的分布规律，根据调查资料做类型划分省份x1x2x3x4x5x6x7x8辽宁浙江河南甘肃青海 7.90 7.68 9.42 9.16 10.0639.7750.3727.9327.9828.64 8.49 11.35 8.20 9.0110.5212.9413.30 8.14 9.3210.0519.2719.
27、2516.1715.9916.1811.0514.59 9.42 9.10 8.392.042.751.551.821.9613.2914.87 9.7611.3510.812112)(pkjkikijxxdd12=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)21/2=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d3
28、5=3.51 d45=2.21 1 2 3 4 5D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0河南与甘肃的距离最近，先将二者（3和4）合为一类G6=G3，G4G1=辽宁，G2=浙江，G3=河南，G4=甘肃，G5=青海d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 1
29、2.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3= 7 0 1 12.80 0 2 23.54 11.67 0河南、甘肃与青海并为一新类G7=G6，G5=G3，G4，G6G8=G1,G2d78=mind71,d72=12.80 7 8D4= 7 0 8 12.8 0河南3甘肃4青海5辽宁1浙江2 如果某一步最小非零元素不止一个时，则对应于这些最小元素的类可以同时合并。n以当前某个样品与已经形成的小类中的各样品距离中的最大值作为当前样品与该小类之间的距离。n最长距离法的
30、并类与最短距离法的并类步骤完全一样。也就是先将各个样品自成一类，然后将类间距离最短的两类合并。 2 2、最长距离法、最长距离法（ furthest neighbor）pqijpqDMax dGGijxx定义距离：，假设第p类和第q类合并成第r类，第r类与其它各旧类的距离按最长距离法为：rlplqlDMax DDlpq递推公式：，例：对前例的数据以最长距离法聚类。 1 2 3 4 5 1 0 2 11.67 0 D1= 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0d61=d(3,4)1=maxd13,d14=13.
31、80 d62=d(3,4)2=maxd23,d24=24.63d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0D2= 1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0河南与甘肃的距离最近，先将二者（3和4）合为一类G6=G3，G4河南、甘肃与青海并为一新类G7=G6，G5=G3，G4，G6d71=d(3,4,5)1=maxd13,d14,d15=13.80d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2D3= 7 0 1 13.80 0 2 24.63 11.67 0d78=maxd71,
32、d72=24.63 7 8D4= 7 0 8 24.63 0G8=G1,G2G8=G1,G2河南1甘肃4G6G7G8G9青海5辽宁1浙江23 3、中间距离法、中间距离法当为中点时，递推公式：2222412121pqqlplrlDDDD 最长距离夸大了类间距离，最短距离低估了类间距离。介于两者间的距离即为中间距离。04121212222，一般情形：pqqlplrlDDDD 例：例：对对5 5个样品（个样品（1 1、2 2、3.53.5、7 7、9 9）进行分类。用绝对）进行分类。用绝对距离计算距离计算距离平方距离平方矩阵：矩阵：)0(D12231363412DDDD4141225. 225. 6
33、63D（1）将每个样品看作自成一类，因此Dij=dij，得下表。G6G3G4G5G6=X1、X20G3 =X340G4 =X430.2512.250G5 =X556.2530.2540(2)找出上表中非对角线最小元素是1，则将G1，G2合并为一个新类G6.计算新类与其它类的距离。(3)找出上表中非对角线最小元素是4，则将G3，G6合并为一个新类G7，将G4，G5合并为一个新类G8.最后计算它们的距离。) 1 (DG7G8G7 =X1、X2、 X30G8=X4 、X530.250X1X2 X3X4X5G6G7G8G914425.3041412121214121212141212124523625
34、6253236246243245275274278DDDDDDDDDDD)2(D4、类平均法：、类平均法：两类间样品距离的平均数。对两类间样品距离的平均数。对应组间平均连接应组间平均连接n用两类样品两两之间的距离的平方和的平均值作为两类间的距离的平方。它利用了所有样品对距离的信息。设聚类到某一步将Gp和Gq合并为Gr，则任一类Gl与Gr的距离为：2222222211111qlrqplrpGiGiijqlrqGiGiijplrpGiGiijrlGiGiijrlGiGiijrlrlDnnDnndnnnndnnnndnndnndnnDlqlplqlplrG1G2G3G4G5G1=X10G2 =X21
35、0G3 =X3 6.252.250G4 =X4362512.250G5 =X5644930.2540 找出上表中非对角线最小元素是1，则将G1，G2合并为一个新类G6.按类均法计算新类与其它类的距离。例：例：对对5 5个样品（个样品（1 1、2 2、3.53.5、7 7、9 9）进行分类。用绝对）进行分类。用绝对距离计算距离计算距离平方距离平方矩阵：矩阵：)0(DG6G3G4G5G6=X1、X20G3 =X34.250G4 =X430.512.250G5 =X556.530.254025. 425. 22125. 621 5 , 4 , 3 2121236222126DkDDDkkk如其中
36、找出上表中非对角线最小元素是4，则将G4，G5合并为一个新类G7.按类平均法计算新类与其它类的距离。) 1 (DG6G3G7G60G3 4.250G7 43.521.250 找出上表中非对角线最小元素是4.25，则将G3，G6合并为一个新类G8.按类均法计算新类与其它类的距离。G6G7G60G7 36.080X1X2 X3X4X5G6G8G7G914.25436.08)2(D)3(D5 5、中间距离法的变形、中间距离法的变形可变法可变法如果让中间距离法的递推公式前两项的系数也依赖于，则递推公式为： 2222)(21pqqlplrlDDDD即为可变法。取显然在可变类平均法中。是可变的，且其中,
37、211 rqrpnnnn6、可变类平均法、可变类平均法n由于类平均法中没有反映Gp和Gq之间的距离Dpq的影响，所以给出可变类平均法。对所有样品对的距离求平均值，包括小类之间的样品对、小类内的样品对。计算公式为：2222(1)pplqqlrlpqpqn Dn DDDnn 用此递推公式进行聚类就是可变类平均法。递推公式由： p类和q类与L类的距离的加权平均数 p类和q类的距离两项的加权和构成，的大小根据哪项更重要而定的大小根据哪项更重要而定。是可变的，且其中1 可变类平均法与可变法的分类效果与可变类平均法与可变法的分类效果与的选择的选择关系很大，在实际应用中关系很大，在实际应用中常取负值常取负值
38、。G1G2G3G4G5G1=X10G2 =X210G3 =X3 6.252.250G4 =X4362512.250G5 =X5644930.2540 找出上表中非对角线最小元素是1，则将G1，G2合并为一个新类G6.按可变类均法计算新类与其它类的距离。取-1/4。得下表。例：例：对对5 5个样品（个样品（1 1、2 2、3.53.5、7 7、9 9）进行分类。用绝对）进行分类。用绝对距离计算距离计算距离平方距离平方矩阵：矩阵：G6G3G4G5G6=X1、X20G3 =X35.060G4 =X437.8812.250G5 =X570.3830.2540 上表中非对角线最小元素是4，则将G4，G
39、5合并为一个新类G7. 计算新类与其它类的距离。G6G3G7G6=X1、X20G3 =X35.060G7 =X4 、 X566.6625.560 上表中非对角线最小元素是5.06，则将G3，G6合并为一个新类G8. 计算新类与其它类的距离。G6G7G6=X1、X2 、 X30G7 =X4 、 X564.940X1X2 X3X4X5G6G8G7G915.06464.947 7、离差平方和法：、离差平方和法：是Ward提出的，基本思想来自于方差分析的想法，如类分得恰当，同类内的样品之间的离差平方和应较小，而类间的离差平方和应当较大。ktniiikttniiitttttXtXtXtXSSktXtXt
40、XtXSG1111) )()()()() )()()()(为：个类的类内离差平方和：中样品的离差平方和为nikkikiCkknR01) 1(!1),(将k固定时，要选择使S达到极小的分类，一切可能的分法有：nWard 寻找到一个局部最优解的方法。n先将n个样本各成一类，然后每次缩小一类，每缩小一类离差平方和就要增大，选择使离差平方和S增加最小的两类合并，直至所有样本归为一类为止。2222pqlrlqllrlqpllrlprlDnnnDnnnnDnnnnDn如果分类正确，同类样品的离差平方和应该较小，类与类的离差平方和应当较大。因此应使小类内各样本的欧欧氏距离氏距离总平方和增加最小的两小类合并为
41、一类。用Ward法分类。（1）将五个样品各自分成一类，显然这时类内离差平方和S=0。（2）将一切可能的任意两列合并，计算所增加的离差平方和，取其中较小的S所对应的类进行合并，例如将G1=X1 ， G2 =X2合并成一类，它的离差平方和S12=(1-1.5)2+(2-1.5)2=0.5,如果将G1=X1 ，G3 =X3合并成一类，它的离差平方和为 S13=(1-2.25)2+(3.5-2.25)2=3.125。将一切可能的两类合并的离差平方和都计算出来，并列表如下：例：例：对对5 5个样品（个样品（1 1、2 2、3.53.5、7 7、9 9）进行分类）进行分类G1G2G3G4G5G1=X10
42、G2 =X20.50G3 =X33.1251.1250G4 =X41812.56.1250G5 =X53224.515.12520 上表中非对角线最小元素是0.5，说明将G1，G2合并为一个新类G6增加的S最少. 计算新类G6与其它类的距离，得下表。)0(DG6G3G4G5G6=X1、X20G3 =X32.6670G4 =X420.1676.1250G5 =X537.515.12520667. 25 . 031125. 132125. 332 2, 15 , 4 , 3 -23665432121262262216126DnnnnnnkDnnnDnnnnDnnnnDkkkkkkkkk如其中上表
43、中非对角线最小元素是2，则将G4，G5合并为一个新类G7. 计算新类G7与其它类的距离。) 1 (DG6G3G7G6=X1、X20G3 =X32.6670G7 =X4 、 X542.2513.50 上表中非对角线最小元素是2.667，则将G3，G6合并为一个新类G8. 计算新类G8与其它类的距离。)2(DG6G7G6=X1、X2 、 X30G7 =X4 、 X540.830X1X2 X3X4X5G6G8G7G90.52.667240.8383.40667. 25225.42545 .1353 -23687727687672738737278DnnnDnnnnDnnnnD)3(D 分别为Gp和G
44、q的重心，类与类之间的距离定义为两个类重心（类内样品平均值）间的平方距离。1pipnpixGpXxn1qiqnqixGqXxn8、重心法：也称为样品的均值法。设Gp和Gq 为两个类qpqqpprnnXnXnX重心法递推公式重心法递推公式假设第p类和第q类合并成第r类，第r类与其它各旧类的距离按重心法为：()11ipqilrlrliixGGxGpqlDxxnnnxx111ipiqiliixGxGxGpqpqlxxnnnnn1ipiqilpqiiixGxGxGrprqlnnxxxn nn nnpqpqlrrnnxxxnn2222pqpqplqlpqrrrnnn nDDDnnnpqpqpqllrr
45、rrnnnnxxxxnnnnppqqplqlrrrrnnnnxxxxnnnn2rlD 重心法的归类步骤与以上方法基本相同，所不同的是每合并一次，就要重新计算新类的重心及各类与新类的距离。GrGl时，变成中间距离法当qpnn例：设5个样品（1，2，3.5，7，9）。重心法的初始距离与中间距离法相同。G1G2G3G4G5G1=X10G2 =X210G3 =X3 6.252.250G4 =X4362512.250G5 =X5644930.2540找出上表中非对角线最小元素是1，则将G1，G2合并为一个新类G6.计算新类的重心，其与其它类的距离。)0(D25.3014125213621 2, 1, 1
46、5 . 124662124666DnnnDGX，间的距离。如计算与其它各类重心之，计算其重心为G6G3G4G5G6=X1、X20G3 =X340G4 =X430.2512.250G5 =X556.2530.2540) 1 (D找出上表中非对角线最小元素是4，则将G3，G6合并为一个新类G7，将G4，G5合并为一个新类G8.最后计算它们的距离。G7G8G7 =X1、X2、 X30G8=X4 、X534.03003.34419232312192323121412121245236256253236246243245275274278DDDDDDDDDDD)2(DX1X2 X3X4X5G6G7G8G
47、9144 以上聚类方法的计算步骤完全相同，仅类与类之间距离的定义不同。Lance（兰斯）和Williams（威廉姆斯）于1967年将其统一为：它们取不同的数。类法，是参数，不同的系统聚,222222qpqlplpqqlqplprlDDDDDD方法pq最短距离法0-1/2最长距离法0中间距离法-1/40重心法np/nrnq/nr-pq0类平均法np/nrnq/nr00可变类平均法(1-) np/nr(1-) nq/nr10可变法(1-)/2(1-)/210离差平方和法(np+nl)/( nr+ nl)(nq+nl )/( nr+ nl)-nl/( nr+ nl)0 实例分析选取指标 y1人均GD
48、P，它反映了经济社会发展的总体状况和一般水平； y2人均第三产业增加值，它反映了人均服务产品占有量或服务密度； y3第二产业增加值比重，它反映了工业化水平和产业结构现代化程度； y4第三产业增加值比重，它反映了第三产业的发展程度及其对国民经济的贡献； y5第三产业从业人员比重，它反映了第三产业对劳动力的吸纳能力； y6第三产业固定资产投资比重，它反映了第三产业的资金投入程度； y7城市化水平，它反映了农村人口转化为城市人口的程度及对服务的需求量。例：对中国大陆31个省级区域第三产业综合发展水平进行类型划分及差异性程度分析- 用标准差标准化方法对7项指标的原始数据进行处理。采用欧氏距离测度
49、31个省（市、区）之间的样本间距离。选用组平均法计算类间的距离，并对样本进行归类。具体的数据与计算过程在此略。经过上述聚类计算步骤，得到的聚类结果见下图。聚类计算聚类计算( (计算过程计算过程 ) ) 样本 Num +-+-+-+-+-+ 安徽 12 河南 16 甘肃 28 四川 23 贵州 24 河北 3 山东 15 山西 4 湖北 17 重庆 22 陕西 27 宁夏 30 江西 14 湖南 18 广西 20 云南 25 江苏 10 浙江 11 广东 19 福建 13 辽宁 6 黑龙江 8 吉林 7 新疆 31 内蒙古 5 青海 29 海南 21 西藏 26 北京 1 上海 9 天津 2
50、图图中国中国31个省级区域第三产业发展水平组平均聚类谱系图个省级区域第三产业发展水平组平均聚类谱系图聚类结果分析当类间距离取为4.0和2.5时，全国各省份被合并成以下几类：上海、北京、天津3直辖市为一类，而上海和北京更接近；西藏、海南为一特殊类；青海、内蒙古、新疆、吉林为一类，其中内蒙古、新疆、吉林合并为一亚类；江苏、浙江、广东、福建、辽宁、黑龙江为一类，其中江苏、浙江、广东合并为一亚类；重庆、陕西、宁夏、江西、湖南、广西为一类，其中重庆、陕西、宁夏和江西、湖南、广西各自为一亚类，云南为一孤立点；河北、山东、山西、湖北为一类；安徽、河南、甘肃、四川、贵州为一类。例：例：为了更深

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第六讲-聚类分析课件.ppt
链接地址：https://www.163wenku.com/p-2263436.html

三亚风情

内容提供者

实名认证

联系作者