第六讲-聚类分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第六讲-聚类分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 聚类分析 课件
- 资源描述:
-
1、n俗话说“物以类聚,人以群分”。就是聚类分析的道理。n市场营销中市场细分和客户细分问题n学校里有些同学经常会在一起,关系密切;有些同学很少往来,关系疏远。第一节第一节 什么是聚类分析什么是聚类分析 例例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行归类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424例子例子k例题分析n我们直观地来看,这个归类是否合理? 计算4号和6号得分的离差平方和: (21-2
2、0)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和: (28-18)2+(29-23)2+(28-18)2=236n计算1号和3号得分的离差平方和为482,由此可见一般,归类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。n由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?n基本思想基本思想:根据事物本身的特性研究个体分类的方法;即在没有先验知识的情况下进行的。多元统计分析方法就是对样品或指标进行量化分类的问题,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循。n聚类原则聚类原则:同一类中
3、的个体有较大的相似性,不同类中的个体差异很大。n常见方法常见方法:Q型聚类法、R型聚类法、灰色聚类法和模糊聚类法等。聚类的程序n基本程序基本程序:根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量统计量,然后利用统计量将样品或指标进行归类。 如对上市公司的经营业绩进行聚类;又如对企业的经济效益进行评价n由此可知,聚类分析(Cluster Analysis)也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与多元假设检验、回归分析等一起被称为多元分析的三大方法。n聚类分析的步骤:根据已知数据,计算各观察个体或变量之
4、间亲疏关系的统计量。根据某种准则,使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。 思考:样品点间、样品点和小类之间、思考:样品点间、样品点和小类之间、小类与小类之间按什么刻画亲疏关系小类与小类之间按什么刻画亲疏关系第二节第二节 “亲疏程度亲疏程度”度量度量一、变量测量尺度的类型一、变量测量尺度的类型二、亲疏程度的测度二、亲疏程度的测度三、样品与小类、小类与小类三、样品与小类、小类与小类 之间之间“亲疏程度亲疏程度”的度量方法的度量方法四、聚类分析的几点说明四、聚类分析的几点说明n(1)(1)间隔尺度间隔尺度(Scale):用数量来表示,其数值由测量(连续)或计数
5、(离散)、统计得到。n(2)(2)顺序尺度顺序尺度(Ordinal):没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。n(3)3)名义尺度名义尺度(Nominal):既没有数量表示也没有次序关系,只有一些特性状态。如眼睛的颜色,化学中催化剂的种类等。一、变量测量尺度的类型一、变量测量尺度的类型二、亲疏程度的测度二、亲疏程度的测度n亲疏程度:包含个体间的相似程度和个体间的差异程度n亲疏程度测定方法: 距离:样品间的聚类,Q型聚类分析。 相似系数:变量间的聚类, R型聚类
6、分析。 1 1、定义、定义距离距离的准则的准则 距离满足条件:;0成立和对一切的jidij;0成立当且仅当jidij;0成立和对一切的jiddjiij.成立和对于一切的jidddkjikij(一)距离(一)距离2 2、常用距离的算法、常用距离的算法(数值型变量)(数值型变量)设 和是第i和 j 个样品的观测值,则二者之间的距离为:qpkqjkikijxxqd11)|()(pkjkikijxxqd12)()2(ipiixxx,21ix),(21jpjjxxxjx特别:欧氏距离Euclidean distance(1) (1) 闵可夫斯基距离(闵可夫斯基距离(Minkowski) )pkjkiki
7、jxxqd1) 1(绝对距离(block)闵可夫斯基距离缺点闵可夫斯基距离缺点与指标量纲有关未考虑总体变异对“距离”远近的影响。12A近一些处,应该认为离左侧处,位于右侧位于:近,但从概率论角度看离总体用欧氏距离的话,离哪个总体近?,那么中心,距的中心距现有一点,设有两正态总体,yAxAAyxANyNx5 . 1232),4 ,(),(212212(2)马氏距离(广义欧氏距离)n是印度著名统计学家马哈拉诺比斯是印度著名统计学家马哈拉诺比斯(PCMahalanobis)所定义的一种距离。所定义的一种距离。特点:特点:n考虑了观测变量之间的相关性考虑了观测变量之间的相关性。如果各变量间相互独立,即
8、观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。n考虑到了各个观测指标取值的差异程度考虑到了各个观测指标取值的差异程度,不再受各指标量纲的影响。将原始数据做线性变换后,马氏距离不变。n为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。的马氏距离:维样品,则两个样品间中的总体)的(,协方差为是来自均值向量为pGxxji0,)()(2ji1jixxxxijd19 . 09 . 01,002N19 . 09 . 0119. 011两点。和设) 1, 1 () 1 , 1 (BA05. 1)(MdA20)(
9、MdB2)(UdA2)(UdB例如,假设有一个二维正态总体,它的分布为: 马氏距离的缺点马氏距离的缺点:样品协方差矩阵不变不合理。切比雪夫距离:(Chebychev)jkikpkijxxd1max)(pljliljlilijxxxxpd11兰氏距离:兰氏距离: 适合于一切变量值大于零的情况。该距离与变量单位无关,对大的异常值不敏感,适用于较大变异的数据,但未考虑变量相关性问题。倍)氏距离(相差一个常数斜交空间距离退化为欧即个变量互不相关时,当的相关系数。与变量是变量,/ )2()(1*21112*pddpxxrrXXXXpdijlkklpkplklljlikjkiijij斜交空间距离可考虑变量
10、间相关性问题000pGqG1G2GnG1G2GnG12dnd121d1nd2ndnd2 样品点间的距离表样品点间的距离表3 3、距离选择的原则距离选择的原则n一般来说,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式侧重点和实际意义都不相同。因此我们在聚类分析时,应注意距离公式的选择。在选择距离公式时应注意以下原则:n应考虑变量类型应考虑变量类型(不同类型变量计算距离的方法不同)n所选择的亲疏测度指标在实际应用中应有所选择的亲疏测度指标在实际应用中应有明确的意义明确的意义。(欧几里得距离具有明确的空间距离的概念,马氏距离有消除量纲影响的作用)n要
11、综合考虑对要综合考虑对样本观测数据的预处理和将要采用的聚类样本观测数据的预处理和将要采用的聚类分析方法分析方法。(如在进行聚类分析之前已经对变量作了标准化处理,则通常采用欧几里得距离)n适当地考虑适当地考虑研究对象的特点和计算工作量的大小研究对象的特点和计算工作量的大小。(在实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。)(二)相似系数(二)相似系数n夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量ipiiixxx,21x1、夹角余弦、夹角余弦jpjjjxxx,21xpkpkj
12、kikpkjkikijxxxxcij11221cos 2 2、相关系数、相关系数),(;),(2121jpjjjipiiixxxXjxxxXi个样品观测值:第个样品观测值:第之间的相似测度为和jiXXpkpkjjkiikpkjjkiikijxxxxxxxxcij11221)()()(221ijijcd有:有:ijc例如夹角余弦夹角余弦相关系数相关系数 三、个体与小类、小类与小类间三、个体与小类、小类与小类间 “亲疏程度亲疏程度”的度量方法的度量方法1 、最短距离(Nearest Neighbor)x21x12x1113d2、最长距离(Furthest Neighbor )x11x2112d99
13、1dd3、组间平均连接(Between-group Linkage) 4、组内平均连接法(Within-group Linkage)1234566dddddd 每一步均考虑了小类内部相似性的变化 克服了最远、最近距离中距离受极端值影响的特点5、重心距离(Centroid clustering)11,xy22,xy为样品数合并成的小类,是npqrDnnnnDnnDnnDpqrqrpqkrqpkrprk 该方法充分利用了所涉及的距离信息,同时将小类的样本数也考虑进来了n是Ward提出的。其原则是:聚类过程中使小类内离差平方和增加最小的两小类首先合并为一类。n步骤:首先各个体自成一类,然后逐步凝聚成
14、小类。随着小类的不断凝聚,类内离差平方和必然不断增大。应选择使类内离差平方和增加最小的两类凝聚,直到所有个体合并成一类为止。6、离差平方和法连接(Wards method)例如:例如:例:5商厦个体间欧氏距离CASEEuclidean distanceABCDEABCDE0.0008.06217.80426.90730.4148.0620.00025.45634.65538.21017.80425.4560.0009.22012.80626.90734.6559.2200.0003.60630.41438.21012.8063.6060.000例题分析nD、E首先聚成一类,A、B、C与该小类n
15、最近邻距离依次为26.907、34.655、9.22n最远距离30.414、38.210、12.806n组间平均连接距离(26.907+30.414)/2、(34.655+38.210)/2、(9.22+12.806)/2n组内平均连接距离(26.907+30.414+3.606)/3、(34.655+38.210+3.606)/3、(9.22+12.806+3.606)/3n重心法:606. 32121414.3021907.2621,2121,21,21,EDDEADDADEDAD 四、聚类分析的几点说明四、聚类分析的几点说明(1 1)1 1、选择变量、选择变量 (1)根据聚类分析的目的选
16、择聚类变量(聚类是在选变量的基础上对样本数据进行的,分类结果是各变量综合计算的结果) (2)各变量的变量值不应有数量级上的差异(数量级对距离有较大影响,将影响最终聚类结果) (3)变量之间不能高度相关(如变量间有较强的线性相关关系,那么计算距离时同类变量将重复“贡献”,将在距离中有较高的权重,因而使最终的聚类结果偏向该类变量)2 2、计算相似性指标。、计算相似性指标。3 3、聚类、聚类 (1)选择聚类的方法 (2)确定形成的类数 根据分类问题本身的专业知识结合实际需要来选择;用多种分类方法去作,把其中的共性取出来,反映了事物的本质,将有争议的样品暂放在一边;观察样品散点图,从直觉上来判断所采用
17、的聚类方法是否合理。4 4、聚类结果的解释和证实、聚类结果的解释和证实 对聚类结果进行解释是希望对各个类的特征进行准确的描述,给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析,通常的做法是计算各类在各聚类变量上的均值,对均值进行比较,还可以解释各类别的原因。 四、聚类分析的几点说明四、聚类分析的几点说明(2)第三节第三节 系统聚类法系统聚类法一、含义:一、含义:又叫层次聚类。聚类过程是又叫层次聚类。聚类过程是按一定层次进行的,有按一定层次进行的,有Q Q型聚类和型聚类和R R型型聚类。聚类。二、聚类步骤二、聚类步骤三、常用的聚类方法三、常用的聚类方法四、系统聚类法的性质四、系统聚
18、类法的性质二、步骤:n1、对数据进行变换处理,消除量纲;n2、构造n个类,每个类只包含一个样品;n3、n个样品两两间的距离dij;n4、合并距离最近的两类为一新类;n5、计算新类与当前各类的距离,重复(4)、(5),直到所有的类合并为一类;n6、画聚类图;n7、决定类的个数和类。 1、根据样品的特征,规定样品之间的距离 ,共有 个。将所有距离列表,记为D D(0)表。 2、选择D D(0)表中最小的非零数,不妨假设 ,于是将 和 合并为一类,记为 。pqdpGqGqprGGG,2nCijd3、分别删除D(0)表的第p行和第q列,并新增一行和一列,利用递推公式计算新类与其它类之间的距离。产生D(
19、1)表。4、在D(1)表再选择最小的非零数,其对应的两类又构成新类,分别删除D(1)表的相应的行和列,并新增一行和一列,再利用递推公式计算新类与其它类之间的距离。结果,产生D(2)表。类推直至所有的样本点归为一类为止。例题:下表给出了某地区九个农业区的七项指标表表 某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据 区代号人均耕地x1(hm2/人)劳均耕地x2(hm2/个)水田比重x3(%)复种指数x4(%)粮食亩产x5(kg/ hm2)人均粮食x6(kg/人)稻谷占粮食比重x7(% )G10.2941.0935.63113.64510.51036.412.2G20.3150
20、.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17 表表 极差标准化处理后的数据极差标准化处理后的数据x
21、1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00它们经过极差标准化处理后,如下表所
22、示。minmaxminxxxxx 根据上述数据,计算可得九个农业区之间的绝对值距离矩阵如下040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)(99ijdD 在距离矩阵D中,除对角线元素外,d49=d94=0.51为最小者,故将第4区与第9区并为一类,划去第9行和第4列;
23、 在余下的元素中,除对角线元素外,d75= d57=0.83为最小者,故将第5区与第7区并为一类,划掉第7行和第5列; 在第二步之后余下的元素之中,除对角线元素外,d82= d28=0.88为最小者,故将第2区与第8区并为一类,划去对应的行和列; 在第三步之后余下的元素中,除对角线元素外,d43= d34=1.23为最小者,故将第3区与第4区并为一类,划去对应的行和列,此时,第3、4、9区已归并为一类; 用Block距离计算距离,对某地区的九个农业区进行聚类分析,步骤如下: 在第四步之后余下的元素中,除对角线元素外,d21= d12=1.52为最小者,故将第1区与第2区并为一类,划去对应的行和
24、列,此时,第1、2、8区已归并为一类; 在第五步之后余下的元素中,除对角线元素外,d65= d56=1.78为最小者,故将第5区与第6区并为一类,划去对应的行和列,此时,第5、6、7区已归并为一类; 在第六步之后余下的元素中,除对角线元素外,d31= d13=3.10为最小者,故将第1区与第3区并为一类,划去对应行、列,此时,第1、2、3、4、8、9区已归并为一类; 在第七步之后余下的元素中,除去对角线元素外,只有d51= d15=5.86,故将第1区与第5区并为一类,划去对应行、列,此时,第1、2、3、4、5、6、7、8、9、区均归并为一类;G1G2G8G3G4G9G5G7G6根据上述步骤,
25、可以作出聚类过程的谱系图n以当前某个样品与已经形成的小类中的各样品距离中的最小值作为当前样品与该小类之间的距离。 Gr= Gp,Gq, drl=mindpl,dql。n类Gp与Gq之间的距离定义为两类最近样品的距离,即:qpijpqGGdMinDjixx,:定义距离:三、常用的种类三、常用的种类1、最短距离法(、最短距离法(Nearest Neighbor) 假设第p类和第q类合并成第r类,第r类与其它各旧类的距离按最短距离法为:qplDDMinDqlplrl,递推公式:最短距离法的分析步骤n定义样品之间的距离,计算n个样品的距离矩阵D(0),开始每个样品自成一类,显然这时Dijdijn找出D
展开阅读全文