计量地理学第7章系统聚类分析ppt课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《计量地理学第7章系统聚类分析ppt课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计量 地理学 系统 聚类分析 ppt 课件
- 资源描述:
-
1、第七章 系统聚类分析第七章 系统聚类分析模型第一节 聚类要素的数据处理第二节 距离的计算第三节 直接聚类法 第四节 最短距离聚类法 第五节 最远距离聚类法l什么是聚类分析?l聚类分析(Cluster Analysis)是研究“物以类聚”的一种方法,国内有人称它为群分析、点群分析、簇群分析等,是研究分类问题的一种多元统计方法。l聚类分析是根据变量(或样品或指标) 的属性或特征的相似性或亲疏程度,用数学方法把他们逐步地分型划类, 最后得到一个能反映样品之间或指标之间亲疏关系的客观的分类系统,样品或指标逐步归并最后可形成分类系统图, 即系统聚类图。l 聚类分析的作用?l近十年来,聚类分析发展很快,在
2、地质勘探、天气预报、生物分类、考古学、医学、心理学以及制定国家标准等许多方面都取得了许多很有成效的应用。l在地理学研究方面,聚类分析是定量研究地理事物分类问题和地理分区问题的重要方法之一。l聚类分析有哪些方法?l聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类法和模糊聚类法等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。l本章重点讨论系统聚类分析方法及其在地理学中的应用问题。 第一节 聚类要素的数据处理 在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。 在地理分类和分区研究
3、中,聚类对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。因此,在进行聚类分析之前,首先要对聚类要素进行数据处理。 要 素聚 类 对 象 假设有m 个聚类的对象,每一个聚类对象都有n个要素构成。它们所对应的要素数据可用下表给出。 mi21mnmjmminijiinjnjxxxxxxxxxxxxxxxx2121222221111211njxxxx21聚类对象与要素数据 例如 9个农业区的7项经济指标原始数据 区代号人均耕地X1/(hm2人-1)劳均耕地X2/(hm2个-1 )水田比重X3/%复种指数x4/%粮食单产x5/(kgh
4、m -2)人均粮食x6/(kg人-1 )稻谷占粮食比重x7/% G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773.5683.70.85G30.1230.3165.28148.56 934.5611.16.49G40.1790.5270.391114 458632.60.92G50.0810.21272.04217.812 249791.180.38G60.0820.21143.78179.68 973636.548.17G70.0750.18165.15194.710 689634.380.17G80.2930.6
5、665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17聚类对象聚类要素要素数据 在聚类分析中,常用的聚类要素的数据处理方法有如下几种: 总和标准化。 标准差标准化。 极大值标准化。 极差标准化。 总和标准化。总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足), 2 , 1;, 2 , 1(1njmixxxmiijijijmiijnjx1), 2 , 1(1 标准差标准化标准差标准化,即 由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有
6、),2, 1;,2, 1(njmisxxxjjijij1)(101121mijijjmiijjxxmsxmx 极大值标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。 ), 2 , 1;, 2 , 1(maxnjmixxxijiijij(3.4.3) 极差标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。 ), 2 , 1;, 2 , 1(minmaxminnjmixxxxxijiijiijiijij一个例子一个例子某地区9个农业区的7项经济指标原始数据 区代号人均耕地X1/(hm2人-1)劳均耕地X2/(hm2个-1
7、 )水田比重X3/%复种指数x4/%粮食单产x5/(kghm -2)人均粮食x6/(kg人-1 )稻谷占粮食比重x7/% G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773.5683.70.85G30.1230.3165.28148.56 934.5611.16.49G40.1790.5270.391114 458632.60.92G50.0810.21272.04217.812 249791.180.38G60.0820.21143.78179.68 973636.548.17G70.0750.18165.1519
8、4.710 689634.380.17G80.2930.6665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17极差标准化处理后的数据x1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.00
9、0.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00区代号人均耕地X1/(hm2人-1)劳均耕地X2/(hm2个-1 )水田比重X3/%复种指数x4/%粮食单产x5/(kghm -2)人均粮食x6/(kg人-1 )稻谷占粮食比重x7/% G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773.5683.70.85G30.1230.3165.28148.56 934.5611.16.49G40.1790.52
10、70.391114 458632.60.92G50.0810.21272.04217.812 249791.180.38G60.0820.21143.78179.68 973636.548.17G70.0750.18165.15194.710 689634.380.17G80.2930.6665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17n距离是事物之间差异性的测度,差异性越大,则相似性越小,所以距离是系统聚类分析的依据和基础。n当聚类要素的数据处理工作完成以后,就要计算分类对象之间的距离,并依据距离矩阵的结构进行聚类、分区
11、。第二节 距离的计算 常见的距离常见的距离 绝对值距离 欧氏距离 明科夫斯基距离 切比雪夫距离 G6与G3的距离常见的距离有: 绝对值距离 据上表数据,用公式(3.4.5)式计算可得9个农业区之间的绝对值距离矩阵如下 040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)(
12、99ijdD 欧氏距离 ), 2 , 1, ()(12mjixxdnkjkikij(3.4.6) 明科夫斯基距离 ), 2 , 1, (11mjixxdpnkpjkikij(3.4.7) 切比雪夫距离。当明科夫斯基距 时,有 ), 2 , 1,(maxmjixxdjkikkij(3.4.8) p第三节 直接聚类法 一、原理一、原理 先把各个分类对象(如每个地区)单独视为一类,然后根据距离最小距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。
13、经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。 二、例题二、例题 某地区有9个农业区,请按照农业区的7项经济指标,用直接聚类法对这9个农业区进行分区、归类。 第一步:原始数据标准化处理第二步 计算区际绝对值距离 (1)在距离矩阵D中,除去对角线元素以外,d49=d94=0.51为最小者,故将第4区与第9区并为一类,划去第9行和第9列;第三步第三步 利用直接聚类法进行聚类分析利用直接聚类法进行聚类分析(2)在余下的元素中,除对角线元素以外,d75= d57=0.83为最小者,故将第5区与第7区并为一类,划掉第7行和第7列;第三步第三步 利用直接聚类法进行聚
14、类分析利用直接聚类法进行聚类分析 (3)在第2步之后余下的元素之中,除对角线元素以外,d82= d28=0.88为最小者,故将第2区与第8区并为一类,划去第8行和第8列; (4)在第3步之后余下的元素中,除对角线元素以外,d43= d34=1.23为最小者,故将第3区与第4区并为一类,划去第4行和第4列。 此时,第3、4、9区已归并为一类(因为第一步中4区已和9区归为一类,而3区和4区也归为一类,所以3、4、9区为一类)。 (5)在第4步之后余下的元素中,除对角线元素以外,d21= d12=1.52为最小者,故将第1区与第2区并为一类,划去第2行和第2列,此时,第1、2、8区已归并为一类; (
展开阅读全文