数学地质系列------4聚类分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数学地质系列------4聚类分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 地质 系列 _4 聚类分析 课件
- 资源描述:
-
1、地质与环境学院地质与环境学院College of Geology&Environment 俗话说:俗话说:“物以类聚,人以群分物以类聚,人以群分”,在社会、经济、管理、气象、地质、人口、在社会、经济、管理、气象、地质、人口、考古等众多领域,都存在着大量的考古等众多领域,都存在着大量的分类研究问题分类研究问题。分类是自然科学重要研究内容之一第五章 聚类分析第一节第一节 概概 述述第二节第二节 数据的规格化处理数据的规格化处理第三节第三节 相似性度量相似性度量第四节第四节 系统聚类法系统聚类法第五节第五节 应用实例应用实例地质与环境学院地质与环境学院College of Geology&Envir
2、onment 合理的科学的分类,能够反映某类事物的合理的科学的分类,能够反映某类事物的最基本的特征最基本的特征以及以及同别类事物的区别同别类事物的区别,推动学科的发展和科学研究。,推动学科的发展和科学研究。第一节 概 述在地学领域:岩石、矿物、构造、地层、古生物等在地学领域:岩石、矿物、构造、地层、古生物等在环境领域:环境质量在环境领域:环境质量在经济领域:股市在经济领域:股市 聚类分析:聚类分析:是一种分类技术,是一种分类技术,它是它是根据根据“物以类聚物以类聚”的道理,的道理,对对事物事物(样品或指标样品或指标)进进行分类的一种行分类的一种多元统计方法多元统计方法,又称又称“群分析、点群分
3、析、簇群分析群分析、点群分析、簇群分析”。一、聚类分析的含义根据根据事物本身的特征事物本身的特征分类,分类,即,即,将事物将事物性质相近性质相近的归为一类,的归为一类,将事物将事物性质的差异较大性质的差异较大的归在不同的类。的归在不同的类。所谓所谓“类类”,通俗地说就是,通俗地说就是相似元素的集合相似元素的集合。分类,是将一个观测对象指定到某一类(组)。分类,是将一个观测对象指定到某一类(组)。聚类分析特点:将事物将事物性质相近性质相近的归为一类,的归为一类,将事物将事物性质的差异较大性质的差异较大的归在不同的类。的归在不同的类。当有当有一个分类指标一个分类指标时,分类时,分类比较容易比较容易
4、。当当有有多个多个分类分类指标指标时时,要进行分类就,要进行分类就不是很容易了不是很容易了。由于不同的指标项由于不同的指标项对对重要程度重要程度或或依赖关系依赖关系是相互不同的,是相互不同的,所以也不能用所以也不能用平均的方法平均的方法,这样会忽视相对,这样会忽视相对重要程度重要程度的问题。的问题。传统的分类方法起源很早,在古老的分类学中,人们主要传统的分类方法起源很早,在古老的分类学中,人们主要靠靠经验经验和和专业知识专业知识进行定性的分析,进行定性的分析,许多分类往往带有许多分类往往带有主观主观性和任意性性和任意性,不能揭示客观事物的内在本质差别和联系不能揭示客观事物的内在本质差别和联系。
5、随着人类科学技术的发展,对分类的要求越来越高,仅随着人类科学技术的发展,对分类的要求越来越高,仅凭经验和专业知识难以确切的进行分类,特别是对于凭经验和专业知识难以确切的进行分类,特别是对于多因素、多因素、多指标多指标的分类问题。的分类问题。数学工具数学工具引用到分类学中,形成引用到分类学中,形成数值分类学数值分类学,后来又将后来又将多元分析多元分析的技术引入到数值分类学,逐步形成的技术引入到数值分类学,逐步形成聚类分析聚类分析这一这一数值分类方法。数值分类方法。根据分类对象根据分类对象Q Q型:型:研究研究样品之间样品之间的关系,把不同的物体归类分群的关系,把不同的物体归类分群R R型:型:研
6、究同一物种不同研究同一物种不同变量之间变量之间的关系的关系 根据维数:根据维数:1 1、2 2、多、多 根据聚类的方法:根据聚类的方法:系统聚类、分解法系统聚类、分解法 系统聚类法:系统聚类法:最短距离法(近邻连接法)、最长距离法(远邻连接法)最短距离法(近邻连接法)、最长距离法(远邻连接法)类平均法、重心法、离差平方和增量法类平均法、重心法、离差平方和增量法二、聚类分析的对象类型 以分类对象为标准,可以将变量(指标)分类R型聚类分析。如城镇居民消费水平通常用八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类等。在生产活
7、动中不乏有变量聚类的实例,如:衣服型号就是根据人体各部分尺寸数据找出最有代表性的指标如身长、胸围和裤长、腰围作为上衣和裤子的代表性指标。变量聚类使批量生产成为可能。R R 型聚类是对型聚类是对变量进行分类处理变量进行分类处理。一般来说,可以反映研究对象特点的一般来说,可以反映研究对象特点的变量有许多变量有许多,由于对,由于对客观事物的认识有限,往往难以找出彼此独立且有客观事物的认识有限,往往难以找出彼此独立且有代表性的变代表性的变量量,影响对问题进一步的认识和研究。,影响对问题进一步的认识和研究。因此需要先进行因此需要先进行变量聚类变量聚类,找出,找出相互独立又有代表性的变相互独立又有代表性的
8、变量量,而又不丢失大部分信息。,而又不丢失大部分信息。Q Q 型聚类是对型聚类是对样品进行分类样品进行分类,即,即对观测进行分类对观测进行分类。根据观测有关变量的特征,将根据观测有关变量的特征,将特征相似的样品特征相似的样品归为一类。归为一类。它是聚类分析中用的最多的一种。它是聚类分析中用的最多的一种。Q 型、型、R型这两种聚类在数学上是对称的,没有什么不同。型这两种聚类在数学上是对称的,没有什么不同。主要讨论主要讨论Q型聚类分析问题。型聚类分析问题。三、聚类分析的基本思想 我们所研究的样品或指标(变量)之间存在着程度不同我们所研究的样品或指标(变量)之间存在着程度不同的的相似性相似性(亲疏关
9、系),于是:(亲疏关系),于是:(1 1)根据一批样品的多个观测指标,具体找出一些能够度)根据一批样品的多个观测指标,具体找出一些能够度量量样品或变量(指标)之间相似程度的统计量样品或变量(指标)之间相似程度的统计量;与多元分析的其它方法比,聚类分析方法较为粗糙,理与多元分析的其它方法比,聚类分析方法较为粗糙,理论上还不够完善,但应用方便、广泛,论上还不够完善,但应用方便、广泛,与回归分析、判别分与回归分析、判别分析一起被称为多元分析的三大方法析一起被称为多元分析的三大方法。(2 2)以这些统计量为)以这些统计量为分类的依据分类的依据,建立一种,建立一种分类方法分类方法,将一,将一批样品或变量
10、(指标),按照它们在性质上的批样品或变量(指标),按照它们在性质上的亲疏、相似程亲疏、相似程度进行分类度进行分类。第二节 数据的规格化处理一、聚类分析的数据格式一、聚类分析的数据格式 设有设有n n个样品个样品单位,每个样品测得单位,每个样品测得 m m 项变量(指标),项变量(指标),原始资料阵为:原始资料阵为:nmnnmmijxxxxxxxxxxX212222111211)(第第i i个样品个样品X Xi i为矩阵为矩阵X X的第的第i i行所描述,行所描述,任何两个样品任何两个样品X Xk k与与X XL L之间的之间的相似性相似性,可以通过矩阵,可以通过矩阵X X中中的第的第K K行与
11、第行与第 L L 行的相似程度来刻划;行的相似程度来刻划;nmnnmmijxxxxxxxxxxX212222111211)(x xijij(i=1,n;j=1,mi=1,n;j=1,m)为第)为第i i个样品的第个样品的第j j个指标的个指标的观测数据观测数据。任何两个变量任何两个变量x xk k与与x xL L之间的相似性,之间的相似性,可以通过第可以通过第K K列与列与第第L L列的列的相似程度相似程度来刻划。来刻划。nmnnmmijxxxxxxxxxxX212222111211)(x xijij(i=1,n;j=1,mi=1,n;j=1,m)为第)为第i i个样品的第个样品的第j j个指
12、标的个指标的观测数据观测数据。为了将为了将样本进行分类样本进行分类,就需要研究,就需要研究样品之间样品之间的关系;的关系;为了将为了将变量进行分类变量进行分类,就需要研究,就需要研究变量之间变量之间的关系。的关系。无论是样品之间的关系,还是变量之间的关系,都是无论是样品之间的关系,还是变量之间的关系,都是用用变量来描述变量来描述的,的,变量的类型不同,描述方法也就不同变量的类型不同,描述方法也就不同。二、变量测量尺度的类型二、变量测量尺度的类型通常,变量按照通常,变量按照测量的尺度测量的尺度不同,可以分为三类:不同,可以分为三类:二、变量测量尺度的类型二、变量测量尺度的类型 间隔尺度间隔尺度(
13、定距尺度、定量变量):(定距尺度、定量变量):变量用变量用连续的量连续的量表示,由表示,由测量、计数测量、计数或或统计统计所得到的量。所得到的量。如,长度、重量、经济统计数字、抽样调查数据等;如,长度、重量、经济统计数字、抽样调查数据等;间隔尺度、有序尺度、间隔尺度、有序尺度、名义尺度名义尺度有序尺度有序尺度(定序变量、定性变量):(定序变量、定性变量):用该变量度量时用该变量度量时没有明确的数量表示没有明确的数量表示,只有次序只有次序(等级)(等级)关系。如,产品质量,分为一等品、二等品等。关系。如,产品质量,分为一等品、二等品等。名义尺度名义尺度(定类变量、定性变量):(定类变量、定性变量
14、):具有该种特性的变量在度量时既没有数量表示,也没有具有该种特性的变量在度量时既没有数量表示,也没有次序关系,而次序关系,而只有性质上的差异只有性质上的差异(用一些类表示)。(用一些类表示)。如,性别、职业等。如,性别、职业等。不同类型的变量,在定义距离和相似系数时,其方法不同类型的变量,在定义距离和相似系数时,其方法有很大差异。有很大差异。在实际应用中,研究比较多的是在实际应用中,研究比较多的是间隔尺度间隔尺度,本章主要讨,本章主要讨论具有间隔尺度变量的样品聚类分析方法。论具有间隔尺度变量的样品聚类分析方法。为了使为了使不同量纲不同量纲、不同取值范围不同取值范围的数据能放在一起进行比的数据能
15、放在一起进行比较,通常需要对数据进行规格化处理,较,通常需要对数据进行规格化处理,即将原始数据矩阵中的每个元素,按照某种即将原始数据矩阵中的每个元素,按照某种特定的运算,特定的运算,把它变为把它变为一个新值,一个新值,而且数值的变化不依赖于原始数据集合中而且数值的变化不依赖于原始数据集合中其它数据的新值。其它数据的新值。第二节 数据的规格化处理nmnnmmijxxxxxxxxxxX212222111211)(nijijniijijjjijijxxnxnxsxxz121)(1111 1、数据标准化、数据标准化nmnnmmijzzzzzzzzzzZ212222111211)(第二节 数据的规格化处
16、理nijijjxxnS12)(11nmnnmmijxxxxxxxxxxX212222111211)(jjjijijxxxxzminmaxmin2 2、数据正规化、数据正规化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX212222111211)(niijijjijijxnxxxz113 3、中心化、中心化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX212222111211)()log(ijijxz 4 4、对数化、对数化nmnnmmijzzzzzzzzzzZ2122221112
17、11)(nmnnmmijxxxxxxxxxxX212222111211)(jxzxniijijmax15 5、极大值规格化、极大值规格化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX212222111211)(jijijxxz6 6、均值规格化、均值规格化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX212222111211)(nijijijjijijxxnxSxz12)(117 7、标准差规格化、标准差规格化nmnnmmijzzzzzzzzzzZ212222111211)(第三
18、节 相似性度量聚类分析用于系统类群聚类分析用于系统类群相似性相似性的研究的实质,的研究的实质,寻找寻找一种能客观反映事物(样品或变量)之间一种能客观反映事物(样品或变量)之间亲疏亲疏(相近或相近或相似)相似)关系的统计量关系的统计量,根据这种根据这种统计量统计量把事物(样品或变量)把事物(样品或变量)分成若干类分成若干类。相似性度量:相似性度量:能够能够度量度量变量(或样品)之间变量(或样品)之间相似相似性程度性程度的数量指标。的数量指标。常用的有常用的有相似系数相似系数、相关系数相关系数、欧氏距离欧氏距离、斜交距离斜交距离、离差(误差)平方和增量离差(误差)平方和增量等。等。描述样品(或变量
19、)间相近(亲疏)、相似程度描述样品(或变量)间相近(亲疏)、相似程度的统计量很多,目前用得最多的聚类统计量是的统计量很多,目前用得最多的聚类统计量是距离距离和和相似系数相似系数,距离系数距离系数一般用于对一般用于对样品分类样品分类,相似系数相似系数一般用于对一般用于对变量聚类变量聚类。假使每个样品有假使每个样品有p p个变量个变量,则每个样品都可以看成,则每个样品都可以看成p p维空间维空间中的一个点,中的一个点,n n个样品个样品就是就是p p维空间中的维空间中的n n个点,个点,用距离来度量样品之间接近的程度用距离来度量样品之间接近的程度,即即两个样品间接近程度用两个样品间接近程度用p p
20、维空间中两点的距离来度量维空间中两点的距离来度量。在聚类过程中,在聚类过程中,距离较近的点倾向于归为一距离较近的点倾向于归为一类类,距离较远的点应归属不同的类。,距离较远的点应归属不同的类。样品间相近性(亲疏程度)的测度样品间相近性(亲疏程度)的测度 首先我们看样本数据:首先我们看样本数据:个样品之间的距离个样品与第表示第设:jijidnmnnmmijxxxxxxxxxxX212222111211)(1 1、定义距离的准则、定义距离的准则 定义距离要求满足第i个和第j个样品之间的距离如下四个条件(距离可以自己定义,只要满足距离的条件);0成立和对一切的jidij;0成立当且仅当jidij;成立
21、和对一切的jiddjiij.成立和对于一切的jidddkjikij(样品(样品 i 和样品和样品 j 的各指标相同的各指标相同)(对称性)对称性)(三角不等式)三角不等式)2、常用距离的算法、常用距离的算法 通常我们定义的距离一般是指通常我们定义的距离一般是指欧氏距离欧氏距离(直线距离),(直线距离),几何平面上的点几何平面上的点P P(x x1 1,x,x2 2)到原点到原点o o(0 0,0 0)的欧氏距离,依的欧氏距离,依勾股定理勾股定理xxpod2221),(R Rp p 中两点中两点 X X(x x1 1,x,x2 2,x xp p)和和 Y(yY(y1 1,y,y2 2,y yp
22、p)之间的之间的欧欧氏距离氏距离为:为:)()()()(,(2112)yxyxyxyxDpp2、常用距离的算法、常用距离的算法 常用距离常用距离明氏距离明氏距离MinkowskiMinkowski距离):距离):11()qpqijikjkkdqxx (通用的距离测度公式)(通用的距离测度公式)2、常用距离的算法、常用距离的算法2、常用距离的算法、常用距离的算法1(1)pijikjkkdxx 1 221(2)pijikjkkdxx (最直观的距离)(最直观的距离)当当q=2q=2时:时:欧氏距离欧氏距离(Euclidean)(Euclidean)当当q=1q=1时:时:绝对值距离绝对值距离1()
23、max ijikjkkpdxx 当当q=q=时时:切比雪夫距离切比雪夫距离(ChebychevChebychev)当当量纲不一致时量纲不一致时,往往突出,往往突出数量级高的变量数量级高的变量的作用,的作用,压低数量级低的变量作用压低数量级低的变量作用结果与实际有较大偏差结果与实际有较大偏差维数维数m m增加使增加使D Dikik变大,其变化无规律可循变大,其变化无规律可循解决解决:原始数据预处理原始数据预处理修正公式修正公式 欧氏距离系数欧氏距离系数D Dikik大小受变量观测值大小受变量观测值量纲量纲影响和影响和变量个数变量个数(维数)的影响。(维数)的影响。量纲量纲原始数据预处理原始数据预
24、处理 统一量纲变换:统一量纲变换:成为成为无量纲的无量纲的、具有统一尺度具有统一尺度的数据,的数据,使每个变量在使每个变量在同一水平上同一水平上显示显示各自的作用各自的作用。维数维数修正公式修正公式 消除维数影响,并将欧氏距离系数的消除维数影响,并将欧氏距离系数的变化范围变化范围限制在限制在(0 0,1 1)之间。之间。当两点距离越小当两点距离越小,d dikik越大越大,两样品相似性愈大,两样品相似性愈大;反之,距离反之,距离,d dikik,相似性,相似性变量样品,mjnkixxmdmjkjijik,2,1,2,1,1112例如:对体重和身高进行测量,采用不同单位,其距离测量例如:对体重和
25、身高进行测量,采用不同单位,其距离测量的结果不同。的结果不同。当长度为当长度为cmcm时:时:CDAB22CD22ABdd1250)(105)(0d1010)(110)(0d当长度为当长度为mmmm时:时:CDAB22CD22ABdd26000)(1050)(0d100010)(1100)(0d通常改进办法有两个:通常改进办法有两个:(1 1)当各指标的)当各指标的测量值相差悬殊时测量值相差悬殊时,先对数据,先对数据标准化标准化,用,用标准化后的数据计算距离。标准化后的数据计算距离。标准化后的数据,每个变量的样本均值为标准化后的数据,每个变量的样本均值为0 0,标准差为,标准差为1 1,与变量
展开阅读全文