聚类分析原理介绍和预测课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《聚类分析原理介绍和预测课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 原理 介绍 预测 课件
- 资源描述:
-
1、聚类分析原理介绍聚类分析原理介绍和预测和预测v什么是什么是自然分组结构自然分组结构Natural grouping ?v我们看看以下的例子:我们看看以下的例子:v有有16v如何将他们分为如何将他们分为 一组一组的牌呢?一组一组的牌呢?AKQJ聚类分析原理介绍聚类分析原理介绍v分成四组分成四组v每组里每组里花色相同花色相同v组与组之间花色相异组与组之间花色相异AKQJ花色相同的牌为一副花色相同的牌为一副Individual suits聚类分析原理介绍聚类分析原理介绍v分成四组分成四组v符号相同符号相同的牌为一组的牌为一组AKQJ符号相同的的牌符号相同的的牌Like face cards聚类分析原
2、理介绍聚类分析原理介绍v分成两组分成两组v颜色相同颜色相同的牌为一组的牌为一组AKQJ颜色相同的配对颜色相同的配对Black and red suits聚类分析原理介绍聚类分析原理介绍v分成两组分成两组v大小程度相近大小程度相近的牌分的牌分到一组到一组AKQJ大配对和小配对大配对和小配对Major and minor suits聚类分析原理介绍聚类分析原理介绍v这个例子告诉我们,分这个例子告诉我们,分组的意义在于我们怎么组的意义在于我们怎么定义并度量定义并度量“相似相似性性”Similarv因此衍生出一系列度量因此衍生出一系列度量相似性的算法相似性的算法AKQJ大配对和小配对大配对和小配对Ma
3、jor and minor suitsYOUR SITE HERE第一节第一节 引言引言第二节第二节 聚类统计量聚类统计量第三节第三节 系统聚类法系统聚类法第四节第四节 动态聚类法动态聚类法主要内容主要内容YOUR SITE HERE第一节第一节 引言引言YOUR SITE HERE人类认识事物、认识世界,往往从分类开始。人类认识事物、认识世界,往往从分类开始。聚类分析和判别分析聚类分析和判别分析是研究事物分类的基本方法。是研究事物分类的基本方法。在数学分类和模式识别中,有两类问题:在数学分类和模式识别中,有两类问题:第一类问题第一类问题: :研究对象存在一个事前分类,将未知研究对象存在一个事
4、前分类,将未知个体归属于其中的一类个体归属于其中的一类判别分析(有监督或称判别分析(有监督或称有导师的有导师的SupervisedSupervised,样品的类别属性是,样品的类别属性是“被标记被标记了了”的的labeledlabeled)另一类问题另一类问题: :不存在一个事前分类,对数据结构进不存在一个事前分类,对数据结构进行分类(分组)行分类(分组) 聚类分析(无监督或称无导聚类分析(无监督或称无导师的师的UnsupervisedUnsupervised)YOUR SITE HERE 判别分析数据格式判别分析数据格式YOUR SITE HERE聚类分析数据格式聚类分析数据格式YOUR S
5、ITE HERE 在地学领域中,经常面临着大量的分类问题,即对在地学领域中,经常面临着大量的分类问题,即对一定量的事物一定量的事物(如地质体、样品或变量如地质体、样品或变量)按其属性进按其属性进行归类。行归类。由于地质对象的复杂性,单靠定性标志或少数定量由于地质对象的复杂性,单靠定性标志或少数定量标志进行分类,常常不能揭示客观事物内在本质的标志进行分类,常常不能揭示客观事物内在本质的差别和联系,难以确定地质体本质属性的归属。同差别和联系,难以确定地质体本质属性的归属。同时也造成很多分类计算具有很大的主观性和任意性时也造成很多分类计算具有很大的主观性和任意性,而且所得的结果因人而异,常不能反映客
6、观实际,而且所得的结果因人而异,常不能反映客观实际情况。情况。地学研究中的分类问题较多,如岩石分类、矿物地学研究中的分类问题较多,如岩石分类、矿物分类、构造期次研究、古气候古环境划分等,这分类、构造期次研究、古气候古环境划分等,这些都有可能需要利用聚类分析来研究。些都有可能需要利用聚类分析来研究。YOUR SITE HERE聚类分析是一种研究分类问题的多元统计聚类分析是一种研究分类问题的多元统计方法。方法。聚类分析的职能是建立一种分类方法,它聚类分析的职能是建立一种分类方法,它将一批样品或变量,按照它们在性质上的将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类。亲疏、相似程度进行分类
7、。聚类分析的出发点是研究对象之间可能存在聚类分析的出发点是研究对象之间可能存在的相似性和亲疏关系。的相似性和亲疏关系。所以,根据研究对象之间各种特征标志的相所以,根据研究对象之间各种特征标志的相似程度或相关程度的大小,可将它们进行分似程度或相关程度的大小,可将它们进行分类归组。类归组。物以类聚,人以群分物以类聚,人以群分YOUR SITE HERE聚类分析的聚类分析的分类原则分类原则是是同一类中的分类对象在某种意义上趋于同一类中的分类对象在某种意义上趋于彼此相似(有较大的相似性);彼此相似(有较大的相似性);不同类中的分类对象趋于不相似(有很不同类中的分类对象趋于不相似(有很大的差异)。大的差
8、异)。聚类分析的目的是把分类对象按一定规则聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而分成若干类,这些类不是事先给定的,而是根据数据的特征而确定。是根据数据的特征而确定。YOUR SITE HERE 根据已知数据,计算各观察个体或变量根据已知数据,计算各观察个体或变量之间之间亲疏关系的统计量亲疏关系的统计量(距离、相关系距离、相关系数等数等),根据),根据某种准则某种准则(最短距离法、最短距离法、最长距离法、中间距离法、重心法等最长距离法、中间距离法、重心法等),使同一类内的差别较小,而类与类之,使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量间的
9、差别较大,最终将观察个体或变量分为若干类。分为若干类。聚类分析基本思想聚类分析基本思想YOUR SITE HERE两个两个“距离距离”概念概念按照远近程度来聚类需要明确两个概念:按照远近程度来聚类需要明确两个概念:一个是一个是点和点之间点和点之间的距离,一个是的距离,一个是类和类之间类和类之间的距离。的距离。点间距离点间距离有很多定义方式。最简单的是欧氏距离,还有有很多定义方式。最简单的是欧氏距离,还有其他的距离。其他的距离。当然还有一些和距离相反但起同样作用的概念,比如相当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。似性等,两点越相似度越大,就相
10、当于距离越短。由一个点组成的类是最基本的类;如果每一类都由一个由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,类包含不止一个点,那么就要确定类间距离,YOUR SITE HERE类间距离类间距离是基于点间距离定义的:比如是基于点间距离定义的:比如两类之两类之间最近点之间的距离间最近点之间的距离可以作为这两类之间的距可以作为这两类之间的距离,也可以用离,也可以用两类中最远点之间的距离两类中最远点之间的距离作为这作为这两类之间的距离;当然也可以用两类之间的距离;当
11、然也可以用各类的中心之各类的中心之间的距离间的距离来作为类间距离。来作为类间距离。在计算时,各种点间距离和类间距离的不同选在计算时,各种点间距离和类间距离的不同选择择, ,其结果会有所不同,但一般不会差太多。其结果会有所不同,但一般不会差太多。 YOUR SITE HERE聚类分析的分类聚类分析的分类按聚类按聚类方法分方法分系统聚类法系统聚类法,也叫分层聚类法,也叫分层聚类法,hierarchical cluster动态聚类法动态聚类法,也叫快速聚类法,也叫快速聚类法quick cluster逐步聚类、迭代聚类逐步聚类、迭代聚类k-均值聚类均值聚类 k-means cluster最优分割法最优
12、分割法(有序样品聚类法)(有序样品聚类法)模糊聚类法模糊聚类法图论聚类法图论聚类法聚类预报法聚类预报法等等YOUR SITE HERE按聚合按聚合方式分方式分聚合法聚合法: 分类开始时每个样品自成一类。分类开始时每个样品自成一类。最常用,分类结果常用分类谱系图表达。最常用,分类结果常用分类谱系图表达。分裂法分裂法: 分类开始将全部样品看成一类。分类开始将全部样品看成一类。通常只能是求局部最优解的方法。通常只能是求局部最优解的方法。调优法调优法: 首先对样品进行粗糙的分个类。首先对样品进行粗糙的分个类。动态聚类法就是其中最典型的方法。动态聚类法就是其中最典型的方法。加入法加入法: 业已存在一个分
13、类结果,确定每业已存在一个分类结果,确定每个新加入样品在分类结构中最合适的位置个新加入样品在分类结构中最合适的位置。等等聚类分析的分类聚类分析的分类YOUR SITE HERE聚类分析的分类聚类分析的分类按聚类按聚类对象对象Q型聚类:对样品的聚类型聚类:对样品的聚类 (cases)R型聚类:对变量的聚类型聚类:对变量的聚类 (variables)R型聚类和型聚类和Q型聚类型聚类这两种聚类在数学处理上是对称这两种聚类在数学处理上是对称的,没有什么不同。的,没有什么不同。 YOUR SITE HERER型聚类分析和型聚类分析和Q型聚类分析型聚类分析研究变量之间的相似程度,对变研究变量之间的相似程度
14、,对变量进行分组。量进行分组。从几何意义上说,是以从几何意义上说,是以N个样品个样品为坐标轴,每个变量视为坐标空为坐标轴,每个变量视为坐标空间的一点或一个向量,研究样本间的一点或一个向量,研究样本空间变量点之间的关系。空间变量点之间的关系。 1. R型聚类分析型聚类分析(对变量的聚类对变量的聚类)如研究控矿地质因素及矿化标志间如研究控矿地质因素及矿化标志间的相关关系,多用于矿物,化学元的相关关系,多用于矿物,化学元素等方面的分组,以助于矿床成因素等方面的分组,以助于矿床成因问题的研究。问题的研究。样品2样品3样品1变量1变量2变量3是一种降维的是一种降维的方法方法YOUR SITE HERER
15、型聚类分析和型聚类分析和Q型聚类分析型聚类分析研究样品之间的相似程度,研究样品之间的相似程度,对样品进行分类。对样品进行分类。从几何意义上说,是以从几何意义上说,是以P个个变量为坐标轴,每个样品视变量为坐标轴,每个样品视为为p维空间中一点或一个向维空间中一点或一个向量,研究样本空间样品点之量,研究样本空间样品点之间的关系。间的关系。 2. Q型聚类分析型聚类分析(对样品的聚类对样品的聚类)变量2变量3变量1样品1样品2样品3YOUR SITE HERE对矿床统计预测来说,主要是进行对矿床统计预测来说,主要是进行Q型聚类。型聚类。(1)对研究区所划分的单元,可视为样品,各单元)对研究区所划分的单
16、元,可视为样品,各单元所测定的各种地质特征作为变量构成原始数据组。所测定的各种地质特征作为变量构成原始数据组。(2)各单元成矿远景的好坏,决定于单元内有利成)各单元成矿远景的好坏,决定于单元内有利成矿地质因素及矿化标志的发育程度,根据这些地质矿地质因素及矿化标志的发育程度,根据这些地质因素和标志的相似程度对单元进行归类分组。这实因素和标志的相似程度对单元进行归类分组。这实际上是一种对地质环境的分类。际上是一种对地质环境的分类。(3)然后,据分类中已知有矿和已知无矿单元的分)然后,据分类中已知有矿和已知无矿单元的分类归组,结合地质条件分析,相对地评价各未知单类归组,结合地质条件分析,相对地评价各
17、未知单元的成矿远景。元的成矿远景。YOUR SITE HERE第二节第二节 聚类统计量聚类统计量npnnppxxxxxxxxxX.212222111211样品样品Case变量变量VariableYOUR SITE HERE绝对值距离绝对值距离欧氏距离欧氏距离闵可夫斯基距离闵可夫斯基距离切比雪夫距离切比雪夫距离方差加权距离方差加权距离兰氏距离兰氏距离马哈拉诺比斯距离马哈拉诺比斯距离夹角余弦夹角余弦相似相似系数系数距离距离系数系数 聚类聚类统计量统计量(也称(也称相似性相似性统计量统计量)dij|Cij|, |rij|越接近于越接近于1,相似程度越高相似程度越高Cij|dij|越小,越小,相似程度
18、越高相似程度越高Q型聚类统计量型聚类统计量R型聚类型聚类统计量统计量相关相关系数系数rijYOUR SITE HERE1|pijikjkkdxx21()pijikjkkdxx1/1|qpqijkikjkkdwxx1max |ijikjkkpdxx 样品样品xi = (xi1, xi2,xip)样品样品xj = (xi1, xi2,xip)间的距离间的距离绝对值距离绝对值距离欧氏距离欧氏距离闵可夫斯基距离闵可夫斯基距离切比雪夫距离切比雪夫距离11121121212.pipiijjjpnnnpxxxxxxxxxXxxxYOUR SITE HERE样品样品xi = (xi1, xi2,xip)样品样
19、品xj = (xi1, xi2,xip)间的距离间的距离方差加权距离方差加权距离兰氏距离兰氏距离马氏距离马氏距离1/21/2*2211()()ikppikjkijjkkkkxxdxxs1|1( )pikjkijkikjkxxdLpxx(要求xij0)1/21()()Ti jijijdxxxx()()11()()1nxxxxnYOUR SITE HERE1221122cos,nkikjkijijnnkikjkkijijx yCxxx xxx变量变量xi = (x1i, x2i,xni)T变量变量xj = (x1i, x2i,xnj)T间的相似系数间的相似系数夹角余弦夹角余弦相关系数相关系数122
20、11()()()()nkiikjjkijijnnkiikjjkkxxxxCrxxxx11111212221. .ijpijpnninjnpxxxxxxxxXxxxxYOUR SITE HERE样品2样品3样品1变量1变量2变量3变量2变量3变量1样品1样品2样品3距离系数距离系数夹角余弦夹角余弦 距离系数是一个衡量空间两点之间相似程距离系数是一个衡量空间两点之间相似程度的统计量,度的统计量,距离系数越小,两点越相似距离系数越小,两点越相似。条件:直角坐标系,要求变量是条件:直角坐标系,要求变量是独立独立的。的。距离系数距离系数ijd在二维情况下在二维情况下22221121122212121()
21、()()kkkdxxxxxxN个样品,个样品,P个指标个指标R型:变量型:变量P个指标个指标2,1,2,1()pi jNikjkijkdxxQ型:样品型:样品N个指标个指标2,1,2,11()pi jNikjkijkdxxp将将N个样品的两两间的距离系数求出来,可排一个样品的两两间的距离系数求出来,可排一个距离系数矩阵个距离系数矩阵 111212122212NNNNNNddddddDddd 相似系数是衡量空间两个向量相似性的一相似系数是衡量空间两个向量相似性的一个指标,相似系数越大,两个向量越相似。个指标,相似系数越大,两个向量越相似。cosij相似系数相似系数ABA BA BCOS ABCO
22、SA B A B 212111 2112 221222222222111221221211kkkkkkkx xx xx xCOSxxxxxx12211pikjkkijppikjkkkx xCOSxx将将N个样品相似系数求出来,排成一个相似系个样品相似系数求出来,排成一个相似系数矩阵数矩阵 111212122212coscoscoscoscoscoscoscoscosNNNNNNQi jr相关系数相关系数 相关系数是衡量变量之间相关程度的一个指相关系数是衡量变量之间相关程度的一个指标,变量标,变量xi与与xj的相关系数定义为:的相关系数定义为: 1221cov,varvar()Nkiikjjij
23、kijNijkiikjjkxxxxx yrxyxxxx111212122212pppppprrrrrrRrrr 1)11ijr (实数) 2)11221pprrr 3)ijjirr YOUR SITE HERE距离和相似系数之间的转换距离和相似系数之间的转换一般说来,距离越小,两样品之间关系越密切,而相似系数越大,两变量之间关系越密切。 为了聚类方便起见,可以用下面的公式从相关系数得到变量间的距离。dij2 = 1-rij2 YOUR SITE HERE第三节第三节 系统聚类法系统聚类法hierarchical clustering method系统聚类方式:系统聚类方式:聚合法聚合法:先视每
展开阅读全文