聚类分析部分-PPT课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《聚类分析部分-PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 部分 PPT 课件
- 资源描述:
-
1、 多元统计课程设计 之 聚类分析聚类分析概述 聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法。所谓类,通俗的说,就是指相似元素的集合。 在社会经济领域中存在着大量 分类问题。比如,在经济学中,根据人均国民收入、人均工农业产值和人均消费水平等多项指标对世界上所有国家的经济发展状况进行分类。 世界上, 按经济发展水平可以将各个国家和地区划分为发达国家、发展中国家和贫困落后国家等。 聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和类的结构不必作任何假定。 聚类分析也能用来概括数据而不只是为了寻找“自然的”或“实在的”分
2、类。判别分析与聚类分析的关系 判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型。 正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。 聚类分析与判别分析、主成分 分析、回归分析等方法联合起来使用,往往效果更好。 聚类分析根据分类对象不同分 为
3、Q型聚类分析型聚类分析和R型聚类分析型聚类分析。 Q型聚类型聚类是指对样品样品进行聚类,R型聚类型聚类是指对变量变量进行聚类。 教材中主要介绍Q型聚类。 聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。我们主要介绍系统聚类法。 在对样品(或变量)进行分类时,很直观地,我们认为在同一类里的的这些对象在某种意义上倾向于彼此相似,而在不同类里的对象倾向于不相似。 多元统计分析中,样品(或变量)之间的这种相似性用距离和相似系数来度量。 距离和相似系数距离常用来度量样品之间的相似性相似系数常用来度量变量之间的相似性 样品之间的距离和相似系数有着各种不
4、同的定义,而这些定义与变量的类型有着非常密切的关系。变量的类型 通常变量按测量尺度的不同可以分为以下三类:(1)间隔尺度变量间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等;(2)有序尺度变量有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序的关系。(3)名义尺度变量名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,如性别职业、产品的型号等。 距离 设 为第i个样品的第j个指标,数据矩阵表如下:ijx 在上表中,每个样品有p个变量,故每个样品都可以看成是 中的一个点,n个样品就是 中的n个点。在 中需定义某
5、种距离,将第i个样品与第j个样品之间的距离记为 ,在聚类过程冲,相距较近的点倾向于归为一类,相距较远的点应归属不同的类。pRijdpRpR距离的性质 距离 一般应满足如下四个条件:(1) ,对一切i,j;(2) ,当且仅当第i个样品与第j个样品的 各变量值都相同;(3) ,对一切i,j;(4) ,对一切i,j,k。ijd0ijd 0ijd ijjiddijikkjddd常用距离定义vMinkowski(明考夫斯基)距离(明氏距离) 第i个样品与第j个样品间的明氏距离明氏距离定义为:明氏距离有以下三种特殊形式:(1)当q=1时, ,成为绝对值距离绝对值距离, 也常被称为“城市街区”距离;(2)当
6、q=2时, ,称为欧氏距欧氏距 离离,这是聚类分析中最常用的一个距离;(3)当q=时, ,称为契比雪契比雪夫距离。夫距离。11( )qpqijikjkkdqxx1(1)pijikjkkdxx1 221(2)pijikjkkdxx1( )maxijikjkkpdxx 当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。最常用的标准化处理是其中 为第j个变量的样板均值, 为第j个变量的样本方差。*ijjijjjxxxsjxjjs 明氏距离特别是其中的欧氏距离是人们比较熟悉的也是使用最多的距离。但明氏距离存在不足之处,主要表
7、现在两个方面:第一, 它与各指标的量纲有关;第二,它没有考虑指标之间的相关性。 除此以外,从统计的角度上看,使用欧氏距离要求一个向量的n个分量是不相关的且具有相同的方差,或者说各坐标对欧氏距离的贡献是同等的且变差大小也是相同的,这时使用欧氏距离才合适,效果也较好,否则就有可能不能如实反映情况,甚至导致错误的结论。故一个合理的做法,就是对坐标加权,这就产生了“统计距离”。 比如设 , 且Q的坐标是固定的,点P的坐标相互独立地变化。用 表示p个变量 的n次观测的样本方差,则可定义P到Q的统计距离为:所加的权是 ,即用样本方差除相应坐标。当取 时,就是点P到原点O的距离。若 时,为欧氏距离。12,p
8、Px xx12,pQy yy1122,ppsss12,px xx22211221122( ,)ppppxyxyxyd P Qsss121122111,pppkkksss120pyyy1122ppsssv兰氏(Lance和Williams)距离当 时,可以定义第i个样品与第j个样品间的兰氏距离兰氏距离为这个距离与各变量的单位无关。由于它对大的异常值不敏感,故适用于高度偏斜的数据。兰氏距离有助于克服各指标之间量纲的影响,但与明氏距离一样,也没有考虑指标建的相关性。0,1,2, ;1,2,ijxin jp11( )pikjkijkikjkxxdLpxxv马氏(Mahalanobis)距离 第i个样品
9、与第j个样品间的马氏距离为 , ,S为样本协方差矩阵。 马氏距离的优点是考虑到了变量间的相关性,且与各变量的单位无关。除此之外,他还有一些优点,如可以证明,将原数据作线性变换,马氏距离仍不变等。 但马氏距离有一个很大的缺陷,就是马氏距离公式中的S难以确定。因此,在实际聚类分析中,马氏距离不理想。1()ijijijdMxxSxx12,iiiipxxxx12,jjjjpxxxxv斜交空间距离 第i个样品与第j个样品间的斜交空间距离斜交空间距离定义为其中 是变量 与 间的相关系数。当p个变量互不相关时, ,即斜交空间距离退化为欧氏距离(除相差一个常数倍)。1 2*2111ppijikjkiljlkl
10、kldxxxxrpklrkxlx*(2)ijijddp 以上几种距离的定义均要求变量是间隔尺度的,如果使用的变量是有序尺度或名义尺度的,则又吸纳供应的一些定义距离的方法。 某培训学院资料如下(名义尺度变量):这两名学员的第二个变量都取值“英”,称为配合的配合的,第一个变量取值不同,称为不配合的不配合的。一般地,记配合的变量数为 ,不配合的变量数为 ,则它们之间的距离可定义为故上述两个样本之间的距离为2/3。1x 男,英,统计,非教师,校外,本科2x 女,英,金融,教师,校外,本科以下1m2m21212mdmm相似系数 聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分
11、类时,常常采用相似系数来度量变量之间的相似性。 变量之间的这种相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。 聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。相似系数性质 变量 与 的相似系数用 来表示,它一般应满足如下三个条件:(1) ,当且仅当 和b为常数;(2) ,对一切i,j;(3) ,对一切i,j。ixjxijc1ijc , (0)ijxaxb a1ijcijjicc最常用的相似系数有两种:1.夹角余弦夹角余弦 变量 与 的夹角余弦夹角余弦定义为它是 中
12、变量 的观测向量 与变量 的观测向量 之间的夹角 的余弦函数,即 。ixjx11 22211(1)nkikjkijnnkikjkkx xcxxnRix12,iinixxxjx12,jjnjxxxij(1)cosijijc2.相关系数相关系数 变量 与 的相关系数相关系数定义为样本相关系数我们曾用 来表示,这里表示为 是为了与其他相似系数符号一致。若变量与变量 是已标准化了的,则它们间的夹角 余弦就是相关系数。ixjx11 22211(2)nkiikjjkijnnkiikjjkkxxxxcxxxxixjxijr(2)ijc 变量之间常借助于相似系数来定义距离,如令 ,同样,样品之间的相似系数也由
13、类似的定义。 距离度量的是样品(或变量)间的差异程度,相似系数度量的是样品(或变量)间的相似程度。 221ijijdc 一般来说,同一批数据采用不同的相似性度量,会得到不同的分类结果。在进行聚类分析的过程中,应根据实际情况选取合适的相似性度量。如在经济变量分析中,常用相关系数来描述变量间的相似性程度。一般情况下,相关系数比其他的相似系数有更强的可变性,但分辨力要弱一点。系统聚类法 系统聚类法是聚类分析诸方法中用得最多的一种,其基本思想是:开始将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类于其他类的距离;重复进行两个最近类的合并,每次
14、减少一类,直至所有的样品和为一类。 常用的系统聚类法有八种,这些聚类方法的区别在于类与类之间距离的计算方法不同。 这里我们用 表示第i个样品与第j个样品的距离, 表示类 表示 与 的距离。所有的系统聚类法一开始每个样品自成一类,类与类之间的距离与样品之间的距离相同(除离差平方和法之外),即 ,所以起初的距离矩阵全部相同,记为 。 ijd12,G G KLDKGLGKLKLDd(0)ijDdv最短距离法 定义类与类之间的距离为两类最近样品间的距离,即称这种系统聚类法为最短距离法(最短距离法(single linkage method) ,minKLKLiji Gj GDd最短距离法聚类步骤:(1
15、)规定样品之间的距离,计算n个样品的距 离矩阵 ,它是一个对称矩阵;(2)选择 中的最小元素,设为 ,则将 和 合并成一个新类 ,即 0D 0DKLDKGLGMG,MKLGGG(3)计算新类 与任一类 之间的距离的递推公 式为在 中, 和 所在的行和列合并成一个新行新列,对应 ,该行列上的新距离值由上式计算,其余行列上的距离值不变,即得新的距离矩阵,记作 。(4)对 重复上述步骤得 ,如此下去直至所有元 素合并成一类为止。MGJG,minminmin, min min,MJkJLJMJijijiji Gj Gi Gj Gi Gj GKJLJDdddDD 0DKGLGMG 1D 1D 2D 如果
16、某一步的距离矩阵中最小的元素不止一个,则称此现象为结结,对应这些最小元素的类可以任选一堆合并或同时合并。最短距离法最容易产生结。v最长距离法 类与类之间的距离定义为两类最远样品间的距离,即称这种系统聚类法为最长距离法最长距离法(complete linkage method)。最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。设某步将类 和 合并成新类 ,则 与任一类 的距离为,maxKLKLiji Gj GDdKGLGMGMGJGmax,MJKJLJDDD 最长距离法容易被异常值严重地扭曲,这是值得我们在应用中注意的问题。一个有效的方法是删去这些异常值后再进行聚类。v
展开阅读全文