聚类分析及MATLAB实现课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《聚类分析及MATLAB实现课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 MATLAB 实现 课件
- 资源描述:
-
1、4.1 样品(变量)相近性度量样品(变量)相近性度量4.2 谱系聚类法及谱系聚类法及MATLAB实现实现4.3 快速聚类法快速聚类法统计方法(聚类分析):聚类分析所研究的样本或者变量之间存在程度不同的相似性,要求设法找出一些能够度量它们之间相似程度的统计量作为分类的依据,再利用这些量将样本或者变量进行分类系统聚类分析将n个样本或者n个指标看成n类,一类包括一个样本或者指标,然后将性质最接近的两类合并成为一个新类,依此类推。最终可以按照需要来决定分多少类,每类有多少样本(指标)统计方法(系统聚类分析步骤):系统聚类方法步骤:1. 计算n个样本两两之间的距离2. 构成n个类,每类只包含一个样品3.
2、 合并距离最近的两类为一个新类4. 计算新类与当前各类的距离(新类与当前类的距离等于当前类与组合类中包含的类的距离最小值),若类的个数等于1,转5,否则转35. 画聚类图6. 决定类的个数和类。系统聚类分析:主要介绍系统聚类分析方法。系统聚类法是聚类分析中应用最为广泛的一种方法,它的基本原理是:首先将一定数量的样品或指标各自看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度最高的两类进行合并。然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直至将所有的样品(或指标)合并为一类。 系统聚类分析用到的函数:函 数功 能pdist计算观测量两两之间的距离 squareform
3、 将距离矩阵从上三角形式转换为方形形式,或从方形形式转换为上三角形式 linkage 创建系统聚类树 dendrogram 输出冰柱图 cophenet 计算Cophenetic相关系数 cluster 根据linkage函数的输出创建分类 clusterdata 根据数据创建分类 inconsistent 计算聚类树的不连续系数 聚类分析 研究对研究对样品或指标样品或指标进行分类的一种多元统计方法进行分类的一种多元统计方法,是依据研究对象的个体的特征进行分类的方法。是依据研究对象的个体的特征进行分类的方法。 聚类分析把分类对象按一定规则分成若干类,这聚类分析把分类对象按一定规则分成若干类,这
4、些类些类非事先给定非事先给定的,而是根据数据特征确定的。的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中趋向于不相似。似,而在不同类中趋向于不相似。 职能是建立一种能按照样品或变量的相似程度进职能是建立一种能按照样品或变量的相似程度进行分类的方法。行分类的方法。 聚类分析有两种聚类分析有两种:一种是对样品的分类,称为:一种是对样品的分类,称为Q型,另一种是对变量(指标)的分类,称为型,另一种是对变量(指标)的分类,称为R型。型。R型聚类分析的主要作用:型聚类分析的主要作用: 不但可以了解个别变量之间的亲疏程度,而且
5、可以了解不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。各个变量组合之间的亲疏程度。 根据变量的分类结果以及它们之间的关系,可以选择主根据变量的分类结果以及它们之间的关系,可以选择主要变量进行要变量进行Q型聚类分析或回归分析。(型聚类分析或回归分析。(R2为选择标准)为选择标准)Q型聚类分析的主要作用:型聚类分析的主要作用: 可以综合利用多个变量的信息对样本进行分析。可以综合利用多个变量的信息对样本进行分析。 分类结果直观,聚类谱系图清楚地表现数值分类结果。分类结果直观,聚类谱系图清楚地表现数值分类结果。 聚类分析所得到的结果比传统分类方法更细致、全面、聚类分析所得
6、到的结果比传统分类方法更细致、全面、合理。合理。在课堂上主要讨论在课堂上主要讨论Q型聚类分析型聚类分析, Q型聚类常用的统计量是距型聚类常用的统计量是距离离.4.1 样品(变量)间相近性度量样品(变量)间相近性度量4.1.1 聚类分析的基本思想聚类分析的基本思想在生产实际中经常遇到给产品等级进行分类的问题,在生产实际中经常遇到给产品等级进行分类的问题,如一等品、二等品等,在生物学中,要根据生物的如一等品、二等品等,在生物学中,要根据生物的特征进行分类;在考古时要对古生物化石进行科学特征进行分类;在考古时要对古生物化石进行科学分类;在球类比赛中经常要对各球队进行分组如何分类;在球类比赛中经常要对
7、各球队进行分组如何确定种子队,这些问题就是聚类分析问题。随着科确定种子队,这些问题就是聚类分析问题。随着科学技术的发展,我们利用已知数据首先提取数据特学技术的发展,我们利用已知数据首先提取数据特征,然后借助计算机依据这些特征进行分类,聚类征,然后借助计算机依据这些特征进行分类,聚类的依据在于各类别之间的接近程度如何计量,通常的依据在于各类别之间的接近程度如何计量,通常采取距离与相似系数进行衡量。采取距离与相似系数进行衡量。设有设有n个样品的个样品的p元观测数据组成一个数据矩阵元观测数据组成一个数据矩阵npn2n12p22211p1211xxxxxxxxxX其中每一行表示一个样品,每一列表示一个
8、指标,其中每一行表示一个样品,每一列表示一个指标,xij表示第表示第i个样品关于第个样品关于第j项指标的观测值,聚类分析的项指标的观测值,聚类分析的基本思想就是在样品之间定义距离,在指标之间定义基本思想就是在样品之间定义距离,在指标之间定义相似系数,样品之间距离表明样品之间的相似度,指相似系数,样品之间距离表明样品之间的相似度,指标之间的相似系数刻画指标之间的相似度。将样品标之间的相似系数刻画指标之间的相似度。将样品(或变量)按相似度的大小逐一归类,关系密切的聚(或变量)按相似度的大小逐一归类,关系密切的聚集到较小的一类,关系疏远的聚集到较大的一类,聚集到较小的一类,关系疏远的聚集到较大的一类
9、,聚类分析通常有:类分析通常有:谱系聚类、快速聚类,我们主要介绍谱系聚类、快速聚类,我们主要介绍谱系聚类的方法与谱系聚类的方法与MATLAB实现实现4.1.2 样品间的相似度量样品间的相似度量距离距离一一.常用距离的定义常用距离的定义设有设有n个样品的个样品的p元观测数据:元观测数据: n21ixxxxTipi2i1i,),(这时,每个样品可看成这时,每个样品可看成p p元空间的一个点,每两个点之元空间的一个点,每两个点之间的距离记为间的距离记为 满足条件:满足条件:),(jixxdjijijixx0 xxd0 xxd当且仅当且),(,),(),(),(ijjixxdxxd),(),(),(j
10、kkijixxdxxdxxd1.欧氏距离欧氏距离21p1k2jkikjixxxxd/)(),( pdist(x) 2.绝对距离绝对距离p1kjkikjixxxxd|),(pdist(x,cityblock)3.明氏距离明氏距离m1p1kmjkikjixxxxd/|),( pdist(x,minkowski,r)4.切氏距离切氏距离|),(jkikpk1jixxmaxxxdmax(abs(xi-xj)5.方差加权距离方差加权距离21p1k2k2jkikjisxxxxd/)(),(将原数据标准化以后的欧氏距离将原数据标准化以后的欧氏距离6.马氏距离马氏距离T1ijijijd(x ,x )(xx )
11、(xx )pdist(x,mahal)7.兰氏距离兰氏距离p1kjkikjkikjixxxxp1xxd|),(8.杰氏距离(杰氏距离(Jffreys & Matusita)21p1k2jkikjixxxxd/)(),(例例1.为了研究辽宁、浙江、河南、甘肃、青海为了研究辽宁、浙江、河南、甘肃、青海5省省1991年城镇居民生活消费规律,需要利用调查资料对年城镇居民生活消费规律,需要利用调查资料对五个省进行分类,指标变量共五个省进行分类,指标变量共8个,意义如下:个,意义如下:x1:人人均粮食支出,均粮食支出,x2:人均副食支出人均副食支出;x3:人均烟酒茶支出,人均烟酒茶支出,x4:人均其他副食
12、支出人均其他副食支出,x5:人均衣着商品支出人均衣着商品支出,x6:人均人均日用品支出,日用品支出,x7:人均燃料支出,人均燃料支出,x8人均非商品支出人均非商品支出X X1 1X X2 2X X3 3X X4 4X X5 5X X6 6X X7 7X X8 8辽宁辽宁7.97.939.7739.778.498.4912.9412.9419.2719.2711.0511.052.042.0413.2913.29浙江浙江7.687.6850.3750.3711.3511.3513.313.319.2519.2514.5914.592.752.7514.8714.87河南河南9.429.4227.
13、9327.938.28.28.148.1416.1716.179.429.421.551.559.769.76甘肃甘肃9.169.1627.9827.989.019.019.329.3215.9915.999.19.11.821.8211.3511.35青海青海10.0610.0628.6428.6410.5210.5210.0510.0516.1816.188.398.391.961.9610.8110.81表表1 1991年五省城镇居民生活月均消费(元年五省城镇居民生活月均消费(元/人)人)计算各省之间的欧氏、绝对、明氏距离计算各省之间的欧氏、绝对、明氏距离解:解:a=7.939.778.
14、4912.9419.2711.052.0413.297.6850.3711.3513.319.2514.592.7514.879.4227.938.28.1416.179.421.559.769.1627.989.019.3215.999.11.8211.3510.0628.6410.5210.0516.188.391.9610.81;d1=pdist(a);% 此时计算出各行之间的欧氏距离,此时计算出各行之间的欧氏距离, 为了得到书中的距离矩阵,我们键入命令:为了得到书中的距离矩阵,我们键入命令:D= squareform(d1), % 注意此时注意此时d1必须是一个行向量,必须是一个行向量
15、,结果是实对称矩阵结果是实对称矩阵若想得到书中的三角阵,则有命令:若想得到书中的三角阵,则有命令:S = tril(squareform(d1)S = 0 0 0 0 0 11.6726 0 0 0 0 13.8054 24.6353 0 0 0 13.1278 24.0591 2.2033 0 0 12.7983 23.5389 3.5037 2.2159 0d2=pdist(a,cityblock); S2 = tril(squareform(d2)S2 = 0 0 0 0 0 19.89 0 0 0 0 27.2 47.05 0 0 0 24.58 43.39 4.66 0 0 26.5
16、2 42.31 8.08 5.38 0d3=pdist(a,minkowski,3); S3 = tril(squareform(d3)序号序号国家国家1990199520001澳大利亚澳大利亚1249.391273.611282.682巴西巴西821.6859.85919.733加拿大加拿大1641.011591.541608.324中国中国1330.451382.681462.085法国法国1546.551501.771525.956德国德国1656.521630.521570.697印度印度861.30862.51945.118意大利意大利1321.771232.31243.519日本日
17、本1873.681949.891851.2010俄罗斯俄罗斯1475.161315.87129711南非南非794.25787.48782.3812英国英国1486.751441.711465.1213美国美国2824.292659.642740.12例例2. 13个国家个国家1990,1995,2000可持续发展可持续发展能力如下:分成能力如下:分成4类类采用不同的距离,得到结果如下采用不同的距离,得到结果如下类别类别欧氏距离(最短距离)欧氏距离(最短距离)1日本日本2澳大利亚、加拿大、英、德、意、中、俄、法澳大利亚、加拿大、英、德、意、中、俄、法3巴西、印度、南非巴西、印度、南非4美国美国
18、类别类别欧氏距离(欧氏距离(ward距离)距离)1澳大利亚、中、意、俄澳大利亚、中、意、俄2加拿大、英、德、法、日本加拿大、英、德、法、日本3巴西、印度、南非巴西、印度、南非4美国美国类别类别马氏距离(马氏距离(ward距离)距离)1日本日本2澳大利亚、加拿大、英、德、意、南非、俄、法澳大利亚、加拿大、英、德、意、南非、俄、法3巴西、印度、中巴西、印度、中4美国美国4.1.3 变量间的相似度量变量间的相似度量相似系数相似系数 当对当对p个指标变量进行聚类时,用相似系数来个指标变量进行聚类时,用相似系数来衡量变量之间的相似程度(关联度),若用衡量变量之间的相似程度(关联度),若用 表表示变量之间
19、的相似系数,则应满足:示变量之间的相似系数,则应满足:,C 1C1C 且,|0kk1C, 当且仅当 CC相似系数中最常用的是相似系数中最常用的是相关系数与夹角余弦相关系数与夹角余弦。 夹角余弦夹角余弦 两变量的夹角余弦定义为:两变量的夹角余弦定义为: 相关系数相关系数 两变量的相关系数定义为:两变量的相关系数定义为: 例例3.计算例计算例1中各指标之间的相关系数与夹角余弦中各指标之间的相关系数与夹角余弦解:解:a=7.939.77 8.4912.94 19.27 11.052.04 13.297.6850.37 11.3513.319.25 14.59 2.75 14.879.4227.93
20、8.28.1416.17 9.421.55 9.769.1627.98 9.019.3215.99 9.11.82 11.3510.06 28.64 10.52 10.05 16.18 8.391.96 10.81;R=corrcoef(a);% 指标之间的相关系数指标之间的相关系数a1=normc(a); % 将将a的各列化为单位向量的各列化为单位向量J=a1*a1 % 计算计算a中各列之间的夹角余弦中各列之间的夹角余弦J = 1.0000 0.9410 0.9847 0.9613 0.9824 0.9546 0.9620 0.9695 0.9410 1.0000 0.9782 0.9939
21、 0.9853 0.9977 0.9947 0.9935 0.9847 0.9782 1.0000 0.9859 0.9911 0.9840 0.9931 0.9909 0.9613 0.9939 0.9859 1.0000 0.9944 0.9919 0.9947 0.9981 0.9824 0.9853 0.9911 0.9944 1.0000 0.9901 0.9901 0.9968 0.9546 0.9977 0.9840 0.9919 0.9901 1.0000 0.9952 0.9953 0.9620 0.9947 0.9931 0.9947 0.9901 0.9952 1.000
22、0 0.9968 0.9695 0.9935 0.9909 0.9981 0.9968 0.9953 0.9968 1.00004.2 谱系聚类法谱系聚类法 谱系聚类法是目前应用较为广泛的一种聚类法。谱谱系聚类法是目前应用较为广泛的一种聚类法。谱系聚类是根据生物分类学的思想对研究对象进行分类的系聚类是根据生物分类学的思想对研究对象进行分类的方法。在生物分类学中,分类的单位是:门、纲、目、方法。在生物分类学中,分类的单位是:门、纲、目、科、属、种。其中种是分类的基本单位,分类单位越小,科、属、种。其中种是分类的基本单位,分类单位越小,它所包含的生物就越少,生物之间的共同特征就越多。它所包含的生物
23、就越少,生物之间的共同特征就越多。利用这种思想,谱系聚类首先将各样品自成一类,然后利用这种思想,谱系聚类首先将各样品自成一类,然后把最相似(距离最近或相似系数最大)的样品聚为小类,把最相似(距离最近或相似系数最大)的样品聚为小类,再将已聚合的小类按各类之间的相似性(用类间距离度再将已聚合的小类按各类之间的相似性(用类间距离度量)进行再聚合,随着相似性的减弱,最后将一切子类量)进行再聚合,随着相似性的减弱,最后将一切子类都聚为一大类,从而得到一个按相似性大小聚结起来的都聚为一大类,从而得到一个按相似性大小聚结起来的一个谱系图。一个谱系图。 聚类分析的聚类分析的基本思想基本思想是认为我们所研究的样
24、是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本(或指标)都聚合大的分类
25、单位,直到把所有样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后把整个分类系统画成一张谱到大的分类系统。最后把整个分类系统画成一张谱系图,用它把所有样本(或指标)间的亲疏关系表系图,用它把所有样本(或指标)间的亲疏关系表示出来。这种方法是最常用的、最基本的一种,称示出来。这种方法是最常用的、最基本的一种,称为为系统聚类分析系统聚类分析。4.2.1 类间距离类间距离前面,我们介绍了两个向量之间的距离,下面我们前面,我们介绍了两个向量之间的距离,下面我们介绍两个类别之间的距离:介绍两个类别之间的距离:设设dij表示两个
展开阅读全文