聚类分析PPT课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《聚类分析PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 PPT 课件
- 资源描述:
-
1、.13.1聚类思想聚类思想3.2相关度分析3.3聚类分析常用方法聚类分析常用方法 3.4聚类分析的步骤聚类分析的步骤.2聚类分析是应用多元统计分析原理研究分类问聚类分析是应用多元统计分析原理研究分类问题的一种统计方法,尽管它理论上还不是很完题的一种统计方法,尽管它理论上还不是很完善,但发展很快,已广泛运用到作物品种分类,善,但发展很快,已广泛运用到作物品种分类,土壤分类,经济分析,地质勘测,天气预报等土壤分类,经济分析,地质勘测,天气预报等各个领域。各个领域。一、定义一、定义聚类分析定义:又称群分析,是研究分类问题聚类分析定义:又称群分析,是研究分类问题的一种方法。类指的是相似元素的集合。的一
2、种方法。类指的是相似元素的集合。 .32.起源起源起源于分类学,考古分类学中,人们主起源于分类学,考古分类学中,人们主要依靠专业知识和经验来实现分类,但随要依靠专业知识和经验来实现分类,但随着科学的发展,分工的细化,人类认识的着科学的发展,分工的细化,人类认识的不断加深,就需要定性和定量分析结合,不断加深,就需要定性和定量分析结合,于是数学工具逐渐被引进到分类学当中,于是数学工具逐渐被引进到分类学当中,形成了数值分类学。再后来随着多元分析形成了数值分类学。再后来随着多元分析析的引进,聚类分析又逐渐从数值分析中析的引进,聚类分析又逐渐从数值分析中分离出来从而形成一个相对独立的分支。分离出来从而形
3、成一个相对独立的分支。 .4l如:对我国如:对我国30个省市自治区独立核算工业企个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自业经济效益进行分析,一般不是逐个省市自治区分析,而是选取能反映企业经济效益的治区分析,而是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税,资代表性指标,如百元固定资产实现利税,资金利税率,产值利税率,百元销售收入实现金利税率,产值利税率,百元销售收入实现利润,全员劳动生产率等等,根据这些指标利润,全员劳动生产率等等,根据这些指标对对30个省市自治区技能型分类,然后根据分个省市自治区技能型分类,然后根据分类结果对企业经济效益进行综合评价就易于
4、类结果对企业经济效益进行综合评价就易于得出科学的分析。诸如此类的例子很多,需得出科学的分析。诸如此类的例子很多,需要分类的问题很多,因此聚类分析这个有用要分类的问题很多,因此聚类分析这个有用的数学工具越来越多的受到重视,在许多领的数学工具越来越多的受到重视,在许多领域都得到了广泛的应用。域都得到了广泛的应用。.53.聚类分析的基本程序聚类分析的基本程序l1.根据样本的多个观测指标,具体找出一些能够根据样本的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量度量样品或指标之间相似程度的统计量l2.利用统计量将样品或指标进行分类。利用统计量将样品或指标进行分类。l根据分类对象不同可分
5、为样品聚类和变量聚类。根据分类对象不同可分为样品聚类和变量聚类。l样品聚类在统计学中又称为样品聚类在统计学中又称为Q型聚类,用型聚类,用SPSS的术语来说就是对事件或案例(的术语来说就是对事件或案例(CASE)进行聚)进行聚类。是根据被观测的对象各种特征,即反映被类。是根据被观测的对象各种特征,即反映被观测对象特征的各变量值进行分类。观测对象特征的各变量值进行分类。l变量聚类在统计学中又称为变量聚类在统计学中又称为R型聚类。反映事物型聚类。反映事物特征的变量有很多,我们往往根据所研究的问特征的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究题选择部分变量对事物的某一方面
6、进行研究 .64.聚类分析内容:聚类分析内容: 系统聚类法,系统聚类法, 序样品聚类法,序样品聚类法, 动态聚类法,动态聚类法, 模糊聚类法,模糊聚类法, 凸轮聚类法,凸轮聚类法, 聚类预报法等。聚类预报法等。本章主要介绍常用的系统聚类法本章主要介绍常用的系统聚类法 .7l一组复杂数据产生一个相当简单的类结构,必一组复杂数据产生一个相当简单的类结构,必然要求进行然要求进行“相关性相关性”或或“相似性相似性”度量。度量。l目前研究样品之间这种关系的用得最多的方法目前研究样品之间这种关系的用得最多的方法主要有两种:主要有两种:l一种方法是定义空间距离。一种方法是定义空间距离。l一种方法是用相似系数
7、一种方法是用相似系数;.8l每个样本有p个指标,因此每个样本可以看成p维空间中的一个点,n个样本就组成p维空间中的n个点,这时很自然想到用距离来度量n个样本间的接近程度。l用 表示第i个样本与第j个样本之间的距离。一切距离应满足以下条件:kjidddjiddjidjidkjikijjiijijij,对于一切,,对于一切的指标相同与样本等价于样本,0,对于一切,0ijd.9lblock distance 绝对值距离绝对值距离:leuclidean distance 欧式距离欧式距离lsquared euclidean distance 平方欧式距离平方欧式距离lchebychev distanc
8、e 切比雪夫距离切比雪夫距离lminkowski distance 明考斯基距离明考斯基距离 (明氏距离)(明氏距离)当当q=1,2时,为绝对值、欧式距离;时,为绝对值、欧式距离;若趋近无穷时,则为切比雪夫距离若趋近无穷时,则为切比雪夫距离xxMaxjtittdptxxdjtit1ptjtitxxd1221ptjtitxxdptqjtitxxdq11.10lLanberra 兰氏距离lMahalanobis 马氏距离l以上都是样本间距离的定义。ptjtitjtitijxxxxpLd1)(|1)()()()()()(1)()(jijiijXXSXXMd.11l通常所说的相关系数是指变量之通常所说
9、的相关系数是指变量之间的相关系数,用来说明任意两间的相关系数,用来说明任意两样品之间由各个变量表现出的相样品之间由各个变量表现出的相似关系,其计算方法可参照统计似关系,其计算方法可参照统计学中的相关系数给出学中的相关系数给出 。l其值介于其值介于-1与与+1之间之间.12lQ Q型聚类型聚类lR R型聚类型聚类12211()()()()pijijppiijjxxxxrxxxx12211()()()()niijjijnniijjxxxxrxxxx.13 3.3聚类分析常用方法聚类分析常用方法 1 1、 最短距离法最短距离法 设抽取五个样品,每个样品只有一个变量,它们是1,2,3.5,7,9。用最
10、短距离法对5个样品进行分类。首先采用绝对距离计算距离矩阵:)0(D1G2G3G4G5G1G2G3G4G5G0102.51.50653.50875.520.14 然后 和 被聚为新类 ,得 : 1G2G6G) 1 (D6G3G5G3G4G01.5053.5075.5206G4G5G.15qpijpqGGdMinDjixx,:定义距离:qplDDMinDqlplrl,递推公式:.16qpijpqGGdMinDjixx,:定义距离:qplDDMinDqlplrl,递推公式: 假设第p类和第q类合并成第类,第r类与其它各旧类的距离按最短距离法为:rlijrlDMin dGGijxx:,ijpqlMin
11、 dGGGijxx:,ijpqlMin dGGGijxx:,,qlplMin DD.1703.505.5207G4G5G7G4G5G.1803.508G7G8G7G.19各步聚类的结果:(1,2) (3) (4) (5)(1,2,3) (4) (5)(1,2,3) (4,5)(1,2,3,4,5).20 2 2、最长距离法、最长距离法 用最长距离法对5个样品进行分类。首先采用绝对距离计算距离矩阵:1G2G3G4G5G1G2G3G4G5G0102.51.50653.50875.520.21 然后和被聚为新类,得:02.5063.5085.5203G5G6G4G5G6G3G4G.22pqijpqD
12、Max dGGijxx定义距离:,rlplqlDMax DDlpq递推公式:, 假设第p类和第q类合并成第类,第r类与其它各旧类的距离按最长距离法为:rlijrlDMax dGGijxx:,ijpqlMax dGGGijxx:,ijpqlMax dGGGijxx:,,qlplMax DD.23PGqGLGrG最长距离最长距离最短距离最短距离中间距离.242G3G4G0106.252.250362512.250644930.2540 用中间距离法对5个样品进行分类。首先采用绝对距离计算距离平方矩阵:)0(D1G2G3G5G1G4G5G .2512231363412DDDD4141225. 225
13、. 663D2222111224lrlplqpqDDDD递推公式:04121212222,递推公式:pqkqkpkrDDDD中间距离法的递推公式中间距离法的递推公式.266G3G4G5G3G4G0 04 40 030.2530.2512.2512.250 056.2556.2530.2530.254 40 05G6G.27 类平均法定义类间的距离是两类间样品的距类平均法定义类间的距离是两类间样品的距离的平均数。对应我们前面讨论的组间离的平均数。对应我们前面讨论的组间2G3G4G0106.252.250362512.250644930.25401G2G3G5G1G4G5G 4、类平均法、类平均法
14、.28 然后和被聚为新类,得 :6G) 1 (D3G4G5G3G4G04.25030.2512.25056.2530.25406G5GqpkqqkpprknnDnDnD222递推公式:.29piqjGxGxijqppqdnnD221 假设第p类和第q类合并成第类,第r类与其它各旧类的距离按最短距离法为:221jlipqrlijxGxGGpqlDdnnn221ipjliqjlijijxG xGxG xGpqlddnnn .30221ipjliqjlplqlijijxGxGxG xGplqlpqln nn nddn nn nnnn 1plplqllqpqln n Dn n Dnnnpplqlqpq
展开阅读全文