多元统计分析-第5章-聚类分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《多元统计分析-第5章-聚类分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 聚类分析 课件
- 资源描述:
-
1、第五章第五章 聚类分析聚类分析第一节第一节 引言引言 第二节第二节 相似性的量度相似性的量度 第三节第三节 系统聚类分析法系统聚类分析法 第四节第四节 K均值聚类分析均值聚类分析 第五节第五节 K中心点聚类中心点聚类第六节第六节 R codes第一节第一节 引言引言n“物以类聚,人以群分物以类聚,人以群分”n无监督分类无监督分类聚类分析聚类分析n分析如何对样品(或变量)进行量化分类的分析如何对样品(或变量)进行量化分类的问题问题Q型聚类型聚类对样品进行分类对样品进行分类R型聚类型聚类对变量进行分类对变量进行分类3相似性和相异性相似性和相异性nSimilarity数值测量两个数据对象类似程度数值
2、测量两个数据对象类似程度目标越相似时值越大目标越相似时值越大通常介于通常介于 0,1nDissimilarity(e.g.,距离距离distance)数值测量两个数据对象差异程度数值测量两个数据对象差异程度Lower when objects are more alikeMinimum dissimilarity is often 0Upper limit variesn邻近度邻近度Proximity refers to a similarity or dissimilarity4数据矩阵和相异度矩阵数据矩阵和相异度矩阵nData matrixn data points with p dime
3、nsionsnDissimilarity matrixn data points,but registers only the distance A triangular matrix npx.nfx.n1x.ipx.ifx.i1x.1px.1fx.11x 0.)2,()1,(:)2,3().ndnd0dd(3,10d(2,1)05例例:数据矩阵和相异度矩阵数据矩阵和相异度矩阵Dissimilarity Matrix(with Euclidean Distance)Data Matrix第二节第二节 相似性的量度相似性的量度 一一 样品相似性的度量样品相似性的度量 二二 变量相似性的度量变量相
4、似性的度量 含含名义名义变量变量样本相似性度量样本相似性度量n例例:学员资料学员资料包含包含六个六个属性属性:性别:性别(男男或或女女);外语语种;外语语种(英、日英、日或或俄俄);专业;专业(统计、会计统计、会计或或金融金融);职业;职业(教师教师或或非教师非教师);居住处;居住处(校内校内或或校外校外);学历;学历(本科本科或或本科以本科以下下)现有两名学员:现有两名学员:X1=(男,英,统计,非教师,校外,本科)(男,英,统计,非教师,校外,本科)X2=(女,英,金融,教师,校外,本科以下)(女,英,金融,教师,校外,本科以下)对应变量取值相同对应变量取值相同称为称为配合的配合的,否则否
5、则称为称为不配合的不配合的记配合的变量数为记配合的变量数为m1,不配合的变量数为,不配合的变量数为m2,则,则样本样本之间之间的距离可定义为的距离可定义为本例中本例中X1 与与X2 之间的距离为之间的距离为2/321212mdmm8二进制属性的邻近度量二进制属性的邻近度量n二进制数据的列联表二进制数据的列联表contingency table n对称二元变量的距离侧度对称二元变量的距离侧度:n不对称二元变量的距离侧度不对称二元变量的距离侧度:nJaccard系数系数(不对称二元变量不对称二元变量的相似性侧度的相似性侧度):nNote:Jaccard coefficient is the sam
6、e as“coherence”:Object iObject j9二进制属性的相异度量二进制属性的相异度量nExample性别是对称属性性别是对称属性The remaining attributes are asymmetric binary令令Y and P 值为值为1,且且N值为值为0Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4JackMYNPNNNMaryFYNPNPNJimMYPNNNN75.021121),(67.011111),(33.010210),(maryjimdjimjackdmaryjackd10有序变量有序变量O
7、rdinal Variablesn一个序变量可以离散的或连续的一个序变量可以离散的或连续的nOrder is important,e.g.,ranknCan be treated like interval-scaled 用他们的序代替用他们的序代替xif映射每一个变量的范围于映射每一个变量的范围于0,1,用如下值代替第,用如下值代替第f-th变量变量的的i-th对象对象11fififMrz,.,1fifMr11混合型属性混合型属性 nA database may contain all attribute typesNominal,symmetric binary,asymmetric bi
8、nary,numeric,ordinaln可以用加权法计算合并的影响可以用加权法计算合并的影响f is binary or nominal:dij(f)=0 if xif=xjf,or dij(f)=1 otherwisef is numeric:use the normalized distancef is ordinal Compute ranks rif and Treat zif as interval-scaled)(1)()(1),(fijpffijfijpfdjid11fifMrzif12规范数值数据规范数值数据nZ-score:X:需标准化的原始数值需标准化的原始数值,:总体均
9、值总体均值,:标准差标准差在标准偏差单位下,原始分数和总体均值之间的距离在标准偏差单位下,原始分数和总体均值之间的距离“-”,“+”n另一种方法另一种方法:Calculate the mean absolute deviation其中其中standardized measure(z-score):n使用平均绝对偏差比使用标准差更稳健使用平均绝对偏差比使用标准差更稳健.).211nffffxx(xn m|)|.|(|121fnffffffmxmxmxnsffififsmx zx z一、样品相似性的度量一、样品相似性的度量nQ型聚类分析,常用距离来测度样品之间的相似程型聚类分析,常用距离来测度样品
10、之间的相似程度度n每个样品有每个样品有p个指标(变量)从不同方面描述其性个指标(变量)从不同方面描述其性质,形成一个质,形成一个p维的向量。如果把维的向量。如果把n个样品看成个样品看成p维维空间中的空间中的n个点,则两个样品间相似程度就可用个点,则两个样品间相似程度就可用p维维空间中的两点距离公式来度量。空间中的两点距离公式来度量。n令令dij 表示样品表示样品Xi与与Xj的距离,一般应满足:的距离,一般应满足:(i)dij0,对一切,对一切i,j;(ii)dij=0,当且仅当第,当且仅当第i个样品与第个样品与第j个样品的各变量值相同;个样品的各变量值相同;(iii)dij=dji,对一切,对
11、一切i,j;(iv)dijdik+dkj,对一切,对一切i,j,k。1明考夫斯基距离明考夫斯基距离(明氏距离明氏距离)一、样品相似性的度量一、样品相似性的度量15Example:Minkowski DistanceDissimilarity MatricesManhattan(L1)Euclidean(L2)Supremum 2马氏距离马氏距离 设设Xi与与Xj是来自均值向量为是来自均值向量为 ,协方差为,协方差为(0)的总体的总体G中的中的p维样品,则两个样品间的马氏距离为维样品,则两个样品间的马氏距离为 n马氏距离又称为广义欧氏距离马氏距离又称为广义欧氏距离马氏距离考虑了观测变量之间的相关
12、性马氏距离考虑了观测变量之间的相关性若各变量之间相互独立,马氏距离退化加权欧氏距离若各变量之间相互独立,马氏距离退化加权欧氏距离马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响的影响一、样品相似性的度量一、样品相似性的度量3兰氏距离兰氏距离 它仅适用于一切它仅适用于一切Xij0的情况的情况可以克服各个指标之间量纲的影响;可以克服各个指标之间量纲的影响;对大的奇异值不敏感,特别适合于高度偏倚的数对大的奇异值不敏感,特别适合于高度偏倚的数据;据;但它没有考虑指标之间的相关性;但它没有考虑指标之间的相关性;一、样品相似性的度量一、样品
13、相似性的度量n不同的距离公式的侧重点和实际意义都有所不同不同的距离公式的侧重点和实际意义都有所不同n同一批数据采用不同的距离公式,可能会得到不同的分类结果同一批数据采用不同的距离公式,可能会得到不同的分类结果n距离公式选择基本原则:距离公式选择基本原则:要考虑所选择的距离公式在实际应用中有明确的意义要考虑所选择的距离公式在实际应用中有明确的意义欧氏距离就有非常明确的空间距离概念欧氏距离就有非常明确的空间距离概念马氏距离有消除量纲影响的作用马氏距离有消除量纲影响的作用要综合考虑对样本观测数据的预处理和将要采用的聚类分要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法析方法如在进行聚类分析之
14、前已经对变量作了标准化处理,则通常可采用欧氏距如在进行聚类分析之前已经对变量作了标准化处理,则通常可采用欧氏距离离要考虑研究对象的特点和计算量的大小要考虑研究对象的特点和计算量的大小n归根到底:归根到底:Application Driven:根据研究对象的特点不同做出根据研究对象的特点不同做出具体分折具体分折Try一、样品相似性的度量一、样品相似性的度量二、变量相似性的度量二、变量相似性的度量n相对于数据的大小,更多地对变量的变化趋势或方相对于数据的大小,更多地对变量的变化趋势或方向感兴趣向感兴趣n变量间的相似性变量间的相似性-方向趋同性或方向趋同性或“相关性相关性”“夹角余弦法夹角余弦法”“
15、相关系数相关系数”20余弦相似性余弦相似性 Cosine SimilaritynA document can be represented by thousands of attributes,each recording the frequency of a particular word(such as keywords)or phrase in the document.nOther vector objects:gene features in micro-arrays,nApplications:information retrieval,biologic taxonomy,gene
16、 feature mapping,.nCosine measure:If d1 and d2 are two vectors(e.g.,term-frequency vectors),then cos(d1,d2)=(d1 d2)/|d1|d2|,where indicates vector dot product,|d|:the length of vector dpiipiipiiiyxyxyx12121),cos(21 Example:Cosine Similarityncos(d1,d2)=(d1 d2)/|d1|d2|,where indicates vector dot produ
17、ct,|d|:the length of vector dnEx:Find the similarity between documents 1 and 2.d1=(5,0,3,0,2,0,0,2,0,0)d2=(3,0,2,0,1,1,0,1,0,1)d1 d2=5*3+0*0+3*2+0*0+2*1+0*1+0*1+2*1+0*0+0*1=25|d1|=(5*5+0*0+3*3+0*0+2*2+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5 =6.481|d2|=(3*3+0*0+2*2+0*0+1*1+1*1+0*0+1*1+0*0+1*1)0.5=(17)0.5 =4.
18、12cos(d1,d2)=0.942相关系数相关系数变量变量Xi与与Xj的相关系数定义为的相关系数定义为 显然有,显然有,rij 1。二、变量相似性的度量二、变量相似性的度量n它们的绝对值都小于它们的绝对值都小于1,统记为,统记为cij当当 cij =1时,说明变量时,说明变量Xi与与Xj完全相似;完全相似;当当 cij 近似于近似于1时,说明变量时,说明变量Xi与与Xj非常密切;非常密切;当当 cij =0时,说明变量时,说明变量Xi与与Xj完全不一样;完全不一样;当当 cij 近似于近似于0时,说明变量时,说明变量Xi与与Xj差别很大。差别很大。n变换为距离度量:变换为距离度量:dij=1
19、 cij 或或 dij2=1 cij2 二、变量相似性的度量二、变量相似性的度量距离度量与相似性度量距离度量与相似性度量n由距离来构造相似系数总是可能的:由距离来构造相似系数总是可能的:n由相似系数构造距离并不总是可行的由相似系数构造距离并不总是可行的nGower证明,当相似系数矩阵证明,当相似系数矩阵(cij)为非负定时:为非负定时:则则dij满足距离定义的四个条件满足距离定义的四个条件11ijijcd2 1ijijdc第三节第三节 系统聚类分析法系统聚类分析法 一一 系统聚类的基本思想系统聚类的基本思想 二二 类间距离与系统聚类法类间距离与系统聚类法 三三 类间距离的统一性类间距离的统一性
20、 一、系统聚类的基本思想一、系统聚类的基本思想n距离相近的样品(或变量)先聚成类,距离相远的距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中总能聚到合适的类中n系统聚类过程:(假设总共有系统聚类过程:(假设总共有n个样品(或变量)个样品(或变量)1.将每个样品(或变量)独自聚成一类,共有将每个样品(或变量)独自聚成一类,共有n类;类;2.根据所确定的样品(或变量)的根据所确定的样品(或变量)的“距离距离”公式,把距公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品离较近的两个样品(
21、或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成(或变量)仍各自聚为一类,共聚成n 1类;类;3.将将“距离距离”最近的两个类进一步聚成一类,共聚成最近的两个类进一步聚成一类,共聚成n 2类;类;4.循环之循环之5.将所有的样品(或变量)全聚成一类将所有的样品(或变量)全聚成一类n谱系图谱系图描绘聚类过程描绘聚类过程二、类间距离与系统聚类法二、类间距离与系统聚类法n类间距离类间距离-类与类之间的距离类与类之间的距离n定义不同,方法不同,结果不同定义不同,方法不同,结果不同最短距离法最短距离法(Single linkage)最长距离法最长距离法(Complete method)中间
22、距离法中间距离法(Median method)重心法重心法(Centriod method)类平均法类平均法(Avarage linkage)可变类平均法可变类平均法(Flexible-beta method)可变法可变法(McQuitty,MCQ)离差平方和法离差平方和法(Ward)ndij表示样品表示样品Xi与与Xj之间距离,用之间距离,用Dij表示类表示类Gi与与Gj之间的距离。之间的距离。1.最短距离法最短距离法定义类间距离为两类最近样品的距离,即为定义类间距离为两类最近样品的距离,即为 合并成一个新类后,则任一类与之的距离为合并成一个新类后,则任一类与之的距离为 二、类间距离与系统聚
23、类法二、类间距离与系统聚类法n最短距离法步骤如下:最短距离法步骤如下:(1)根据选用的距离计算样品的两两距离,得一距离阵)根据选用的距离计算样品的两两距离,得一距离阵记为记为D(0),开始每个样品自成一类,显然这时,开始每个样品自成一类,显然这时Dij=dij(2)找出距离最小元素,设为)找出距离最小元素,设为Dpq,则将,则将Gp和和Gq合并成一合并成一个新类,记为个新类,记为Gr,即,即Gr=Gp,Gq(3)计算新类与其它类的距离)计算新类与其它类的距离 (4)重复()重复(2)、()、(3)两步,直到所有元素。并成一类)两步,直到所有元素。并成一类为止为止如果某一步距离最小的元素不止一个
24、,则对应这些最小元如果某一步距离最小的元素不止一个,则对应这些最小元素的类可以同时合并素的类可以同时合并二、类间距离与系统聚类法二、类间距离与系统聚类法n例:设有六个样品,每个只测量一个指标,分别是例:设有六个样品,每个只测量一个指标,分别是1,2,5,7,9,10,试用最短距离法将它们分类。,试用最短距离法将它们分类。(1)样品采用绝对值距离,计算样品间的距离阵)样品采用绝对值距离,计算样品间的距离阵D(0)二、类间距离与系统聚类法二、类间距离与系统聚类法(2)D(0)中最小的元素是中最小的元素是D12D561,于是将,于是将G1和和G2合合并成并成G7,G5和和G6合并成合并成G8,计算新
25、类与其它类的距离,计算新类与其它类的距离D(1)二、类间距离与系统聚类法二、类间距离与系统聚类法(3)在)在D(1)中最小值是中最小值是D34D482,由于,由于G4与与G3合并,合并,又与又与G8合并,因此合并,因此G3、G4、G8合并成一个新类合并成一个新类G9,其与其,其与其它类的距离它类的距离D(2)二、类间距离与系统聚类法二、类间距离与系统聚类法(4)最后将)最后将G7和和G9合并成合并成G10,这时所有的六个样品聚为一,这时所有的六个样品聚为一类,其过程终止。类,其过程终止。n谱系图表示谱系图表示横坐标的刻度表示并类的距离横坐标的刻度表示并类的距离二、类间距离与系统聚类法二、类间距
展开阅读全文