聚类分析层次聚类课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《聚类分析层次聚类课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 层次 课件
- 资源描述:
-
1、智能数据挖掘智能数据挖掘Topic3-聚类分析聚类分析层次聚类方法层次聚类方法(Hierarchical Methods)1/19/2023层次方法层次方法n层次的聚类方法将数据对象组成一棵聚类的树层次的聚类方法将数据对象组成一棵聚类的树n根据层次分解是自底向上根据层次分解是自底向上,还是自顶向下形成还是自顶向下形成,层次的聚类方层次的聚类方法可以进一步分为法可以进一步分为凝聚的凝聚的(agglomerative)和和分裂的分裂的(divisive)层次聚类层次聚类 n纯粹的层次聚类方法的聚类质量受限于如下特点:一旦一个纯粹的层次聚类方法的聚类质量受限于如下特点:一旦一个合并或分裂被执行,就不
2、能修正合并或分裂被执行,就不能修正 n最近的研究集中于凝聚层次聚类和迭代最近的研究集中于凝聚层次聚类和迭代重定位方法重定位方法的集成的集成 n使用使用距离矩阵距离矩阵作为聚类标准作为聚类标准.该方法不需要输入聚类数目该方法不需要输入聚类数目 k,但需要终止条件但需要终止条件1/19/2023层次方法层次方法(续续)n凝聚的凝聚的(agglomerative)和分裂的和分裂的(divisive)层次聚类图示层次聚类图示Step 0Step 1Step 2Step 3Step 4bdceaa bd ec d ea b c d eStep 4Step 3Step 2Step 1Step 0agglo
3、merative(AGNES)divisive(DIANA)1/19/2023AGNES(Agglomerative Nesting)n由由 Kaufmann和和Rousseeuw提出提出(1990)n已在一些统计分析软件包中实现已在一些统计分析软件包中实现.如如 Splusn使用单链接使用单链接(Single-Link)方法和相异度矩阵方法和相异度矩阵 n合并具有最小相异度的节点合并具有最小相异度的节点n以非递减的方式继续以非递减的方式继续n最终所有的节点属于同一个簇最终所有的节点属于同一个簇1/19/2023DIANA(Divisive Analysis)n由由 Kaufmann和和Rou
4、sseeuw提出提出(1990)n已在一些统计分析软件包中实现已在一些统计分析软件包中实现.如如 Splusn是是 AGNES的逆的逆n最终每个节点自己形成一个簇最终每个节点自己形成一个簇1/19/2023层次方法层次方法(续续)n四个广泛采用的簇间距离度量方法四个广泛采用的簇间距离度量方法 n最小距离:最小距离:dmin(Ci,Cj)=min pCi,pCj|p-p|n最大距离:最大距离:dmax(Ci,Cj)=max pCi,pCj|p-p|n平均值的距离:平均值的距离:dmean(Ci,Cj)=|mi-mj|n平均距离平均距离(簇的直径D):davg(Ci,Cj)=pCi pCj|p-p
5、|/n ni in nj其中其中,|p-p|是两个对象是两个对象p和和p之间的距离之间的距离mi是簇是簇Ci 的平均值,的平均值,ni是簇是簇Ci中对象的数目中对象的数目 1/19/2023层次方法层次方法(续续)n层次聚类的主要缺点层次聚类的主要缺点n不具有很好的可伸缩性不具有很好的可伸缩性:时间复杂性至少是时间复杂性至少是 O(n2),其中其中 n 对象总数对象总数n合并或分裂的决定需要检查和估算大量的对象或簇合并或分裂的决定需要检查和估算大量的对象或簇 n不能撤消已做的处理不能撤消已做的处理,聚类之间不能交换对象聚类之间不能交换对象.如果某一步没有很好地如果某一步没有很好地选择合并或分裂
6、的决定选择合并或分裂的决定,可能会导致低质量的聚类结果可能会导致低质量的聚类结果 1/19/2023层次方法层次方法(续续)n改进层次方法的聚类质量的方法改进层次方法的聚类质量的方法:将层次聚类和其他的聚类将层次聚类和其他的聚类技术进行集成技术进行集成,形成多阶段聚类形成多阶段聚类 nBIRCH(1996):使用使用 CF-tree对对象进行层次划分对对象进行层次划分,然后采用其他的聚然后采用其他的聚类算法对聚类结果进行求精类算法对聚类结果进行求精 nROCK1999:基于簇间的互联性进行合并:基于簇间的互联性进行合并nCHAMELEON(1999):使用动态模型进行层次聚类使用动态模型进行层
7、次聚类nCURE(1998):采用固定数目的代表对象来表示每个簇,然后依据一采用固定数目的代表对象来表示每个簇,然后依据一个指定的收缩因子向着聚类中心对它们进行收缩个指定的收缩因子向着聚类中心对它们进行收缩1/19/2023BIRCH(1996)nBirch(Balanced Iterative Reducing and Clustering using Hierarchies):利用层次方法的平衡迭代归约和聚类由利用层次方法的平衡迭代归约和聚类由Zhang,Ramakrishnan和和Livny 提出提出(SIGMOD96),该算法的特点是能利用有限的内存资源完成对大数该算法的特点是能利用有
8、限的内存资源完成对大数据集的高质量的聚类,同时通过单遍扫描数据集能最小化据集的高质量的聚类,同时通过单遍扫描数据集能最小化I/O代价。代价。n两个重要概念两个重要概念n聚类特征聚类特征(Clustering Feature,CF)n聚类特征树聚类特征树(Clustering Feature Tree,CF树树)n聚类特征聚类特征n聚类特征聚类特征(CF)是一个三元组,是一个三元组,给出给出对象子类的信息对象子类的信息的汇总的汇总描述描述 n设某个子类中有设某个子类中有N个个d维的点或对象维的点或对象oI,则该子类的则该子类的CF定义如下定义如下),(SSSLNCF1/19/2023聚类特征聚类
9、特征Clustering Feature:CF=(N,LS,SS)N:数据点数目数据点数目LS:Ni=1 XiSS:Ni=1Xi2CF=(5,(16,30),(54,190)(3,4)(2,6)(4,5)(4,7)(3,8)1/19/2023聚类特征聚类特征n假定簇C1中有两个点(1,2,3),(3,2,1),簇C2有三个点(1,1,2),(2,2,1),(2,1,2),簇3由C1和C2构成,则:nCF1=(2,(1+3,2+2,3+1),()=(2,(4,4,4),(10,8,10)nCF2=(3,(1+2+2,1+2+1,2+1+2),()=(3,(5,4,5),(9,6,9)n因此得到C
10、F3为:nCF3=(2+3,(4+5,4+4,4+5),(10+9,8+6,10+9)=(5,(9,8,9),(19,14,19)1/19/2023簇的质心和簇的半径。n假如一个簇中包含n个数据点:Xi,i=1,2,3.n.,则质心C和半径R计算公式如下:nC=(X1+X2+.+Xn)/n,(这里X1+X2+.+Xn是向量加)nR=(|X1-C|2+|X2-C|2+.+|Xn-C|2)/nn其中,簇半径表示簇中所有点到簇质心的平均距离。CF中存储的是簇中所有数据点的特性的统计和,所以当我们把一个数据点加入某个簇的时候,那么这个数据点的详细特征,例如属性值,就丢失了,由于这个特征,BIRCH聚类
11、可以在很大程度上对数据集进行压缩。1/19/2023n有意思的是簇中心、簇半径、簇直径以及两簇之间的距离D0到D3都可以由CF来计算,比如n簇直径 n簇间距离n这里的N,LS和SS是指两簇合并后大簇的N,LS和SS。所谓两簇合并只需要两个对应的CF相加那可1/19/2023BIRCH的的CF树树n聚类特征聚类特征 n从统计学的观点来看,聚类特征是对给定子类统计汇总从统计学的观点来看,聚类特征是对给定子类统计汇总:子聚类的子聚类的0阶阶,1阶和阶和 2阶矩阶矩(moments)n记录了计算聚类和有效利用存储的关键度量记录了计算聚类和有效利用存储的关键度量,并有效地利用了存储并有效地利用了存储,因
12、因为它汇总了关于子类的信息,而不是存储所有的对象为它汇总了关于子类的信息,而不是存储所有的对象 nCF 树是高度平衡的树,它存储了层次聚类的聚类特征树是高度平衡的树,它存储了层次聚类的聚类特征 n树中的非叶节点有后代或树中的非叶节点有后代或“孩子孩子”n非叶节点存储了其孩子的非叶节点存储了其孩子的CF的总和,即汇总了关于其孩子的聚类信的总和,即汇总了关于其孩子的聚类信息息 nCF树有两个参数树有两个参数-影响影响CF树的大小树的大小n分支因子分支因子B:定义非树叶节点的孩子的最大个数定义非树叶节点的孩子的最大个数阈值阈值T:给出了存储在树的叶子节点中的子类的最大直径给出了存储在树的叶子节点中的
13、子类的最大直径 1/19/2023nCF tree的结构类似于一棵B-树,它有3个参数:内部节点平衡因子B,叶节点平衡因子L,簇直径阈值T。树中每个Nlonleaf节点最多包含B个孩子节点,Leaf最多只能有L个MinCluster(初始划分子簇),而一个MinCluster的直径不能超过T。n例如,一棵高度为3,B为6,L为5的一棵CF树的例子如图所示:1/19/2023CF树的样子1/19/2023CF TreeCF1child1CF3child3CF2child2CF6child6CF1child1CF3child3CF2child2CF5child5CF1CF2CF6prevnextC
14、F1CF2CF4prevnextB=5L=6RootNon-leaf nodeLeaf nodeLeaf node1/19/2023CF树构造过程n(1)从根节点开始,自上而下选择最近的孩子节点n(2)到达叶子节点后,检查最近的元组CFi能否吸收此数据点n是,更新CF值n否,是否可以添加一个新的元组n是,添加一个新的元组n否则,分裂最远的一对元组,作为种子,按最近距离重新分配其它元组n(3)更新每个非叶节点的CF信息,如果分裂节点,在父节点中插入新的元组,检查分裂,直到root1/19/2023构造CF树n算法起初,我们扫描数据库,拿到第一个data point instance-(1,2,3
15、),我们创建一个空的Leaf和MinCluster,把点(1,2,3)的id值放入Mincluster,更新MinCluster的CF值为(1,(1,2,3),(1,4,9),把MinCluster作为Leaf的一个孩子,更新Leaf的CF值为(1,(1,2,3),(1,4,9)。实际上只要往树中放入一个CF(这里我们用CF作为Nonleaf、Leaf、MinCluster的统称),就要更新从Root到该叶子节点的路径上所有节点的CF值。1/19/2023插入一个节点n当又有一个数据点要插入树中时,把这个点封装为一个MinCluster(这样它就有了一个CF值),把新到的数据点记为CF_new
展开阅读全文