聚类分析大数据课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《聚类分析大数据课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 数据 课件
- 资源描述:
-
1、2022年8月6日星期六Data Mining:Concepts and Techniques1数据挖掘数据挖掘:概念与技术概念与技术 第七章第七章 2022年8月6日星期六Data Mining:Concepts and Techniques2第七章第七章 聚类分析聚类分析 什么是聚类分析什么是聚类分析?数据类型及其相似性与非相似性计算数据类型及其相似性与非相似性计算 算法复杂性及近似算法概念算法复杂性及近似算法概念 划分方法划分方法 k-center、k-cluster、k-means、谱聚类NCut 层次方法层次方法 单链接与全链接什么是聚类分析什么是聚类分析?“物以类聚,人以群分。”战
2、国策齐策三周易系辞上 聚类聚类:一个数据对象的集合一个数据对象的集合 同一个聚类中的对象之间具有高度的相似性。不同聚类中的对象之间具有低的相似性。聚类分析聚类分析 把一组数据划分成聚类。聚类是聚类是无监督分类无监督分类:没有预先定义的类。没有预先定义的类。2022年8月6日星期六Data Mining:Concepts and Techniques4应用领域应用领域 图像分割 文档分类;消费市场分析;DNA与生物信息学;离群点(孤立点)分析;2022年8月6日星期六Data Mining:Concepts and Techniques5怎样度量聚类方法怎样度量聚类方法?一个一个 好的聚类方法好
3、的聚类方法 将会产生高质量的聚将会产生高质量的聚类类:优化目标?优化目标?高的聚类内相似性 低的聚类间相似性 聚类方法的质量依赖于它所使用的相似聚类方法的质量依赖于它所使用的相似性的具体定义及具体实施性的具体定义及具体实施.2022年8月6日星期六Data Mining:Concepts and Techniques6对数据挖掘中的聚类方法的要求对数据挖掘中的聚类方法的要求 可扩展性 能够处理不同数据类型 发现任意形状的聚类 参数越少越好 能够处理噪声和孤立点 能够处理高维数据 能够集成用户提出的各种约束 2022年8月6日星期六Data Mining:Concepts and Techniq
4、ues7第七章第七章 聚类分析聚类分析 什么是聚类分析什么是聚类分析?数据类型及其相似性与非相似性计算数据类型及其相似性与非相似性计算 算法复杂性及近似算法概念算法复杂性及近似算法概念 划分方法划分方法 k-center、k-cluster、k-means、谱聚类NCut 层次方法层次方法 单链接与全链接2022年8月6日星期六Data Mining:Concepts and Techniques8数据结构数据结构 数据矩阵数据矩阵(2模)区分矩阵区分矩阵(1模)npx.nfx.n1x.ipx.ifx.i1x.1px.1fx.11x 0.)2,()1,(:)2,3().ndnd0dd(3,10
5、d(2,1)02022年8月6日星期六Data Mining:Concepts and Techniques9数据类型及其相似性与非相似数据类型及其相似性与非相似性计算性计算 相似性与非相似性相似性与非相似性 区间值变量区间值变量:二元变量二元变量:标称性标称性,序数性序数性,和比例标度型变量和比例标度型变量:混合类型的变量混合类型的变量:2022年8月6日星期六Data Mining:Concepts and Techniques10区间值变量标准化区间值变量标准化 数据标准化数据标准化 计算平均绝对偏差:其中 计算标准化的度量差(z-score)计算相似性或非相似性时,使用zif.。考虑:
6、一是没有量纲;二是使用这个平均绝考虑:一是没有量纲;二是使用这个平均绝对偏差对偏差s sf f比使用标准差比使用标准差 f f对于孤立点具有更对于孤立点具有更好的鲁棒性。好的鲁棒性。.).211nffffxx(xn m|)|.|(|121fnffffffmxmxmxnsffififsmx z2022年8月6日星期六Data Mining:Concepts and Techniques11距离:常用的非相似性度量距离:常用的非相似性度量 常见的距离有常见的距离有:Minkowski 距离距离:如果如果q=1,d 是是Manhattan距离距离 若若q=2,d 是是Euclidean距离距离:qq
7、ppqqjxixjxixjxixjid)|.|(|),(2211|.|),(2211ppjxixjxixjxixjid)|.|(|),(2222211ppjxixjxixjxixjid2022年8月6日星期六Data Mining:Concepts and Techniques12二元变量非相似性二元变量非相似性 二元变量的可能性表二元变量的可能性表 简单匹配系数简单匹配系数(如果二元变量是如果二元变量是对称的对称的):Jaccard系数系数(若二元变量是不对称的若二元变量是不对称的):dcbacb jid),(pdbcasumdcdcbabasum0101cbacb jid),(对象对象i对
8、象对象 j2022年8月6日星期六Data Mining:Concepts and Techniques13标称型变量非相似性标称型变量非相似性 二元变量的推广,它可以有超过二元变量的推广,它可以有超过 2的状态数,如的状态数,如Map_Color,可以有可以有 red,yellow,blue,green 方法方法 1:简单匹配简单匹配 m:匹配的数目,p:全部变量的数目 方法方法2:使用一组二元变量使用一组二元变量 对标称型变量的每一个状态设置一个二元变量pmpjid),(2022年8月6日星期六Data Mining:Concepts and Techniques14序数型变量非相似性序数
9、型变量非相似性 一个序数型变量可以离散化或连续化。一个序数型变量可以离散化或连续化。可以象区间标度变量一样处理可以象区间标度变量一样处理 用它们的秩rif替换xif,将每一个变量的范围映射到 0,1 用计算区间值变量同样的方法计算非相似性11fififMrz,.,1fifMr2022年8月6日星期六Data Mining:Concepts and Techniques15向量对象间的余弦相似性向量对象间的余弦相似性 对于两个向量对象对于两个向量对象x,y,余弦度量是一种常,余弦度量是一种常用的(特别是在信息检索领域)相似性度用的(特别是在信息检索领域)相似性度量:量:22|),(yxyxyxs
10、T2022年8月6日星期六Data Mining:Concepts and Techniques16第七章第七章 聚类分析聚类分析 什么是聚类分析什么是聚类分析?数据类型及其相似性与非相似性计算数据类型及其相似性与非相似性计算 算法复杂性及近似算法概念算法复杂性及近似算法概念 划分方法划分方法 k-center、k-cluster、k-means、谱聚类NCut 层次方法层次方法 单链接与全链接2022年8月6日星期六17问题的分类问题的分类P与与NP的通俗解释的通俗解释 P P问题:问题:在多项式时间内能解决的问题。NPNP问题:问题:在多项式时间内能验证的问题。2022年8月6日星期六Da
11、ta Mining:Concepts and Techniques18NPC与与NPHard NPCNPC问题问题:所有NP问题能在多项式时间内规约到该问题且该问题本身属于NP问题。NP-Hard问题:问题:所有NP问题能在多项式时间内规约到该问题。2022年8月6日星期六Data Mining:Concepts and Techniques19近似算法近似算法 对于一类优化问题及一个算法A,我们说A的近似比或性能比是(n)(1),如果对于的任意一个实例I,我们有:对于最小化问题,cost(A(I)/cost(opt(I)(n)。对于最大化问题,cost(opt(I)/cost(A(I)(n)
12、。其中A(I)表示算法A对于输入规模为n的实例I给出的一个解,opt(I)表示I的最优解,cost()表示一个解的值或费用。2022年8月6日星期六Data Mining:Concepts and Techniques202022年8月6日星期六Data Mining:Concepts and Techniques21第七章第七章 聚类分析聚类分析 什么是聚类分析什么是聚类分析?数据类型及其相似性与非相似性计算数据类型及其相似性与非相似性计算 算法复杂性及近似算法概念算法复杂性及近似算法概念 划分方法划分方法 k-center、k-cluster、k-means、谱聚类NCut 层次方法层次方
13、法 单链接与全链接2022年8月6日星期六Data Mining:Concepts and Techniques22划分方法划分方法:基本概念基本概念 划分方法划分方法:把n个对象划分成k个非空、不相交的聚类。给定给定 k,根据一定的根据一定的优化准则优化准则找到一个最优找到一个最优划分。划分。枚举所有可能的划分找到全局最优划分?2022年8月6日星期六Data Mining:Concepts and Techniques23可能的聚类方案数可能的聚类方案数 S(n,k)表示把表示把n个对象分成个对象分成k个聚类的可能的划个聚类的可能的划分方案数,则有:分方案数,则有:elseknSknkSn
14、knkkknS)1,1(),1(0111),(2022年8月6日星期六Data Mining:Concepts and Techniques24庐山真面目庐山真面目 上述递归方程的解实际上是上述递归方程的解实际上是Stirling数:数:nkiikiikkknS0)1(!1),(2022年8月6日星期六Data Mining:Concepts and Techniques25 S(n,2)=2n-1-1 S(15,3)=2375101,S(20,4)=45232115901;S(25,8)=690223721118368580可用可用TOP500之首的天河一号进行全局优化?之首的天河一号进行全
15、局优化?2022年8月6日星期六Data Mining:Concepts and Techniques26天河一号:大场面天河一号:大场面2022年8月6日星期六Data Mining:Concepts and Techniques27天河一号:敢与姚明试比高天河一号:敢与姚明试比高2022年8月6日星期六Data Mining:Concepts and Techniques28天河一号有关数据天河一号有关数据 天河一号由个机柜组成,占地约平方米,总重量约吨。6144个通用处理器,5120个加速处理器,内存总容量98TB,存储容量为2PB。峰值运算速度为每秒4700万亿次、持续运算速度2507
16、万亿次每秒浮点运算。能耗:每小时耗电4040度,24小时满负荷工作耗电接近10万度。2022年8月6日星期六Data Mining:Concepts and Techniques29天河一号其奈我何天河一号其奈我何 把把100个对象分成五组的可能方案数:个对象分成五组的可能方案数:S(100,5)1068 天河一号找到最优划分所需的时间:天河一号找到最优划分所需的时间:年千万亿年3441568)1(1035.636524360010510T解决方案:启发式方法与近似算法!一些定义一些定义 P=C1,C2,Ck:n个对象的一个划分划分,满足条件Ci (i=1,2,k),V=iCi,及Ci Cj=
17、(i j)。d(C):聚类C的直径直径,即d(C)=maxd(p,q)|p,q C;相应地,d(P)=maxd(Ci)|i=1,2,k为P的直径。r(C):聚类C的半径半径,这里的聚类半径是指具有最小半径的一个球(仅考虑球的中心是一个实际对象),它覆盖C的所有对象。相应地,r(P)=maxr(Ci)|i=1,2,k为P的半径。s(C):聚类C的分离度分离度,即s(C)=mind(p,q)|p C,q C;相应地,s(P)=mind(Ci)|i=1,2,k为P的分离度。2022年8月6日星期六Data Mining:Concepts and Techniques30一些常见的优化准则一些常见的优
18、化准则 k-Center:最大半径最小化2022年8月6日星期六Data Mining:Concepts and Techniques31)(minPrknPP k-Cluster:最大直径最小化:)(minPdknPPk 3:NP-Hard问题!k 3:NP-Hard问题!2022年8月6日星期六Data Mining:Concepts and Techniques32一些常见的优化准则一些常见的优化准则 k-means:聚类内部距离平方之和的最小化 聚类分离度的最大化kiCoCPPiiknmod12),(minP问题!)(maxPsknPP k 2:NP-Hard问题!2022年8月6日星
展开阅读全文