流数据的聚类方法研究课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《流数据的聚类方法研究课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 方法 研究 课件
- 资源描述:
-
1、流数据的聚类方法研究 报告人:导 师:Email: 2007.4.14介绍提纲 选题依据 国内外研究动态 课题研究目标 课题的主要关键技术和研究方法选题依据选题依据 流数据 流数据的定义及其特点 数据流的三种模型 构造概要数据结构的方法 聚类 聚类定义 传统的聚类方法 数据流聚类的特点流数据 流数据是一种大量的连续到达、时间有序、快速变化、潜在无限的数据。流数据的特点是:数据量十分庞大,这些数据随着时间的增长数量急剧上升 流数据均按照时间顺序连续到达。相比于有限的内存,不可能存储整个数据集,只能存储数据的汇总信息。大多数流数据本质上是多维,多层的数据,需要多维多层次的处理。数据流的三种模型 按
2、照数据流上各个元素重要程度的不同可以将其分为三种子模型:界标模型,滑动窗口模型和衰减窗口模型。界标模型界标模型:考虑从某一个特定的时间点s开始到当前时间点N之间的所有 数据,查询范围是sN。滑动窗口模型滑动窗口模型:仅考虑最近的w个元素。衰减窗口模型衰减窗口模型:数据流算法的范围从初始时间点到当前时间点,查询范 围是0N。但各个元素的重要程度是不同的。新到达的元素,重要程度较高,旧的元素,重要程度较低。构造概要数据结构的方法 直方图技术(histograms):等宽直方图、v-优化直方图 随机采样(random sampling):常用的方法:水库抽样 小波方法(wavelet)梗概(sket
3、ches)基于滑动窗口模型的方法 指数直方图(exponential histogram)按照元素的到达次序购建桶。桶的容量按照不同级别而指数递增。基本窗口(basic window)将大小为W的窗口按照时间次序划分成k个等宽的子窗口,成为基本窗口,每个基本窗口包含W/k个元素 聚类聚类 o 聚类问题 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程称为聚类。这些对象与同一簇中的对象彼此相似,与其他簇中的对象相异。o 传统聚类方法:基于划分:k-means k-mediods 基于层次:BIRCH 基于密度:DBScan 基于网格:STING 基于模型:COBWEB算法性能比较国内
4、外研究动态国内外研究动态 数据流聚类问题是近些年数据挖掘理论研究和应用领域中的热点问题。研究的主要方向有单层数据流的聚类、双层数据流聚类、高维数据流聚类、基于密度的数据流聚类、多数据流聚类等。2000年,Guha 提出针对数据流聚类的LOCALSEARCH算法。基于分治的思想使用一个不断的迭代过程实现有限空间对数据流进行k-means 聚类.。2002年,OCallaghan提出了STREAM,是单层数据流聚类算法的经典之作。2003年,AGGARWAL C等人设计了一种更加行之有效的算法框架CluStream。双层数据流聚类框架应运而生。2003年,Barbard 总结了数据流聚类算法的要求
5、,并对一些可能适用于数据流的聚类算法做了一次总结。2004年,AGGARWAL C提出了一种高维,投影数据流聚类算法HPstream。2006年,ZHU Wei-Heng等人详细分析了数据流聚类算法CluStream 的不足之处,提出了一种采用空间分割、组合以及按密度聚类的算法ACluStream。国内外研究动态国内外研究动态 多数据流的实时聚类多数据流的实时聚类满足用户需求的多数据流聚类满足用户需求的多数据流聚类 基于相位差的数据流的聚类基于相位差的数据流的聚类高维流数据的降维的聚类高维流数据的降维的聚类基于密度的流数据的聚类基于密度的流数据的聚类本课题研究的主要内容有本课题研究的主要内容有
6、:1.多数据流的实时聚类多数据流的实时聚类 (1)问题描述及研究背景 设在时间t有条数据流 ,其中 。对多条数据流在时间t、跨度L上的聚类,就是要将流数据分为类:使得目标函数 最大。(2)已有的研究工作 Yang Jiong用带权重的快照差的和作为流数据间距离的度量,不能反映流数据间趋势变化的相似度。Beringer等人通过对流数据标准化等预处理后用离散傅立叶变换减少噪声,用增量在线的k-means算法进行聚类。算法质量和执行效率都依赖于DFT系数个数,难以在效率和质量间达到平衡。12,nX XX12(,)iiiitXx xx12(),(),.,()kCL CLCLG1.多数据流的实时聚类多数
7、据流的实时聚类 (3)我们的研究思路 我们针对多数据流的实时聚类问题,提出了一种基于相关系数的聚类算法CORREL-cluster。相关系数 (优于欧氏距离):衰减系数 (如取 =0.99):突出新数据比旧数据在聚类结构中有更大的重要性 更新时间片段:将长度为 的时间片里的数据分为 段,每段长为个 单位时间。在任意时刻,算法保存 个数据段。xyLlmmo算法CORREL-cluster对不断到达的流数据实时形成其统计信息,并按一定的时间段进行保存。在一定的时间间隔以后,算法根据统计信息进行聚类。o提出一种动态的k-means的聚类算法。该算法首先用k-means方法产生初始聚类。在以后的各次聚
8、类操作中,由于流数据的变化是逐渐的,相邻两次的聚类结果之间有大部分是重叠的。因而每次聚类时,仅需在前一次聚类的基础上,用少量的几次k-means迭代就可以得到结果。o使用聚类调整算法adjustadjust进行聚类调整,更新k的值。1.多数据流的实时聚类多数据流的实时聚类对世界气象数据集的实验1(a)世界各个城市的天气数据 1(b)所得第一类:亚洲城市数据 1(c)所得第二类:欧洲城市数据 1(d)所得第三类:大洋洲城市数据 1(e)所得第四类:非洲城市数据 1(f)所得第四类:南美洲城市数据 实验分析实验表明:CORREL-cluster算法在各种片段数下的正确率均比DFT-cluster(
9、30个DFT coefficient)算法高。实验表明:聚类个数的变化表明了CORREL-cluster算法具有随着数据流适时调整聚类的能力。算法有较好的稳定性。图2聚类质量的比较图3不同初始聚类个数下聚类数的变化 2.满足用户需求的多数据流聚类满足用户需求的多数据流聚类(1)问题描述及研究背景 为了支持灵活的聚类要求,满足用户对多数据流不同长度的聚类要求。需要设计一种框架,满足流数据环境中对空间和时间的要求。(2)已有的研究工作 Bi-Ru Dai等人提出了一种自适应的聚类多条流数据的算法ADAPTIVE-cluster,在线阶段使用一种分层机制保存概要信息,提出了两种汇总方法,基于小波和回
展开阅读全文