《流数据分析技术》课件03-流数据概要结构-.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《流数据分析技术》课件03-流数据概要结构-.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 流数据分析技术 数据 分析 技术 课件 03 概要 结构
- 资源描述:
-
1、1流数据概要结构2抽样概要结构3草图概要结构4直方图概要结构5小波概要结构 概要数据结构(Synopsis Data Structure)一种按照流数据处理模型,使用一定流数据分析技术,构建出的一个流数据的主要特征集 目的 对流数据关键特征的抽取,以方便应用快速查询 为其他更深度的流数据特征挖掘提供基础2 抽样(Sampling)从原始数据集N中抽取小部分样本形成样本集S,代表整合数据集,以减小数据集规模 保证样本集与原始数据集的同分布,可以将传统数据挖掘处理方法应用到概要数据结构上 草图(Sketches)用专用数据结构抽取流数据特征,以快速抽取常用的统计型的指标,以减小内存占用并降低处理时
2、延 在最少的空间占用和最快的查询速度之间进行平衡,加速对流数据特征的查询响应速度3 小波(Wavelets)小波是一种通用的数字信号处理技术,类似于傅立叶变换,可根据输入的模拟量,变换成一系列的小波参数 用多阶误差树来刻画原始数据,高阶系数反映数据的大趋势,低阶系数反映更局部的趋势 直方图(Histograms)将大数据集按照一定规则划分为小数据集(桶,bucket),通过对每个小数据集的特征分析来刻画大数据集的特征轮廓 通过与抽样、小波、草图等不同的方法整合,实现对概要结构的不同轮廓的刻画41流数据概要结构2抽样概要结构3草图概要结构4直方图概要结构5小波概要结构 抽样(Sampling)从
3、原始数据集 N 中抽取小部分样本形成样本集 S代表整个数据集 目的:减小数据集规模,使得传统数据挖掘算法能够被应用到大规模数据集或流数据集 特点 是一种近似技术 能够提供可证明的无偏估计和误差保证 易于应用到高维场景6 设 流数据全集为:N 数据内容为:X1Xn 预期的数据挖掘结果:f(N)获得函数 抽样 基于抽样集合:S 获得抽样函数:f(S)条件:能够通过对函数 f(S)的均值 和标准差 等的计算 估计函数 f(N)用于估计 f(S)概率界限的这些不等式被称为尾界 (Tail Bounds)7 均匀抽样(Uniform Sampling)数据集 N 中不同元素入选样本集合 S 的概率相同
4、如:使用固定的时间间隔进行抽样 偏倚抽样(Biased Sampling)数据集 N 中不同元素入选样本集合 S 的概率不同 如:考虑空间网格划分,基于密度不同设置不同的概率进行抽样 混合抽样 均匀抽样与偏倚抽样联合8 伯努利抽样(Bernoulli Sampling)设:数据集 N 中各元素 X1Xn 服从伯努利分布(Bernoulli Distribution,或称0-1分布)入选概率:p(0,1 落选概率:q=1-p 抽样概率:P(S;N)=p|S|(1-p)|N|-|S|优点:采样均匀,过程简单,时间成本低 缺点:需要对数据集分布概率需要有预知 水库抽样(Reservoir Sampl
5、ing)设:样本集 S 的大小为 s 入选:第 n 个抽样样本的入选概率为 s/n 去除:如果当前样本集合中的样本量超过抽样集大小 s,从样本集合 S 中随机去除一个样本 优点:各元素入选抽样数据集合的概率相同(随机均匀抽样)9pppps/n s/n s/ns/n随机删除随机删除 简明抽样(Concise Sampling)扩展水库抽样,每个采样点一个计数器 入选:1/1/(,概率逐渐变小)去除:/优点:支持重复数据均匀抽样 链式抽样(Chain Sampling)针对滑动窗口 设:滑动窗口大小 W 入选:第 n 个抽样样本的入选概率 1/min(n,W)替换:从n+1n+W中随机选择备选样本
6、,在抵达时替换当前样本(随机选择)粘性抽样(Sticky Sampling)有损计数(Lossy Counting)101/概率删除概率删除1/1/1/1/min(2,W)1/min(3,W)1/min(4,W)n+1n+WW 计数抽样(Counting Sampling)设:样本集 S 的大小为 s 入选:样本量超过抽样集大小 s 时,首先将参数 提高到,先以概率/,之后以概率 1/判断样本集中的样本计数器是否减 1 去除:如果样本计数器取值减为 0,则删除样本 有效获得数据集中的热门元素 加权抽样(Weighted Sampling)带权值的偏倚抽样 将使用率高的小数据集赋予更大的权重,以
7、体现数据集的实际分布11/1/普遍命中随机命中谁被减为0的概率大?60%30%10%国会抽样(Congressional Sampling)将数据集进行分组,不同分组内进行独立的水库抽样,不同组之间使用加权抽样 大组抽样率比小组高 兼顾组内的公平性和组间的影响力 分层抽样(Stratified Sampling)利用数据分布的历史经验对数据进行分层 重要的层被设置为大组,抽取更多的采样点 正确体现数据的重要特征1260%30%10%组内均匀抽样高频组中频组低频组组间加权抽样均匀抽样13均匀抽样要求:数据的抽样分布与原始分布一致方法:对每个到达的数据按照相同的概率进行判断“去”或“留”14ppp
8、p12345678910111213141516171819202122例如:一个伯努利序列(0-1分布)N 1234567891011S pppppppppppppppppp原始序列 N 的均值 0.5采样序列 S 的均值 0.545用0.5采样率能获得与原始序列相同分布的子序列吗?分析 n 为随机变量个数,H(n)为 n 次处理出现成功的次数(真值)TRUE的概率 p,FALSE的概率 q=1-p(pn:预测值)在 n 次处理过程中,成功次数不超过 k 次的概率为:当 k=(p-)n 时Hoeffding不等式 当 k=(p+)n 时Hoeffding不等式 合并 设 取值 误差 的概率边
9、界15n22 0.37483590.995867865 0.25341930.999526680 0.23404130.99968751150.20312630.9998488n2600.14624380.99997043200.1342610.99998054600.11545020.999990565050.03673941 复习一下置信度与置信区间 无法预计准确值只能提供一个估计 如果有70%样本落在实际取值中心 正负偏差 到+之间 置信度:70%置信区间:(均值标准差)目标:伯努利抽样的抽样结果与原序列具有相同分布的置信度满足要求1670%设 X 均值(均值 )预期的下界Xi 属于 a
10、i,bi误差为 t(标准差 )对于伯努利分布 Xi 属于 1,0均值超出误差的概率下界为(1-置信度)为避免均值超出误差采样 n 的取值例如 输入序列符合伯努利分布(0-1分布)如果希望 t 0.1 0.117则=65tn0.10.050.010.165801150.052603204600.01650580101150518例如:一个伯努利序列(0-1分布)tn0.10.050.010.165801150.052603204600.016505801011505 如果希望 t 0.05 0.05n 320注意:这里说的是什么问题?必须采样到320才行?12345678910111213141
11、516171819202122N 1234567891011S 窗口内的实际数据量要不小于32019(0,1 随机数落选概率向下取整():步长=0:选当前元素0:跳过元素m=m+1 指示下一个入选点的位置注意:也是入选概率20取值取值0.10.20.30.40.50.60.70.80.90.121.85 10.32 6.46 4.51 3.32 2.51 1.91 1.43 1.00 0.215.28 7.21 4.51 3.15 2.32 1.76 1.34 1.00 0.70 0.311.43 5.40 3.38 2.36 1.74 1.31 1.00 0.75 0.52 0.48.70
12、4.11 2.57 1.79 1.32 1.00 0.76 0.57 0.40 0.56.58 3.11 1.94 1.36 1.00 0.76 0.58 0.43 0.30 0.64.85 2.29 1.43 1.00 0.74 0.56 0.42 0.32 0.22 0.73.39 1.60 1.00 0.70 0.51 0.39 0.30 0.22 0.15 0.82.12 1.00 0.63 0.44 0.32 0.24 0.19 0.14 0.10 0.91.00 0.47 0.30 0.21 0.15 0.11 0.09 0.07 0.05 10.000.000.000.000.0
13、00.000.000.000.00比例0.12350.23260.35710.45450.5556 0.6667 0.7692 0.8333 0.9091随机数取值(均匀分布)入选概率取值m=0m=m+1020406080100120140160180p=0.10510152025303540p=0.50510152025p=0.9实际步长 需要预知数据的分布特征无法应对概念漂移 可以支持滑动窗口,但是只能代表窗口内数据的采样结果,并不是整个流数据的无偏估计无法预计流数据大小,因此也无法预计对整个流数据的采样率2112345678910111213141516171819202122N 123
14、4567S 45678910S 均匀抽样22 均匀抽样 要求:数据的抽样分布与原始分布一致2312345678910111213141516171819202122N S S 1234567891011121323467910111215161922目标:在抽样完成后,获得大小为 S 的无偏样本 均匀抽样 目标:在抽样完成后,S 中的每一个元素都是按照 S/N 的概率抽取 问题:由于流数据的特点,无法预知 N 的大小2412345678910111213141516171819202122N S 24568911121316192012122以多大的概率入池?以多大的概率将池中的哪个元素删除?
15、算法思路 第1s个元素,按照概率 1 入池 后继第 n 个元素,按照 s/n 概率入池 池中元素,按照 1/s 概率删除2512345678910111213141516171819202122N S 24568911121316192012122s/n1/s1/1313/21s/n13/22概率删除概率入池26s/N27初始抵达元素全部入池kU:0k的随机数以 1/k 的概率,用入池的数据元素替换掉蓄水池中的原有元素抵达元素是下一跳元素Data Stream Management:Processing High-Speed Data Streams p2128找到最小的,使其概率恰巧小于U就
16、是必须得入池的步数s/(n+1)入池概率1-s/(n+1)不入池概率(1-s/(n+1)个都不入池概率使用最优化方法避免计算超范围*A.M.Law,Simulation Modeling and Analysis,4th edn.(McGraw-Hill,New York,2007)均匀抽样29 均匀抽样 要求:数据的抽样分布与原始分布一致3012345678910111213141516171819202122N S 12345678910111213如果流数据中存在大量的重复元素,水库抽样存在的问题:样本集中需要存储大量重复样本,空间利用率低 简明抽样(精确抽样)设:样本集 S 的大小为
17、s 阈值参数(初始化取值1)入选:样本量小于抽样集大小 s,以概率 1/入选(计数器+1)样本量大于抽样集大小 s,以概率 1/入选()去除:样本量大于抽样集大小 s,以概率/选择样本集中的样本,将计数器减 1()直到某一样本计数器取值减为 0,删除样本 特点:随数据流推进,抽样概率逐渐降低 适合重复数据较多的情况3132S110S221S333S411S57S62S715S88102133721581021331071589203196137以概率/=0.91选择样本=1=1.1以概率/=0.91选择样本-1-1多次迭代,/=0.91,样本被选中概率很高普遍都减了几次低频率的样本被首先减到0
18、33 面向具有重复项的流 以概率/删除样本集元素 高频度的元素更大概率保留 低频度的元素更大概率删除 以概率 1/选择新元素 出现新元素的时候,抽样率降低,抽到低频新元素的概率也低了 低抽样率对高频新元素被抽到的概率影响不大 如果出现概念漂移 全时段都低频度的元素更易被删除 曾经高频出现的元素更易被保留 特点:是数据流的无偏抽样元素存在:频度增加 删除低频元素增加新元素/元素不存在:偏倚抽样34 是数据流的无偏抽样 如果样本集空间有限,高频特征会更易于体现 如何能多保留一些低频特征?35删除低频元素增加新元素低频特征也可能很重要元素存在:频度增加 元素不存在:计数抽样(Counting Sam
19、pling)设:样本集 S 的大小为 s 阈值参数(初始化取值1)入选 样本量小于抽样集大小 s,以概率 1/入选(计数器+1)样本量大于抽样集大小 s,以概率 1/入选()去除:样本量大于抽样集大小 s,先以概率/,后以概率 1/选择样本集中的样本,将计数器减 1()如果样本计数器取值减为 0,则删除样本 与简明抽样的差异 多了“以概率 1/选择样本集中的样本”3637S110S22S333S43S57S62S715S8810233721581023322158913161137以概率/=0.95选择样本=1.8=1.9以概率 1/=0.53选择样本-1-1多次迭代,/=0.95,样本被选中
20、概率很高1/=0.53,样本被选中的概率就没那么高普遍都减了几次但不一定最低频率的样本被首先减到0可能相近的样本被首先减到038/1/随机命中随机命中使得高频度的元素被减为0的概率加大,低频度的元素更易于保留在样本集删除低频元素增加新元素频度增加删除的不一定是低频元素增加新元素简明抽样计数抽样/普遍命中1/元素存在:频度增加 元素不存在:1流数据概要结构2抽样概要结构3草图概要结构4直方图概要结构5小波概要结构 草图(Sketches)使用概率数据结构(Probabilistic Data Structures)来抽取流数据的特征,以减小内存占用并降低处理时延 本质是随机投影技术在时间序列领域
21、的扩展,能够用于估计流数据集的二阶矩大小、自连接大小、热门元素列表等 随机投影(Random Projection)理论依据:J-L Lemma公式*核心思想:降维将高维欧氏空间里的点集映射到低维空间,相对距离得到某误差范围内的保持 将时间序列的长度当作维度,可以将这个原理扩展到时间序列域 可以在给定长度的滑动窗口上执行相同的计算*https:/en.wikipedia.org/wiki/JohnsonLindenstrauss_lemma 设 数据点维数:d 随机向量维数:k 随机向量 k 的每一个分量是平均值和单位方差为零的正态分布 随机投影 计算维数 d 的数据点与随机向量 k 的每一个
22、分量的点积,将数据点投影到维数 k 的坐标系 数据点之间的距离在变化前后能够被近似的保持下来 距离值的精度界限仅取决于 k 41维数:d维数:k42 Johnson-Lindenstrauss Lemma 布隆过滤器 判断新抵达的数据元素是否存在于数据集中,如判断到达的数据元素是否曾经被访问过 计数布隆过滤器CBF(Counting Bloom Filter)SBF(Spectral Bloom Filter)计数草图 统计流数据中某元素的出现频率(不需精确计数)CM草图(Count-Min Sketch)CMM草图(Count-Mean-Min Sketch)FM草图 判断数据的基数(Car
23、dinality),即数据集中不同元素的个数 FM草图(FM-Sketch)43 布隆过滤器(Bloom Filter)基础方法 创建长度为m的BIT数组BITMAPm 投影:用哈希函数将数据元素映射到0 m-1之间 冲突避免:多个哈希函数,选全1的结果 计数布隆过滤器(CBF:Counting Bloom Filter)BF改进,支持计数 频率布隆过滤器(SBF:Spectral Bloom Filter)BF改进,支持出现频率判断44C010101HHTRUEC010102HHTRUE&1 CM草图(Count-Min Sketch)基础方法 创建长度为m的计数器数组COUNTMAPm 计
展开阅读全文