基于Kafka和Spark的实时数据质量监控平台课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《基于Kafka和Spark的实时数据质量监控平台课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Kafka Spark 实时 数据 质量 监控 平台 课件
- 资源描述:
-
1、 基于Kafka和Spark的实时数据质量监控平台邢国东 资深产品经理 微软改变中的微软我们服务的业务共享大数据团队AI&R我们要解决什么问题Kafka as data busDevicesServicesStreaming ProcessingBatchProcessingApplicationsScalable pub/sub for NRT data streamsInteractive analytics数据流快速增长的实时数据1.3 millionEVENTS PER SECOND INGRESS AT PEAK1 trillionEVENTS PER DAY PROCESSED A
2、T PEAK3.5 petabytesPROCESSED PER DAY100 thousandUNIQUE DEVICES AND MACHINES1,300PRODUCTION KAFKA BROKERS1 Sec99th PERCENTILE LATENCYKafka上下游的数据质量保证ProducerKafkaHLCDestinationDestinationProducerProducerProducerProducerProducerProducerProducerProducerKafkaHLCKafkaHLC100K QPS,300 Gb per hourData=MoneyL
3、ost Data=Lost M工作原理简介工作原理3 个审计粒度文件层级(file)批次层级(batch)记录层级(record level)Metadata“Action”:“Produced or Uploaded”,“ActionTimeStamp”:“action date and time(UTC)”,“Environment”:“environment(cluster)name”,“Machine”:“computer name”,“StreamID”:“type of data(sheeps,ducks,etc.)”,“SourceID”:“e.g.file name”,“Bat
4、chID”:“a hash of data in this batch”,“NumBytes”:“size in bytes”,“NumRecords”:“number of records in the batch”,“DestinationID”:“destination ID”工作原理 数据与审计流Audit systemKafka+HLCunder auditDestination 1ProducerFile 1:Produced:file 1:3 recordsRecord1Record2Record3Uploaded:file 1:3 recordsRecord4Record5Pr
5、oduced24 bytes3 recordsTimestamp“File 1”BatchID=abc123Produced40 bytes5 recordsTimestamp“File 1”BatchID=def456Produced:file 1:5 recordsUploaded24 bytes3 recordsTimestampBatchIDDestination 1ProducerData C数据时延的Kibana图表数据完整性Kibana图表 3 lines Green how many records producedBlue:how many reached destinati
6、on#1Green:how many reached destination#基于Power BI更丰富的图表4 阶段实时数据处理pipeline的监控发送Audit的代码Create a client objectPrepare audit objectLastlyclient.SendBondObject(audit);查询统计信息的API基于Audit数据的异常检测Audit数据实际是数据的meta data,可以用来做各种数据流量的异常检测和监控异常检测算法1Holt-Winters 算法用来训练模型和预测 强健性上的改进 使用Median Absolute Deviation(MAD
7、)得到更好的估值处理数据丢点和噪声(例如数据平滑)自动获取趋势和周期信息 允许用户人工标记和反馈来更好的处理趋势变化GLR(Generalized Likelihood Ratio)Floating Threshold GLR,基于新的输入数据动态调整模型 对于噪声比较大的数据做去除异常点异常检测算法2 基于Exchangeability Martingale时间序列的在线异常检测 分布是否发生变化?基于历史数据,定义“new value strangeness”在时刻t,我们收到一个新的值 Add it to the history.For each item i in the histor
8、ysi=strangeness function of(valuei,history)Let pt=(#i:si st+r*#i:si=st)/N,where r is uniform in(0,1)Uniform r makes sure p is 异常检测算法异常检测算法设计概述数据监控系统设计目标监控streaming数据的完整性和时延数据pipeline中,Multi-producer,multi-stage,multi-destination数据流In near real time提供诊断信息:哪个DC,机器,event/file发生问题超级稳定 99.9%在线Scale out审计
展开阅读全文