书签 分享 收藏 举报 版权申诉 / 32
上传文档赚钱

类型数据质量中心的设计与实现课件.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:2238005
  • 上传时间:2022-03-24
  • 格式:PPTX
  • 页数:32
  • 大小:1.88MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《数据质量中心的设计与实现课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 质量 中心 设计 实现 课件
    资源描述:

    1、大数据时代的数据质量保障- 数据质量中心的设计与实现阿里巴巴-CDO数据平台事业部 雨玟主要内容主要内容大数据时代的质量难题数据质量中心架构设计数据质量中心的实践阿里的数据中心CDO大数据时代的质量难题质量难题质量难题在数据处理流程中在那一部分数据出问题,不知道? 不同系统间数据流通,是否有损失?表记录数据波动,与上期同比波动或与固定数据一致性比较是否正常?字段平均值字段最大值字段最小值字段汇总值字段空值个数字段重复值个数离散值带业务过滤条件的数据波动,精确监控难数据校验方法多样性难,平均值?方差?周期性?固定值?字段的唯一值个数质量保证历程质量保证历程数据质量中心架构设计数据质量中心数据质量

    2、中心-Data Quality Center(DQC)产品介绍产品介绍整体设计整体设计核心内容核心内容数据监控数据清洗数据度量交互产品交互产品DQC离线计算平台元数据云调度告警数据通道数据质量DB GATEWAYS数据传输通道/离线处理 平台 DQC HOOKDQC EXECUTOR 数据质量WEB服务数据质量服务DQC ENGINEDQC规则中心DQC质量校验中心DQC 任务 POOLDQC报警模块 多级容错机制DQC 规则同步工具DQC样本对比工具DQC告警对比工具DQC 规则/模板配置DQC项目级管理DQC 报告展现任务及质量展现离线处理 调度系统整体设计整体设计架构示图架构示图整体设计

    3、整体设计报警分级报警分级红色报警Red橙色报警Orange整体设计整体设计规则分级规则分级blockRulecheckalertweak整体设计整体设计阻塞逻辑阻塞逻辑Redblock下游任务阻塞HiveHDFS其他离线处理平台多种数据传输通道多种数据库存储ShellMR应用之前应用之前HiveHDFSShellMRDQC应用之后应用之后其他离线处理平台多种数据传输通道多种数据库存储DQC在数据生态链中的位置整体设计整体设计YY轴轴DB1DB2DB3S1DWS2OLAPOLAPS3report数据传输实时传输businessbusinessS4数据传输整体设计整体设计XX轴轴DW数据传输DB1

    4、时间维度DT:数据传输通道数据质量中心的实践示例举例示例举例1 1某应用源数据某应用源数据s*表,发现表,发现“当日旺旺在线时长当日旺旺在线时长”有有24小时的情况小时的情况On_line_time24hRULEDataRunGet ODPSDataData ResultsCheck示例举例示例举例2 2某应用某应用订单交易明细表的订单总金额相比昨天波动订单交易明细表的订单总金额相比昨天波动-98.6%Sum(amount)RULEDataRunGet ODPSDataData ResultsCheckHistorical samples示例举例示例举例3 3某某日志统计日志统计r*表表,发现

    5、,发现存在存在 pv=0 而而 uv0 的数据的数据Count(*)0pv=0uv0RULEDataRunData ResultsCheck方法1:如举例1图方法2:如举例3图DQC淘宝天猫一淘支付宝ICBU阿里金融阿里云CBUCDO聚划算应用情况应用情况规则总数, 7314监控表总数, 2587红色报警数, 220橙色报警数, 11应用情况应用情况应用优点应用优点智能阈值算法体系多级容错、缓存校验规则与生产任务异步模板规则灵活,可扩展校验,预警分级别ODPS紧密结合的数据采集器独立计算,不耗生产slotsDQC后续发展后续发展支付宝ICBU淘宝天猫一淘阿里金融阿里云CBUCDO聚划算HiveHDFSShellMRDQC后续发展后续发展其他离线处理平台多种数据传输通道多种数据库存储后续发展后续发展智能阈值算法体系可热插拔的规则与校验服务默认监控监控前移Q and AQ and AQ and A?Thanks !

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:数据质量中心的设计与实现课件.pptx
    链接地址:https://www.163wenku.com/p-2238005.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库