书签 分享 收藏 举报 版权申诉 / 41
上传文档赚钱

类型大数据预处理技术第6章构建数据仓库课件.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:3336014
  • 上传时间:2022-08-20
  • 格式:PPTX
  • 页数:41
  • 大小:2.31MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据预处理技术第6章构建数据仓库课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 预处理 技术 构建 数据仓库 课件
    资源描述:

    1、数据导入与预处理-第六章构建数据仓库目录010203数据仓库介绍构建维度表构建事实表01数据仓库介绍数据仓库介绍 阶段1:数据仓库概念 数据库的定义及特征 数据仓库和数据库区别 阶段2:数据仓库的重要组成 数据仓库事实表 数据仓库维度表数据仓库的定义及特征 数据仓库理论的创始人数据仓库理论的创始人W.H.Inmon在其在其Building the Data Warehouse一书中,一书中,给出了数据仓库的四个基本特征:给出了数据仓库的四个基本特征:面向主题,数据是集成的,数据是不可更新的,数面向主题,数据是集成的,数据是不可更新的,数据是随时间不断变化的据是随时间不断变化的。ETL工具数据仓

    2、库数据仓库数据库数据库数据文件数据文件其他其他 综合数据综合数据 当前数据当前数据 历史数据历史数据 元数据元数据 抽取、转换、装载抽取、转换、装载统计分析统计分析机器学习机器学习 报表查询报表查询应用领域应用领域个性化推荐个性化推荐 数据库和数据仓库区别数据库:主要处理基本的、日常的、实时性要求非常高的事务处理,例如在线购物。数据仓库:主要解决复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。数据项目数据库数据仓库数据范围当前状态数据历史的、完整的、反应历史变化数据变化支持频繁的增、删、改、查添加为主、无删除、无变更的、反应历史变化应用场景面向业务交易流程面向分析、支持战略决策数据结

    3、构高度结构化、适合操作、计算简单、适合分析设计理论遵照第一、二、三范式违反范式、适当冗余处理量频繁、小批次、高并发、低延迟非频繁、大批量、高吞吐、有延迟响应时间计时单位小,如秒计时单位多种多样,分、小时、天、月等数据仓库重要组成事实表 主要存放各种业务数据。事实数据表包含特定业务事件的数据。比如考试成绩、图书借阅、课程安排,这些都是实际发生的业务事件,都是事实表记录的信息学生成绩事实表高数成绩英语成绩毛概成绩邓论成绩数据仓库重要组成维度表主要存放基础属性。维度表是各种属性的集合,是人们分析问题的角度。比如学生、时间、班级、学院、学校,这些都是不同的维度学生维时间维班级维课程维学生成绩事实表时间

    4、ID学生ID课程ID班级ID考试成绩02构建维度表构建维度表 阶段1:管理各种键 业务键的管理 代理键的管理 阶段2:维度表的加载 阶段3:缓慢变更维度 星型模型 雪花模型 常见缓慢变化维表分类 类型1缓慢变化维更新 类型2缓慢变化维更新 类型3缓慢变化维更新 其他类型介绍管理各种键 在构建维度表中,主要涉及两种键:1、业务键:来源于源系统的业务主键,是业务实体的唯一标识。2、业务代理键:简称代理键,为了确定维度表中唯一的行而增加的键。管理这两种键,需要做如下工作:(1)确定业务主体对象,确保业务主键的唯一性。(2)判断当前维度表是否存在该业务键,根据业务主键更新维表或者插入维表数据。(3)为

    5、新插入的维表行数据生成新的代理键。管理各种键管理业务键 业务键的主要作用是区分业务实体,必须来源于源表。为方便进行管理,业务键和代理键一起存储在维度表中。业务键的管理要注意几点:1.确保业务键要唯一同一个业务主体不能有多个业务键,一个业务键也不能对应多个业务主体。比如一个学生不能有多个学号,一个学号也不能对应多个学生。2.业务主键合并处理 如果存在一个业务主体,存在多个业务主键,应进行合并处理,主要有两种情况:(1)数据来源不同:业务键可能来源于多个源系统,同一个业务主体在不同的源系统业务键可能不同,此种情况我们需要对业务主键进行合并处理 (2)历史遗留数据:同一业务主体,存在新、旧业务主键同

    6、时存在的情况管理各种键管理代理键 最佳实践表明,原则上,在维表中应有代理键,一般用自动生成无意义的整形数值做为代理键。项目中我们可以通过数据库生成代理键,也可以通过etl 工具生成代理键。在kettle中用“增加序列”步骤生成代理键。增加序列”步骤控件提供了两种方式来生成序列:第一种,使用数据库生成序列,取值范围在数据库的序列中定义,计数器超过最大值后从起始值重新开始。这种方法需要在数据库中先定义一个序列,接着在增加序列”步骤中引用CREATE SEQUENCE seq_value INCREMENT BY 1 -每次加几个 START WITH 1 -从1开始计数 NOMAXVALUE -不

    7、设置最大值 NOCYCLE -一直累加,不循环 CACHE 10;管理各种键管理代理键 第二种,使用转换计数器生成序列,取值范围在用户界面直接定义,计数器超过最大值后从起始值重新开始。因这种方法每次重新运行时,会从初始值开始取数,不能直接当代理键使用,通常需要进行特殊处理。select max(id)from test_sequencesequence_valuemax(id)+sequence_value具体办法1:管理各种键管理代理键 第二种,使用转换计数器生成序列,取值范围在用户界面直接定义,计数器超过最大值后从起始值重新开始。因这种方法每次重新运行时,会从初始值开始取数,不能直接当代理

    8、键使用,通常需要进行特殊处理。具体办法2(1):(2):(3):维度表的加载维度的加载需要掌握一定的技巧,下面是两个典型的场景:1.加载雪花维度表2.加载反正规化的星型维度表加载维表时,要根据维表的特点,选择合适的加载顺序。维度表的加载星型模型加载星型模型的特点:在星型模型,顾名思义事实表和维表形成星型的样式,即:以事实表为中心,外围是若干张维度表,维表通过主键和事实表的外键关联星型模型的加载办法:该模型中,每个维度表之间没有依赖关系,加载不分先后顺序。维度表的加载加载雪花模型雪花模型的特点:雪花模型是在基于星型模型之上拓展来的,每一个维度可以再扩散出更多的维度,根据维度的层级拆分成颗粒度不同

    9、的多张表雪花模型的加载办法:雪花模型中,city和country、country和region 是N:1的关系,几个层级间相互依赖,加载时需从顶向下加载,即:按region country city 顺序加载缓慢变更维度“缓慢变化维”,即:“Slowly Changing Dimensions”,一般简写为SCD,是数据仓库重要概念。“缓慢变化维”,顾名思义,即:维度信息会随着时间的流失发生缓慢变化,因为现实中事物的属性并不是不变的,它会随着时间的变化而发生缓慢的变化。常见缓慢变化维主要有如下三种:类型1:业务主体数据发生变化时,用当前最新数据覆盖旧数据,只保留最 新版本数据。类型2:业务主体

    10、数据发生变化时,用当前最新数据生成新的数据行,保存多 个历史版本。类型3:业务主体数据发生变化时,用当前最新数据生成新的记录,并且在该行记录中记录上一个版本部分关键信息。缓慢变更维度类型1缓慢变化维更新特点:,不记录历史版本,只需要保存当前最新的记录。如果字段有更新直接覆盖,否则新增类型1缓慢变化维示意图缓慢变更维度类型1缓慢变化维更新特点:,不记录历史版本,只需要保存当前最新的记录。如果字段有更新直接覆盖,否则新增类型1缓慢变化维,kettle实现示意图缓慢变更维度类型2缓慢变化维更新特点:,每次更新会生成新的记录,通过这种方式保存了各个历史版本,每个历史版本有不同的代理键,但每个版本有相同

    11、的业务主键。类型2缓慢变化维示意图缓慢变更维度类型2缓慢变化维更新特点:,每次更新会生成新的记录,通过这种方式保存了各个历史版本,每个历史版本有不同的代理键,但每个版本有相同的业务主键。类型2缓慢变化维,kettle实现示意图缓慢变更维度类型3缓慢变化维更新特点:保留部分上一个版,部分字段值.缓慢变更维度其他类型介绍特点:,不同的字段采用不同的处理办法缓慢变更维度其他类型介绍生成维度:有些维度,其中的值是可以预知的,比如时间、日期,数量固定,而且不做变更,可以一次性预先生成,避免多次加载。缓慢变更维度其他类型介绍杂项维度:这类维度表包含了很多类型、很多不相关的属性,这些属性对分析会有一些帮助,

    12、但还不能把这些维度进行分类。这类杂项维度的组合非常多,不能提前确定,无法像生成维度一样提前生成。实际开发中,一般用kettle的“联合查询/更新”步骤实现,设置方法和“插入/更新”步骤相似,但也不同,主要却区别在于:“联合查询/更新”不分关键字段和查询字段,“查询”、“更新”字段合并在一起设置。03构建事实表构建事实表 阶段1:批量加载 批量加载背景 批量加载办法 阶段2:查找维度 阶段3:事实表的处理 维护数据完整性 查找维表代理键 数据延迟处理 常见事实表类型 事务型事实表 周期快照事实表 累积快照事实表批量加载批量加载背景 事实表是业务数据的集合,其数据量大,往往有几个GB、几十个GB、

    13、几个TB,某些行业甚至有几个PB的数据。通常,在数据量不大的情况下,我们可以采用“表输出”步骤实现,但在数据量巨大的情况下,此方法是不适合的,原因在于:“表输出”步骤,对数据库操作是基于dml语句实现的,对数据库进行dml操作会带来两个问题:1、执行insert、update、delete等操作时,数据库管理系统会往日志文件写日志,dml语句操作的数据量越大,对应的日志文件就越大。2、执行insert、update、delete等操作时,数据库管理系统会进行约束性检查,比如主键约束、外键约束、唯一性约束、检查约束等。约束性检查,是一项费时的工作,通常比操作数据耗费更多的时间。大量的写日志和约束

    14、性检查,会严重影响数据库数据性能,显然不适用于大量数据加载的情况批量加载批量加载办法从数据源加载到数据仓库,需要更快速、更高效的加载方法kettle批量加载控件原理:各数据厂家为解决批量加载问题,专门开发了批量加载接口kettle为充分利用各个数据库批量加载特性,专门提供了批量加载控件批量加载批量加载控件MySQL批量加载Oracle批量加载查找维度加载事实表时,在维度表中正确地查找代理键,是我们工作的重要一环。1、正确维护数据完整性2、正确地查找维表代理键3、正确地处理数据延迟情况查找维度维护数据完整性维护数据完整性:参照完整性,这里指的是事实表和维度表之间建立的外键约束。在数据仓库中,事实

    15、表的外键指向维度表的主键。有些设计者通过外键约束,来防止维度表的信息被误删的情况。其实,在数据仓库中外键约束不是必须的,如果存在外键约束,加载数据时每加载一条数据,数据库会逐条检查是否违反约束,所以加载速度会非常慢。如果有这种情况,通常加载事实表前先让外键失效,加载完成后再恢复外键。查找维度获取代理键获取维度代理键:是构建事实表最重要的环节之一。在kettle中,我们一般通过“数据库查询”步骤或“维度查询/更新”步骤实现查找维度数据延迟处理 在数据加载中,正常的加载顺序应是:先加载维度表,接着加载事实表。但现实情况中,却存在不少数据延迟的现象(1)事实表延迟事实表延迟,指交易数据发生后,未及时

    16、按约定时间传送给ETL过程处理。办法:结合维表开始时间、终止时间取对应的代理键。(2)维度表延迟维度表延迟,指的是事实表处理完成,而维度表未处理完成。办法:维度表加载完成才接着加载事实表。事实表的处理常见事实表类型 常见的三种不同类型的事实表,主要有如下三种:1、事务型事实表:即“Transaction fact table”,是事务粒度的,以单个事务、单个事件为单位,每次事务作为事实表的1行数据,如刷卡一次,会有一条刷卡记录。2、周期快照事实表:即“Periodic snapshot fact table”,是时间周期粒度的,以固定时间周期为单位,每一个时间周期1行数据,如每一天、每一个月的

    17、话费支出。3、累积快照事实表:即“Accumulating snapshot fact table”,当新的事实到达后,更新事实表的里记录。例如订单处理过程,有多个日期:下单日期、发货日期、签收日期、退款日期等。在这个订单的处理过程中,随着订单的状态改变,事实表的相应日期也在改变。事实表的处理事务型事实表 事务事实表记录的是事务层面的事实,保存的是最原子的数据,也称“原子事实表”。用户可以通过事务事实表对事务行为进行特别详细的分析。事务型事实表样例事实表的处理周期快照事实表 周期快照事实表以具有规律性的、可预见的时间间隔来记录事实,时间间隔如每天、每月、每年等等。典型的例子如销售日快照表、库存日快照表等。事实表的处理累积快照事实表 累积快照事实表和周期快照事实表有些相似之处,它们存储的都是事务数据的快照信息。但是它们之间也有着很大的不同,周期快照事实表记录的是确定周期的数据,而累积快照事实表记录的是不确定周期的数据。谢谢观看

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据预处理技术第6章构建数据仓库课件.pptx
    链接地址:https://www.163wenku.com/p-3336014.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库