大数据预处理技术第6章构建数据仓库课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据预处理技术第6章构建数据仓库课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 预处理 技术 构建 数据仓库 课件
- 资源描述:
-
1、数据导入与预处理-第六章构建数据仓库目录010203数据仓库介绍构建维度表构建事实表01数据仓库介绍数据仓库介绍 阶段1:数据仓库概念 数据库的定义及特征 数据仓库和数据库区别 阶段2:数据仓库的重要组成 数据仓库事实表 数据仓库维度表数据仓库的定义及特征 数据仓库理论的创始人数据仓库理论的创始人W.H.Inmon在其在其Building the Data Warehouse一书中,一书中,给出了数据仓库的四个基本特征:给出了数据仓库的四个基本特征:面向主题,数据是集成的,数据是不可更新的,数面向主题,数据是集成的,数据是不可更新的,数据是随时间不断变化的据是随时间不断变化的。ETL工具数据仓
2、库数据仓库数据库数据库数据文件数据文件其他其他 综合数据综合数据 当前数据当前数据 历史数据历史数据 元数据元数据 抽取、转换、装载抽取、转换、装载统计分析统计分析机器学习机器学习 报表查询报表查询应用领域应用领域个性化推荐个性化推荐 数据库和数据仓库区别数据库:主要处理基本的、日常的、实时性要求非常高的事务处理,例如在线购物。数据仓库:主要解决复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。数据项目数据库数据仓库数据范围当前状态数据历史的、完整的、反应历史变化数据变化支持频繁的增、删、改、查添加为主、无删除、无变更的、反应历史变化应用场景面向业务交易流程面向分析、支持战略决策数据结
3、构高度结构化、适合操作、计算简单、适合分析设计理论遵照第一、二、三范式违反范式、适当冗余处理量频繁、小批次、高并发、低延迟非频繁、大批量、高吞吐、有延迟响应时间计时单位小,如秒计时单位多种多样,分、小时、天、月等数据仓库重要组成事实表 主要存放各种业务数据。事实数据表包含特定业务事件的数据。比如考试成绩、图书借阅、课程安排,这些都是实际发生的业务事件,都是事实表记录的信息学生成绩事实表高数成绩英语成绩毛概成绩邓论成绩数据仓库重要组成维度表主要存放基础属性。维度表是各种属性的集合,是人们分析问题的角度。比如学生、时间、班级、学院、学校,这些都是不同的维度学生维时间维班级维课程维学生成绩事实表时间
4、ID学生ID课程ID班级ID考试成绩02构建维度表构建维度表 阶段1:管理各种键 业务键的管理 代理键的管理 阶段2:维度表的加载 阶段3:缓慢变更维度 星型模型 雪花模型 常见缓慢变化维表分类 类型1缓慢变化维更新 类型2缓慢变化维更新 类型3缓慢变化维更新 其他类型介绍管理各种键 在构建维度表中,主要涉及两种键:1、业务键:来源于源系统的业务主键,是业务实体的唯一标识。2、业务代理键:简称代理键,为了确定维度表中唯一的行而增加的键。管理这两种键,需要做如下工作:(1)确定业务主体对象,确保业务主键的唯一性。(2)判断当前维度表是否存在该业务键,根据业务主键更新维表或者插入维表数据。(3)为
5、新插入的维表行数据生成新的代理键。管理各种键管理业务键 业务键的主要作用是区分业务实体,必须来源于源表。为方便进行管理,业务键和代理键一起存储在维度表中。业务键的管理要注意几点:1.确保业务键要唯一同一个业务主体不能有多个业务键,一个业务键也不能对应多个业务主体。比如一个学生不能有多个学号,一个学号也不能对应多个学生。2.业务主键合并处理 如果存在一个业务主体,存在多个业务主键,应进行合并处理,主要有两种情况:(1)数据来源不同:业务键可能来源于多个源系统,同一个业务主体在不同的源系统业务键可能不同,此种情况我们需要对业务主键进行合并处理 (2)历史遗留数据:同一业务主体,存在新、旧业务主键同
6、时存在的情况管理各种键管理代理键 最佳实践表明,原则上,在维表中应有代理键,一般用自动生成无意义的整形数值做为代理键。项目中我们可以通过数据库生成代理键,也可以通过etl 工具生成代理键。在kettle中用“增加序列”步骤生成代理键。增加序列”步骤控件提供了两种方式来生成序列:第一种,使用数据库生成序列,取值范围在数据库的序列中定义,计数器超过最大值后从起始值重新开始。这种方法需要在数据库中先定义一个序列,接着在增加序列”步骤中引用CREATE SEQUENCE seq_value INCREMENT BY 1 -每次加几个 START WITH 1 -从1开始计数 NOMAXVALUE -不
7、设置最大值 NOCYCLE -一直累加,不循环 CACHE 10;管理各种键管理代理键 第二种,使用转换计数器生成序列,取值范围在用户界面直接定义,计数器超过最大值后从起始值重新开始。因这种方法每次重新运行时,会从初始值开始取数,不能直接当代理键使用,通常需要进行特殊处理。select max(id)from test_sequencesequence_valuemax(id)+sequence_value具体办法1:管理各种键管理代理键 第二种,使用转换计数器生成序列,取值范围在用户界面直接定义,计数器超过最大值后从起始值重新开始。因这种方法每次重新运行时,会从初始值开始取数,不能直接当代理
8、键使用,通常需要进行特殊处理。具体办法2(1):(2):(3):维度表的加载维度的加载需要掌握一定的技巧,下面是两个典型的场景:1.加载雪花维度表2.加载反正规化的星型维度表加载维表时,要根据维表的特点,选择合适的加载顺序。维度表的加载星型模型加载星型模型的特点:在星型模型,顾名思义事实表和维表形成星型的样式,即:以事实表为中心,外围是若干张维度表,维表通过主键和事实表的外键关联星型模型的加载办法:该模型中,每个维度表之间没有依赖关系,加载不分先后顺序。维度表的加载加载雪花模型雪花模型的特点:雪花模型是在基于星型模型之上拓展来的,每一个维度可以再扩散出更多的维度,根据维度的层级拆分成颗粒度不同
展开阅读全文