数据仓库技术[1]课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据仓库技术[1]课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 技术 课件
- 资源描述:
-
1、2022-12-14数据仓库技术1数据仓库技术数据仓库技术数据仓库技术1提纲o数据仓库技术的产生o数据仓库的定义和特征o数据仓库中的数据组织n数据的粒度n数据仓库的数据组织结构n数据的分割n数据仓库的数据组织模式nETLo数据集市oOLAPn定义和实例nOLAP的多维数据分析nOLTP与OLAPo数据仓库系统(DWS)数据仓库技术11 数据仓库技术的产生数据仓库技术的产生o数据仓库数据仓库(Data Warehouse)技术完全是在决策需求的驱动下产生与发展起来的。n“数据太多,信息不足”的现状n异构环境的数据的转换和共享 n利用数据进行数据处理转换为利用数据支持决策o操作型数据库无法满足决策
2、支持系统对数据库系统的要求o专为决策服务的数据库系统称为数据仓库数据仓库(Data Warehouse,简称DW)。数据仓库技术12.1 数据仓库的定义数据仓库的定义o以1992年W.H.Inmon出版Building the Data Warehouse为标志,数据仓库速度发展起来,Inmon也被誉为“数据仓库之父”。oW.H.Inmon对数据仓库数据仓库的定义是:“数据仓库是支持决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。数据仓库技术12.2 数据仓库的特征数据仓库的特征n是面向主题(Subject-Orientation)的;n数据仓库是集成(Integration)的
3、;n数据仓库是稳定/非易失性(Nonvolatile)的;n是随时间变化(Time Vagrancy)的;n是信息的概括和聚集。数据仓库技术13 数据仓库中的数据组织数据仓库中的数据组织3.1 数据的粒度3.2 数据仓库的数据组织结构3.3 数据的分割3.4 数据仓库的数据组织模式3.5 数据的追加数据仓库技术13.1 粒度粒度o粒度是指数据仓库的数据单位中保存数据的细化或总合程度的级别。o细化程度越高,粒度级就越小;细化程度越低,粒度级就越大。o粒度细节的级别o粒度的划分决定了数据仓库中数据量的大小和查询的详细程度。o多重粒度数据仓库技术1粒度的一个例子粒度的一个例子高细化低细化每月200个
4、记录每月40,000个字节每月一个记录每月200个字节通过检索可以回答无细节无法回答询问某一电话的细节数据仓库技术13.2 数据仓库的数据组织结构数据仓库的数据组织结构元数据元数据高度综合级高度综合级轻度综合级轻度综合级(数据集市数据集市)销售细节级销售细节级2000-2001操作型转换操作型转换早期细节级早期细节级每月销售每月销售1994-2001每周销售每周销售1994-2001当前细节级当前细节级销售细节级销售细节级1994-1999数据仓库技术13.3 分割分割o分割将当前细节数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。o分片数据分割后的独立单元。o数据的分割
5、提高了数据管理的灵活性重构、索引、重组、恢复、监控o分割的标准:日期、地域、业务领域。数据仓库技术1分割的一个例子分割的一个例子分片9分片8分片72001分片6分片5分片42000分片3分片2分片11999事故保险生命保险健康保险数据仓库技术13.4 数据仓库的数据组织模式数据仓库的数据组织模式o星型模式(star schema)o雪花模式(snowflake schema)o混合模式事实表事实表维维量量维表维表中间有一个单一表,沿半径向外连接到多个表是星型模式的扩展,每一个点都沿半径向外连接到多个点数据仓库技术13.5 ETLo数据抽取、转换、装载(ETL)是建立数据仓库的重要步骤,需要花费
6、开发数据仓库70%的工作量。数据仓库技术1数据抽取、转换和装载数据抽取、转换和装载(ETL)o 数据仓库的数据来源于多个数据源,主要是企业数据仓库的数据来源于多个数据源,主要是企业内部数据;存档的历史数据;企业的外部数据。这内部数据;存档的历史数据;企业的外部数据。这些数据源可能是在不同的硬件平台上,使用不同的些数据源可能是在不同的硬件平台上,使用不同的操作系统。源数据是以不同的格式存放在不同的数操作系统。源数据是以不同的格式存放在不同的数据库中。据库中。o数据仓库需要将这些源数据经过抽取、转换和装数据仓库需要将这些源数据经过抽取、转换和装载的过程,存储到数据仓库的数据模型中。可以说,载的过程
7、,存储到数据仓库的数据模型中。可以说,数据仓库的数据获取需要经过抽取数据仓库的数据获取需要经过抽取(Extraction)、转换()、转换(Transform)、装载)、装载(Load)三个过程即)三个过程即ETL过程。过程。数据仓库技术13.5.1 数据抽取数据抽取o确认数据源确认数据源1.数据抽取技术数据抽取技术数据仓库技术11.确认数据源确认数据源o列出对事实表的每一个数据项和事实列出对事实表的每一个数据项和事实o列出每一个维度属性列出每一个维度属性o对于每个目标数据项,找出源数据项对于每个目标数据项,找出源数据项o一个数据元素有多个来源,选择最好的来源一个数据元素有多个来源,选择最好的
8、来源o确认一个目标字段的多个源字段,建立合并规则确认一个目标字段的多个源字段,建立合并规则o确认一个目标字段的多个源字段,建立分离规则确认一个目标字段的多个源字段,建立分离规则o确定默认值确定默认值o检查缺失值的源数据检查缺失值的源数据数据仓库技术12.数据抽取技术数据抽取技术o当前值。当前值。n源系统中存储的数据都代表了当前时刻的值。当商业交源系统中存储的数据都代表了当前时刻的值。当商业交易时,这些数据是会发生变化的。易时,这些数据是会发生变化的。o周期性的状态。周期性的状态。n这类数据存储的是每次发生变化时的状态。例如,对于这类数据存储的是每次发生变化时的状态。例如,对于每一保险索赔,都经
9、过索赔开始、确认、评估和解决等每一保险索赔,都经过索赔开始、确认、评估和解决等步骤,都要考虑有时间说明。步骤,都要考虑有时间说明。数据仓库技术13.5.2 数据转换数据转换o数据转换的基本功能数据转换的基本功能o数据转换类型数据转换类型o数据整合和合并数据整合和合并o如何实施转换如何实施转换数据仓库技术11.数据转换的基本功能数据转换的基本功能o选择:选择:从源系统中选择整个记录或者部分记录。从源系统中选择整个记录或者部分记录。o分离分离/合并:合并:对源系统中的数据进行分离操作或者合并操作。对源系统中的数据进行分离操作或者合并操作。o转化:转化:对源系统进行标准化和可理解化。对源系统进行标准
10、化和可理解化。o汇总:汇总:将最低粒度数据进行汇总。将最低粒度数据进行汇总。o清晰:清晰:对单个字段数据进行重新分配和简化对单个字段数据进行重新分配和简化。数据仓库技术12.数据转换类型数据转换类型(1)格式修正)格式修正(2)字段的解码)字段的解码(3)计算值和导出值)计算值和导出值(4)单个字段的分离)单个字段的分离(5)信息的合并)信息的合并(6)特征集合转化)特征集合转化(7)度量单位的转化)度量单位的转化(8)关键字重新构造)关键字重新构造(9)汇总)汇总(10)日期)日期/时间转化时间转化数据仓库技术13.数据整合和合并数据整合和合并数据整合和合并是将相关的源数据组合数据整合和合并
11、是将相关的源数据组合成一致的数据结构,装入数据仓库。成一致的数据结构,装入数据仓库。(1)实体识别问题)实体识别问题 数据来源于多个不同的客户系统,对相同客户可能分别数据来源于多个不同的客户系统,对相同客户可能分别有不同的键码,将它们组合成一条单独的记录。有不同的键码,将它们组合成一条单独的记录。(2)多数据源相同属性不同值的问题)多数据源相同属性不同值的问题 不同系统中得到的值存在一些差别不同系统中得到的值存在一些差别,需要给出合理的值。,需要给出合理的值。数据仓库技术14.如何实施转换如何实施转换o自己编写程序实现数据转换自己编写程序实现数据转换o使用转换工具使用转换工具数据仓库技术13.
12、5.3 数据装载数据装载(1)数据装载方式)数据装载方式(2)数据装载类型)数据装载类型数据仓库技术11.数据装载方式数据装载方式o基本装载基本装载o按照装载的目标表,将转换过的数据输入到目标表中去。按照装载的目标表,将转换过的数据输入到目标表中去。o追加追加o如果目标表中已经存在数据,追加过程在保存已有数据的基础上增如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。加输入数据。o破坏性合并破坏性合并o用新输入数据更新目标记录数据。用新输入数据更新目标记录数据。o建设性合并建设性合并o保留已有的记录,增加输入的记录,并标记为旧记录的替代。保留已有的记录,增加输入的记录,并标
13、记为旧记录的替代。数据仓库技术12.数据装载类型数据装载类型o最初装载最初装载o这是第一次对整个数据仓库进行装载。这是第一次对整个数据仓库进行装载。o增量装载增量装载o由于源系统的变化,数据仓库需要装载变化的数据。由于源系统的变化,数据仓库需要装载变化的数据。o完全刷新完全刷新o这种类型的数据装载用于周期性重写数据仓库。这种类型的数据装载用于周期性重写数据仓库。数据仓库技术13.5.4 ETL工具工具o数据转换引擎数据转换引擎o代码生成器代码生成器o通过复制捕获数据通过复制捕获数据数据仓库技术14.1 数据集市的概念数据集市的概念o数据集市(Data Mart)具有特定应用的数据仓库,主要针对
展开阅读全文