第2章数据仓库原理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第2章数据仓库原理课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 原理 课件
- 资源描述:
-
1、Data Warehouse and Data Mining 第第2章章 数据仓库原理数据仓库原理北京邮电大学北京邮电大学计算机学院计算机学院王小茹王小茹北邮计算机学院:王小茹北邮计算机学院:王小茹内容提要内容提要 数据仓库的结构和技术要求数据仓库的结构和技术要求 数据仓库中的数据数据仓库中的数据 元数据元数据北邮计算机学院:王小茹北邮计算机学院:王小茹2.1 数据仓库的结构与技术要求数据仓库的结构与技术要求 数据仓库的总体结构数据仓库的总体结构 数据集市数据集市 数据仓库的技术要求数据仓库的技术要求北邮计算机学院:王小茹北邮计算机学院:王小茹1.数据仓库的概念结构数据仓库的概念结构 数据源、
2、数据准备区、数据仓库数据库、数据集市数据源、数据准备区、数据仓库数据库、数据集市知识挖掘库以及各种管理工具和应用工具知识挖掘库以及各种管理工具和应用工具北邮计算机学院:王小茹北邮计算机学院:王小茹数据仓库的概念结构数据仓库的概念结构数据仓库在创建以后数据仓库在创建以后:首先要从首先要从数据源数据源中抽取所需要的中抽取所需要的数据到数据准备区数据到数据准备区,在数据准备区中经过数据的净化处理,在数据准备区中经过数据的净化处理再加载到再加载到数据仓库数据库数据仓库数据库中中最后根据用户的需求将数据发布到最后根据用户的需求将数据发布到数据集市数据集市/知识挖掘库知识挖掘库中。中。当用户使用数据仓库时
3、,可以通过当用户使用数据仓库时,可以通过OLAP等数据仓库等数据仓库应用工具应用工具向数据集市知识挖掘库或向数据集市知识挖掘库或数据仓库进行决策查询分析或知识挖掘。数据仓库进行决策查询分析或知识挖掘。北邮计算机学院:王小茹北邮计算机学院:王小茹2.数据仓库的总体层次结构数据仓库的总体层次结构 为实现数据仓库的功能,数据仓库的总体层为实现数据仓库的功能,数据仓库的总体层次结构包括:次结构包括:数据仓库基本功能层数据仓库基本功能层 数据库仓库管理层数据库仓库管理层 数据仓库环境支持层数据仓库环境支持层北邮计算机学院:王小茹北邮计算机学院:王小茹(1)数据仓库的基本功能层数据仓库的基本功能层从数据源
4、抽取数据从数据源抽取数据对所抽取的数据进行筛选、清理,将清理后的数据加对所抽取的数据进行筛选、清理,将清理后的数据加载到数据仓库中载到数据仓库中根据用户的需求设立数据集市,完成数据仓库的复杂根据用户的需求设立数据集市,完成数据仓库的复杂查询、决策分析和知识的挖掘等功能。查询、决策分析和知识的挖掘等功能。(2)数据仓库的管理层数据仓库的管理层数据仓库的管理层包含数据管理与元数据管理两部分。数据仓库的管理层包含数据管理与元数据管理两部分。数据管理与元数据管理主要负责对数据仓库中的数据抽取、清理、数据管理与元数据管理主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理加载、更新与刷新
5、等操作进行管理.(3)数据仓库环境支持层数据仓库环境支持层数据仓库环境支持层主要包含数据传输和数据仓库基础两大部分。数据仓库环境支持层主要包含数据传输和数据仓库基础两大部分。数据仓库的总体层次结构数据仓库的总体层次结构北邮计算机学院:王小茹北邮计算机学院:王小茹3.数据仓库的结构模式数据仓库的结构模式 数据仓库作为数据存储的一种组织形式,它数据仓库作为数据存储的一种组织形式,它从最初的数据源获得原始数据,按照决策的从最初的数据源获得原始数据,按照决策的要求重新组织,形成具有不同粒度的综合数要求重新组织,形成具有不同粒度的综合数据层,这是数据仓库结构的一个方面。据层,这是数据仓库结构的一个方面。
6、数据仓库还需要对其中存储的数据进行操纵、数据仓库还需要对其中存储的数据进行操纵、管理等,以支持决策,这是数据仓库结构的管理等,以支持决策,这是数据仓库结构的另一方面。另一方面。北邮计算机学院:王小茹北邮计算机学院:王小茹(1)数据仓库的自顶向下结构)数据仓库的自顶向下结构北邮计算机学院:王小茹北邮计算机学院:王小茹自顶向下结构自顶向下结构 这种结构开始于对原始数据的处理。这种结构开始于对原始数据的处理。包括抽取、转换、迁移等处理过程,用于将传统数据库或外包括抽取、转换、迁移等处理过程,用于将传统数据库或外部数据源的数据处理后输出到一个集中的数据驻留单元。部数据源的数据处理后输出到一个集中的数据
7、驻留单元。随后,数据和元数据装载进入数据仓库。随后,数据和元数据装载进入数据仓库。一旦这些过程完成,就可根据数据仓库所包含的各种数据来建一旦这些过程完成,就可根据数据仓库所包含的各种数据来建立数据集市。立数据集市。在数据仓库中不但包含全部的元数据、当前详细数据,同时在数据仓库中不但包含全部的元数据、当前详细数据,同时还存储详尽的历史数据。还存储详尽的历史数据。数据集市则拥有轻度和高度综合的数据及元数据。数据集市则拥有轻度和高度综合的数据及元数据。北邮计算机学院:王小茹北邮计算机学院:王小茹发展状况发展状况在自顶向下的结构中,数据仓库普遍采用实体在自顶向下的结构中,数据仓库普遍采用实体关系关系(
8、Entity Relationship,E-R)数据模型,数据模型,而数据集市则采用星形数据模型来提高性能。而数据集市则采用星形数据模型来提高性能。只要能满足数据集市是作为数据仓库子集的这只要能满足数据集市是作为数据仓库子集的这条原则,数据仓库和数据集市间的集成就能自条原则,数据仓库和数据集市间的集成就能自动完成。动完成。这种模式要求首先建立数据仓库,但是由于数这种模式要求首先建立数据仓库,但是由于数据仓库建设规模较大,实施周期长,费用高,据仓库建设规模较大,实施周期长,费用高,初期效果并不明显,甚至最终失败,致使许多初期效果并不明显,甚至最终失败,致使许多企业不愿或无法承受。企业不愿或无法承
9、受。北邮计算机学院:王小茹北邮计算机学院:王小茹2.数据仓库的自底向上的结构数据仓库的自底向上的结构北邮计算机学院:王小茹北邮计算机学院:王小茹数据仓库的自底向上的结构数据仓库的自底向上的结构 基于上述情况,一种自底向上建设多级数据仓库的基于上述情况,一种自底向上建设多级数据仓库的思想也就产生了,即建立数据集市的思想。思想也就产生了,即建立数据集市的思想。这种思想的核心是从最关键的部分开始,先以最少这种思想的核心是从最关键的部分开始,先以最少的投资,完成企业当前需求,获得最快的回报,然后的投资,完成企业当前需求,获得最快的回报,然后再不断扩充,不断完善、通过从小做起、从部分做起,再不断扩充,不
10、断完善、通过从小做起、从部分做起,走逐步集成、逐步完善的道路,最终建立全局数据仓走逐步集成、逐步完善的道路,最终建立全局数据仓库。库。这种结构有助于部门级管理人员合理安排预算和及这种结构有助于部门级管理人员合理安排预算和及时采用新的数据仓库技术来产生合乎自己角色的专门时采用新的数据仓库技术来产生合乎自己角色的专门应用。自底向上的结构逐渐为人们所认同。应用。自底向上的结构逐渐为人们所认同。北邮计算机学院:王小茹北邮计算机学院:王小茹数据仓库的构建过程数据仓库的构建过程自底向上结构的核心是通过独立开发的数据集市逐渐自底向上结构的核心是通过独立开发的数据集市逐渐构建数据仓库。构建数据仓库。这种结构的
11、流程从建立数据集市的抽取、转换、转移这种结构的流程从建立数据集市的抽取、转换、转移和装载过程开始,在这些过程中,不需要一个通用的和装载过程开始,在这些过程中,不需要一个通用的数据驻留单元,因为每个数据集市都可能有自己独立数据驻留单元,因为每个数据集市都可能有自己独立的存储区域,甚至每个数据集市的数据抽取、转换、的存储区域,甚至每个数据集市的数据抽取、转换、转移和装载的工具都可能不同。转移和装载的工具都可能不同。北邮计算机学院:王小茹北邮计算机学院:王小茹自底向上自底向上 VS 自定向上自定向上从集成的角度来看,自底向上与自顶向下结构的最大差异在于:从集成的角度来看,自底向上与自顶向下结构的最大
12、差异在于:前者不需要为创建数据集市而具备通用的元数据部件。前者不需要为创建数据集市而具备通用的元数据部件。北邮计算机学院:王小茹北邮计算机学院:王小茹2.1.2 数据集市数据集市数据仓库在管理、决策组织中的作用逐渐为人们认同,数据仓库在管理、决策组织中的作用逐渐为人们认同,但是在全组织范围内构建数据仓库的工作量大、代价很但是在全组织范围内构建数据仓库的工作量大、代价很高。高。一方面,如何满足组织中不同层次管理决策要求是一个一方面,如何满足组织中不同层次管理决策要求是一个需要解决的复杂问题;需要解决的复杂问题;另一方面,在实施过程中由于很难全面了解组织管理决另一方面,在实施过程中由于很难全面了解
13、组织管理决策要求,易造成项目进度拖延,建成的数据仓库起不到策要求,易造成项目进度拖延,建成的数据仓库起不到应有的作用,因此导致失败的例子也不鲜见。应有的作用,因此导致失败的例子也不鲜见。提出了数据集市提出了数据集市(Data Mart)的概念。的概念。北邮计算机学院:王小茹北邮计算机学院:王小茹什么是数据集市什么是数据集市数据仓库在全组织范围内为各个部门提供管理、决策支持,数据仓库在全组织范围内为各个部门提供管理、决策支持,而数据集市通常在部门级,一般只能为某个局部范围内的管而数据集市通常在部门级,一般只能为某个局部范围内的管理人员服务,理人员服务,因此也称之为部门级数据仓库因此也称之为部门级
14、数据仓库.(Department Data Warehouse)数据集市是指具有特定应用的数据仓库,主要针对某个具有数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或具体部门级的应用,支持用户利用已有的战略意义的应用或具体部门级的应用,支持用户利用已有的数据进行管理决策。数据进行管理决策。北邮计算机学院:王小茹北邮计算机学院:王小茹数据集市的特点数据集市的特点数据集市除具有数据仓库的基本特征以外,还具有以数据集市除具有数据仓库的基本特征以外,还具有以下特点:下特点:规模较小,灵活,可以按照多种方式来组织,如按规模较小,灵活,可以按照多种方式来组织,如按特定的应用等。特定的应用
15、等。开发工作一般由业务部门主持定义、设计、实施、开发工作一般由业务部门主持定义、设计、实施、管理和维护。管理和维护。能够快速实现,代价较低,投资回收期短,风险小。能够快速实现,代价较低,投资回收期短,风险小。紧密集成。紧密集成。有利于进一步升级到完整的数据仓库或形成分布式有利于进一步升级到完整的数据仓库或形成分布式数据仓库。数据仓库。北邮计算机学院:王小茹北邮计算机学院:王小茹2.数据集市的类型数据集市的类型数据集市可以分为两种,一种是独立数据集市,另一数据集市可以分为两种,一种是独立数据集市,另一种是从属数据集市。种是从属数据集市。图图2-5a2-5a表示的是数据仓库的逻辑结构。表示的是数据
16、仓库的逻辑结构。其中的数据来自于各个不同数据源,把它们的操作数其中的数据来自于各个不同数据源,把它们的操作数据按照企业数据仓库物理模型结构的定义转换过来。据按照企业数据仓库物理模型结构的定义转换过来。采用这种中央数据仓库的做法,可以保证数据的一致采用这种中央数据仓库的做法,可以保证数据的一致性。性。北邮计算机学院:王小茹北邮计算机学院:王小茹图图2-5b2-5b表示的是从属数据集市的逻辑结构,这种结构表示的是从属数据集市的逻辑结构,这种结构仍能保持数据的一致性。仍能保持数据的一致性。为那些访问数据仓库十分频繁的关键业务部门建立从为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可
17、以很好地提高查询的反应速度。属的数据集市,这样可以很好地提高查询的反应速度。北邮计算机学院:王小茹北邮计算机学院:王小茹北邮计算机学院:王小茹北邮计算机学院:王小茹图图2-5c描述了独立数据集市的逻辑结构,它的描述了独立数据集市的逻辑结构,它的数据直接来源于各生产系统。数据直接来源于各生产系统。许多企业在计划实施数据仓库时,往往出于投许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成的就是这种结构的独资方面的考虑,最后建成的就是这种结构的独立数据集市,用来解决个别部门比较迫切的决立数据集市,用来解决个别部门比较迫切的决策问题。策问题。它和企业数据仓库除了在数据量大小和服务对它和企业
18、数据仓库除了在数据量大小和服务对象上有所区别外,逻辑结构并无多大区别象上有所区别外,逻辑结构并无多大区别(也也许这是把数据集市称为部门数据仓库的主要原许这是把数据集市称为部门数据仓库的主要原因因)。北邮计算机学院:王小茹北邮计算机学院:王小茹3企业级数据集市结构企业级数据集市结构 尽管自底向上结构也存在许多缺点,但它基尽管自底向上结构也存在许多缺点,但它基于数据集市构建数据仓库的由小到大,由部分于数据集市构建数据仓库的由小到大,由部分到整体的思想给后来者很大的启发。到整体的思想给后来者很大的启发。自底向上结构的支持者对原有的技术和方案进自底向上结构的支持者对原有的技术和方案进行调整,发展成了如
19、图行调整,发展成了如图2-6所示的企业级数据所示的企业级数据集市结构集市结构(Enterprise Data Mart Architecture,EDMA)。北邮计算机学院:王小茹北邮计算机学院:王小茹北邮计算机学院:王小茹北邮计算机学院:王小茹2.2 数据仓库中的数据数据仓库中的数据数据仓库系统通常由数据仓库、管理部分和分数据仓库系统通常由数据仓库、管理部分和分析工具三个部分组成析工具三个部分组成.北邮计算机学院:王小茹北邮计算机学院:王小茹1 1数据仓库组成:仓库管理数据仓库组成:仓库管理数据仓库的数据来自多个数据源,包括企业内部数据和市场调查与分析的外部数据。数据仓库的数据来自多个数据源
20、,包括企业内部数据和市场调查与分析的外部数据。数据仓库管理部分的组成包括:数据仓库管理部分的组成包括:定义部件。这一部件用于定义和建立数据仓库系统。定义部件。这一部件用于定义和建立数据仓库系统。数据建模是建立数据仓库的数据模型。数据建模是建立数据仓库的数据模型。数据仓库的数据模型不同于数据库的数据模型在于:数据仓库的数据模型不同于数据库的数据模型在于:数据仓库只为决策分析用,不包含事务处理的数据。数据仓库只为决策分析用,不包含事务处理的数据。数据仓库的增加了时间属性数据。数据仓库的增加了时间属性数据。数据仓库增加了一些综合数据。数据仓库增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的
21、逻辑数据模型。数据仓库的数据建模是适应决策用户使用的逻辑数据模型。北邮计算机学院:王小茹北邮计算机学院:王小茹数据仓库组成:数据获取部件数据仓库组成:数据获取部件数据获取部件。数据获取部件。依据数据定义部件定义的规则从数据源中将数据抽取到数据仓库中,完成清洗、依据数据定义部件定义的规则从数据源中将数据抽取到数据仓库中,完成清洗、变换和集成工作,将数据装载到数据仓库中,定期清理数据仓库,消除数据仓变换和集成工作,将数据装载到数据仓库中,定期清理数据仓库,消除数据仓库与源数据库的不一致,清除失效数据等。可以通过一些通用工具完成,但是库与源数据库的不一致,清除失效数据等。可以通过一些通用工具完成,但
22、是由于数据源中的数据类型、格式非常复杂,因此有些情况下需要编制特定的工由于数据源中的数据类型、格式非常复杂,因此有些情况下需要编制特定的工具完成数据获取工作。具完成数据获取工作。数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模型的要求装载到数据仓库中去。数据抽取、转换、装载(ETL)是建立数据仓库的重要步骤,需要花费开发数据仓库70%的工作量。北邮计算机学院:王小茹北邮计算机学院:王小茹数据仓库组成:管理和元数据管理部件数据仓库组成:管理和元数据管理部件管理部件。主要包括对数据仓库中数据的维护、安全、备份、恢复、管理部件。主要包括对数据仓库
23、中数据的维护、安全、备份、恢复、日志等工作。这些工作需要借助数据库管理系统的功能实现。日志等工作。这些工作需要借助数据库管理系统的功能实现。元数据管理,也可称为信息目录管理。它主要完成元数据的管理、存元数据管理,也可称为信息目录管理。它主要完成元数据的管理、存储以及对整个数据仓库数据的检测和管理。储以及对整个数据仓库数据的检测和管理。由以下部分组成:由以下部分组成:技术元数据。技术元数据由关于数据源、目标、转换规则、清理规则技术元数据。技术元数据由关于数据源、目标、转换规则、清理规则以及数据源与数据仓库之间的映射组成。以及数据源与数据仓库之间的映射组成。业务目录。业务目录由数据仓库管理员生成,
24、由数据来源、当前值等业务目录。业务目录由数据仓库管理员生成,由数据来源、当前值等方面组成,是针对具体应用数据的元数据管理。方面组成,是针对具体应用数据的元数据管理。北邮计算机学院:王小茹北邮计算机学院:王小茹元数据管理,也可称为信息目录管理。它主要完成元数元数据管理,也可称为信息目录管理。它主要完成元数据的管理、存储以及对整个数据仓库数据的检测和管理。据的管理、存储以及对整个数据仓库数据的检测和管理。由以下部分组成:由以下部分组成:技术元数据。技术元数据由关于数据源、目标、转换规技术元数据。技术元数据由关于数据源、目标、转换规则、清理规则以及数据源与数据仓库之间的映射组成。则、清理规则以及数据
展开阅读全文