数据库课件:第八讲 数据仓库理论概述.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据库课件:第八讲 数据仓库理论概述.ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据库课件:第八讲 数据仓库理论概述 数据库 课件 第八 数据仓库 理论 概述
- 资源描述:
-
1、第八讲 数据仓库理论概述一、数据仓库的定义二、数据仓库的体系结构三、数据仓库的数据模型与数据组织数据仓库的数据模型与数据组织四、数据仓库的粒度和聚集模型四、数据仓库的粒度和聚集模型五、数据仓库的设计五、数据仓库的设计一.数据仓库的定义数据仓库的定义 Data Warehouse 数据仓库用来保存从多个数据库或其它信息源选取的数据仓库用来保存从多个数据库或其它信息源选取的数据数据, 并为上层应用提供统一并为上层应用提供统一 用户接口,完成数据查询用户接口,完成数据查询和分析。和分析。 数据仓库是作为数据仓库是作为DSS服务基础的分析型服务基础的分析型DB,用来存放用来存放大容量的只读数据,为制定
2、决策提供所需要的信息。大容量的只读数据,为制定决策提供所需要的信息。 数据仓库是与操作型系统相分离的、基于标准企业模数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的型集成的、带有时间属性的、面向主题及不可更新的数据集合。数据集合。 W.H.Inmon对数据仓库所下的定义:数据仓库是面向对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。用以支持管理决策的过程。数据仓库中数据的特点数据仓库中数据的特点1. 面向主题面向主题主题:是一个抽象的概念,是在较高
3、层次上将主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑上,它对应于企业中某一利用的抽象。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。宏观分析领域所涉及的分析对象。面向主题的数据组织方式可在较高层次上对分面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个数据以及数据之间的联系,从而适应企业各个部门的业
4、务活动特点和企业数据的动态特征,部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。从根本上实现数据与应用的分离。数据仓库中数据的特点数据仓库中数据的特点2. 集成性集成性数据仓库中的数据是从原有分散的源数据库中数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起域,必须将这些来自不同数据源的数据集成起来,使之遵
5、循统一的编码规则。因此,数据仓来,使之遵循统一的编码规则。因此,数据仓库在提取数据时必须经过数据集成,消除源数库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质。供的信息更概括、更本质。 数据仓库中数据的特点数据仓库中数据的特点3. 非易失性非易失性数据仓库中的数据反映的是一段时间内历史数数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进
6、行统计、综合和重组的导以及基于撰写快照进行统计、综合和重组的导出数据,而不是联机处理的数据。主要供企业出数据,而不是联机处理的数据。主要供企业高层决策分析之用,所涉及的数据操作主要是高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作,即数据查询,一般情况下并不进行修改操作,即数据仓库中的数据是不可实时更新的,仅当超过规仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。取新的数据经集成后输入数据仓库。数据仓库中数据的特点数据仓库中数据的特点4. 时变性时变性时变性:许多商业
7、分析要求对发展趋势做出预时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉此数据仓库必须不断捕捉OLTP数据库中变化数据库中变化的数据,生成数据库的快照,经集成后增加到的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。且还需要按规定的时间段增加综合数据。数据仓库中数据的特点数据仓库中数据的特点5. 支持管理决策支持管理决
8、策数据仓库支持数据仓库支持OLAP(联机分析处理)、数据(联机分析处理)、数据挖掘和决策分析。挖掘和决策分析。OLAP从数据仓库中的综合数据出发,提供面从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测为基础,发现数据中的潜在模式和进行预测数据仓库的功能是支持管
9、理层进行科学决策,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。而不是事务处理。从数据库到数据仓库从数据库到数据仓库 数据库应用的规模和深度数据库应用的规模和深度点点 线线 面面 互联网互联网 在线分析处理在线分析处理(OLAP) 在线事务处理在线事务处理 决策支持决策支持(DS) (OLTP) 数据挖掘数据挖掘(Data Mining)事务型处理与分析型处理事务型处理与分析型处理事务型处理:即操作型处理,是指对数据库的事务型处理:即操作型处理,是指对数据库的联机操作处理。联机操作处理。事务型处理是用来协助企业对响应事件或事务事务型处理是用来协助企业对响应事件或事务的日常商务活动进行
10、处理。它是事件驱动、面的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、向应用的,通常是对一个或一组记录的增、删、改以及简单查询等。改以及简单查询等。事务型处理的应用程序和数据是紧紧围绕着所事务型处理的应用程序和数据是紧紧围绕着所管理的事件来构造的。管理的事件来构造的。在事务型处理环境中,数据库要求能支持日常在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。率高而每次操作处理的时间短。事务型处理与分析型处理事务型处理与分析型处理分析型处理:用于管理人员的决策分析,分
11、析型处理:用于管理人员的决策分析,例如例如DSS、 EIS、和多维分析等。它帮助、和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,分析型处理经常要访问大量的历史数据,支持复杂的查询。在分析型处理中,并不支持复杂的查询。在分析型处理中,并不是对从事务型处理环境是对从事务型处理环境 中得到的细节数中得到的细节数据进行分析。据进行分析。分析型处理过程中经常用到外部数据,这分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。而是来自于其他外部
12、数据源。事务型处理数据和分析型处理数据事务型处理数据和分析型处理数据的区别的区别数据仓库的发展数据仓库的发展 自从自从NCR公司为公司为Wal Mart建立了第一个数据仓库。建立了第一个数据仓库。 1996年,加拿大的年,加拿大的IDC公司调查了公司调查了62家实现了数据仓库的家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。欧美企业,结果表明:数据仓库为企业提供了巨大的收益。 早期的数据仓库大都采用当时流行的客户早期的数据仓库大都采用当时流行的客户/服务器结构。服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构近年来分布式对象技术飞速发展,整个数据仓库体系结构
13、从功能上划分为若干个分布式对象,这些分布式对象不仅从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。提供调用的接口。 IBM的实验室在数据仓库方面已经进行了的实验室在数据仓库方面已经进行了10多年的研究,多年的研究,并将研究成果发展成为商用产品。并将研究成果发展成为商用产品。 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。方案。数据仓库的发展数据仓库的发展 IBM: 在其在其DB2UDB发布一年后的发布一年后的1998年
14、年9月发布月发布5.2版,版,并于并于1998年年12月推向中国市场,除了用于月推向中国市场,除了用于OLAP(联机分(联机分析处理)的后台服务器析处理)的后台服务器DB2 OLAP Server外,外,IBM还提还提供了一系列相关的产品,包括前端工具,形成一整套解决供了一系列相关的产品,包括前端工具,形成一整套解决方案。方案。 Informix公司公司: 在其动态服务器在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件)中提供一系列相关选件,如高级决策支持选件(Advanced Decision Support Option)、)、
15、OLAP选件选件(MetaCube ROLAP Option)、扩展并行选件)、扩展并行选件(Extended Parallel Option)等,这种体系结构严谨、)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库查询的据仓库和数据库查询的SQL语句的一致性使得用户开发更语句的一致性使得用户开发更加简便。加简便。数据仓库的发展数据仓库的发展 微软公司微软公司: 在其在其SQL Server7.0以及以及SQL Server2000中集中集成了代号为成了代号为Plato的的OLAP服务器。服务器。 Syba
16、se: 提供了专门的提供了专门的OLAP服务器服务器Sybase IQ,并将其,并将其与数据仓库相关工具打包成与数据仓库相关工具打包成Warehouse Studio 。 PLATINUM: 提出了由提出了由InfoPump(数据仓库建模与数据(数据仓库建模与数据加载工具)和加载工具)和Forest&Trees(前端报表工具)构成的一(前端报表工具)构成的一套较有特色的整体方案。套较有特色的整体方案。 ; Oracle公司公司: 则推出从数据仓库构建、则推出从数据仓库构建、OLAP到数据集市到数据集市管理等一系列产品包(如管理等一系列产品包(如Oracle Warehouse Builder、
17、Oracle Express、DataMart Suit等)。等)。 二. 数据仓库的体系结构数据仓库的体系结构 从数据仓库的概念结构看,应该包含:数据源、数据准备从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据集市区、数据仓库数据库、数据集市/ /知识挖掘库以及各种管知识挖掘库以及各种管理工具和应用工具。理工具和应用工具。 数据源数据源业务系统业务系统外部数外部数据源据源数数据据准准备备区区数数据据仓仓库库数数据据库库应用工具应用工具管理工具管理工具数据数据集市集市/知识知识挖掘挖掘库库应用工具应用工具数据数据集市集市/知识知识挖掘挖掘库库图图1.1 1.1 数据仓
18、库的概念结构数据仓库的概念结构虚拟数据仓库结构虚拟数据仓库结构 虚拟数据仓库利用描述了业务系统中数据虚拟数据仓库利用描述了业务系统中数据位置和抽取数据算法的元数据直接从业务位置和抽取数据算法的元数据直接从业务系统中抽取查询的数据进行概括、聚合操系统中抽取查询的数据进行概括、聚合操作后,将最终结果提供给用户作后,将最终结果提供给用户 用户图1.2 虚拟数据仓库结构数据仓库查询管理服务器业务系统数据库 数据仓库查询管理服务器业务系统数据库主题1主题2数据集市结构 数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库。系统的数据不存储在同一数据仓库中,每个主
19、题有自己的物理存储区。单一数据仓库结构 将所有的主题都集中到一个大型数据库中的体系结构。数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。业务系统数据库数据仓库数据集市1数据集市2数据仓库查询管理服务器 站点A 站点B 站点C 站点D全局数据仓库局部数据仓库局部数据仓库局部数据仓库局部数据仓库总部分布式数据仓库结构 在企业各个分公司具有相当大的独立性时,企业总部设置一个全局数据仓库,各个分公司设置各自的局部数据仓库。局部数据仓库主要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过转换的综合数据数据仓库的参照结构数据仓库的参照结构
20、 三层三层 数据仓库的基本功能包含:数据抽取,数据筛选、清理,清数据仓库的基本功能包含:数据抽取,数据筛选、清理,清理后的数据加载,设立数据集市,完成数据仓库的查询、决理后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。策分析和知识的挖掘等操作。 数据仓库的管理层分成数据管理与元数据管理两部分,主要数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理。操作进行管理。 数据仓库环境支持层包含数据传输和数据仓库基础两部分。数据仓库环境支持层包含数据传输和数据
21、仓库基础两部分。数据仓库基本功能层数据仓库基本功能层数据仓库管理层数据仓库管理层数据仓库环境支持层数据仓库环境支持层数据仓库基本功能层 数据来源主要包含:业务数据、历史数据、办公数据、数据来源主要包含:业务数据、历史数据、办公数据、Web数据、外部数据以及数据源元数据数据、外部数据以及数据源元数据 数据准备区的功能结构部分由数据标准化处理、数据的过数据准备区的功能结构部分由数据标准化处理、数据的过滤与匹配、数据的净化处理、标明数据的时间戳、确认数滤与匹配、数据的净化处理、标明数据的时间戳、确认数据质量与元数据抽取和创建等操作组成据质量与元数据抽取和创建等操作组成 数据仓库的功能结构部分由数据重
22、整和数据仓库创建以及数据仓库的功能结构部分由数据重整和数据仓库创建以及元数据管理组成元数据管理组成 数据集市数据集市/知识挖掘库的功能结构与数据仓库的功能结构知识挖掘库的功能结构与数据仓库的功能结构极为相似,主要为数据仓库的最终用户提供进行决策分析极为相似,主要为数据仓库的最终用户提供进行决策分析和挖掘知识的功能。和挖掘知识的功能。 数据仓库的数据存取与使用结构应该包含数据仓库存取与数据仓库的数据存取与使用结构应该包含数据仓库存取与检索、元数据管理以及数据仓库分析与报告检索、元数据管理以及数据仓库分析与报告数据源数据准备区数据仓库结构 数据集市/知识挖掘库存取与使用数据仓库的管理层 数据管理层
23、中的数据抽取、新数据需求与查询管理主要负数据管理层中的数据抽取、新数据需求与查询管理主要负责完成从数据源中抽取数据的管理。责完成从数据源中抽取数据的管理。 数据仓库中的数据加载、存储、刷新和更新系统则负责对数据仓库中的数据加载、存储、刷新和更新系统则负责对从数据源中所抽取的数据在完成筛选、净化处理以后,将从数据源中所抽取的数据在完成筛选、净化处理以后,将这些数据加载、存储到数据仓库中;捕获数据源中的数据这些数据加载、存储到数据仓库中;捕获数据源中的数据变化,用最新数据充实数据仓库;根据用户的需求和数据变化,用最新数据充实数据仓库;根据用户的需求和数据仓库管理的要求对数据仓库进行更新等工作。仓库
24、管理的要求对数据仓库进行更新等工作。 安全性与用户授权管理系统主要负责数据仓库的安全管理安全性与用户授权管理系统主要负责数据仓库的安全管理工作。工作。 数据仓库的数据归档、恢复及净化系统主要负责定期对数数据仓库的数据归档、恢复及净化系统主要负责定期对数据仓库中的数据进行归档、备份。净化系统则负责对从数据仓库中的数据进行归档、备份。净化系统则负责对从数据源所抽取的数据进行数据的筛选、数据标准的统一、数据源所抽取的数据进行数据的筛选、数据标准的统一、数据内容的统一等各种求精、重整净化工作的管理。据内容的统一等各种求精、重整净化工作的管理。数据抽取与新数数据抽取与新数据需求与查询据需求与查询管理管理
25、数据加载、存储、数据加载、存储、刷新和更新系刷新和更新系统统安全性与用户授安全性与用户授权管理系统权管理系统数据归档、恢复数据归档、恢复及净化系统及净化系统数据仓库的元数据管理层 负责管理数据仓库所使用的元数据,其负责管理数据仓库所使用的元数据,其中包括:中包括: 数据仓库、数据集市数据仓库、数据集市/知识挖掘库和词汇表管理知识挖掘库和词汇表管理 元数据抽取、创建、存储和更新管理元数据抽取、创建、存储和更新管理 预定义的查询和报表以及索引管理预定义的查询和报表以及索引管理 刷新与复制管理,登录、归档、恢复与净化管刷新与复制管理,登录、归档、恢复与净化管理理数据仓库、数数据仓库、数据集市和词汇据
展开阅读全文