书签 分享 收藏 举报 版权申诉 / 48
上传文档赚钱

类型数据库课件:第八讲 数据仓库理论概述.ppt

  • 上传人(卖家):罗嗣辉
  • 文档编号:2040557
  • 上传时间:2022-01-19
  • 格式:PPT
  • 页数:48
  • 大小:526.50KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《数据库课件:第八讲 数据仓库理论概述.ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据库课件:第八讲 数据仓库理论概述 数据库 课件 第八 数据仓库 理论 概述
    资源描述:

    1、第八讲 数据仓库理论概述一、数据仓库的定义二、数据仓库的体系结构三、数据仓库的数据模型与数据组织数据仓库的数据模型与数据组织四、数据仓库的粒度和聚集模型四、数据仓库的粒度和聚集模型五、数据仓库的设计五、数据仓库的设计一.数据仓库的定义数据仓库的定义 Data Warehouse 数据仓库用来保存从多个数据库或其它信息源选取的数据仓库用来保存从多个数据库或其它信息源选取的数据数据, 并为上层应用提供统一并为上层应用提供统一 用户接口,完成数据查询用户接口,完成数据查询和分析。和分析。 数据仓库是作为数据仓库是作为DSS服务基础的分析型服务基础的分析型DB,用来存放用来存放大容量的只读数据,为制定

    2、决策提供所需要的信息。大容量的只读数据,为制定决策提供所需要的信息。 数据仓库是与操作型系统相分离的、基于标准企业模数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的型集成的、带有时间属性的、面向主题及不可更新的数据集合。数据集合。 W.H.Inmon对数据仓库所下的定义:数据仓库是面向对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。用以支持管理决策的过程。数据仓库中数据的特点数据仓库中数据的特点1. 面向主题面向主题主题:是一个抽象的概念,是在较高

    3、层次上将主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑上,它对应于企业中某一利用的抽象。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。宏观分析领域所涉及的分析对象。面向主题的数据组织方式可在较高层次上对分面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个数据以及数据之间的联系,从而适应企业各个部门的业

    4、务活动特点和企业数据的动态特征,部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。从根本上实现数据与应用的分离。数据仓库中数据的特点数据仓库中数据的特点2. 集成性集成性数据仓库中的数据是从原有分散的源数据库中数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起域,必须将这些来自不同数据源的数据集成起来,使之遵

    5、循统一的编码规则。因此,数据仓来,使之遵循统一的编码规则。因此,数据仓库在提取数据时必须经过数据集成,消除源数库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质。供的信息更概括、更本质。 数据仓库中数据的特点数据仓库中数据的特点3. 非易失性非易失性数据仓库中的数据反映的是一段时间内历史数数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进

    6、行统计、综合和重组的导以及基于撰写快照进行统计、综合和重组的导出数据,而不是联机处理的数据。主要供企业出数据,而不是联机处理的数据。主要供企业高层决策分析之用,所涉及的数据操作主要是高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作,即数据查询,一般情况下并不进行修改操作,即数据仓库中的数据是不可实时更新的,仅当超过规仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。取新的数据经集成后输入数据仓库。数据仓库中数据的特点数据仓库中数据的特点4. 时变性时变性时变性:许多商业

    7、分析要求对发展趋势做出预时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉此数据仓库必须不断捕捉OLTP数据库中变化数据库中变化的数据,生成数据库的快照,经集成后增加到的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。且还需要按规定的时间段增加综合数据。数据仓库中数据的特点数据仓库中数据的特点5. 支持管理决策支持管理决

    8、策数据仓库支持数据仓库支持OLAP(联机分析处理)、数据(联机分析处理)、数据挖掘和决策分析。挖掘和决策分析。OLAP从数据仓库中的综合数据出发,提供面从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测为基础,发现数据中的潜在模式和进行预测数据仓库的功能是支持管

    9、理层进行科学决策,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。而不是事务处理。从数据库到数据仓库从数据库到数据仓库 数据库应用的规模和深度数据库应用的规模和深度点点 线线 面面 互联网互联网 在线分析处理在线分析处理(OLAP) 在线事务处理在线事务处理 决策支持决策支持(DS) (OLTP) 数据挖掘数据挖掘(Data Mining)事务型处理与分析型处理事务型处理与分析型处理事务型处理:即操作型处理,是指对数据库的事务型处理:即操作型处理,是指对数据库的联机操作处理。联机操作处理。事务型处理是用来协助企业对响应事件或事务事务型处理是用来协助企业对响应事件或事务的日常商务活动进行

    10、处理。它是事件驱动、面的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、向应用的,通常是对一个或一组记录的增、删、改以及简单查询等。改以及简单查询等。事务型处理的应用程序和数据是紧紧围绕着所事务型处理的应用程序和数据是紧紧围绕着所管理的事件来构造的。管理的事件来构造的。在事务型处理环境中,数据库要求能支持日常在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。率高而每次操作处理的时间短。事务型处理与分析型处理事务型处理与分析型处理分析型处理:用于管理人员的决策分析,分

    11、析型处理:用于管理人员的决策分析,例如例如DSS、 EIS、和多维分析等。它帮助、和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,分析型处理经常要访问大量的历史数据,支持复杂的查询。在分析型处理中,并不支持复杂的查询。在分析型处理中,并不是对从事务型处理环境是对从事务型处理环境 中得到的细节数中得到的细节数据进行分析。据进行分析。分析型处理过程中经常用到外部数据,这分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。而是来自于其他外部

    12、数据源。事务型处理数据和分析型处理数据事务型处理数据和分析型处理数据的区别的区别数据仓库的发展数据仓库的发展 自从自从NCR公司为公司为Wal Mart建立了第一个数据仓库。建立了第一个数据仓库。 1996年,加拿大的年,加拿大的IDC公司调查了公司调查了62家实现了数据仓库的家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。欧美企业,结果表明:数据仓库为企业提供了巨大的收益。 早期的数据仓库大都采用当时流行的客户早期的数据仓库大都采用当时流行的客户/服务器结构。服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构近年来分布式对象技术飞速发展,整个数据仓库体系结构

    13、从功能上划分为若干个分布式对象,这些分布式对象不仅从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。提供调用的接口。 IBM的实验室在数据仓库方面已经进行了的实验室在数据仓库方面已经进行了10多年的研究,多年的研究,并将研究成果发展成为商用产品。并将研究成果发展成为商用产品。 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。方案。数据仓库的发展数据仓库的发展 IBM: 在其在其DB2UDB发布一年后的发布一年后的1998年

    14、年9月发布月发布5.2版,版,并于并于1998年年12月推向中国市场,除了用于月推向中国市场,除了用于OLAP(联机分(联机分析处理)的后台服务器析处理)的后台服务器DB2 OLAP Server外,外,IBM还提还提供了一系列相关的产品,包括前端工具,形成一整套解决供了一系列相关的产品,包括前端工具,形成一整套解决方案。方案。 Informix公司公司: 在其动态服务器在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件)中提供一系列相关选件,如高级决策支持选件(Advanced Decision Support Option)、)、

    15、OLAP选件选件(MetaCube ROLAP Option)、扩展并行选件)、扩展并行选件(Extended Parallel Option)等,这种体系结构严谨、)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库查询的据仓库和数据库查询的SQL语句的一致性使得用户开发更语句的一致性使得用户开发更加简便。加简便。数据仓库的发展数据仓库的发展 微软公司微软公司: 在其在其SQL Server7.0以及以及SQL Server2000中集中集成了代号为成了代号为Plato的的OLAP服务器。服务器。 Syba

    16、se: 提供了专门的提供了专门的OLAP服务器服务器Sybase IQ,并将其,并将其与数据仓库相关工具打包成与数据仓库相关工具打包成Warehouse Studio 。 PLATINUM: 提出了由提出了由InfoPump(数据仓库建模与数据(数据仓库建模与数据加载工具)和加载工具)和Forest&Trees(前端报表工具)构成的一(前端报表工具)构成的一套较有特色的整体方案。套较有特色的整体方案。 ; Oracle公司公司: 则推出从数据仓库构建、则推出从数据仓库构建、OLAP到数据集市到数据集市管理等一系列产品包(如管理等一系列产品包(如Oracle Warehouse Builder、

    17、Oracle Express、DataMart Suit等)。等)。 二. 数据仓库的体系结构数据仓库的体系结构 从数据仓库的概念结构看,应该包含:数据源、数据准备从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据集市区、数据仓库数据库、数据集市/ /知识挖掘库以及各种管知识挖掘库以及各种管理工具和应用工具。理工具和应用工具。 数据源数据源业务系统业务系统外部数外部数据源据源数数据据准准备备区区数数据据仓仓库库数数据据库库应用工具应用工具管理工具管理工具数据数据集市集市/知识知识挖掘挖掘库库应用工具应用工具数据数据集市集市/知识知识挖掘挖掘库库图图1.1 1.1 数据仓

    18、库的概念结构数据仓库的概念结构虚拟数据仓库结构虚拟数据仓库结构 虚拟数据仓库利用描述了业务系统中数据虚拟数据仓库利用描述了业务系统中数据位置和抽取数据算法的元数据直接从业务位置和抽取数据算法的元数据直接从业务系统中抽取查询的数据进行概括、聚合操系统中抽取查询的数据进行概括、聚合操作后,将最终结果提供给用户作后,将最终结果提供给用户 用户图1.2 虚拟数据仓库结构数据仓库查询管理服务器业务系统数据库 数据仓库查询管理服务器业务系统数据库主题1主题2数据集市结构 数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库。系统的数据不存储在同一数据仓库中,每个主

    19、题有自己的物理存储区。单一数据仓库结构 将所有的主题都集中到一个大型数据库中的体系结构。数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。业务系统数据库数据仓库数据集市1数据集市2数据仓库查询管理服务器 站点A 站点B 站点C 站点D全局数据仓库局部数据仓库局部数据仓库局部数据仓库局部数据仓库总部分布式数据仓库结构 在企业各个分公司具有相当大的独立性时,企业总部设置一个全局数据仓库,各个分公司设置各自的局部数据仓库。局部数据仓库主要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过转换的综合数据数据仓库的参照结构数据仓库的参照结构

    20、 三层三层 数据仓库的基本功能包含:数据抽取,数据筛选、清理,清数据仓库的基本功能包含:数据抽取,数据筛选、清理,清理后的数据加载,设立数据集市,完成数据仓库的查询、决理后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。策分析和知识的挖掘等操作。 数据仓库的管理层分成数据管理与元数据管理两部分,主要数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理。操作进行管理。 数据仓库环境支持层包含数据传输和数据仓库基础两部分。数据仓库环境支持层包含数据传输和数据

    21、仓库基础两部分。数据仓库基本功能层数据仓库基本功能层数据仓库管理层数据仓库管理层数据仓库环境支持层数据仓库环境支持层数据仓库基本功能层 数据来源主要包含:业务数据、历史数据、办公数据、数据来源主要包含:业务数据、历史数据、办公数据、Web数据、外部数据以及数据源元数据数据、外部数据以及数据源元数据 数据准备区的功能结构部分由数据标准化处理、数据的过数据准备区的功能结构部分由数据标准化处理、数据的过滤与匹配、数据的净化处理、标明数据的时间戳、确认数滤与匹配、数据的净化处理、标明数据的时间戳、确认数据质量与元数据抽取和创建等操作组成据质量与元数据抽取和创建等操作组成 数据仓库的功能结构部分由数据重

    22、整和数据仓库创建以及数据仓库的功能结构部分由数据重整和数据仓库创建以及元数据管理组成元数据管理组成 数据集市数据集市/知识挖掘库的功能结构与数据仓库的功能结构知识挖掘库的功能结构与数据仓库的功能结构极为相似,主要为数据仓库的最终用户提供进行决策分析极为相似,主要为数据仓库的最终用户提供进行决策分析和挖掘知识的功能。和挖掘知识的功能。 数据仓库的数据存取与使用结构应该包含数据仓库存取与数据仓库的数据存取与使用结构应该包含数据仓库存取与检索、元数据管理以及数据仓库分析与报告检索、元数据管理以及数据仓库分析与报告数据源数据准备区数据仓库结构 数据集市/知识挖掘库存取与使用数据仓库的管理层 数据管理层

    23、中的数据抽取、新数据需求与查询管理主要负数据管理层中的数据抽取、新数据需求与查询管理主要负责完成从数据源中抽取数据的管理。责完成从数据源中抽取数据的管理。 数据仓库中的数据加载、存储、刷新和更新系统则负责对数据仓库中的数据加载、存储、刷新和更新系统则负责对从数据源中所抽取的数据在完成筛选、净化处理以后,将从数据源中所抽取的数据在完成筛选、净化处理以后,将这些数据加载、存储到数据仓库中;捕获数据源中的数据这些数据加载、存储到数据仓库中;捕获数据源中的数据变化,用最新数据充实数据仓库;根据用户的需求和数据变化,用最新数据充实数据仓库;根据用户的需求和数据仓库管理的要求对数据仓库进行更新等工作。仓库

    24、管理的要求对数据仓库进行更新等工作。 安全性与用户授权管理系统主要负责数据仓库的安全管理安全性与用户授权管理系统主要负责数据仓库的安全管理工作。工作。 数据仓库的数据归档、恢复及净化系统主要负责定期对数数据仓库的数据归档、恢复及净化系统主要负责定期对数据仓库中的数据进行归档、备份。净化系统则负责对从数据仓库中的数据进行归档、备份。净化系统则负责对从数据源所抽取的数据进行数据的筛选、数据标准的统一、数据源所抽取的数据进行数据的筛选、数据标准的统一、数据内容的统一等各种求精、重整净化工作的管理。据内容的统一等各种求精、重整净化工作的管理。数据抽取与新数数据抽取与新数据需求与查询据需求与查询管理管理

    25、数据加载、存储、数据加载、存储、刷新和更新系刷新和更新系统统安全性与用户授安全性与用户授权管理系统权管理系统数据归档、恢复数据归档、恢复及净化系统及净化系统数据仓库的元数据管理层 负责管理数据仓库所使用的元数据,其负责管理数据仓库所使用的元数据,其中包括:中包括: 数据仓库、数据集市数据仓库、数据集市/知识挖掘库和词汇表管理知识挖掘库和词汇表管理 元数据抽取、创建、存储和更新管理元数据抽取、创建、存储和更新管理 预定义的查询和报表以及索引管理预定义的查询和报表以及索引管理 刷新与复制管理,登录、归档、恢复与净化管刷新与复制管理,登录、归档、恢复与净化管理理数据仓库、数数据仓库、数据集市和词汇据

    26、集市和词汇表管理表管理元数据抽取、元数据抽取、创建、存储和创建、存储和更新管理更新管理预定义的查询、预定义的查询、报表和索引管报表和索引管理理刷新与刷新与复制管复制管理理登录、归档、登录、归档、恢复与净化恢复与净化管理管理数据仓库的环境支持层 数据传输层包含了:数据传输层包含了: 数据传输和传送网络数据传输和传送网络 客户客户/服务器代理和中间件服务器代理和中间件 复制系统复制系统 数据传输的安全保障系统数据传输的安全保障系统 数据传输和传送数据传输和传送网络网络客户客户/ /服务器代服务器代理和中间件理和中间件复制系统复制系统安全和保障系统安全和保障系统三三. 数据仓库的数据模型与数据组织数

    27、据仓库的数据模型与数据组织 数据仓库中的数据组织数据仓库中的数据组织高度综合级高度综合级轻度综合级轻度综合级当前综合级当前综合级早期细节级早期细节级多级数据多级数据物理模型物理模型数据仓库的数据模型 星型图模型星型图模型 物理数据模型物理数据模型概念模型概念模型逻辑模型逻辑模型面向用户的需求面向用户的需求细细 化化层层次次更详细的更详细的技术细节技术细节信息包图信息包图信息包图(概念模型) 信息包图:是数据仓库的数据模型的第一层或最高层。由信息包图:是数据仓库的数据模型的第一层或最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维于大多数商务数据是多维的,但传统的数据模型表示三维以上的

    28、数据有一定困难。而信息包图简化了这一过程并且以上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计多维信息包并与开发者和其他用户建立联系。允许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。人员思维模式的可视化表示。 工作:工作: 确定系统边界:决策类型、需要的信息、原始信息确定系统边界:决策类型、需要的信息、原始信息 确定主题域及其内容:主题域的公共键码、联系、属性组确定主题域及其内容:主题域的公共键码、联系、属性组 确定维度:如时间维、销售位置维、产品维、组

    29、别维等确定维度:如时间维、销售位置维、产品维、组别维等 确定类别:相应维的详细类别确定类别:相应维的详细类别 确定指标和事实:用于进行分析的数值化信息确定指标和事实:用于进行分析的数值化信息信息包图信息包:信息包: 维度维度类别类别空白信息包图样式空白信息包图样式指标和事实指标和事实信息包图例例试画出销售分析的信息包图。试画出销售分析的信息包图。解:首先根据销售分析的实际需求,确定信息包的维度、类解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实:别和指标与事实:(1)维度:包括日期维、销售地点维、销售产品维、年龄)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等

    30、。组别维、性别维等。(2)类别:确定各维的详细类别,如:日期维包括年)类别:确定各维的详细类别,如:日期维包括年(10)、季度()、季度(40)、月()、月(120)等类别,括号中的数字)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(分别指出各类别的数量;销售地点维包括国家(15)、区)、区域(域(45)、城市()、城市(280)、区()、区(880)、商店()、商店(2000)等)等类别,括号中的数字同样分别指出各类别的数量;类似地,类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。可以确定销售产品、年龄组别维、性别维等的详

    31、细类别。(3)指标和事实:确定用于进行分析的数值化信息,包括)指标和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。预测销售量、实际销售量和预测偏差等。销售分析的信息包图销售分析的信息包图日期日期销售地点销售地点销售产品销售产品年龄组别年龄组别性别性别年(10)国家(15)产品类(6)年龄组(8)性别组(2)季度(40)区域(45)产品组(48)月(120)城市(280)产品(240)区(880)商店(2000)指标和事实指标和事实: 预测销售量、实际销售量、预测偏差预测销售量、实际销售量、预测偏差信息包:信息包: 销售分析销售分析维度维度类别类别星型图模型(逻辑模

    32、型) 星型图:数据仓库的数据模型的第二层是向最终星型图:数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。与传统的数据结构添加某些细节的星型图模型。与传统的关系模型相比,星型图模型简化了用户分析所的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。更适合大量复杂查询。 星形图包括了三种逻辑实体:星形图包括了三种逻辑实体: 指标指标 维度维度 详细类别详细类别逻辑实体的表示逻辑实体的表示指标实体(事指标实体(事实实体)实实体)指标实体指标实体名名维度实维度实体名体名详细类详细类别实体

    33、别实体名名维度实维度实体体详细类别实详细类别实体 ( 引 用体 ( 引 用实体)实体) 星型图模型(逻辑模型)例例销售分析的星型图模型。销售分析的星型图模型。时间维时间维产品维产品维地区维地区维性别维性别维其他维其他维销售分析:销售分析: 实际销售实际销售 预测销售预测销售 预测偏差预测偏差雪花模型雪花模型(逻辑模型(逻辑模型) 事实表事实表维维度度表表维维度度表表维维度度表表维维度度表表维维度度表表详细详细类别类别表表详细详细类别类别表表物理数据模型 物理数据模型:数据模型的第三层,它是星型图模物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据型在数据仓

    34、库中的实现,如物理的存取方式、数据存储结构等。存储结构等。 在物理设计时,常常要按数据的重要程度、使用频在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。求低的数据则可以放在低速存储设备上。物理数据模型 虚拟存储方式:

    35、数据仓库数据的虚拟存储方式是指在数据虚拟存储方式:数据仓库数据的虚拟存储方式是指在数据仓库中实际上并没有具体的数据存储,数据仓库中的数据仓库中实际上并没有具体的数据存储,数据仓库中的数据仍然存储在源数据库中,只是根据用户的多维分析需求而仍然存储在源数据库中,只是根据用户的多维分析需求而形成多维视图,临时在源数据库中找出并提取所需要的数形成多维视图,临时在源数据库中找出并提取所需要的数据,完成多维分析。据,完成多维分析。 基于关系表的存储方式:基于关系表的存储方式是将数据基于关系表的存储方式:基于关系表的存储方式是将数据仓库的数据存储在关系型数据库的表结构中,在元数据的仓库的数据存储在关系型数据

    36、库的表结构中,在元数据的管理下完成数据仓库的功能。管理下完成数据仓库的功能。 多维数据库存储方式:多维数据库的组织方式是直接面向多维数据库存储方式:多维数据库的组织方式是直接面向OLAP分析操作的数据组织形式。这种数据库产品也比较分析操作的数据组织形式。这种数据库产品也比较多,实现方法也不尽相同。其数据组织采用多维数据结构多,实现方法也不尽相同。其数据组织采用多维数据结构文件进行存储,并有维索引及相应的元数据与其对应。文件进行存储,并有维索引及相应的元数据与其对应。四. 数据仓库的粒度和聚集模型数据仓库的粒度和聚集模型 粒度可定义成数据仓库中数据细节的最低层次,如事务层次。这种数据层次是高度细

    37、节化的,这样就能使用户按所需的任何层次进行汇总。 根据粒度的划分标准可以将数据划分为:详细数据、轻度总结、高度总结三级或更多级粒度。粒度的具体划分将直接影响到数据仓库中的数据量以及查询质量。 粒度级别粒度级别综合性综合性数据细节数据细节低(如事务)低(如事务)高(如汇总)高(如汇总)低低高高非常高非常高中等到低中等到低数据粒度的划分数据粒度的划分 第一步,是估算数据仓库中将来要使用的数据行数和所需的直接存取存储设备数。 每一个表的存储空间,应该是每一个表的数据存储空间和索引存储空间之和。一年数据五年数据数据量(行数)粒度划分策略数据量(行数)粒度划分策略10,000,000 1,000,000

    38、 100,000 10,000双重粒度并仔细设计双重粒度仔细设计不考虑20,000,00010,000,000 1,000,000 100,000双重粒度并仔细设计双重粒度仔细设计不考虑确定粒度的级别确定粒度的级别考虑因素:考虑因素: 要接受的分析类型、可接受的数据最低粒度和能存储的数要接受的分析类型、可接受的数据最低粒度和能存储的数据量。据量。 粒度的层次定义越高,就越不能在该仓库中进行更细致的粒度的层次定义越高,就越不能在该仓库中进行更细致的分析。分析。 在同一模式中使用多重粒度。在同一模式中使用多重粒度。 如果存储资源有一定的限制,就只能采用较高粒度的数据如果存储资源有一定的限制,就只能

    39、采用较高粒度的数据粒度划分策略。粒度划分策略。 粒度的确定实质上是业务决策分析、硬件、软件和数据仓粒度的确定实质上是业务决策分析、硬件、软件和数据仓库使用方法的一个折衷。库使用方法的一个折衷。 数据粒度划分策略一定要保证数据的粒度确实能够满足用数据粒度划分策略一定要保证数据的粒度确实能够满足用户的决策分析需要,这是数据粒度划分策略中最重要的一户的决策分析需要,这是数据粒度划分策略中最重要的一个准则。个准则。数据仓库的聚集模型确定数据仓库的聚集模型确定 聚集数据主要是为了使用户获得更好的查询性能聚集数据主要是为了使用户获得更好的查询性能 聚集模型设计时应该注意将聚集数据存储在其事聚集模型设计时应

    40、该注意将聚集数据存储在其事实表中,并与其底层数据相区别。实表中,并与其底层数据相区别。 设计聚集模型时,首先需要考虑用户的使用要求。设计聚集模型时,首先需要考虑用户的使用要求。 其次要考虑数据仓库的粒度模型和数据的统计分其次要考虑数据仓库的粒度模型和数据的统计分布情况。布情况。 数据仓库的聚集模型的设计与数据仓库的粒度模数据仓库的聚集模型的设计与数据仓库的粒度模型紧密相关型紧密相关 建立聚集模型时还需要考虑作为聚集属性的数量建立聚集模型时还需要考虑作为聚集属性的数量因素因素聚集模型的处理聚集模型的处理 聚集事实表已经独立存在并且可以与基本事实表聚集事实表已经独立存在并且可以与基本事实表一同保存

    41、一同保存 通过将当前加载数据添加到系统中的累积通过将当前加载数据添加到系统中的累积“桶桶”中中 将数据的聚集与数据仓库的加载过程组合为同一将数据的聚集与数据仓库的加载过程组合为同一处理过程处理过程 在将数据仓库数据加载以后,再进行聚集处理在将数据仓库数据加载以后,再进行聚集处理 每次在加载数据仓库数据时,都需要对各种聚集每次在加载数据仓库数据时,都需要对各种聚集进行计算和增加,及时保持聚集与基本数据的同进行计算和增加,及时保持聚集与基本数据的同步性步性 五. 数据仓库的设计数据仓库的设计 数据仓库是企业体系化环境的核心,它是建立决数据仓库是企业体系化环境的核心,它是建立决策支持系统的基础。策支

    42、持系统的基础。 一个企业在实施其数据仓库战略时,数据仓库体一个企业在实施其数据仓库战略时,数据仓库体系结构的选择是关系到数据仓库成功与否的关键系结构的选择是关系到数据仓库成功与否的关键问题。为了提高系统的效率和性能,数据仓库的问题。为了提高系统的效率和性能,数据仓库的数据内容、结构、粒度、分割以及其他物理设计数据内容、结构、粒度、分割以及其他物理设计需要根据用户所返回的信息不断地调整和完善,需要根据用户所返回的信息不断地调整和完善,而且数据仓库需要通过不断地理解用户的分析需而且数据仓库需要通过不断地理解用户的分析需求,向用户提供更准确、更有用的决策信息,所求,向用户提供更准确、更有用的决策信息

    43、,所以数据仓库对灵活性和扩展性有较高的要求,它以数据仓库对灵活性和扩展性有较高的要求,它的建立是一个动态、循环和反馈的过程。的建立是一个动态、循环和反馈的过程。 收集应用需求收集应用需求 分 析 应 用 需分 析 应 用 需求求 构建数据库构建数据库 数 据 仓 库数 据 仓 库建模建模 数据获取与集成数据获取与集成 构建数据仓库构建数据仓库 系统实施系统实施 应用编程应用编程 系统测试系统测试 DSS应用编应用编程程 系统测试系统测试 理解需求理解需求DB应 用应 用B应 用应 用ADBDB 外部外部数据数据DW SDLC方法方法 CLDS方法方法数据仓库的设计步骤数据仓库的设计步骤1. 高

    44、层设计(概念模型设计)高层设计(概念模型设计) 高层设计:主要考虑商业过程和商业需求的集成,将与目前商业高层设计:主要考虑商业过程和商业需求的集成,将与目前商业过程有关的信息和数据仓库试图实现的目标合并在一起,创建信息包过程有关的信息和数据仓库试图实现的目标合并在一起,创建信息包图。图。 创建信息包图的过程:分析用户需求,收集信息将信息打包的过创建信息包图的过程:分析用户需求,收集信息将信息打包的过程。程。 (1)分析用户需求(确定系统边界):)分析用户需求(确定系统边界):确定用户要做的决策类型确定用户要做的决策类型确定用户决策时需要的信息确定用户决策时需要的信息确定原始信息确定原始信息 (

    45、2)决定数据仓库所需要的信息的级别,采用多级信息包图)决定数据仓库所需要的信息的级别,采用多级信息包图 (3)定义关键性能指标(确定主要的主题域):)定义关键性能指标(确定主要的主题域):主题域的公共键码主题域的公共键码主题域间的联系主题域间的联系充分代表主题的属性充分代表主题的属性数据仓库的设计步骤数据仓库的设计步骤1.高层设计(概念模型设计)高层设计(概念模型设计) (4)定义维度:每一个维代表一个统一的访问数据仓库)定义维度:每一个维代表一个统一的访问数据仓库中信息的途径。这些维也定义了一个完整的主题分类,而中信息的途径。这些维也定义了一个完整的主题分类,而且这些分类将被用作支持主要指标

    46、的参考内容。在定义维且这些分类将被用作支持主要指标的参考内容。在定义维度时,一般只涉及信息的主要途径,不是企图涉及所有可度时,一般只涉及信息的主要途径,不是企图涉及所有可能的路径。能的路径。 (5)定义类别:类别提供了一个指定维的详细信息,它)定义类别:类别提供了一个指定维的详细信息,它们是一个集合层或一个维度体系。随着维度的定义,应该们是一个集合层或一个维度体系。随着维度的定义,应该进一步确定用户将怎样对详细信息进行检索,或者怎样聚进一步确定用户将怎样对详细信息进行检索,或者怎样聚集数据。集数据。 (6)创建信息包图)创建信息包图数据仓库的设计步骤数据仓库的设计步骤2. 中层设计(逻辑模型设

    47、计)中层设计(逻辑模型设计) 中层设计:中层设计:建立数据仓库的逻辑模型,对前期收集的信息的细化,对前期收集的信息的细化,将信息包图转换成星形图模型。将信息包图转换成星形图模型。(1)主要工作:)主要工作:定义指标实体。将信息包图中的内容放到星形图中,每个信息包图代表定义指标实体。将信息包图中的内容放到星形图中,每个信息包图代表一个完整的星和信息包。维度实体在指标实体中表示。一个完整的星和信息包。维度实体在指标实体中表示。定义维度实体。信息包图中的每一个维度实体位于星形图的星角上,它定义维度实体。信息包图中的每一个维度实体位于星形图的星角上,它以维度表的形式存在。随着维度实体在星形图上的定位,

    48、进一步定义它以维度表的形式存在。随着维度实体在星形图上的定位,进一步定义它与指标实体间的关系。与指标实体间的关系。定义详细类别实体。在一个简单的星形图模型中,指标实体被用于访问定义详细类别实体。在一个简单的星形图模型中,指标实体被用于访问的维度实体包围。但是在有的决策分析中仅仅知道指标值是不够的,需的维度实体包围。但是在有的决策分析中仅仅知道指标值是不够的,需要定义详细类别实体,将星型图模型转换为雪花图模型。要定义详细类别实体,将星型图模型转换为雪花图模型。(2)设计成果:)设计成果:适当的粒度划分适当的粒度划分合理的数据分割策略合理的数据分割策略适当的表划分适当的表划分定义适当的数据源定义适

    49、当的数据源数据仓库的设计步骤数据仓库的设计步骤3. 低层设计(物理数据模型设计)低层设计(物理数据模型设计) 低层设计阶段的任务:建立数据仓库的物理模型,确定数据仓库的低层设计阶段的任务:建立数据仓库的物理模型,确定数据仓库的存储结构、数据的存储位置和索引策略。存储结构、数据的存储位置和索引策略。(1)设计人员需要了解和考虑的问题:)设计人员需要了解和考虑的问题:所选用的数据库系统,特别是存储结构和存取方法;所选用的数据库系统,特别是存储结构和存取方法;数据环境、数据的使用频率、使用方式以及响应时间;数据环境、数据的使用频率、使用方式以及响应时间;存储设备的特性等。存储设备的特性等。(2)主要

    50、工作:)主要工作:确定数据的存储结构。不同的存储结构有不同的实现方式,应综合考虑确定数据的存储结构。不同的存储结构有不同的实现方式,应综合考虑存取时间、存取空间利用率和维护代价等因素,根据各种存储结构的优存取时间、存取空间利用率和维护代价等因素,根据各种存储结构的优缺点和适用范围选择合适的存储结构。缺点和适用范围选择合适的存储结构。确定数据的存储位置。对数据按照其重要程度、使用频率和对响应时间确定数据的存储位置。对数据按照其重要程度、使用频率和对响应时间的要求等进行分类,并将不同类别的数据存储在不同的存储设备中。设的要求等进行分类,并将不同类别的数据存储在不同的存储设备中。设置存储分配参数,对

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:数据库课件:第八讲 数据仓库理论概述.ppt
    链接地址:https://www.163wenku.com/p-2040557.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库