数据仓库设计与开发[1]课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据仓库设计与开发[1]课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 设计 开发 课件
- 资源描述:
-
1、2022-8-17第3章数据仓库设计与开发1第第3章数据仓库设计与开章数据仓库设计与开发发1第3章数据仓库设计与开发1教学目标 掌握数据仓库的设计和开发方法,包括数据模型的设计、粒度、维度设计以及数据仓库的开发步骤。第3章数据仓库设计与开发1教学要求知识要点能力要求相关知识点数据仓库的开发过程与方法(1)掌握数据仓库的开发过程(2)掌握数据仓库设计的内容与步骤(1)数据仓库开发的3个阶段(2)数据驱动的设计(3)数据模型设计的重点数据模型设计(1)掌握概念模型的设计(2)掌握逻辑模型的设计(3)掌握物理模型的设计(4)掌握粒度的设计原则(1)面向主题的E-R模型(2)星型模型和雪花模型(3)事
2、实表与维表(4)粒度数据仓库的构建掌握数据仓库构建的步骤(1)运行环境(2)实现技术(3)ETL(4)数据仓库的维护第3章数据仓库设计与开发1 引例:沃尔玛的数据仓库 沃尔玛利用NCR的Teradata可对7.5TB的数据进行存储,这些数据主要包括各个商店前端设备(POS、扫描仪)采集来的原始销售数据和各个商店的库存数。Teradata数据库里存有196亿条记录,每天要处理并更新2亿条记录,要对来自6000多个用户的4.8万条查询语句进行处理。销售数据、库存数据每天夜间从3000多个商店自动采集过来,并通过卫星线路传到总部的数据仓库里。沃尔玛数据仓库里最大的一张表格(Table)容量已超过30
3、0GB、存有50亿条记录,可容纳65个星期3000多个商店的销售数据,而每个商店有5万到8万个商品品种。利用数据仓库技术,沃尔玛对商品进行市场类组分析,即分析哪些商品顾客最有希望一起购买。第3章数据仓库设计与开发1思考:请你估计一下沃尔玛的数据仓库中一年的数据量有多大?沃尔玛的数据仓库是怎样建成的?第3章数据仓库设计与开发1本章内容 数据仓库的开发过程及特点 数据模型设计 数据仓库的粒度设计 创建数据仓库的基本步骤 第3章数据仓库设计与开发1数据仓库的开发过程及特点 按照生命周期发法可将数据仓库开发的全部过程分成三个阶段。(1)数据仓库规划分析阶段。(2)数据仓库设计实施阶段。(3)数据仓库的
4、使用维护阶段。这三个阶段不是简单的循环往复,而是不断完善提高的过程。一般情况下,数据仓库系统都不可能在一个循环过程中完成,而是经过多次循环开发,每次循环都会给系统增加新的功能,这种循环的工作永远不会终结,数据仓库也就一直处于一个不断完善、不断提高的循环过程中。第3章数据仓库设计与开发1数据仓库开发的生命周期 第3章数据仓库设计与开发1数据仓库开发的生命周期 1DW规划分析阶段 调查、分析DW环境,完成DW的开发规划,却定DW开发需求。建立包括实体图、星型模型、雪花模型、元数据模型及数据源分析的主题域数据模型,并且根据主题域数据模型开发DW逻辑模型。第3章数据仓库设计与开发1数据仓库开发的生命周
5、期2DW设计实施阶段 根据DW的逻辑模型设计DW体系结构;设计DW与物理数据库,用物理数据库元数据装载面向最终用户的元数据库;为DW中每个目标字段确定他在业务系统或外部数据源中的数据来源;开发或购买用于抽取、清洗、转换和聚合数据等中间件程序;将数据从数据源加载到DW,并且进行测试。第3章数据仓库设计与开发1数据仓库开发的生命周期3DW使用维护阶段 DW投入使用,且在使用中改进、维护DW;对DW进行评价,为下一个循环开发提供依据。第3章数据仓库设计与开发1DW开发的特点1数据仓库的开发是从数据出发的创建DW是在原有的数据库系统中的数据基础上进行的,我们称之为“数据驱动”。数据驱动设计方法的中心是
6、利用数据模型有效的识别原有的数据库中的数据和DW中主题的数据“共同性”。2DW使用的需求不能在开发初期完全明确在数据仓库环境中,并不存在固定的且较确切的物流、数据流、和信息流,数据分析处理的需求更加灵活,更没有固定的模式,甚至用户自己也对所要进行的分析处理不能事先全部确定3数据仓库的开发是一个不断循环的过程,是启发式的开发DW的开发是一个动态反馈和循环的过程,一方面DW的数据内容、结构、力度、分割以及其他物理设计应该根据用户所返回的信息不断的调整和完善,以提高系统的效率和性能;另一方面,通过不断理解用户的分析需求,不断的调整和完善,以求向用户提供更准确、更有效的决策信息。第3章数据仓库设计与开
7、发1思考 数据仓库的开发过程与数据库的开发过程有什么不同?为什么?第3章数据仓库设计与开发1数据仓库设计的主要内容 第3章数据仓库设计与开发1数据模型设计 DW数据模型具有如下特点。(1)去掉纯操作性数据。(2)给键码增加时间因素。(3)合适之处增加导出数据。(4)把OLTP系统中数据关系变为人工关系。DW数据模型源于OLTP系统数据模型以及企业数据模型 第3章数据仓库设计与开发1概念模型设计 1.设计方法在建模之前定义数据模型的边界,然后建立企业内不同群体的实体-联系模型,最后进行集成企业的总体概念模型。第3章数据仓库设计与开发1概念模型设计2.注意事项(1)在DW的数据模型中不包含操作性数
8、据,只包含用户感兴趣的分析数据、描述数据和细节数据。例:在商品销售分析DW模型中,商品的销售数量、金额、企业利润等是分析数据;销售的时间、地点等使用户感兴趣的描述数据;销售产品的详细情况、购买商品的客户详细情况等是细节数据。(2)数据的历史变迁性。DW的数据模型增加时间属性作为码的一部分(3)数据的概括性。DW的数据模型中增加了一些衍生数据,专门用于分析的DW系统需要一些概括性的数据,这些数据在业务处理系统的数据模型中是不需要的。例如,在销售管理的业务系统中的数据模型中,通常只需要记录当前细数据,而在数据仓库的数据模型中,需要保存一些统计、累加而来的综合数据。第3章数据仓库设计与开发1概念模型
9、设计3E-R图的描述方法(1)矩形。矩形表示实体,在数据仓库中表示主题,在矩形框内写上主题名。(2)椭圆形。椭圆形表示主题的属性,并用无向边把主题与其属性连接起来。(3)菱形。菱形表示主题之间的联系,菱形框内写上联系的名字。用无向边把菱形分别与有关的主题连接,在无向边旁标上联系的类型。若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。第3章数据仓库设计与开发1概念模型设计 某商场的商品、顾客和供应商之间的概念模型的E-R图 第3章数据仓库设计与开发1 逻辑模型设计 关系数据库一般采用二维数据表的形式来表示数据,一个维是行,另一个维是列,行和列的交叉处就是数据元素。关系数据的基础是关系
10、数据库模型,通过标准的SQL语言来加以实现。数据仓库是多维数据库,它扩展了关系数据库模型,以星形架构为主要结构方式的,并在它的基础上,扩展出理论雪花形架构和数据星座等方式,但不管是哪一种架构,维度表、事实表和事实表中的量度都是必不可少的组成要素。第3章数据仓库设计与开发1逻辑模型设计星形模型 星形模型是最常用的数据仓库设计结构的实现模式,它使数据仓库形成了一个集成系统,为最终用户提供报表服务,为用户提供分析服务对象。星形模式通过使用一个包含主题的事实表和多个包含事实的非正规化描述的维度表来支持各种决策查询。星形模型可以采用关系型数据库结构,模型的核心是事实表,围绕事实表的是维度表。通过事实表将
11、各种不同的维度表连接起来,各个维度表都连接到中央事实表。维度表中的对象通过事实表与另一维度表中的对象相关联,这样就能建立各个维度表对象之间的联系。每一个维度表通过一个主键与事实表进行连接。第3章数据仓库设计与开发1逻辑模型设计星形模型第3章数据仓库设计与开发1逻辑模型设计星形模型 事实表主要包含了描述特定商业事件的数据,即某些特定商业事件的度量值。一般情况下,事实表中的数据不允许修改,新的数据只是简单地添加进事实表中,维度表主要包含了存储在事实表中数据的特征数据。每一个维度表利用维度关键字通过事实表中的外键约束于事实表中的某一行,实现与事实表的关联,这就要求事实表中的外键不能为空,这与一般数据
12、库中外键允许为空是不同的。这种结构使用户能够很容易地从维度表中的数据分析开始,获得维度关键字,以便连接到中心的事实表,进行查询。第3章数据仓库设计与开发1逻辑模型设计星形模型 星形模型虽然是一个关系模型,但是它不是一个规范化的模型。在星形模式中,维度表被故意地非规范化了,这是星形模式与OLTP系统中关系模式的基本区别。使用星形模式主要有两方面的原因:一是可以提高查询的效率。采用星形模式设计的数据仓库的优点是由于数据的组织已经过预处理,主要数据都在庞大的事实表中,所以只要扫描事实表就可以进行查询,而不必把多个庞大的表联接起来,查询访问效率较高,同时由于维表一般都很小,甚至可以放在高速缓存中,与事
13、实表进行连接时其速度较快,便于用户理解;二是对于非计算机专业的用户而言,星形模式比较直观,通过分析星形模式,很容易组合出各种查询。第3章数据仓库设计与开发1逻辑模型设计星形模型 逻辑模型与实体-关系建模之间的关系 实体-联系图是代表企业中每一个可能的业务过程,一个实体-联系图可以拆分成多个维表、事实表构成的逻辑模型。将E-R图转换成维度建模时的步骤是:(1)将E-R图分成独立的业务处理,然后对每个业务处理单独建模。(2)在E-R图中,对包含数字型事实和可加性非码事实的实体,选择其中的多对多关系,并且将他们设计成各个事实表。(3)将剩下的实体进行非规范化处理,设计成为表。第3章数据仓库设计与开发
14、1星形模型基本设计技术(1)正确区分事实、属性和维度。维度模型需要对事实和属性进行区分,业务层的很多事实都是数值型的,特别是该数值是浮点数时,他很可能是一个事实,而不是属性。例如“标准价格”,好像是产品维度的一个属性,似乎是事先一致的常量,但每年对标准价格进行一、两次调整,因此应该设计成事实。属性通常指文本字段,例如产品描述。维度是类似于文本形式的属性组合,固定的数值型属性应放在维表中。例如,零售数据仓库中,至少应有一个产品维度,一个商店维度,一个客户维,一个时间维,一个促销维。第3章数据仓库设计与开发1星形模型基本设计技术(2)事实表的设计方法。事实表是数据仓库中最大的表,在设计时,一定注意
15、使事实表尽可能的小,因为过大的事实表在表的处理、备份和恢复、用户查询等方面要用较长的时间。具体方法主要有:减少列的数量;降低每列的大小;把历史数据存档;对行进行分割。例如,零售营销事实表设计如下:第3章数据仓库设计与开发1星形模型基本设计技术(3)维表的设计。维表的属性必须具有以下特征:可用文字描述;离散值;有规定的约束;在分析时可提供行标题。时间维在数据仓库中占有特定位置,建议使用时间维度。图3.6是零售业营销分析的星型模型图。第3章数据仓库设计与开发1星形模型基本设计技术 零售业营销分析的星型模型图第3章数据仓库设计与开发1逻辑模型设计雪花模型 雪花模型是对星形模型的扩展,每一个维度都可以
展开阅读全文