商务智能课件:第8章 数据仓库.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《商务智能课件:第8章 数据仓库.ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商务智能课件:第8章 数据仓库 商务 智能 课件
- 资源描述:
-
1、Principles and Applications of Business IntelligenceChap 8: 数据仓库 1Introduction to商务智能方法与应用第8章 数据仓库Chapter 8: Data WarehousingPrinciples and Applications of Business IntelligenceChap 8: 数据仓库 2主要内容 8.1 数据仓库的基本概念 8.2 数据仓库的体系结构 8.3 多维数据模型 8.4 数据仓库项目的开发Principles and Applications of Business Intelligence
2、Chap 8: 数据仓库 38.1 数据仓库的基本概念Principles and Applications of Business IntelligenceChap 8: 数据仓库 4构建数据仓库的动机 数据的积累.- 操作型系统(operational system):辅助企业业务运营的信息系统,极大地提高了企业的运营效率,是企业日常运作系统不可分割的组成部分- 传统的操作数据库系统是基于任务需求的联机事务处理和批处理,利用它可以将商业过程自动化,从而提高工作效率。同时也积累了数据 探索有价值的信息的需求- 只有自动化是不够的,效率不再是商场上取胜的唯一关键,灵活性和敏感性也是竞争中取胜的
3、重要因素。Principles and Applications of Business IntelligenceChap 8: 数据仓库 5现有系统存在的问题 信息系统的垂直分割 (象垂直的烟囱管) 应用(用户)驱动的操作型系统的开发销售管理财务生产.销售计划库存管理.供应商.债务管理.库存管理统一存取数据Integration System 收集并合并信息 提供集成的视图,统一的用户界面 支持共享WorldWideWebDigital LibrariesScientific DatabasesPersonalDatabasesPrinciples and Applications of B
4、usiness IntelligenceChap 8: 数据仓库 7解决方法1数据源数据源数据源. . .集成系统. . .元数据用户WrapperWrapperWrapperv基于查询驱动的方法 (lazy, on-demand)Principles and Applications of Business IntelligenceChap 8: 数据仓库 8基于查询驱动的方法 缺点- 查询处理的延迟有的信息源系统的查询处理本身慢复杂的过滤和数据集成- 对于频繁的查询效率低- 与各系统的操作环境竞争资源 优点Principles and Applications of Business In
5、telligenceChap 8: 数据仓库 9解决方案2:数据仓库用户数据源数据源数据源. . .Extractor/Monitor集成系统. . .元数据Extractor/MonitorExtractor/Monitorv数据事先集成到一起v集成的数据物理存放在数据仓库中,可以进行直接的查询和分析Principles and Applications of Business IntelligenceChap 8: 数据仓库 10数据仓库:优势 查询性能提高 与源数据所在系统隔离,因而不会妨碍源系统的性能- 在数据仓库中进行复杂的查询- 数据源所在系统进行联机事务处理 数据仓库中的数据-
6、对源数据进行一定的聚集运算,统一表示方法- 可以是历史数据,定期进行刷新Principles and Applications of Business IntelligenceChap 8: 数据仓库 11什么是数据仓库 数据仓库最早由美国计算机科学家William H. Inmon于1991年提出,他也因此被称为“数据仓库之父”。他对数据仓库的定义是:“- 数据仓库是一个面向主题的(subject-oriented)、- 集成的(integrated)、- 随时间变化的(time-varying)、- 稳定的(non-volatile)- 用于支持组织决策的数据集合。”Principles
7、and Applications of Business IntelligenceChap 8: 数据仓库 12面向主题 面向主题的数据。主题对应企业中某一宏观分析领域所涉及的分析对象,- 例如,对于保险公司,客户、保单、索赔、产品、销售等都可以作为一个主题。- 面向主题的数据需要将与一个主题有关的各方面的数据进行集成,提供有关该主题的一个完整的统一的数据及其之间联系的描述。Principles and Applications of Business IntelligenceChap 8: 数据仓库 13集成 为提供有关一个主题的完整信息,需要从企业内部(操作型系统)及外部抽取数据并进行综合
8、 需解决的问题- 数据的编码、命名等在不同的数据源中各不相同- 集成到数据仓库中时需要进行转换 操作型环境 数据仓库性别 集成应用1:f, m应用2: 1, 0 f, m应用3: 男,女Principles and Applications of Business IntelligenceChap 8: 数据仓库 14随时间变化的数据 操作型系统中的数据通常存储的是当前的数据或少量历史数据 数据仓库需要存储当前以及过去的一段时间内的历史数据 数据仓库中的数据通常都有一个时间维度 DW中通常存放 (510 年)内的历史数据,远远长于操作型数据库中的数据 (2 3 月).Principles an
9、d Applications of Business IntelligenceChap 8: 数据仓库 15稳定的数据 操作型环境的数据通常要进行频繁地数据更新操作 数据仓库中的数据通常是稳定的,定期进行分批载入或刷新,不进行数据库环境中一般意义上的增、删、改。 由于数据仓库中的数据通常只是被读取,因此不需要复杂的事务处理Principles and Applications of Business IntelligenceChap 8: 数据仓库 16数据集市(data mart) 数据集市是一种部门级的数据仓库,它包含的数据量较少,是面向一个部门的分析需求而建立的- 提供更快速的数据访问-
10、 便于控制信息的访问权限Principles and Applications of Business IntelligenceChap 8: 数据仓库 178.2 数据仓库的体系结构Principles and Applications of Business IntelligenceChap 8: 数据仓库 18数据源和ETL工具 数据源部分包括企业内务部数据- 企业内部,操作型系统中的数据以及已经存档的数据- 企业外部,竞争对手及行业统计数据、地理区域的人口统计数据,社会媒体的数据等 ETL工具:抽取(Extraction)、转换(Transform)和加载(Load)- 从不同的数据源
11、把需要的数据读取出来就是抽取过程- 转换过程主要涉及数据清洗、数据集成和数据汇总等主要功能- 加载过程分成两种情况:初始导入和定期加载Principles and Applications of Business IntelligenceChap 8: 数据仓库 19元数据(meta data) 是对数据仓库中数据的描述信息。元数据相当于数据库系统中的数据字典。 它主要描述三方面的信息:- 数据源数据信息、数据抽取与转换方面的信息以及数据仓库中的数据信息。- 数据源数据方面的元数据记录各个数据源数据的格式,从中抽取的数据的属性名、类型、长度等信息。- 数据抽取与转换方面,主要记录数据的抽取频率
12、、抽取方法以及数据的转换方法,Principles and Applications of Business IntelligenceChap 8: 数据仓库 208.3 多维数据模型Principles and Applications of Business IntelligenceChap 8: 数据仓库 218.3 多维数据模型 8.3.1 多维数据模型的概念 8.3.2 多维数据模型的构建方法Principles and Applications of Business IntelligenceChap 8: 数据仓库 22多维数据模型 多维数据模型(multidimensional
13、 data model):- 上世纪六十年代:通用磨坊(General Mills)公司和美国达特茅斯学院 (Dartmouth College)- 它是一种从业务分析的角度来对数据进行逻辑建模的方法,具有简单、易于理解、方便查询等优点,因而是一种常用的数据仓库建模方法产品产品?谁销售谁销售?时间时间?多少多少?地点地点?Principles and Applications of Business IntelligenceChap 8: 数据仓库 23多维数据模型 又称维度数据模型(dimensional data model),由维度表(dimension table)和事实表(fact
14、table)两种类型的表构成Principles and Applications of Business IntelligenceChap 8: 数据仓库 24事实表 度量:衡量业务性能的指标- 2个度量:销售量和销售额 维度属性:考察度量的一个视角、方位- 时间、商品编号、连锁店号和地点编号 粒度:维度属性综合起来限定了度量的取值粒度。- 如果时间编号对应的是一次交易的时间,则该事实表中的度量的粒度是针对发生在某地理位置的某个连锁店内一个商品在一次交易中的销售记录。Principles and Applications of Business IntelligenceChap 8: 数据仓
15、库 25可加性度量 度量通常是数值型属性,便于进行汇总计算。度量最好具有可加性(additive)。具有可加性的度量针对事实表中的任一维度都可以做加和- 如:销售量时间商品编号 连锁店号地点编号销售量2013-1-11011号店地点122013-1-11021号店地点1102013-1-11013号店地点312013-1-11011号店地点152013-1-21022号店地点25Principles and Applications of Business IntelligenceChap 8: 数据仓库 26时间商品编号 连锁店号地点编号销售量2013-1-11011号店地点172013-1
16、-11021号店地点1102013-1-11013号店地点312013-1-21022号店地点25时间连锁店号地点编号销售量2013-1-11号店地点1172013-1-13号店地点312013-1-22号店地点25时间商品编号地点编号销售量2013-1-1101地点172013-1-1102地点1102013-1-1101地点312013-1-2102地点25时间商品编号连锁店编号销售量2013-1-11011号店72013-1-11021号店102013-1-11013号店12013-1-21022号店5可加性度量Principles and Applications of Busines
17、s IntelligenceChap 8: 数据仓库 27半可加性 有些度量具有半可加性,即对于部分维度具有可加性,对于另外一些维度不具有可加性。日期账号支行号账户余额2003-2-2810001支行120002003-3-3110001支行110002003-2-2810002支行1100002003-3-3110002支行150002003-2-2810003支行210002003-3-3110003支行25000Principles and Applications of Business IntelligenceChap 8: 数据仓库 28不可加性度量 有些度量不具有可加性,即对于事
18、实表中的任一维度都不能加和汇总时间商品编号商店号利润率2013-1-11011号店10%2013-1-11021号店20%2013-1-11013号店12%2013-1-21022号店15%Principles and Applications of Business IntelligenceChap 8: 数据仓库 29维度表 维度表中每个属性都是对事实表中相应维度的描述信息,通常为定性属性- 这些属性使得度量的含义更容易理解,用于表达查询条件、分组条件以及制作报表。- 数量通常很多,几十个,甚至上百个都比较常见- 维度表中的属性名通常不要缩写,而是采用便于最终用户理解的名字- 如果属性取值
19、中包含多个隐含的含义,例如,如果商品编号隐含商品的类别,则将隐含的信息抽取,单独作为属性- 允许有一定程度的冗余存在,换来的是查询效率的提高以及查询表达更加容易Principles and Applications of Business IntelligenceChap 8: 数据仓库 30多维模型 将事实表和维度表组合起来- 星型模式(star schema)- 雪片模式(snowflake schema)- 事实星座(fact constellation)Principles and Applications of Business IntelligenceChap 8: 数据仓库 31
展开阅读全文