数据仓库的建立和维护课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据仓库的建立和维护课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 建立 维护 课件
- 资源描述:
-
1、第四章 数据仓库设计数据仓库设计方法概述DW的设计与DB的设计DW设计的三级数据模型数据仓库设计步骤概念模型设计逻辑模型设计物理模型设计1Inmon的三级数据模型高级数据模型:采用ER方法方法中级数据模型:称为dis(Data Item Set)一个dis与ER中的一个主题域(实体)对应中的一个主题域(实体)对应低级数据模型:物理模型2DIS的基本结构基本数据组:应包括主题的码和属性,一个主题只存在一个基本数据组。 如: 顾客 主题中的顾客号、顾客名、性别等。 联接数据组:反映主题之间的联系,往往是一个主题的公共码键。 二级数据组:相对稳定的数据组。如:顾客的地址、电话、文化程度等。 类型数据
2、组:频繁变动的数据组。如:顾客的购物记录。稳定性:基本数据组 二级数据组 类型数据组 基本数据组连接数据组二级数据组类型数据组3DW设计的三级数据模型概念模型:“信息世界”中的信息结构 用ER方法,以主题替代实体逻辑模型: 一般采用关系模型物理模型: 物理存储结构、存储方法如:建立数据分片、合并表,建立包括广义索引在内的各种索引机制,引入冗余,生成导出数据等4数据仓库设计的基本步骤数据仓库运行与维护分析主题域,针对每一个选定的实施的主题域逻辑模型设计物理模型设计粒度层次划分数据分割策略记录系统定义关系模式定义确定存储结构确定索引结构确定存放位置确定存储分配概念模型设计界定系统边界确定主题域技术
3、准备工作技术环境准备技术评估数据仓库生成设计接口数据装入5第五章 数据仓库的建立和维护6第五章 数据仓库的建立和维护数据仓库的开发数据仓库的建立过程数据仓库的开发方法 数据仓库的维护提高数据仓库性能数据仓库的安全性7数据仓库开发过程分析与设计阶段 数据获取阶段决策支持阶段维护与评估阶段8需求分析数据装载信息查询概念设计逻辑设计物理设计数据抽取数据转换知识探索数据仓库增长数据仓库维护数据仓库评估决策支持数据获取分析与设计维护与评估数据仓库开发过程数据仓库开发过程910分析与设计阶段 需求分析数据路线技术路线应用路线11需求分析确定决策主题域分析主题域的商业维度分析支持决策的数据来源确定数据仓库的
4、数据量大小分析数据更新的频率确定决策分析方法需求分析需求定义文档提纲:需求定义文档提纲:绪论:项目的目的和范围总体需求描述:描述源系统,大体阐述数据仓库中需要什么类型的数据具体需求:包括需要的源数据的细节;列出数据转换和存储的需求;描述用户需要的各类信息传递方法事实及维度其他需求:如数据抽取频率、数据载入方法用户期望:如何使用数据仓库用户参与:列出用户在开发生命周期中希望参与的任务和行动综合实施计划:给出一个高水准的实施计划12数据路线概念设计逻辑设计物理设计数据装载接口设计l 数据装载功能l 数据综合功能1314概念设计建立概念模型:对每个决策主题与属性以及主题之间的关系用E-R图模型表示。
5、E-R图将现实世界表示成信息世界,便利向计算机的表示形式进行转化。15逻辑设计将概念模型(E-R图)转换成逻辑模型,即计算机表示的数据模型。数据仓库数据模型一般采用星型模型。星型模型由事实表、维表组成。“维维”Keys属性属性Facts地点地点 Table时间时间 Table产品产品 Table客户客户 TableMany Records.16主题域进行概念模型到逻辑模型的转换星型模型的设计步骤如下:(1)确定决策分析需求(2)从需求中识别出事实(3)确定维(4)确定数据汇总水平(5)设计事实表和维表(6)按使用的DBMS和分析用户工具,证实设计方案的有效性 (7)随着需求变化修改设计方案17
6、从的ER图转换成星型模型实例说明 (1)业务数据的E-R图销售销售日期商店号商品号销售数量销售单位商品商品号商品名商品类号存货星期商店号商品号数量1m1m商店商店号商店名地址城市省邮编地区号1mm11商品类商品类号商品类名部门号m1m地区地区号地区名18销售数据和维销售数据商品促销时间部门城市地区商店销售业务的多维数据销售业务的多维数据19E-R图向多维表的转换该问题的多维表模型中,商品维包括部门、商品和商品大类,地点维包括地区和商店,忽略存货,而只注意销售事实。在E-R图中不出现的时间,在多维模型中增加时间维。在多维模型中,实体与维之间建立映射关系,联系多个实体的实体就成为事实,此处销售实体
7、作为事实,其他实体作为维。然后用维关键字将它转换为星型模型。20商品维地区维时间维部门地区年商品大类商店月商品周日销售事实 E-R图向多维模型的转换图向多维模型的转换21在各维中,只有部门,商品类,地区,商店的编号没有具体的说明。为了打印报表将增加这些编号的名称说明,即部门名、商店名等,在维表中增加这些说明,即修改该星型模型 22 时间 时间键 时间说明 日期 星期 月 年 级别号 销售事实 时间键 地理位置键 商品键 销售数量 销售单位 地区 地理位置键 地理位置名 地区号 商店号 级别号 商品 商品键 商品名 部门号 商品类号 级别号 利用维关键字制定的星型模型利用维关键字制定的星型模型2
8、3 时间 时间键 时间说明 日期 星期 月 年 级别号 销售事实 时间键 地理位置键 商品键 销售数量 销售单位 地区 地理位置键 地理位置名 地区号 地区名 商店号 商店名 级别号 商品 商品键 商品名 部门号 部门名 商品类号 商品类名 级别号 修改后的星型模型修改后的星型模型2425物理设计对逻辑模型设计的数据模型确定物理存储结构和存取方法。数据仓库的星型模型在计算机中仍用关系型数据库存储。物理设计还需要进行存储容量的估计;确定数据存储的计划;确定索引策略;确定数据存放位置以及确定存储分配。名称类型长度注释产品维表包括公司所有产品的信息Product-Keyinteger10主键Prod
9、uct-Namechar25产品名称Product-SKuchar20库存单位销售员维表包括不同地区的所有销售员信息Salpers-Keyinteger15主键Salpers-Namechar30销售员姓名Territorychar20销售员所在区域Regionchar20所在地区订单事实表包括公司收到的所有订单Order-Keyinteger10订单键Order-Namechar20订单名称Product-refinteger10参考产品主键Salpers-refinteger15参考销售员主键Order-AmountNum8,2销售额Order-CostNum8,2订单成本逻辑模型产品维表
10、产品键产品名库存单位品牌订单事实表订单键订单名产品键销售员键销售额订单成本销售员维表销售员键姓名地域地区26数据仓库设计的基本步骤数据仓库运行与维护分析主题域,针对每一个选定的实施的主题域逻辑模型设计物理模型设计粒度层次划分数据分割策略记录系统定义关系模式定义确定存储结构确定索引结构确定存放位置确定存储分配概念模型设计界定系统边界确定主题域技术准备工作技术环境准备技术评估数据仓库生成设计接口数据装入27 技术路线主要确定数据仓库的基础构造,数据仓库的功能和服务都是在数据仓库基础构造的支持下完成的。 数据仓库的基础构造元素分成两大类: 1、操作型基础构造 2、物理基础构造技术路线28 1、操作型
11、基础构造 包括人员、流程、培训和管理软件。 2、物理基础构造 (1)计算机平台l 硬件和操作系统l 服务器硬件l 数据库管理系统 (2)工具技术路线29 1、OLAP模型设计 (1)总体维度分析l 确定与任务相关的所有维l 定义维度的层次及名称l 确定层次信息的位置l 确定目标维 (2)主题的维度设计 (3)确定事实表度量变量和数据粒度 (4)定义OLAP模型应用路线30 2、数据挖掘模型设计 根据应用范围、用户目标、数据类型选择数据挖掘方法,确定合适的数据挖掘模型,并通过训练将其参数校正到最优值。 在数据挖掘前,要根据挖掘模型要求转换数据格式,将数据分为训练集合、验证集合,训练集合用于校正模
12、型参数,验证集合用于评价模型的效果。应用路线31 3、信息传递设计 数据仓库的信息潜力很大,数据仓库的信息传递方式是交互式的。用户通过和数据仓库的交互来获得数据,将其转化为有用的信息: 需要提供全面适当的信息传递机制:l 旅行者:企业的主管人员/高级经理l 操作者:部门经理/生产线管理员l 农夫:企业的各种分析员,技术、市场、销售、金融等,需求是标准化的,比如分析每月的销售额l 勘探者:研究员、熟练的技术分析员l 矿工:在数据中发现新的、未知的模式(数据挖掘) 应用路线32数据仓库开发过程分析与设计阶段 数据获取阶段决策支持阶段维护与评估阶段3334数据获取阶段 数据抽取数据转换数据装载35数
展开阅读全文