数据仓库实例课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据仓库实例课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 实例 课件
- 资源描述:
-
1、2023-1-20数据仓库实例数据仓库实例数据仓库实例数据仓库实例 数据仓库设计大致有如下几个步骤:2.6 数据仓库的设计 明确主题明确主题 概念设计概念设计 技术准备 逻辑设计逻辑设计 物理设计物理设计 数据仓库生成数据仓库生成 数据仓库的运行与维护数据仓库的运行与维护数据仓库实例针对每一个选定的当前实施的主题针对每一个选定的当前实施的主题概念模型设计逻辑模型设计物理模型设计数据仓库生成数据仓库运行与维护2.6 2.6 数据仓库的设计数据仓库的设计数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 确定系统边界 要做的决策类型有哪些?决策者感兴趣的是什么问题?这些问题需要什么样的信息?
2、要得到这些信息需要包含哪些数据源?v 概念模型设计 确定系统边界 确定主要的主题及其内容 OLAP设计数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 确定主要的主题确定主要的主题 即明确数据仓库的分析对象,然后对每个主题的内容进行较详细的描述,包括:确定主题及其属性信息 描述每个属性的取值情况 固定不变的 半固定的 经常变化的 确定主题的公共码键 主题间的关系:主题间联系及其属性 在确定上述内容后,就可以用传统的实体联系模型(E-R模型)来表示数据仓库的概念数据模型。例如:数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计主题主题名名公共公共码键码键属性信息属性信息商品商品号固
3、有信息:商品号,商品名,类别,颜色等采购信息:商品号,供应商号,供应价,供应日期,供应量等销售信息:商品号,顾客号,售价,销售日期,销售量等库存信息:商品号,库房号,库存量,日期等供应商供应商号固有信息:供应商号,供应商名,地址,电话,供应商类型等供应商品信息:供应商号,商品号,供应价,供应日期,供应量等顾客顾客号固有信息:顾客号,姓名,性别,年龄,文化程度,住址,电话等购物信息:顾客号,商品号,售价,购买日期,购买量等数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计供应商固有信息供应商供应商品信息日期供应商号顾客固有信息顾客号顾客日期顾客购物信息商品采购信息商品销售信息商品商品号日期
4、商品固有信息商品库存信息商品、顾客和供应商之间的商品、顾客和供应商之间的E-RE-R图图数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计v 逻辑模型设计将ER图转换成关系数据库的二维表定义数据源和数据抽取规则在逻辑模型的设计过程中,需要考虑以下一些问题:适当的粒度划分合理的数据分割策略定义合适的数据来源等数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计v 逻辑模型设计 粒度划分在设计过程中需要考虑数据仓库中数据粒度的划分原则,即数据单元的详细程度和级别。数据越详细,粒度越小,级别就越低数据综合度越高,粒度越大,级别就越高。一般将数据划分为:详细数据、轻度总结、高度总结三种粒度,
5、或者采用更多级的粒度划分方法。例如:根据时间跨度进行的统计有:天,周,月,季度,年对于不适合进行统计的属性值,可以采样获取数据粒度的划分将直接影响到数据仓库中的数据量以及所适合的查询类型,粒度划分是否适当是影响数据仓库性能的一个重要方面。数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 商品固有信息:商品表(商品号,商品名,类型,颜色,)/*细节数据*/商品采购信息:采购表1(商品号,供应商号,供应日期,供应价,)/*细节数据*/采购表2(商品号,时间段1,采购总量,)/*综合数据*/采购表n(商品号,时间段n,采购总量,)商品销售信息:销售表1(商品号,顾客号,销售日期,售价,销售量
6、,)/*细节数据*/销售表2(商品号,时间段1,销售总量,)/*综合数据*/销售表n(商品号,时间段n,销售总量,)商品库存信息:库存表1(商品号,库房号,库存量,日期,)/*细节数据*/库存表2(商品号,库房号,库存量,星期,)/*样本数据*/库存表n(商品号,库房号,库存量,年份,)其它导出数据:数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计v 逻辑模型设计 数据分割数据的分割是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的数据单元进行存储(关系),以便于重构、重组和恢复,以提高创建索引和顺序扫描的效率。选择数据分割的因素有:数据量的大小数据分析处理的对象(主题)简单易行
7、的数据分割标准数据粒度的划分策略通常采用时间属性作为数据分割的依据数据分割技术类似于数据库中的数据分片技术,其目的是为了提高数据仓库的性能。数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计v 逻辑模型设计 定义数据来源及其抽取规则定义数据仓库中数据的来源,以及数据的抽取规则,例如:主题名主题名属性名属性名数据源系统数据源系统源表名源表名源属性名源属性名商品商品号库存子系统商品商品号商品商品名库存子系统商品商品名商品类别采购子系统商品类别数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计v 物理模型设计在逻辑模型设计基础上确定数据的存储结构、确定索引策略、确定存储分配及数据存放位置
8、等与物理有关的内容,物理模型设计的具体方法与数据库设计中的大致相似。其目的是为了提高数据仓库系统的访问性能。常用的一些技术有:合并表建立数据序列引入冗余表的物理分割生成导出数据建立广义索引数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 在常见的一些分析处理操作中,可能需要执行多表连接操作。为了节省I/O开销,可以把这些表中的记录混合存放在一起,以减低表的连接操作的代价。这样的技术我们称为 合并表。合并表技术与传统关系数据库中的集簇(Clustering)技术类似。v 物理模型设计 合并表数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 按照数据的处理顺序调整数据的物理存放位置
9、,以减少减少系统的磁盘I/O的开销。v 物理模型设计 建立数据序列17584623 page1 page2 page3 page4数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计v 物理模型设计 建立数据序列12345678 page1 page2 page3 page4调整后的存储组织调整后的存储组织数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 在面向某个主题的分析过程中,通常需要访问不同表中的多个属性,而每个属性又可能参与多个不同主题的分析过程。因此可以通过修改关系模式把某些属性复制到多个不同的主题表中去,从而减少一次分析过程需要访问的表的数量。采用该种数据组织方法回带
10、来大量的数据冗余存储,数据仓库系统必须保证这些冗余数据的一致性。由于数据仓库中的数据是稳定的,很少执行更新操作,不会因此带来过高的数据更新的代价,却可以有效地提高数据仓库系统的性能。v 物理模型设计 引入冗余数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 类似于在逻辑设计阶段的数据分割。可以根据表中每个属性数据的访问频率和稳定性程度对表的存储结构进行分割。对于访问频率较高的属性,可以单独考虑其物理存储组织,以便选择合适的索引策略和特定的物理组织方式。对于需要频繁更新的属性,也可以单独组织其物理存储,以免因数据更新而带来的空间重组、重构等工作。v 物理模型设计 表的物理分割数据仓库实例
11、2.6 2.6 数据仓库的设计数据仓库的设计 在原始的细节数据的基础上进行一些统计和计算,生成导出数据,并保存在数据仓库中。采用该方法既可以避免在分析过程中执行过多的统计或计算操作,减少输入/出的次数,又避免了不同用户进行的重复统计操作可能产生的偏差。v 物理模型设计 生成导出数据数据仓库实例2.6 2.6 数据仓库的设计数据仓库的设计 用于记录数据仓库中数据于最有关的统计结果的索引被称为广义索引。如:当月销售额最高的商店?当月销售情况最差的商品?这样的广义索引的数据量是非常小的,可以在每次进行数据仓库数据加载工作时生成或刷新这样的广义索引。用户可以从已经建立的广义索引里直接获取这些统计信息,
展开阅读全文