数据仓库及数据挖掘-数据模型及元数据.ppt课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据仓库及数据挖掘-数据模型及元数据.ppt课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 数据模型 ppt 课件
- 资源描述:
-
1、2022-6-161/37作业作业 4理解数据仓库的数据组织要求和方法理解数据仓库的数据组织要求和方法掌握数据仓库的星型模型、雪化模型的设计方法掌握数据仓库的星型模型、雪化模型的设计方法理解元数据的类型及其作用理解元数据的类型及其作用数据仓库与数据挖掘数据仓库与数据挖掘内容提要内容提要数据模型数据模型元数据元数据数据的粒度数据的粒度2022-6-163/37数据模型数据模型 传统数据库数据模型传统数据库数据模型 数据仓库的数据模型不同于数据库的数据模数据仓库的数据模型不同于数据库的数据模型在于型在于数据仓库只为决策分析用,数据仓库的增加了时数据仓库只为决策分析用,数据仓库的增加了时间属性数据。
2、间属性数据。数据仓库增加了一些综合数据。数据仓库增加了一些综合数据。 数据仓库的数据建模是适应决策用户使用的数据仓库的数据建模是适应决策用户使用的逻辑数据模型。逻辑数据模型。2022-6-164/37数据仓库概念模型数据仓库概念模型 1.数据仓库模型的概念数据仓库模型的概念 数据仓库概念模型的设计需要给出一个数据仓库的粗略蓝本,数据仓库概念模型的设计需要给出一个数据仓库的粗略蓝本,以此为工具来确认数据仓库的设计者是否已经正确的了解数据以此为工具来确认数据仓库的设计者是否已经正确的了解数据仓库最终用户的信息需求。仓库最终用户的信息需求。(1)概念数据模型)概念数据模型 在构建数据仓库的概念模型时
3、,可以采用在业务数据处理系统在构建数据仓库的概念模型时,可以采用在业务数据处理系统中经常应用的企业数据模型中经常应用的企业数据模型ER图。这是一种描述组织业务图。这是一种描述组织业务概况的蓝图,包括整个组织系统中各个部门的业务处理及其业概况的蓝图,包括整个组织系统中各个部门的业务处理及其业务处理数据。务处理数据。 数据仓库与操作型数据库一样,也存在高层模型(数据仓库与操作型数据库一样,也存在高层模型(ERD,实体,实体关系层)、中层模型(关系层)、中层模型(DIS,逻辑层)和低层模型(物理层),逻辑层)和低层模型(物理层)3个层次数据模型。个层次数据模型。2022-6-165/37企业数据模型
4、企业数据模型(举例举例)财务部门财务部门销售收入帐销售收入帐应收帐应收帐应付帐应付帐成本帐成本帐销售部门销售部门销售计划销售计划销售合同销售合同销售统计销售统计人事部门人事部门员工业绩记录员工业绩记录员工技能情况员工技能情况员工薪酬表员工薪酬表财务财务人事人事销售销售.企业数据模型企业数据模型2022-6-166/37数据仓库的数据模型数据仓库的数据模型 数据仓库存储采用多维数据模型。数据仓库存储采用多维数据模型。果汁可乐牛奶商品维奶油浴巾香皂北京上海长沙1 2 3 4 5 6 7城市维日期维q 维就是相同类数据的集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合
5、是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。q 每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。q 两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。2022-6-167/37星型数据模型星型数据模型 大多数的数据仓库都采用大多数的数据仓库都采用“星型模型星型模型”。星型模型是由。星型模型是由“事实表事实表”(大表)及多个(大表)及多个“维表维表”(小表)所组成。(小表)所组成。 “事实表事实表”中存放大量关于企业的事实数据(数量数据)。中存放大量关于企业的事实数据(数量数据)。 例如:多个时期的数据可能会出
6、现在同一个例如:多个时期的数据可能会出现在同一个“事实表事实表”中。中。“维表维表”中存放描述性数据,维表是围绕事实表建立的较小的表。中存放描述性数据,维表是围绕事实表建立的较小的表。维度表维度表维度表维度表维度表维度表维度表维度表事实表事实表维度表维度表2022-6-168/37星型模型举例星型模型举例订货表客户表销售员表事实表产品表日期表地区表星型模型数据存储情况示意图 2022-6-1610/37星型模型星型模型 模型的核心是事实表,维表通过主键与事实表和其模型的核心是事实表,维表通过主键与事实表和其他维表链接他维表链接 事实表中的数据不允许修改,新数据只是简单的增事实表中的数据不允许修
7、改,新数据只是简单的增加加 非规范化程度高,如不同时期的同类数据可能出现非规范化程度高,如不同时期的同类数据可能出现在同一维表中,数据冗余大在同一维表中,数据冗余大 存取速度快,以增加空间换取较快的访问速度存取速度快,以增加空间换取较快的访问速度 难于适应业务需求的变化难于适应业务需求的变化2022-6-1611/37雪花数据模型雪花数据模型 雪花模型是对星型模型的维表进一步层次化,原来的各维雪花模型是对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的表可能被扩展为小的事实表,形成一些局部的“层次层次”区区域域 在上面星型模型的数据中在上面星型模型的数据中 ,对,
8、对“产品表产品表”“”“日期表日期表”“”“地区表地区表”进进行扩展形成雪花模型数据见下图。行扩展形成雪花模型数据见下图。维度表维度表维度表维度表维度表事实表详细类别表详细类别表2022-6-1612/37雪花模型举例雪花模型举例2022-6-1613/37星网模型星网模型 星网模型是将多个星型模型连接起来形成网状结构。多个星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。星型模型通过相同的维,如时间维,连接多个事实表。2022-6-1614/37数据仓库的逻辑模型与物理模型数据仓库的逻辑模型与物理模型 数据仓库(中间层)逻辑模型数据仓库(中间层
9、)逻辑模型中间层数据模型亦可称为逻辑模型,它是对高层数据中间层数据模型亦可称为逻辑模型,它是对高层数据概念模型的细分,在高层数据模型中所标识的每个主概念模型的细分,在高层数据模型中所标识的每个主题域或指标实体都需要与一个逻辑模型相对应。题域或指标实体都需要与一个逻辑模型相对应。物理数据模型物理数据模型是依据中间层的逻辑数据模型而创建的,它通过确是依据中间层的逻辑数据模型而创建的,它通过确定模型的键码属性和模型的物理特性,扩展中间层定模型的键码属性和模型的物理特性,扩展中间层数据模型而建立。此时,物理数据模型就由一系列数据模型而建立。此时,物理数据模型就由一系列表所构成,其中最主要的是事实表模型
10、和维表模型。表所构成,其中最主要的是事实表模型和维表模型。 物理模型中的事实表来源于逻辑模型,它依据数据物理模型中的事实表来源于逻辑模型,它依据数据仓库具体的应用而建立。事实表是星型模型结构的仓库具体的应用而建立。事实表是星型模型结构的核心。核心。2022-6-1615/37 维模型维模型维度表模型也需要根据逻辑模型设计,在设计过程中考维度表模型也需要根据逻辑模型设计,在设计过程中考虑维度表模型是用户分析数据的窗口。维度表应该含有虑维度表模型是用户分析数据的窗口。维度表应该含有商业项目的文字描述,维度的设计提供了维度属性的定商业项目的文字描述,维度的设计提供了维度属性的定义。这些属性应具有这样
11、一些特征:义。这些属性应具有这样一些特征: A.可用文字描述。可用文字描述。 B.离散值。离散值。 C.有规定的限制。有规定的限制。 D.在分析过程中可以提供行标题。在分析过程中可以提供行标题。2022-6-1616/37 1.元数据的定义元数据的定义元数据在数据仓库的设计、运行中有着重要的作用,它元数据在数据仓库的设计、运行中有着重要的作用,它表述了数据仓库中的各对象,遍及数据仓库的所有方面,表述了数据仓库中的各对象,遍及数据仓库的所有方面,是数据仓库中所有管理、操作、数据的数据,是整个数是数据仓库中所有管理、操作、数据的数据,是整个数据仓库的核心。据仓库的核心。元数据是关于数据、操纵数据的
12、进程和应用程序的结构元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面和意义的描述信息,其主要目标是提供数据资源的全面指南。其范围可以是某个特别的数据库管理系统中从现指南。其范围可以是某个特别的数据库管理系统中从现实世界的概念上的一般概括,到详细的物理说明。实世界的概念上的一般概括,到详细的物理说明。 元数据及其作用元数据及其作用2022-6-1617/37 在数据库中,元数据是对数据库中各个对象的描在数据库中,元数据是对数据库中各个对象的描述。关系数据库中,这种描述就是对表、列、数据述。关系数据库中,这种描述就是对表、列、数据库和其他对象的定义。
13、库和其他对象的定义。 从广义上讲,元数据代表定义数据仓库的任何对从广义上讲,元数据代表定义数据仓库的任何对象,象,无论它是一个表、一个列、一个查询、一个业务规则,无论它是一个表、一个列、一个查询、一个业务规则,或者是数据仓库内部的数据转移等等。或者是数据仓库内部的数据转移等等。2022-6-1618/37元数据举例元数据举例2022-6-1619/37举例:全国文化信息资源共享工程中的元数据举例:全国文化信息资源共享工程中的元数据疾病疾病描述描述: 显示器件显示器件: 缩写缩写: ILLNE名字空间名字空间URI: http:/purl.org/ndcnc/elements/ILLNE 附属标
14、记附属标记: 20030729135551 疾病名称疾病名称 q 疾病分类疾病分类 q 疾病简介疾病简介 q 症状症状 q 病因及发病机制病因及发病机制 q 病理变化病理变化 q 诊断诊断 q 治疗治疗 q 预防预防 q 预后预后 q 主题词或关键词主题词或关键词 q 相关药物相关药物 q 相关疾病相关疾病 q 相关文献相关文献 q 相关指标相关指标 q 相关书目相关书目 q 相关专家相关专家 q 相关机构相关机构 q 图片图片 q 视频视频 q 音频音频 2022-6-1620/37举例:全国文化信息资源共享工程中的元数据举例:全国文化信息资源共享工程中的元数据2022-6-1621/37举
15、例:全国文化信息资源共享工程中的元数据举例:全国文化信息资源共享工程中的元数据描述描述: 显示器件显示器件: 缩写缩写: WEAPO 名字空间名字空间URI: http:/purl.org/ndcnc/elements/WEAPO 附属标记附属标记: 20030729135519 兵器名称兵器名称 q 研制国别研制国别 q 研制机构研制机构 q 研制时间研制时间 q 分类分类 q 关键词关键词 q 简介简介 q 图片图片 q 视频视频 q 音频音频 q相关书目相关书目 2022-6-1622/37元数据的作用元数据的作用 (1) 元数据是进行数据集成所必需的元数据是进行数据集成所必需的 (2)
展开阅读全文