数据仓库和数据挖掘deOLAP技术课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据仓库和数据挖掘deOLAP技术课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 deOLAP 技术 课件
- 资源描述:
-
1、数据仓库和数据挖掘deOLAP技术苟清龙苟清龙2002年年9月月第一节 从数据库到数据仓库oOLTP不适于DSS应用o数据仓库的定义及其特征o数据仓库的数据组织o数据仓库的体系化环境OLTP不适于DSS应用1.事务处理的性能特性不同2.数据集成问题事务处理应用分散“蜘蛛网”问题数据不一致问题外部数据和非结构化问题3.数据动态集成问题4.历史数据问题5.数据的综合问题什么是数据仓库o数据仓库是一个用以更好地支持企业或组织的决策分析处理的、面向对象主题的、集成的、不可更新的、随时间不断变化的数据集合。操作型数据和分析型数据的区别操作型数据分析型数据细节的综合的,或提炼的在存取时刻是准确的代表过去的
2、数据可更新不更新操作需求事先可知道操作需求事先不知道对性能要求高对性能要求宽松生命周期符合SDLC完全不同的生命周期一时刻操作一单元一时刻操作一集合事务驱动分析驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常操作支持管理需求数据仓库的四个特性o面向主题的o集成的o随时间不断变化的o不可更新的数据仓库数据的面向主题性o什么是主题?o面向主题的例子o面向主题的性质o面向主题的实现方式o面向主题的实现示例o主题域及其特性什么是主题?o主题是一个抽象的概念,是在较高层次上将企业信息综合、归类,并进行分析利用的抽象;o在逻辑意义上,他是对企业中某一宏观领域所涉及的分析对象;o面向主题的数据组
3、织方式,就是在较高层次上对分析对象的数据一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。一个传统OLTP环境下的数据库模式示例o采购子系统u定单(定单号,供应商号,总金额,日期)u定单细则(定单号,商品号,类别,单价,数量)u供应商(供应商号,供应商名,地址,电话)p销售子系统u顾客(顾客号,姓名,年龄,文化程度,地址,电话)u销售(员工号,顾客号,商品号,数量,单价,日期)一个传统OLTP环境下的数据库模式示例(续)o库存管理子系统u领料单(领料单号,领料人,商品号,数量,日期)u进料单(进料单号,定单号,进料人,收料人,日期)u库存(商品号,
4、库房号,库存量,日期)u库房(库房号,库房管理员,地点,库存商品描述)o人事子系统u员工(员工号,姓名,性别,年龄,文化程度,部门号)u部门(部门号,部门名称,部门主管,电话)一个传统OLAP环境下的数据库模式示例o商品u商品固有信息:商品号,商品名,类别,颜色等;u商品采购信息:商品号,供应商号,供应价,供应量,供应日期等;u商品销售信息:商品号,顾客号,售价,销售量,销售日期等;u商品库存信息:商品号,库房号,库存量,日期等。一个传统OLAP环境下的数据库模式示例(续)o供应商u供应商固有信息:供应商号,供应商名,地址,电话等;u供应商品信息:供应商号,商品号,供应价,供应日期,供应量等。
5、p顾客u顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,地址,电话等。u顾客购物信息:顾客号,商品号,售价,购买日期,购买量等。面向主题数据组织模式的说明u在从面向应用到面向主题的转变过程中,丢弃了原来有的但不必要的、不适于分析的信息;u在原有的数据库模式中,有关商品的信息分散在各个子系统之中;面向主题的数据组织方式所强调的就是要形成关于主题一致的信息集合;u不同主题之间有重叠内容。主题的实现o两种主题实现方式u多维数据库u关系数据库u在具体实现中,一个主题可划分为多个表,主题只是一个逻辑概念。主题实现的范例o主题:商品o公共码键:商品号u商品表1(商品号,商品名,类型,颜色,)/*商品固
6、有信息*/u采购表1(商品号,供应商号,供应日期,供应价,采购量,)/*商品采购的细节描述*/u采购表2(商品号,时间段,采购总量,)/*某时段商品采购信息*/uu采购表n(,)/*时间段不等的采购综合表*/主题实现的范例(续)u销售表1(商品号,顾客号,销售日期,售价,销售量,)/*商品销售细节信息*/u销售表2(商品号,时间段,销售总量,)/*某时段内商品销售信息*/u销售表n(,)/*时段不等的销售综合表*/u库存表1(商品号,库房号,库存量,日期,)/*商品库存述细节信息*/u库存表2(商品号,库房号,库存量,月份,)/*每月月底的商品库存信息*/u库存表n(,)/*时点不同的商品库存
7、信息*/主题域o面向主题的数据组织方式根据分析要求将数据组织成一个完整的分析领域,即主题域。o主题域的特性:独立性u一个主题域可以和其他主题有交叉部分,但他必须有独立内涵,即要求有明确的界限规定数据是否属于该主题。完备性u对一个主题的任意分析处理要求,都能在该主题内找到该处理要求的一切内容。数据仓库的数据集成性o涵义:数据仓库的数据是从原有的分散数据库数据中抽取集成而来的。o问题:操作型数据与分析型数据的差别o需要完成的工作要统一数据库中所有的矛盾,如字段的同名异义,异名同义,单位不统一,字长不一致等;进行数据综合和计算。数据仓库数据的不可更新性u数据仓库的数据主要提供企业决策分析之用,所涉及
8、的数据操作主要是数据查询,一般情况不进行修改操作。数据仓库数据的时变性u数据仓库随时间变化不断增加新的数据内容;u数据仓库随时间变化不断删去旧的数据内容;u数据仓库中含有大量的综合数据,这些数据随时间变化不断进行重新组合。数据仓库的数据组织o数据仓库的数据组织结构图o元数据o粒度与分割o数据仓库的数据组织形式o数据仓库的数据追加数据仓库的数据组织结构元数据高度综合级轻度综合级当前细节级早期细节级元数据o元数据:关于数据的的数据oDW中的两种元数据为从操作型环境向DW环境转换而建立的元数据,在DW中用来与终端用户的多维商业模型/前端工具之间建立映射的元数据。粒度o第一种粒度:对数据仓库中的数据综
9、合程度高低的度量,它影响数据仓库中数据量的多少,也影响所能回答问题的种类。o第二种粒度:样本数据库采样率的高低。(采样粒度不同的样本数据库可以有相同级别的综合级别。)分割o将数据分散到各自的物理单元中去以便能分别独立处理,以提高处理效率,数据分割后的数据单元称为分片。o分割的一个例子健康保险生命保险 事故保险1988分片1分片2分片31989分片4分片5分片61990分片7分片8分片9数据仓库的数据组织形成简单堆积文件轮转综合文件(如股市)简化直接文件(按一定时间间隔对数据库采样)连续文件数据仓库的数据追加o时标方法oDELTA文件o前后映象文件的方法o日志文件数据库体系化环境o什么是数据库体
10、系化环境?o四层体系化环境o数据集市什么是数据库体系化环境o数据库体系化环境是在一个企业或组织内,由各面向应用的OLTP数据库及各级面向主题的数据仓库所组成的完整的数据环境,在这个数据环境上建立和进行一个企业或部门的从联机事务处理到企业管理决策的所有应用。o两个组成部分:u操作型环境u分析型环境四层体系化环境操作型环境数据仓库局部仓库个人仓库全局级部门级个人级(1)操作型环境:存放细节操作性数据,服务于高性能事务处理。(2)全局级DW:存放细节数据,以及大量导出数据。(3)部门级DW:一般仅包含导出数据。(4)个人级DW:都是暂时的,用于启发式分析。数据集市全局数据仓库数据再抽取与集成采购子系
11、统销售子系统库存子系统人事管理财务子系统数据抽取数据抽取数据抽取数据抽取数据抽取DATA MART第二节 数据仓库设计o数据仓库系统设计方法概述oDW 设计的三级数据模型o提高DW性能o数据仓库中的元数据o数据仓库的设计步骤数据仓库系统设计方法概述oDWS与DBS设计的不同之处oSDLC与CLDS方法比较o“数据驱动”系统设计方法的基本思路o数据模型是数据驱动设计方法的中心oDW系统设计是一个动态反馈循环过程oDW的三级数据模型o提高DW的性能DWS与DBS设计的不同之处o面向处理类型不同o面向需求不同o系统设计的目标不同o两者的数据来源或系统的输入不同o系统设计方法和步骤不同SDLC与CLD
12、S方法比较收集应用需求分析应用需求构建数据库应用编程系统测试系统实施DB应用A应用B应用C数据仓库建模数据获取与集成构建数据仓库DSS应用编程系统测试理解需求DWDBDB外部数据“数据驱动”系统设计方法的基本思路o“数据驱动”系统设计方法的思路就是利用以前所取得的工作成果来进行系统建设。oDW的设计是从已有的DB系统出发,按照分析领域对数据及数据之间的联系重新考察、组织DW中的主题。o系统设计方法的中心是利用数据模型有效地识别原有的数据库中的数据和数据仓库中主题的数据的“共同性”。数据模型是数据驱动设计方法的中心操作型环境设计操作型处理应用开发与设计DBDBDB数据仓库设计DSS应用开发与设计
13、DW数据模型DW系统设计是一个动态反馈循环过程oDW的数据内容、结构、粒度、分割以及其他物理设计根据用户所返回的信息不断调整、完善,以提高系统的效率和性能。o通过不断的理解用户的分析需求,向用户提供更准确,更有用的决策信息。DW与DB三级数据模型的区别oDW的数据模型不包含纯操作型数据;oDW的数据模型扩充了码结构,增加了时间属性作为码的一个部分;oDW的数据模型中增加了一些导出数据。DW的三级数据模型o概念模型o逻辑模型o物理模型高级模型、中级模型和低级模型o高级模型:即E-R图;o低级模型:即物理数据模型o中级模型:称为数据项(dis-data item set)Dis中的数据组o联接数据
14、组:主要用于本主题域与其他主题域之间的联系,体现E-R图中实体之间的关系。o基本数据组o二级数据组o类数据组提高DW的性能o粒度划分o分割o其他问题粒度划分o粒度划分的决定因素并非总的数据量,而是总的行数。o划分步骤o(1)估算DW中数据行数和所需的DASD(Direct Access Storage Device)数。o(2)根据估算算出的数据行数和DASD,决定是否划分粒度,如果要,如何划分。分割o核心:选择适当的分割标准o考虑因素:o数据量、数据分析处理的实际情况、简单易行、粒度划分数据仓库物理设计中的其他一些问题o合并表o建立数据序列o引入冗余o表的物理分割o生成导出数据o建立广义索引
展开阅读全文