书签 分享 收藏 举报 版权申诉 / 36
上传文档赚钱

类型第2章数据仓库环境课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4622185
  • 上传时间:2022-12-26
  • 格式:PPT
  • 页数:36
  • 大小:401.50KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第2章数据仓库环境课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据仓库 环境 课件
    资源描述:

    1、第第2 2章章 数据仓库环境数据仓库环境数据仓库的定义数据仓库的定义n以1992年W.H.Inmon出版Building the Data Warehouse为标志,数据仓库速度发展起来,Inmon也被誉为“数据仓库之父”。nW.H.Inmon对数据仓库数据仓库的定义是:“数据仓库数据仓库是支持决策过程的、面向主题的、集成的、随是支持决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。时间变化的、持久的数据集合。n数据仓库是体系结构化环境的核心,是决策支持系统DSS处理的基础数据仓库的特征数据仓库的特征n数据仓库是面向主题(Subject-Orientation)的;n数据仓库是集成

    2、(Integration)的;n数据仓库是稳定/非易失性(Nonvolatile)的;n数据仓库是随时间变化(Time Vagrancy)的;n数据仓库是信息的概括和聚集。面向主题面向主题汽车人寿健康意外伤亡操作型环境操作型环境应应 用用顾客保险单保险费索赔数据仓库数据仓库主主 题题集成集成 操作型环境操作型环境 应用A m,f应用B 1,0应用C x,y应用D 男,女 数据仓库数据仓库 m,f编码应用A 管道cm应用B 管道inches应用C 管道mcf应用D 管道yds管道cm属性度量应用A 描述应用B 描述应用C 描述应用D 描述应用A char(10)应用B dec fixed(9,2

    3、)应用C pic 9999999应用D char(12)多重信息源描述char(12)冲突的键码集成集成?操作型环境数据仓库 J Jones女1945年7月20日。J Jones去年有两张罚单一次大事故。J JonesMain大街123号已婚。J Jones两个孩子高血压。人寿保险汽车保险房产保险健康保险J Jones女1945年7月20日出生去年两张罚单一次大事故已婚两个孩子高血压。顾客非易失性非易失性插入删除插入修改删除访问修改访问数据的逐个记录方式处理数据的逐个记录方式处理数据的批量载入数据的批量载入/访问访问操作型环境操作型环境数据仓库数据仓库随时间变化随时间变化操作型环境操作型环境数

    4、据仓库数据仓库时间期限:当前到6090天 记录更新键码结构可能包括也可能不 包括时间元素时间期限:510年 数据的复杂快照关键字结构包括时间元素数据仓库的结构数据仓库的结构元数据元数据高度综合级高度综合级轻度综合级轻度综合级(数据集市数据集市)销售细节级销售细节级2000-2001操作型转换操作型转换早期细节级早期细节级每月销售每月销售1994-2001每周销售每周销售1994-2001当前细节级当前细节级销售细节级销售细节级1994-1999面向主题面向主题n数据仓库面向在高层企业数据模型中已定义好的企业主题域n每个主要主题域都是以一组相关的表来具体实现的,一般通过一个公共关键字联系起来n数

    5、据仓库中可能有多个DBMS对数据进行管理,或根本没有DBMS管理nGIS中表现为:河流、宗地、土地利用图斑、地形等面向主题面向主题-“顾客顾客”主题主题主题可能包含不同介质上的数据主题可能包含不同介质上的数据每个表都有时间元素每个表都有时间元素粒度粒度n粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。n粒度是设计数据仓库最重要的方面。n细化程度越高,粒度级就越小;细化程度越低,粒度级就越大。n粒度细节的级别n粒度的划分决定了数据仓库中数据量的大小和查询的详细程度。n多重粒度:图幅比例尺大小、投影方式、数据采集的精度、数据的时间和空间分辨力、系统功能等来合理划分不同的粒度。粒度粒度细

    6、节的级别细节的级别高细化低粒度例如:一个顾客一个月内 的每个电话的细节低细化高粒度例如:一个顾客一个月内 的电话的综合n数据仓库中粒度化的数据是重用性的关键n可利用数据仓库对数据一致性进行协调n粒度数据包含了整个企业的活动和事件历史n可以预测将来未知的需求n低粒度化数据的优点:n可由多个用户以不同的方式使用n低级别粒度具有更高的灵活性n不足:n粒度级别低会占用更多的存储空间n粒度级别低会降低数据的访问能力n粒度级别低需要更多的索引项n高粒度化数据的优点:n如果数据仓库空间有限,高粒度表示数据将比用低粒度级表示效率高很多n高粒度级只需要较少的字节表示,而且只需较少的索引n数据压缩在数据仓库中很有

    7、用n不足:n高粒度的数据回答细节查询的能力较低nDSS中对单个事件查询很少数据仓库设计必须满足实体需要的最低粒度级n鉴于费用,效率,访问的便利和能够回答任何可以回答的查询的能力,数据双重粒度级是大多数机构建造数据仓库细节级的最好的体系结构选择.n只有当一个机构的数据仓库环境中数据相对较少时,才能尝试采用数据粒度的单一级别多重粒度级多重粒度级n在该时间仓库中包括两种类型数据:轻度综合数据和细节数据n大部分处理针对轻度综合数据n针对更大细节数据可以深入真实档案层(5%)活样本数据库活样本数据库n活样本数据库是从数据仓库中取得的真实档案数据或轻度综合数据的一个子集.n“活”是指这个数据库需要进行周期

    8、性的刷新.n在某些情况下,使用活样本数据库可以节约大量资源n活样本数据库不是通用的数据库,主要适于作统计分析和观察发展趋势n数据装载用一个抽取/选择程序搜索一个大规模的数据库,选择其中部分记录送到活样本数据库n对活样本中记录的选取一般是随机的,必要时可采用一个判断样本n最大的好处存取效率非常高,误差在可接受范围n在活样本数据库中要想取得高精度的统计结果,需要将要求形式化,并在活样本数据库上进行反复处理分区设计方法分区设计方法n数据分区是指把数据分散到可独立处理的分离物理单元中.n数据分区的优点:n数据装载n数据访问n数据存档n数据删除n数据监控n数据存储n分区的目的把数据划分成小的可管理的物理

    9、单元n任何给定的数据单元属于且仅属于一个分区分区设计方法分区设计方法n数据分区的标准:n时间n业务范围n地理位置n组织单位n所有上述标准其中,日期几乎总是分区标准中的一个必然组成部分n分区方式:n系统层上分区一定程度上指某些DBMS和操作系统的功能n应用层上分区由设计的应用程序完成,并由开发者和程序员严格控制应用层上分区相对更有意义,因为每年的数据可以有不同的定义,而且数据从一个物理设备转到另一个物理设备不会有问题数据仓库的数据组织数据仓库的数据组织n简单堆积数据n轮转综合数据n简化直接数据n连续数据简单堆积文件简单堆积文件 1月1日 1月2日 1月3日 2月1日 2月2日 2月3日 3月1日

    10、 3月2日 3月3日 轮转综合文件轮转综合文件 星期一 星期二 星期天 第一周 第二周 第五周 一月 二月 十二月 轮转综合文件与简单堆积结构的比较轮转综合文件与简单堆积结构的比较简单直接文件简单直接文件数据库快照姓名 顾客号 地址张平 C960100 北京王珂 C960101 上海刘辉 C960102 天津李强 C960103 成都 .一月份顾客表操作型数据生成简化直接文件生成简化直接文件连续文件连续文件姓名 顾客号 地址张平 C020100 北京王珂 C020101 上海张顺 C020102 天津李强 C020103 成都姓名 顾客号 地址张平 C020100 北京王珂 C020101 上

    11、海张顺 C020101 广州李强 C020103 成都刘诚 C020105 杭州姓名 顾客号 日期 地址张平 C020100 1-2月 北京王珂 C020101 1-2月 上海张顺 C020103 1月 天津张顺 C020103 2月 广州李强 C020103 1-2月 成都刘诚 C020105 2月 杭州1月份顾客表2月份顾客表1-2月份顾客表审计与数据仓库审计与数据仓库n能对数据仓库进行审计,但不该审计,原因在于:n原先在数据仓库中没有的数据会突然出现n当需要审计能力时,数据进入数据仓库的时间标定过程会发生急剧变化n当需要审计能力时,数据仓库的备份和恢复限制会发生急剧变化n会使数据粒度处于

    12、最低的级别上数据的同构数据的同构/异构异构n数据仓库中的数据是异构的n第一次划分是按企业主要主题进行的,但每一个主题域还有更细的划分,主题域中的数据又划分到多个表中。数据的同构数据的同构/异构异构n数据仓库中的数据按下列标准划分:n主题域n表n数据在表中的位置 基于数据仓库数据建立的体系结构,数据的各个部分非常容易理解和访问。数据仓库中的错误数据数据仓库中的错误数据n数据仓库中的数据出错时,具有多种解决方案.但每种方法都是优势与劣执共存,没有一种是绝对正确或错误的.只是在某种条件下一种占优.n例:假设7月1日在操作型系统中,账户ABC加入了一条5000美元的账目。7月2日在数据仓库中为账户AB

    13、C产生了这5000美元账目的一个快照。接着,在8月15日发现错误。这个账目不是5000美元,而是750美元。那么,该如何纠正这个错误呢?数据仓库中的错误数据数据仓库中的错误数据n修正方法一:直接将7月2日的数据5000修改为750,问题:n数据集成破坏n更新必须在数据仓库环境中进行n许多时候不是要修正一个条目,而是很多n修正方法二:加入修正条目。在8月16日加入两个条目,一条是-5000,另一条是+750,这可能是最新数据的最好反映,但也有不足:n也可能要修正很多条目数据仓库中的错误数据数据仓库中的错误数据n有时候由于修正公式非常复杂,以致根本不能调整n修正方法三:重新设置8月16日账户为正确值750,不考虑以前的活动,缺点:n及时简单地将账户重设为当前值需要对应用与过程进行约定n不能对过去的错误进行准确解释。

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第2章数据仓库环境课件.ppt
    链接地址:https://www.163wenku.com/p-4622185.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库