数据仓库和联机分析处理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据仓库和联机分析处理课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 联机 分析 处理 课件
- 资源描述:
-
1、数据仓库和联机分析处理数据仓库和联机分析处理主要讨论内容主要讨论内容l为什么需要数据仓库技术为什么需要数据仓库技术l什么是数据仓库什么是数据仓库l什么是联机分析处理技术什么是联机分析处理技术l联机分析处理技术实现联机分析处理技术实现l数据仓库系统的体系结构数据仓库系统的体系结构介绍内容介绍内容l为什么需要数据仓库技术为什么需要数据仓库技术l从技术发展的角度从技术发展的角度l从实际应用需求的角度从实际应用需求的角度l什么是数据仓库什么是数据仓库l什么是联机分析处理技术什么是联机分析处理技术l联机分析处理技术实现联机分析处理技术实现l数据仓库系统的体系结构数据仓库系统的体系结构数据管理技术发展回顾
2、数据管理技术发展回顾l早期阶段早期阶段l数据属于特定应用,数据由用户管理数据属于特定应用,数据由用户管理l文件系统阶段文件系统阶段l数据与(一类)应用对应,文件系统作了部分管理数据与(一类)应用对应,文件系统作了部分管理l数据库系统阶段数据库系统阶段l数据共享(面向整个企业),有结构的数据由数据共享(面向整个企业),有结构的数据由DBMS统一统一管理管理n 应用需求驱动应用需求驱动 +技术基础技术基础n 数据库数据的组织与管理大大方便应用的开发和维护数据库数据的组织与管理大大方便应用的开发和维护现有的数据库系统的侧重点现有的数据库系统的侧重点l 现有的数据库系统,主要用于事务处理现有的数据库系
3、统,主要用于事务处理l一笔订购(一张订单输入一笔订购(一张订单输入+订单细则)订单细则)l一笔销售(一张销售单)一笔销售(一张销售单)l一次进料(一张进料单)一次进料(一张进料单)l一次出料(一张出料单)一次出料(一张出料单)强调多用户并发环境,数据的一致性、完整性强调多用户并发环境,数据的一致性、完整性企业信息化建设现状企业信息化建设现状l在数据库技术的支持下,一大批成熟的业务信息系统投入运在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展作出了巨大贡献行,为企业发展作出了巨大贡献l各类信息系统大多属于面向事务处理的各类信息系统大多属于面向事务处理的OLTP系统系统l信息系统
4、多年运行,积累了大量的数据信息系统多年运行,积累了大量的数据l数据是一种宝贵的资源,但没有充分发挥作用数据是一种宝贵的资源,但没有充分发挥作用信息化建设的趋势信息化建设的趋势l发展趋势发展趋势l数据集中化数据集中化l业务综合化业务综合化l管理管理“扁平化扁平化”l决策科学化决策科学化l特点特点l以客户为中心以客户为中心l以服务求发展以服务求发展企业信息化建设提出了更高的要求企业信息化建设提出了更高的要求l市场竞争日益激烈市场竞争日益激烈 创造竞争优势创造竞争优势l需要及时、准确的做出科学决策需要及时、准确的做出科学决策l科学决策必须以准确、有效的数据为基础科学决策必须以准确、有效的数据为基础l
5、充分利用现有数据,将它转化为信息充分利用现有数据,将它转化为信息l以客户为中心的经营管理模式以客户为中心的经营管理模式 优化客户关系优化客户关系l原有系统往往以产品为中心原有系统往往以产品为中心l原有系统往往以原有系统往往以“单据(票证)单据(票证)”的处理为基础的处理为基础l转向转向“以客户为中心以客户为中心”l强调服务,尤其是个性化服务强调服务,尤其是个性化服务分析处理的需求分析处理的需求l例例1:今年销售量下降的因素(时间、地区、商品、销售部门):今年销售量下降的因素(时间、地区、商品、销售部门)l时间:销售时间:销售l地区:销售地区:销售*顾客(顾客地址所在的地区)顾客(顾客地址所在的
6、地区)l商品:销售商品:销售*订单细则订单细则 (商品类别)(商品类别)l销售部门:销售销售部门:销售*员工员工*部门(部门名称)部门(部门名称)l例例2:某种商品今年的销售情况与以往相比,有怎样的变化?每年的第一:某种商品今年的销售情况与以往相比,有怎样的变化?每年的第一季度商品销售在各类商品上的分布情况怎样?季度商品销售在各类商品上的分布情况怎样?l要求:要求:l多个子系统中的数据(数据集成)多个子系统中的数据(数据集成)l历史数据历史数据l汇总、综合的数据汇总、综合的数据现有数据库系统处理分析型应用存在的问题现有数据库系统处理分析型应用存在的问题l数据可靠性(可信度)数据可靠性(可信度)
7、l生产率生产率l不可能把数据转换成信息不可能把数据转换成信息l数据动态集成问题数据动态集成问题l历史数据问题历史数据问题l数据的综合问题:非细节数据,多种程度的综合数据的综合问题:非细节数据,多种程度的综合数据可靠性数据可靠性l数据没有同一时间基准数据没有同一时间基准l例如:一个银行的两个部门对同一业务提交报告例如:一个银行的两个部门对同一业务提交报告l部门部门A,于星期天傍晚提交,业务增长了,于星期天傍晚提交,业务增长了10%l部门部门B,于星期三下午提交,业务增长了,于星期三下午提交,业务增长了15%l算法不同算法不同 部门部门A使用的是所有类别的帐户,使用的是所有类别的帐户,部门部门B使
8、用的是所有大帐户使用的是所有大帐户l多次抽取,扩大了上述两个问题多次抽取,扩大了上述两个问题 用抽取程序从数据库用抽取程序从数据库/文件中抽取数据,并存放起来,然后又从此再文件中抽取数据,并存放起来,然后又从此再次进行抽取,从数据进入系统到提供分析往往经过次进行抽取,从数据进入系统到提供分析往往经过8、9次的抽取。次的抽取。数据可靠性(续)数据可靠性(续)l外部数据问题外部数据问题l一位分析员把华尔街杂志上的数据带进系统一位分析员把华尔街杂志上的数据带进系统l另一位将商业周刊的数据进入系统另一位将商业周刊的数据进入系统l 数据一旦进入系统,往往已失去数据一旦进入系统,往往已失去“身份身份”,并
9、且一位分,并且一位分析员也不知道另一位分析员所输入的数据析员也不知道另一位分析员所输入的数据l开始时就不是同一个公共的数据源开始时就不是同一个公共的数据源l部门部门A最初来源于文件最初来源于文件XYZl部门部门B最初来源于最初来源于DB ABC生产率生产率l为了生成一个报告,必须经过为了生成一个报告,必须经过l获得源数据获得源数据l定位和分析数据:由于同名不同义、同义不同名,很难准确定位和分析数据:由于同名不同义、同义不同名,很难准确定位和分析,可能造成进一步的混乱定位和分析,可能造成进一步的混乱l把数据加工成报告把数据加工成报告l要写许多程序,每个程序必须客户化(与客户环境有关)要写许多程序
10、,每个程序必须客户化(与客户环境有关)l程序会涉及公司具有的各种技术程序会涉及公司具有的各种技术l由于定位数据困难,检索所要的数据是一件很麻烦的事由于定位数据困难,检索所要的数据是一件很麻烦的事l完成任务需要很长时间完成任务需要很长时间l定位数据定位数据+获得数据获得数据+集成报告,完成任务所需时间较长集成报告,完成任务所需时间较长l每份报告各自需求不同,因此每份报告所需要的时间都很长。每份报告各自需求不同,因此每份报告所需要的时间都很长。从数据到信息从数据到信息l例如:例如:“今年的帐户情况与前五年比较今年的帐户情况与前五年比较”l涉及大量应用:储蓄应用、贷款、即期汇票管理、信托,涉及大量应
11、用:储蓄应用、贷款、即期汇票管理、信托,而这些应用并未集成。而这些应用并未集成。l没有足够的历史数据:没有足够的历史数据:l贷款部门,拥有二年的数据贷款部门,拥有二年的数据l银行存折处理,拥有一年的数据银行存折处理,拥有一年的数据l即期汇票管理只有即期汇票管理只有60天的数据天的数据l现金交易处理具有现金交易处理具有18个月的数据。个月的数据。l数据不一致问题:同名不同义、同义不同名,例如数据不一致问题:同名不同义、同义不同名,例如M/F,Male/Femalel外部数据和非结构化数据外部数据和非结构化数据操作型环境和分析型环境操作型环境和分析型环境l不同的需求,要求将操作型环境和分析型环境相
12、不同的需求,要求将操作型环境和分析型环境相分离分离l在操作型环境中支持分析应用太复杂、太困难在操作型环境中支持分析应用太复杂、太困难l操作性环境不支持域(操作性环境不支持域(Domain)之间的联系,仅仅支)之间的联系,仅仅支持表之间的连接持表之间的连接l不同的数据环境要求从数据组织(结构)和管理上进行不同的数据环境要求从数据组织(结构)和管理上进行工作工作两种数据的区别两种数据的区别 操作型数据操作型数据 分析型数据分析型数据 细节的细节的 综合的,或提炼的综合的,或提炼的 在存取瞬间是准确的在存取瞬间是准确的 代表过去的数据代表过去的数据 可更新可更新 不更新不更新 操作需求事先可知道操作
13、需求事先可知道 操作需求事先不知道操作需求事先不知道 生命周期符合生命周期符合SDLC SDLC 完全不同的生命周期完全不同的生命周期 对性能要求高对性能要求高 对性能要求宽松对性能要求宽松 一个时刻操作一单元一个时刻操作一单元 一个时刻操作一集合一个时刻操作一集合 事务驱动事务驱动 分析驱动分析驱动 面向应用面向应用 面向分析面向分析 一次操作数据量小一次操作数据量小 一次操作数据量大一次操作数据量大 支持日常操作支持日常操作 支持管理需求支持管理需求介绍内容介绍内容l为什么需要数据仓库技术为什么需要数据仓库技术l什么是数据仓库什么是数据仓库l数据仓库的概念数据仓库的概念l数据仓库的特点数据
14、仓库的特点l什么是联机分析处理技术什么是联机分析处理技术l联机分析处理技术实现联机分析处理技术实现l数据仓库系统的体系结构数据仓库系统的体系结构数据仓库的概念数据仓库的概念l数据仓库数据仓库(Data WarehouseData Warehouse)是一个是一个面向主题的面向主题的(Subject Subject Oriented Oriented)、集成的、集成的(IntegratedIntegrated)、相对稳定的、相对稳定的(Non-Non-VolatileVolatile)、反映历史变化、反映历史变化(Time VariantTime Variant)的数据集合的数据集合,用于,用于
15、支持管理决策和信息的全局共享。支持管理决策和信息的全局共享。l对数据仓库的理解对数据仓库的理解l数据仓库用于支持管理和决策,面向分析型数据处理,它不同于数据仓库用于支持管理和决策,面向分析型数据处理,它不同于企业现有的面向交易的操作型数据库;企业现有的面向交易的操作型数据库;l数据仓库是对多个异构的数据源有效集成,集成后按照主题进行数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据。了重组,并包含历史数据。数据仓库回答的问题数据仓库回答的问题l数据仓库技术将为高层管理人员的科学决策提供可靠依据。数据仓库技术将为高层管理人员的科学决策提供可靠依据。l去年各个地区各个产
16、品的销售量和销售额?去年各个地区各个产品的销售量和销售额?l1010年以来,各个计算机厂商每个季度的销售额占有比例的变化年以来,各个计算机厂商每个季度的销售额占有比例的变化情况?情况?l如果某种产品的销售价格打如果某种产品的销售价格打9 9折,利润将发生怎样的变化?折,利润将发生怎样的变化?l今年销售量下降的主要因素(时间、地区、商品、销售部门)今年销售量下降的主要因素(时间、地区、商品、销售部门)是什么?是什么?数据仓库的特点:面向主题数据仓库的特点:面向主题寿险寿险财产险财产险机动车险机动车险客户客户s操作型数据库是面向特殊操作型数据库是面向特殊处理任务,各个系统之间处理任务,各个系统之间
17、各自分离各自分离s数据仓库是按照一定的主数据仓库是按照一定的主题域进行组织。一个主题题域进行组织。一个主题通常与多个操作型信息系通常与多个操作型信息系统相关。统相关。操作型数据库操作型数据库数据仓库数据仓库数据仓库的特点:集成的数据仓库的特点:集成的面向特定应用面向特定应用集成的集成的s每一个数据库面向特定的每一个数据库面向特定的应用,各类应用(包括其应用,各类应用(包括其相关的数据库)之间相互相关的数据库)之间相互独立。独立。s数据仓库中的数据面向整个企数据仓库中的数据面向整个企业的分析处理,数据仓库中的业的分析处理,数据仓库中的数据是已经集成了的,消除了数据是已经集成了的,消除了数据的不一
18、致性。数据的不一致性。操作型数据库操作型数据库数据仓库数据仓库数据集成的方法数据集成的方法:MQS数据仓库的数据集成数据仓库的数据集成抽取清理转化加载数据仓库数据源1数据源2数据源3数据源n数据仓库的特点:反映历史变化数据仓库的特点:反映历史变化s主要关心当前数据主要关心当前数据s通常包含历史数据通常包含历史数据操作型数据库操作型数据库数据仓库数据仓库数据仓库的特点:相对稳定的数据仓库的特点:相对稳定的modifydeleteinsertupdateLoad/Update在某个时间段内保持相对稳定在某个时间段内保持相对稳定s实时更新,数据根据需实时更新,数据根据需要及时发生变化要及时发生变化s
19、定期加载,加载后的数据极少定期加载,加载后的数据极少更新。更新。实时更新实时更新操作型数据库操作型数据库数据仓库数据仓库数据库技术与数据仓库技术数据库技术与数据仓库技术l数据库技术在系统功能和性能需求数据库技术在系统功能和性能需求l强调的是多用户环境下如何针对并发用户的增删改强调的是多用户环境下如何针对并发用户的增删改操作,保证数据的一致性和可恢复性,并发用户的操作,保证数据的一致性和可恢复性,并发用户的吞吐量为数据库管理系统的重要性能指标吞吐量为数据库管理系统的重要性能指标l数据仓库技术在系统功能和性能需求数据仓库技术在系统功能和性能需求l强调的是大数据量环境下的高效、快速查询,查询强调的是
20、大数据量环境下的高效、快速查询,查询的吞吐量为数据仓库管理系统的重要性能指标的吞吐量为数据仓库管理系统的重要性能指标 数据仓库管理系统的提供商数据仓库管理系统的提供商l Oracle:Oracle 8i,Oracle 9i,Oracle 10g,Oracle 11gl IBM :DB2l NCR:Teradatal Sybase:Sybase IQ数据仓库中的索引技术数据仓库中的索引技术l位图索引(位图索引(Bitmap Index)l针对一些特殊的列建立索引针对一些特殊的列建立索引l列中的每一个值对应一个向量中的一位列中的每一个值对应一个向量中的一位l向量的长度对应与记录的条数向量的长度对应
21、与记录的条数l不适合列中值的个数太多的情况不适合列中值的个数太多的情况客户号客户号地区地区类型类型C1AsiaRetailC2EuropeDealerC3AsiaDealerC4AmericaRetailC5EuropeDealer基本表基本表RecID Asia EuropeAmerica11002010310040015010地区索引地区索引RecIDRetailDealer110201301410501类型索引类型索引数据仓库中的索引技术数据仓库中的索引技术l连接索引(连接索引(Join Index)l一个表对另一个表中包含本表中相关列内容一个表对另一个表中包含本表中相关列内容的行进行索
22、引。的行进行索引。产品编码产品编码名称名称单价单价索引项索引项P1电视电视5000R1,R2p2冰箱冰箱4000R3,R4产品产品销售情况销售情况记录号记录号产品编码产品编码月份月份数量数量R1P12000/15128R2P12000/23246R4p22000/13457R3p22000/24030数据仓库中的索引技术数据仓库中的索引技术l建立广义索引建立广义索引l用于处理最大(小)值问题用于处理最大(小)值问题例如:每月销售最好的前例如:每月销售最好的前5种商品?种商品?l当数据装入到当数据装入到DW时,生成时,生成“广义索引广义索引”内容内容l广义索引随着数据仓库的发展,数目会增加,但每
23、个索引广义索引随着数据仓库的发展,数目会增加,但每个索引的规模小,需要在元数据中定义的规模小,需要在元数据中定义“广义索引广义索引”介绍内容介绍内容w为什么需要数据仓库技术为什么需要数据仓库技术w什么是数据仓库什么是数据仓库w什么是联机分析处理技术什么是联机分析处理技术n联机分析处理的提出联机分析处理的提出n联机分析处理的基本概念和相关操作联机分析处理的基本概念和相关操作w联机分析处理技术实现联机分析处理技术实现w数据仓库系统的体系结构数据仓库系统的体系结构联机分析处理(联机分析处理(OLAP)的提出)的提出l关系数据库满足了联机事务处理(关系数据库满足了联机事务处理(OLTP)的要求)的要求
24、l存在着大量的分析型应用存在着大量的分析型应用 关系数据库系统无法适应关系数据库系统无法适应l应用角度:要求对大量的数据从各个角度进行综合分析(多维分析)应用角度:要求对大量的数据从各个角度进行综合分析(多维分析)l技术角度:技术角度:SQL已经不能很好的适应分析应用需求已经不能很好的适应分析应用需求查询效率(响应时间):一条分析查询语句可能会分解为多条子查询,而每查询效率(响应时间):一条分析查询语句可能会分解为多条子查询,而每条子查询又可能涉及多个整表扫描、多表连接、聚集计算和排序,并且需要条子查询又可能涉及多个整表扫描、多表连接、聚集计算和排序,并且需要开辟较大的空间来存储各种临时表和中
25、间计算结果。开辟较大的空间来存储各种临时表和中间计算结果。SQL本身的限制,尤其对时间的处理能力本身的限制,尤其对时间的处理能力l典型分析应用:对一些统计指标典型分析应用:对一些统计指标 (销售金额)(销售金额)从不同角度(维)从不同角度(维)(时间、地区、商品类型)(时间、地区、商品类型)从不同级别(层次)(地区:县、地市、省、大区)从不同级别(层次)(地区:县、地市、省、大区)l在在RDBMS上开发前端产品,支持上述应用逻辑上开发前端产品,支持上述应用逻辑E.F.Codd把这类技术称为把这类技术称为“OLAP”(1993年)年)多维数据模型多维数据模型l多维数据模型又称多维概念视图,通常用
展开阅读全文