书签 分享 收藏 举报 版权申诉 / 66
上传文档赚钱

类型第01讲A数据仓库概述共66页课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:2878359
  • 上传时间:2022-06-07
  • 格式:PPT
  • 页数:66
  • 大小:655KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第01讲A数据仓库概述共66页课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    01 数据仓库 概述 66 课件
    资源描述:

    1、1教材:教材:1 夏火松数据仓库与数据挖掘技术(第二版)北京:科夏火松数据仓库与数据挖掘技术(第二版)北京:科学出版社,学出版社,2019 2 李雄飞等数据仓库与数据挖掘北京:机械工业出版社,李雄飞等数据仓库与数据挖掘北京:机械工业出版社,2019 3 (美)(美)Jiawei Han,(加),(加)Micheline Kamber等数据等数据挖掘概念与技术(原书第挖掘概念与技术(原书第3版)范明,孟小峰等译北京:版)范明,孟小峰等译北京:机械工业出版社,机械工业出版社,2019 4 (美)(美)W.H.Inmon数据仓库(原书第数据仓库(原书第4版)王志海,版)王志海,林友芳等译北京:机械工

    2、业出版社,林友芳等译北京:机械工业出版社,2019 2第一章第一章 引引 言言一、从数据库到数据仓库一、从数据库到数据仓库 在市场经济激烈竞争中,企业必须把业务经营同市场联在市场经济激烈竞争中,企业必须把业务经营同市场联系,在此基础上作出科学、正确的决策以求生存。为此,企系,在此基础上作出科学、正确的决策以求生存。为此,企业纷纷建立了自己的数据库系统,由计算机管理代替手工操业纷纷建立了自己的数据库系统,由计算机管理代替手工操作,以此来收集、存储、管理业务数据,改善办公环境,提作,以此来收集、存储、管理业务数据,改善办公环境,提高操作人员的工作效率。高操作人员的工作效率。问题:问题:面向业务操作

    3、设计,无论是查询、统计,还是生成报面向业务操作设计,无论是查询、统计,还是生成报表,其处理方式都是对指定的数据进行简单的数字处理。表,其处理方式都是对指定的数据进行简单的数字处理。保险公司:保险公司:购买人寿保险的客户一般有哪些特征?购买人寿保险的客户一般有哪些特征?市场部经理:市场部经理:在过去的一个季度里,咨询哪三样产品的热线在过去的一个季度里,咨询哪三样产品的热线电话最多?电话最多?3 传统的关系数据库可以传统的关系数据库可以回答这种类似问题吗?回答这种类似问题吗?可以,但是很成问题可以,但是很成问题决策者(比如总经理)希望得到一项分析数据决策者(比如总经理)希望得到一项分析数据需求提交

    4、给公司的信息部门,信息部门指派人员编制程序需求提交给公司的信息部门,信息部门指派人员编制程序几天后信息部门的报表送到决策者手中几天后信息部门的报表送到决策者手中决策者发觉报表不符合要求,提出修改意见交还给信息部门决策者发觉报表不符合要求,提出修改意见交还给信息部门信息部门修改程序,几天后新的报表送给总经理信息部门修改程序,几天后新的报表送给总经理 数据来的太慢了,我已数据来的太慢了,我已经对它不感兴趣了!经对它不感兴趣了!4 传统的关系数据库可以传统的关系数据库可以回答这种类似问题吗?回答这种类似问题吗?可以,但是很成问题可以,但是很成问题决策者(比如总经理)希望得到一项分析数据决策者(比如总

    5、经理)希望得到一项分析数据需求提交给公司的信息部门,信息部门指派人员编制程序需求提交给公司的信息部门,信息部门指派人员编制程序几天后信息部门的报表送到决策者手中几天后信息部门的报表送到决策者手中决策者发觉报表不符合要求,提出修改意见交还给信息部门决策者发觉报表不符合要求,提出修改意见交还给信息部门信息部门修改程序,几天后新的报表送给总经理信息部门修改程序,几天后新的报表送给总经理 我辛辛辛苦苦为一个特定问题加班加我辛辛辛苦苦为一个特定问题加班加点干了十天最后被否定了,这已经是第点干了十天最后被否定了,这已经是第n n次了,次了,我辞职不干了!我辞职不干了!5原因:数据库是针对操作型处理设计的原

    6、因:数据库是针对操作型处理设计的也叫事务处理,是指对数据库的日常联机访问操作,所以也叫事务处理,是指对数据库的日常联机访问操作,所以也叫也叫联机事务处理联机事务处理(OLTP)(OLTP)。 其访问特点是:其访问特点是: 通常仅仅是对一个或一组记录的查询或修改通常仅仅是对一个或一组记录的查询或修改 执行频率高执行频率高 人们关心的是处理的响应时间、数据的安全性和完整人们关心的是处理的响应时间、数据的安全性和完整性等指标。性等指标。 6为完成决策者的询问,信息部门必须:为完成决策者的询问,信息部门必须:抽取数据抽取数据 抽取程序搜索整个文件或数据库,使用某种标准选择符抽取程序搜索整个文件或数据库

    7、,使用某种标准选择符合限制的数据,并把数据传到其它文件或数据库中。合限制的数据,并把数据传到其它文件或数据库中。 抽取程序很快流行起来并渗透到信息处理环境中,其原抽取程序很快流行起来并渗透到信息处理环境中,其原因是:因是:1)抽取程序将数据从高性能联机事物处理方式中转移出来,)抽取程序将数据从高性能联机事物处理方式中转移出来,所以在需要总体分析数据时就与联机处理事物能不冲突所以在需要总体分析数据时就与联机处理事物能不冲突2)当抽取程序将数据从操作型事物处理范围内移出时,数据)当抽取程序将数据从操作型事物处理范围内移出时,数据的控制方式就发生了转变。最终用户一旦开始控制数据,他的控制方式就发生了

    8、转变。最终用户一旦开始控制数据,他最终就拥有了这些数据。最终就拥有了这些数据。DB抽取抽取DBDB.7问题问题1: 蜘蛛网式的拓展蜘蛛网式的拓展8问题问题2: 自然演化体系结构的问题自然演化体系结构的问题1)数据缺乏可信性)数据缺乏可信性 数据无时基数据无时基 数据算法上的差异数据算法上的差异 抽取的多层次抽取的多层次 外部数据问题外部数据问题 无起始公共数据源无起始公共数据源2)生产率问题)生产率问题为回答一个决策查询,需要:为回答一个决策查询,需要: 定位报表所需要的数据并分析数据定位报表所需要的数据并分析数据 为报表编辑数据为报表编辑数据为完成以上工作,召集程序员为完成以上工作,召集程序

    9、员/分析员,对他们而言:分析员,对他们而言: 要写的程序很多要写的程序很多 每个程序必须是定制的每个程序必须是定制的 程序涵盖了公司拥有的所有技术程序涵盖了公司拥有的所有技术93)从数据到信息的不可行性)从数据到信息的不可行性 在自然演化体系结构中建立起来的系统对信息需求的支在自然演化体系结构中建立起来的系统对信息需求的支持是不充分的,原因是它们缺乏集成性、以及在分析性处持是不充分的,原因是它们缺乏集成性、以及在分析性处理需要的时间上和在蜘蛛网环境中应用程序的可用时间期理需要的时间上和在蜘蛛网环境中应用程序的可用时间期限上存在差异。限上存在差异。10数据库方式数据库方式数据仓库方式数据仓库方式

    10、8080年代以后年代以后9090年代以后年代以后以支持日常业以支持日常业务处理过程为务处理过程为目的(目的(OLTPOLTP)以支持经营管以支持经营管理过程中的决理过程中的决策制定为目的策制定为目的(DSSDSS) 自进入自进入9090年代以后,数据库系统的应用从传统的事年代以后,数据库系统的应用从传统的事务处理应用扩展到辅助决策等新的集成应用领域。务处理应用扩展到辅助决策等新的集成应用领域。11数据仓库的出现是为数据仓库的出现是为分析型处理分析型处理用于企业管理人员的决策分析,为制订企业的未来经营管用于企业管理人员的决策分析,为制订企业的未来经营管理计划提供辅助决策信息,如理计划提供辅助决策

    11、信息,如决策支持系统决策支持系统(DSS-(DSS-Decision Support System )Decision Support System )。 其访问特点是:其访问特点是: 需要执行大量的统计操作需要执行大量的统计操作 需要访问大量的历史数据需要访问大量的历史数据 执行频率和对响应时间的要求都不高等。执行频率和对响应时间的要求都不高等。12针对工商企业目前业务自动化设计针对工商企业目前业务自动化设计针对工商企业数据分析而设计针对工商企业数据分析而设计是在协助工作人员执行既有的活动是在协助工作人员执行既有的活动是在协助工作人员执行管理决策是在协助工作人员执行管理决策可以让多个用户同时

    12、使用信息系统可以让多个用户同时使用信息系统一般而言,同时间不会有太多用户同时使一般而言,同时间不会有太多用户同时使用系统用系统存储的数据比较偏重细节存储的数据比较偏重细节存储的数据偏重较高级别的集合信息存储的数据偏重较高级别的集合信息数据的来源是用户日常工作的输入数据的来源是用户日常工作的输入数据的来源是数据的来源是OLTP系统系统数据库的内容会随时被添加、删除,时数据库的内容会随时被添加、删除,时间短而且占用系统的资源少间短而且占用系统的资源少数据内容是历史数据,不会随时加以更新数据内容是历史数据,不会随时加以更新数据的处理以交易为单位,交易时间短数据的处理以交易为单位,交易时间短而且占用的

    13、资源少而且占用的资源少数据的处理不是以交易为单位,一个用户数据的处理不是以交易为单位,一个用户的需求会占用大量的系统资源的需求会占用大量的系统资源设计数据库是采用正规化的设计方法设计数据库是采用正规化的设计方法设计数据仓库采用非正规化的设计方式设计数据仓库采用非正规化的设计方式数据库数据数据库数据数据仓库数据数据仓库数据13数据仓库还具有的特点:数据仓库还具有的特点:1)将分散在各处不同性质的数据整合到单数据集合中)将分散在各处不同性质的数据整合到单数据集合中2)使用适合数据分析的结构来存储数据)使用适合数据分析的结构来存储数据3)包含由日常交易数据转换而来的数据,以供管理员决策分析)包含由日

    14、常交易数据转换而来的数据,以供管理员决策分析4)要能够及时从数据仓库中取得信息)要能够及时从数据仓库中取得信息5)数据仓库的数据在内部必须有一致性)数据仓库的数据在内部必须有一致性6)用户可以对取得的分析数据做细分与比较)用户可以对取得的分析数据做细分与比较7)数据仓库系统必须包含易于使用的浏览工具)数据仓库系统必须包含易于使用的浏览工具8)在数据仓库中的数据必须完整而且正确。)在数据仓库中的数据必须完整而且正确。14 6060年代,关系数据库之父年代,关系数据库之父E.F.CoddE.F.Codd提出了关系模型,促进了联提出了关系模型,促进了联机事务处理机事务处理(OLTP)(OLTP)的发

    15、展的发展( (数据以表格的形式而非文件方式存储数据以表格的形式而非文件方式存储) )。19931993年,年,E.F.CoddE.F.Codd提出了提出了OLAPOLAP概念,认为概念,认为OLTPOLTP已不能满足终端用已不能满足终端用户对数据库查询分析的需要,户对数据库查询分析的需要,SQLSQL对大型数据库进行的简单查询也对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,

    16、提出的需求。因此,E.F.CoddE.F.Codd提出了多维数据库和多维分析的概提出了多维数据库和多维分析的概念,即念,即OLAPOLAP。二、联机事务处理(二、联机事务处理(OLAPOLAP)面向操作人员,支持日常操作面向操作人员,支持日常操作面向决策人员,支持管理需要面向决策人员,支持管理需要面向应用,事务驱动面向应用,事务驱动面向分析,分析驱动面向分析,分析驱动一次处理的数据量小一次处理的数据量小一次处理的数据量大一次处理的数据量大可更新可更新不可更新,但周期性刷新不可更新,但周期性刷新当前值数据当前值数据历史数据历史数据细节性数据细节性数据综合性和提炼性数据综合性和提炼性数据原始数据原

    17、始数据导出数据导出数据OLTP数据数据OLAP数据数据15OLAPOLAP是独立于数据仓库的一种技术概念,基本思想是:是独立于数据仓库的一种技术概念,基本思想是: 企业决策者应能灵活地操作企业的数据,以多维的形企业决策者应能灵活地操作企业的数据,以多维的形式从多方面和多角度来观察企业的状态并了解企业的变化。式从多方面和多角度来观察企业的状态并了解企业的变化。OLAPOLAP系统与数据源的数据存储相分离,只要提供足够的数据系统与数据源的数据存储相分离,只要提供足够的数据即可完成即可完成OLAPOLAP分析。分析。 当当OLAPOLAP与数据仓库结合时,与数据仓库结合时,OLAPOLAP的数据源为

    18、数据仓库,数的数据源为数据仓库,数据仓库的大量数据是根据多维方式组织的。据仓库的大量数据是根据多维方式组织的。161 1、OLAPOLAP定义定义定义定义1 1 :OLAP(OLAP(联机分析处理联机分析处理) )是针对特定问题的联机数据是针对特定问题的联机数据访问和分析。通过对信息访问和分析。通过对信息( (维数据维数据) )的多种可能的观察形式的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。对数据进行深入观察。定义定义2 2 :OLAP(OLAP(联机分析处理联机分析处理) ) 是使分析人员、管理人

    19、员是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。了解的一类软件技术。(OLAP(OLAP委员会的定义委员会的定义) )OLAPOLAP的目标:的目标:是满足决策支持或多维环境特定的查询和报是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是表需求,它的技术核心是“维维”这个概念,因此这个概念,因

    20、此OLAPOLAP也可也可以说是多维数据分析工具的集合。以说是多维数据分析工具的集合。172、为什么需要分离的、为什么需要分离的OLAP或数据仓库或数据仓库 分离操作数据库系统和分离操作数据库系统和OLAPOLAP数据仓库的主要原因是提高数据仓库的主要原因是提高两个系统的性能两个系统的性能. .操作数据库系统是为已知的任务和负载设操作数据库系统是为已知的任务和负载设计的计的, ,而数据仓库的查询通常是复杂的而数据仓库的查询通常是复杂的, ,涉及大量数据在汇总涉及大量数据在汇总级的计算级的计算, ,在操作数据库系统上处理在操作数据库系统上处理OLAPOLAP查询查询, ,可能会大大降可能会大大降

    21、低操作任务的性能。低操作任务的性能。183 3、OLAPOLAP服务器类型服务器类型1 1)关系)关系OLAP(ROLAP)OLAP(ROLAP)模型模型, ,使用关系或扩充关系使用关系或扩充关系DBMSDBMS存放存放并管理数据仓库并管理数据仓库2 2)多维)多维OLAP(MOLAP)OLAP(MOLAP)服务器服务器, ,这些服务器通过基于数组的这些服务器通过基于数组的多维存储多维存储, ,支持数组的多维视图支持数组的多维视图3 3)混合)混合OLAP(HOLAP)OLAP(HOLAP)服务器服务器, ,结合结合ROLAPROLAP和和MOLAPMOLAP技术技术, ,得得宜于宜于ROLA

    22、PROLAP的可伸缩性的可伸缩性, ,和和MOLAPMOLAP的快速计算。(如的快速计算。(如MS)MS)4 4)特殊的)特殊的SQLSQL服务器服务器, ,为了满足在关系数据库中日益增长为了满足在关系数据库中日益增长的的OLAPOLAP需要需要, ,实现了特殊的实现了特殊的SQLSQL服务器服务器, ,提供高级查询语言提供高级查询语言和查询处理和查询处理, ,在星型和雪花模式上支持在星型和雪花模式上支持SQLSQL查询查询19 ROLAPROLAP优势优势没有大小限制没有大小限制现有的关系数据库的技术现有的关系数据库的技术可以沿用可以沿用. .可以通过可以通过SQLSQL实现详细数据实现详细

    23、数据与概要数据的存储与概要数据的存储现有关系型数据库已经对现有关系型数据库已经对OLAPOLAP做了很多优化,包括做了很多优化,包括并行存储、并行查询、并并行存储、并行查询、并行数据管理、基于成本的行数据管理、基于成本的查询优化、位图索引、查询优化、位图索引、SQL SQL 的的OLAPOLAP扩展扩展(cube,rollup)(cube,rollup)等大大提高等大大提高ROALPROALP的速度的速度 MOLAPMOLAP优势优势性能好、响应速度快性能好、响应速度快专为专为OLAPOLAP所设计所设计支持高性能的决策支支持高性能的决策支持计算持计算 复杂的跨维计算复杂的跨维计算 多用户的读

    24、写操作多用户的读写操作 行级的计算行级的计算4、ROLAP与与MOLAP比较比较20 ROLAPROLAP缺点缺点一般比一般比MOLAPMOLAP响应速度慢响应速度慢不支持有关预计算的读不支持有关预计算的读写操作写操作SQLSQL无法完成部分计算无法完成部分计算 无法完成多行的计算无法完成多行的计算 无法完成维之间的计无法完成维之间的计算算 MOLAPMOLAP缺点缺点增加系统复杂度,增加增加系统复杂度,增加系统培训与维护费用系统培训与维护费用受操作系统平台中文件受操作系统平台中文件大小的限制,难以达到大小的限制,难以达到TB TB 级级( (只能只能1020G)1020G)需要进行预计算,可

    25、能需要进行预计算,可能导致数据爆炸导致数据爆炸无法支持维的动态变化无法支持维的动态变化缺乏数据模型和数据访缺乏数据模型和数据访问的标准问的标准215、维的概念:、维的概念:一个电子公司的销售一般从三个方面分析销售额:一个电子公司的销售一般从三个方面分析销售额:时间:时间:在某一段时间内的销售情况,其度量为(年、季度、在某一段时间内的销售情况,其度量为(年、季度、月、旬、天)月、旬、天)地区:地区:在某个地区的销售情况,度量可分为(地区、国家、在某个地区的销售情况,度量可分为(地区、国家、省、市)省、市)产品:产品:某类或某型号产品的销售情况,度量可分为(类别、某类或某型号产品的销售情况,度量可

    26、分为(类别、型号等)型号等) 此处,(时间,地区,产品)就构成了三个维。此处,(时间,地区,产品)就构成了三个维。维有层次结构,可以在某个层上察看数据。维有层次结构,可以在某个层上察看数据。22时间时间地区地区产品产品原点原点 此处正好构成一个数据立方体,可以有更高阶的维,此处正好构成一个数据立方体,可以有更高阶的维,但仍然称为但仍然称为数据立方体。数据立方体。2320294035504138372321393426273632时间时间产品产品地区地区一季度一季度二季度二季度三季度三季度四季度四季度北京北京上海上海南京南京广州广州VCD手机手机电脑电脑空调空调69(北京,二季度,电脑的销售额)

    27、(北京,二季度,电脑的销售额)2420294035504138372321393426273632时间时间产品产品地区地区一季度一季度二季度二季度三季度三季度四季度四季度北京北京上海上海南京南京广州广州VCD手机手机电脑电脑空调空调切片切片(slice): 地区地区=“北京北京”意义:北京地区四个季度意义:北京地区四个季度空调、电脑、手机、空调、电脑、手机、VCD的销售金额的销售金额2520294035504138372321393426273632时间时间产品产品地区地区一季度一季度二季度二季度三季度三季度四季度四季度北京北京上海上海南京南京广州广州VCD手机手机电脑电脑空调空调切片:切片:

    28、 产品产品=“空调空调”意义:空调产品在四个季意义:空调产品在四个季度中各地区的销售金额度中各地区的销售金额26分块分块(dice):地区地区=“南京南京” AND “广州广州”产品产品“空调空调”AND “手机手机”2029403550413837时间时间产品产品地区地区一季度一季度二季度二季度三季度三季度四季度四季度南京南京广州广州手机手机空调空调27上卷(上卷(roll_up):按时间上卷到半年为单位按时间上卷到半年为单位2029403550413837时间时间产品产品地区地区一季度一季度二季度二季度三季度三季度四季度四季度南京南京广州广州手机手机空调空调时间时间产品产品南京南京广州广州

    29、手机手机空调空调49759175上半年上半年 下半年下半年282029403550413837时间时间产品产品地区地区一季度一季度二季度二季度三季度三季度四季度四季度南京南京广州广州手机手机空调空调下钻(下钻(drill_down): 按时间分到月、甚至按时间分到月、甚至天为单位天为单位668817161413时间时间南京南京广州广州手机手机8131113141413121610101513111016空调空调1 2 3 4 5 6 7 8 9 10 11 12下钻下钻296、数据仓库的、数据仓库的粒度:粒度:反映数据的粗细程度反映数据的粗细程度 若要分析去年春节手机打折销售后的销售情况,此时

    30、若要分析去年春节手机打折销售后的销售情况,此时在数据仓库中已经无法进行了。只有将粒度确定为在数据仓库中已经无法进行了。只有将粒度确定为“天天”才有可能。才有可能。 销售数据库存储了每一笔业务的细节,在分析时对每销售数据库存储了每一笔业务的细节,在分析时对每一笔分析是无意义的。因此可以考虑数据仓库的粒度级别一笔分析是无意义的。因此可以考虑数据仓库的粒度级别以星期为单位,即在数据从数据库装入数据仓库时,按星以星期为单位,即在数据从数据库装入数据仓库时,按星期汇总。由星期通过计算能得到月、季度、年的汇总。可期汇总。由星期通过计算能得到月、季度、年的汇总。可以认为该数据仓库在时间上有以认为该数据仓库在

    31、时间上有多重粒度。多重粒度。粒度细:数据分析灵活,但存储空间大,计算量大粒度细:数据分析灵活,但存储空间大,计算量大粒度粗:存储空间小,但有时无法回答一些比较细节的问题粒度粗:存储空间小,但有时无法回答一些比较细节的问题307、分割、分割 目的:提高效率目的:提高效率 含义:将数据分散到各自的物理单元中,以便能分别独含义:将数据分散到各自的物理单元中,以便能分别独立处理。立处理。 分割标准:日期、地域、业务领域等。分割标准:日期、地域、业务领域等。 在数据仓库中,围绕分割问题的关键不是对数据该不在数据仓库中,围绕分割问题的关键不是对数据该不该分割,而是如何分割。该分割,而是如何分割。 对数据仓

    32、库中,如果粒度和分割做得很好的话,则数对数据仓库中,如果粒度和分割做得很好的话,则数据仓库设计和实现的几乎所有其它问题都解决了。据仓库设计和实现的几乎所有其它问题都解决了。31数据仓库的结构数据仓库的结构327、OLAP数据立方体的计算(物化)数据立方体的计算(物化)1、数据立方体的个数、数据立方体的个数 有产品有产品(type)、城市、城市(city)、日期、日期(date)三个维,则:三个维,则:allyeartypecitytype yearcity datecity type city type date一般,若有一般,若有n个维,则不同立方体的个数是:个维,则不同立方体的个数是:nn

    33、nnnccc2.1033 实际维上有分层,如(年、季度、月、星期、日),所以实际维上有分层,如(年、季度、月、星期、日),所以实际的立方体个数是极大的。所以,实时计算的工作量极大,实际的立方体个数是极大的。所以,实时计算的工作量极大,但全部事先计算,则存储量又极大。但全部事先计算,则存储量又极大。 所以,在所以,在OLAP中一般采用部分物化,即有选择的事先计中一般采用部分物化,即有选择的事先计算。算。34三、数据挖掘三、数据挖掘 OLAPOLAP使用户能利用工具快速的查询数据。但不能解决哪些使用户能利用工具快速的查询数据。但不能解决哪些信息是有意义的,哪些是无意义的。信息是有意义的,哪些是无意

    34、义的。 在在OLAPOLAP使用中,一般是用户提出一个假设(模式),通过使用中,一般是用户提出一个假设(模式),通过OLAPOLAP去验证假定或从返回的数据信息中总结出某种规律去验证假定或从返回的数据信息中总结出某种规律。有。有时返回的信息太多而无法处理。(比如在搜索引擎查时返回的信息太多而无法处理。(比如在搜索引擎查“数据数据挖掘挖掘”返回许多页面,而有关的返回许多页面,而有关的“数据开采数据开采”, “知识发现知识发现”又没有返回)。又没有返回)。 二十年前查不到数据是因为数据太少,而今天数据二十年前查不到数据是因为数据太少,而今天数据查不到是因为数据太多。查不到是因为数据太多。35 若把

    35、大量的数据比做藏有金子的山,若把大量的数据比做藏有金子的山,OLAP提供了在提供了在山中各处迅速地观察工具,它能让你迅速的到达你想到的山中各处迅速地观察工具,它能让你迅速的到达你想到的地方。但不能告诉你是否此处有价值。如果山是巨大的,地方。但不能告诉你是否此处有价值。如果山是巨大的,发现其中重要的有价值的位置本身是非常耗时的。发现其中重要的有价值的位置本身是非常耗时的。36数据挖掘(数据挖掘(Data mining ) 从大量的数据集合中的数据中提取有用的信息从大量的数据集合中的数据中提取有用的信息 ( 不平常不平常的的 , 暗藏的暗藏的, 先前未知的和很可能有用的先前未知的和很可能有用的 )

    36、。 数据挖掘数据挖掘就是对观测到的数据集(经常是很庞大的)就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。理解并对其有价值的新颖方式来总结数据。37数据挖掘与数据仓库关系数据挖掘与数据仓库关系 数据仓库的目标是提供数据仓库的目标是提供OLAP及数据挖掘功能。及数据挖掘功能。 数据挖掘的数据源不一定是数据仓库数据挖掘的数据源不一定是数据仓库 数据仓库允许你建立数据仓库允许你建立“数据山数据山”,而数据挖掘允许你在,而数据挖掘允许你在山山 中筛选数据,得到对你有用的信息中筛选

    37、数据,得到对你有用的信息38数据挖掘的过程数据挖掘的过程Data Cleaning数据整理数据整理Data Integration数据集成数据集成数据库数据库数据数据仓库仓库相关任务数据相关任务数据挑选挑选数据挖掘数据挖掘模式评估模式评估Pattern Evaluation39数据仓库的投资回报率(数据仓库的投资回报率(ROIROI) 96年,年,IDC(Intenational Data Corporation)做了关于数据做了关于数据仓库经济价值的研究。报告指出:对仓库经济价值的研究。报告指出:对IT业的投资还未产生预期业的投资还未产生预期的利润。的利润。94年全世界投入了年全世界投入了4

    38、640亿美元用于开发新技术。企业、亿美元用于开发新技术。企业、公司的高级管理人员开始怀疑投资公司的高级管理人员开始怀疑投资IT业到底有没有利益?业到底有没有利益? ROIROI底的原因是:传统的计算技术只重视如何自动完成职员底的原因是:传统的计算技术只重视如何自动完成职员的日常工作、提高已有过程的效率和收集数据。不幸的是虽然的日常工作、提高已有过程的效率和收集数据。不幸的是虽然收集了大量数据,但直到近年,这些数据的价值才被发现和利收集了大量数据,但直到近年,这些数据的价值才被发现和利用。用。 随着数据仓库的到来,公司可以把收集到的信息加以利用随着数据仓库的到来,公司可以把收集到的信息加以利用以

    39、获得较大的投资回报率。以获得较大的投资回报率。IDCIDC的报告认为实现数据仓库有较的报告认为实现数据仓库有较大经济回报大经济回报,原因是:,原因是:40 能应用到商业过程中,对商业过程做完整的经济分析。能应用到商业过程中,对商业过程做完整的经济分析。这时的机构能在了解整个系统的基础上,而不是不完整的数这时的机构能在了解整个系统的基础上,而不是不完整的数据上做估计和决策。据上做估计和决策。 能自动创建一个完整的企业范围内的信息仓储,而不是能自动创建一个完整的企业范围内的信息仓储,而不是开发一些单独的决策支持系统和相应的基础设施。开发一些单独的决策支持系统和相应的基础设施。 开发、部署和维护大型

    40、信息数据存储花费的硬件、软件和开发、部署和维护大型信息数据存储花费的硬件、软件和存储代价继续下降。存储代价继续下降。 数据仓库可以轻易拓展到能产生巨大利益的战略决策过程数据仓库可以轻易拓展到能产生巨大利益的战略决策过程中。中。 能同时从宏观和微观上了解和管理企业。这可以节省无数能同时从宏观和微观上了解和管理企业。这可以节省无数的手工劳动,避免由不完全或不正确数据得出的假设导致的错的手工劳动,避免由不完全或不正确数据得出的假设导致的错误误这种错误有时是致命的这种错误有时是致命的。41 IDCIDC的研究结论认为:的研究结论认为:数据挖掘平均三年的数据挖掘平均三年的ROIROI能达到能达到401%

    41、,401%,在被调查的企业中,有超过在被调查的企业中,有超过90%90%的企业的的企业的ROIROI超过了超过了40%40%,50%50%的的企业的企业的ROIROI超过了超过了160%160%,25%25%的企业的的企业的ROIROI超过了超过了600%600%42四、数据仓库和数据挖掘产品四、数据仓库和数据挖掘产品单点产品单点产品 仅局限于数据仓库方案实施中的一部分或某一特定功仅局限于数据仓库方案实施中的一部分或某一特定功能,主要是作为第三方产品或者和其它公司的产品结合起来能,主要是作为第三方产品或者和其它公司的产品结合起来进行使用。进行使用。43Business Objects Busi

    42、ness Objects 主要工具:主要工具:BusinessObjectsBusinessObjects是集成查询,报表和分析功能的工具;是集成查询,报表和分析功能的工具;WebintelligenceWebintelligence是世界上第一个通过是世界上第一个通过WebWeb进行查询、进行查询、报表和分析的决策支持工具;报表和分析的决策支持工具;BusinessqueryBusinessquery是第一个可以在是第一个可以在Microsoft ExcelMicrosoft Excel中集中集成企业公共数据源中数据的工具;成企业公共数据源中数据的工具;BusinessminerBusine

    43、ssminer是面向主流商业用户的数据挖掘工具,是面向主流商业用户的数据挖掘工具,可以实现深入的分析用以发掘深层次的数据之间的关系。可以实现深入的分析用以发掘深层次的数据之间的关系。应用提示:应用提示:严格意义上说,严格意义上说,Business ObjectsBusiness Objects产品只能算是一个前产品只能算是一个前端工具。它是数据仓库解决方案中最常用的数据展现工具。端工具。它是数据仓库解决方案中最常用的数据展现工具。Business ObjectsBusiness Objects通过为主流的商业用户提供访问数据库和通过为主流的商业用户提供访问数据库和数据仓库中的信息的决策支持方案

    44、而立足业界。产品已经从数据仓库中的信息的决策支持方案而立足业界。产品已经从初级的工作组晋级到企业级。初级的工作组晋级到企业级。44提供部分解决方案的产品提供部分解决方案的产品目前许多提供数据方案解决方案的供应商,并不能提目前许多提供数据方案解决方案的供应商,并不能提供构建数据仓库的全部工具,它们还要结合第三方供应商供构建数据仓库的全部工具,它们还要结合第三方供应商提供的工具才能完成整个数据仓库的构建。例如:提供的工具才能完成整个数据仓库的构建。例如:IBMIBM、OracleOracle、SybaseSybase、NCRNCR、InformixInformix、MicrosoftMicroso

    45、ft等公司所提等公司所提供的数据仓库产品都属于此类范畴。供的数据仓库产品都属于此类范畴。451 1、OracleOracle 产品特点:产品特点:OracleOracle公司的数据仓库解决方案包含了业界领先的数公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,它能够提供一系列的数据库平台、开发工具和应用系统,它能够提供一系列的数据仓库工具集和服务。它具有多用户数据仓库管理能力,据仓库工具集和服务。它具有多用户数据仓库管理能力,多种分区方式,较强的与多种分区方式,较强的与OLAPOLAP工具的交互能力,及快速和工具的交互能力,及快速和便捷的数据移动机制等特性。便捷的数据移动机

    46、制等特性。46主要工具主要工具:Oracle 9iOracle 9i是数据仓库的核心。是数据仓库的核心。Oracle Warehouse BuilderOracle Warehouse Builder集成数据建模、数据抽取、集成数据建模、数据抽取、数据转移和装载、聚合、元数据的管理等功能。数据转移和装载、聚合、元数据的管理等功能。Oracle Developer ServerOracle Developer Server使企业级的应用系统开发工使企业级的应用系统开发工具,支持面向对象和多媒体,可同时生成具,支持面向对象和多媒体,可同时生成Client/ServerClient/Server及及

    47、WebWeb下的应用,具有极高的开发效率及网络伸缩性。下的应用,具有极高的开发效率及网络伸缩性。Oracle DiscovererOracle Discoverer是最终用户查询、报告、深入、旋是最终用户查询、报告、深入、旋转和转和WebWeb公布工具,能够帮助用户迅速访问关系型数据仓库,公布工具,能够帮助用户迅速访问关系型数据仓库,从而使他们作出基于充分信息的决策。从而使他们作出基于充分信息的决策。Oracle DarwinOracle Darwin使基于数据仓库的数据挖掘工具,简单使基于数据仓库的数据挖掘工具,简单易用的图形化界面,提供决策树、神经网络等多种数据挖掘易用的图形化界面,提供决

    48、策树、神经网络等多种数据挖掘方法,支持海量数据的并行处理,分析结果可以和现有系统方法,支持海量数据的并行处理,分析结果可以和现有系统集成。集成。47应用提示:应用提示:OracleOracle的数据转移工具需手工编写的数据转移工具需手工编写SQLSQL脚本,在处理复杂脚本,在处理复杂的数据转换需求时的数据转换需求时, ,困难很多。困难很多。OracleOracle的前端工具易用性较差,的前端工具易用性较差,需较多地依赖第三方产品。需较多地依赖第三方产品。482、IBM产品特点产品特点IBMIBM公司提供了一套基于可视数据仓库的商业智能(公司提供了一套基于可视数据仓库的商业智能(BIBI)解)解

    49、决方案,具有集成能力强,高级面向对象决方案,具有集成能力强,高级面向对象SQLSQL等特性。等特性。主要工具主要工具IBMIBM提供的提供的Visual WarehouseVisual Warehouse(VWVW)是一个功能很强的集成是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。取、转换、装载和调度。Essbase/DB2 OLAP ServerEssbase/DB2 OLAP Server支持多维数据库,它是一个支持多维数据库,它是一个(ROLAPROLAP和和MOLAPMOLAP)混合

    50、的)混合的HOLAPHOLAP服务器,在服务器,在EssbaseEssbase完成数据装完成数据装载后,数据存放在系统指定的载后,数据存放在系统指定的DB2 UDBDB2 UDB数据库中。数据库中。QUESTQUEST是是IBMIBM公司公司AlmadenAlmaden研究中心开发的一个多任务数据研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统提供多种开采功能,开采算法可适的数据开采基本构件。系统提供多种开采功能,开采算法可适用于任意大小的数据库。用于任意大小的数据库。49应用提示应

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第01讲A数据仓库概述共66页课件.ppt
    链接地址:https://www.163wenku.com/p-2878359.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库