第01讲A数据仓库概述课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第01讲A数据仓库概述课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 01 数据仓库 概述 课件
- 资源描述:
-
1、1教材:教材:1 夏火松数据仓库与数据挖掘技术(第二版)北京:科夏火松数据仓库与数据挖掘技术(第二版)北京:科学出版社,学出版社,2019 2 李雄飞等数据仓库与数据挖掘北京:机械工业出版社,李雄飞等数据仓库与数据挖掘北京:机械工业出版社,2019 3(美)(美)Jiawei Han,(加),(加)Micheline Kamber等数据等数据挖掘概念与技术(原书第挖掘概念与技术(原书第3版)范明,孟小峰等译北京:版)范明,孟小峰等译北京:机械工业出版社,机械工业出版社,2019 4(美)(美)W.H.Inmon数据仓库(原书第数据仓库(原书第4版)王志海,版)王志海,林友芳等译北京:机械工业出
2、版社,林友芳等译北京:机械工业出版社,2019 2第一章第一章 引引 言言一、从数据库到数据仓库一、从数据库到数据仓库 在市场经济激烈竞争中,企业必须把业务经营同市场联在市场经济激烈竞争中,企业必须把业务经营同市场联系,在此基础上作出科学、正确的决策以求生存。为此,企系,在此基础上作出科学、正确的决策以求生存。为此,企业纷纷建立了自己的数据库系统,由计算机管理代替手工操业纷纷建立了自己的数据库系统,由计算机管理代替手工操作,以此来收集、存储、管理业务数据,改善办公环境,提作,以此来收集、存储、管理业务数据,改善办公环境,提高操作人员的工作效率。高操作人员的工作效率。问题:问题:面向业务操作设计
3、,无论是查询、统计,还是生成报面向业务操作设计,无论是查询、统计,还是生成报表,其处理方式都是对指定的数据进行简单的数字处理。表,其处理方式都是对指定的数据进行简单的数字处理。保险公司:保险公司:购买人寿保险的客户一般有哪些特征?购买人寿保险的客户一般有哪些特征?市场部经理:市场部经理:在过去的一个季度里,咨询哪三样产品的热线在过去的一个季度里,咨询哪三样产品的热线电话最多?电话最多?3 传统的关系数据库可以传统的关系数据库可以回答这种类似问题吗?回答这种类似问题吗?可以,但是很成问题可以,但是很成问题决策者(比如总经理)希望得到一项分析数据决策者(比如总经理)希望得到一项分析数据需求提交给公
4、司的信息部门,信息部门指派人员编制程序需求提交给公司的信息部门,信息部门指派人员编制程序几天后信息部门的报表送到决策者手中几天后信息部门的报表送到决策者手中决策者发觉报表不符合要求,提出修改意见交还给信息部门决策者发觉报表不符合要求,提出修改意见交还给信息部门信息部门修改程序,几天后新的报表送给总经理信息部门修改程序,几天后新的报表送给总经理 数据来的太慢了,我已数据来的太慢了,我已经对它不感兴趣了!经对它不感兴趣了!4 传统的关系数据库可以传统的关系数据库可以回答这种类似问题吗?回答这种类似问题吗?可以,但是很成问题可以,但是很成问题决策者(比如总经理)希望得到一项分析数据决策者(比如总经理
5、)希望得到一项分析数据需求提交给公司的信息部门,信息部门指派人员编制程序需求提交给公司的信息部门,信息部门指派人员编制程序几天后信息部门的报表送到决策者手中几天后信息部门的报表送到决策者手中决策者发觉报表不符合要求,提出修改意见交还给信息部门决策者发觉报表不符合要求,提出修改意见交还给信息部门信息部门修改程序,几天后新的报表送给总经理信息部门修改程序,几天后新的报表送给总经理 我辛辛辛苦苦为一个特定问题加班加我辛辛辛苦苦为一个特定问题加班加点干了十天最后被否定了,这已经是第点干了十天最后被否定了,这已经是第n n次了,次了,我辞职不干了!我辞职不干了!5原因:数据库是针对操作型处理设计的原因:
6、数据库是针对操作型处理设计的也叫事务处理,是指对数据库的日常联机访问操作,所以也叫事务处理,是指对数据库的日常联机访问操作,所以也叫也叫联机事务处理联机事务处理(OLTP)(OLTP)。其访问特点是:其访问特点是:通常仅仅是对一个或一组记录的查询或修改通常仅仅是对一个或一组记录的查询或修改 执行频率高执行频率高 人们关心的是处理的响应时间、数据的安全性和完整人们关心的是处理的响应时间、数据的安全性和完整性等指标。性等指标。6为完成决策者的询问,信息部门必须:为完成决策者的询问,信息部门必须:抽取数据抽取数据 抽取程序搜索整个文件或数据库,使用某种标准选择符抽取程序搜索整个文件或数据库,使用某种
7、标准选择符合限制的数据,并把数据传到其它文件或数据库中。合限制的数据,并把数据传到其它文件或数据库中。抽取程序很快流行起来并渗透到信息处理环境中,其原抽取程序很快流行起来并渗透到信息处理环境中,其原因是:因是:1)抽取程序将数据从高性能联机事物处理方式中转移出来,)抽取程序将数据从高性能联机事物处理方式中转移出来,所以在需要总体分析数据时就与联机处理事物能不冲突所以在需要总体分析数据时就与联机处理事物能不冲突2)当抽取程序将数据从操作型事物处理范围内移出时,数据)当抽取程序将数据从操作型事物处理范围内移出时,数据的控制方式就发生了转变。最终用户一旦开始控制数据,他的控制方式就发生了转变。最终用
8、户一旦开始控制数据,他最终就拥有了这些数据。最终就拥有了这些数据。DB抽取抽取DBDB.7问题问题1:蜘蛛网式的拓展蜘蛛网式的拓展8问题问题2:自然演化体系结构的问题自然演化体系结构的问题1)数据缺乏可信性)数据缺乏可信性 数据无时基数据无时基 数据算法上的差异数据算法上的差异 抽取的多层次抽取的多层次 外部数据问题外部数据问题 无起始公共数据源无起始公共数据源2)生产率问题)生产率问题为回答一个决策查询,需要:为回答一个决策查询,需要:定位报表所需要的数据并分析数据定位报表所需要的数据并分析数据 为报表编辑数据为报表编辑数据为完成以上工作,召集程序员为完成以上工作,召集程序员/分析员,对他们
9、而言:分析员,对他们而言:要写的程序很多要写的程序很多 每个程序必须是定制的每个程序必须是定制的 程序涵盖了公司拥有的所有技术程序涵盖了公司拥有的所有技术93)从数据到信息的不可行性)从数据到信息的不可行性 在自然演化体系结构中建立起来的系统对信息需求的支在自然演化体系结构中建立起来的系统对信息需求的支持是不充分的,原因是它们缺乏集成性、以及在分析性处持是不充分的,原因是它们缺乏集成性、以及在分析性处理需要的时间上和在蜘蛛网环境中应用程序的可用时间期理需要的时间上和在蜘蛛网环境中应用程序的可用时间期限上存在差异。限上存在差异。10数据库方式数据库方式数据仓库方式数据仓库方式8080年代以后年代
10、以后9090年代以后年代以后以支持日常业以支持日常业务处理过程为务处理过程为目的(目的(OLTPOLTP)以支持经营管以支持经营管理过程中的决理过程中的决策制定为目的策制定为目的(DSSDSS)自进入自进入9090年代以后,数据库系统的应用从传统的事年代以后,数据库系统的应用从传统的事务处理应用扩展到辅助决策等新的集成应用领域。务处理应用扩展到辅助决策等新的集成应用领域。11数据仓库的出现是为数据仓库的出现是为分析型处理分析型处理用于企业管理人员的决策分析,为制订企业的未来经营管用于企业管理人员的决策分析,为制订企业的未来经营管理计划提供辅助决策信息,如理计划提供辅助决策信息,如决策支持系统决
11、策支持系统(DSS-(DSS-Decision Support System)Decision Support System)。其访问特点是:其访问特点是:需要执行大量的统计操作需要执行大量的统计操作 需要访问大量的历史数据需要访问大量的历史数据 执行频率和对响应时间的要求都不高等。执行频率和对响应时间的要求都不高等。12针对工商企业目前业务自动化设计针对工商企业目前业务自动化设计针对工商企业数据分析而设计针对工商企业数据分析而设计是在协助工作人员执行既有的活动是在协助工作人员执行既有的活动是在协助工作人员执行管理决策是在协助工作人员执行管理决策可以让多个用户同时使用信息系统可以让多个用户同时
12、使用信息系统一般而言,同时间不会有太多用户同时使一般而言,同时间不会有太多用户同时使用系统用系统存储的数据比较偏重细节存储的数据比较偏重细节存储的数据偏重较高级别的集合信息存储的数据偏重较高级别的集合信息数据的来源是用户日常工作的输入数据的来源是用户日常工作的输入数据的来源是数据的来源是OLTP系统系统数据库的内容会随时被添加、删除,时数据库的内容会随时被添加、删除,时间短而且占用系统的资源少间短而且占用系统的资源少数据内容是历史数据,不会随时加以更新数据内容是历史数据,不会随时加以更新数据的处理以交易为单位,交易时间短数据的处理以交易为单位,交易时间短而且占用的资源少而且占用的资源少数据的处
13、理不是以交易为单位,一个用户数据的处理不是以交易为单位,一个用户的需求会占用大量的系统资源的需求会占用大量的系统资源设计数据库是采用正规化的设计方法设计数据库是采用正规化的设计方法设计数据仓库采用非正规化的设计方式设计数据仓库采用非正规化的设计方式数据库数据数据库数据数据仓库数据数据仓库数据13数据仓库还具有的特点:数据仓库还具有的特点:1)将分散在各处不同性质的数据整合到单数据集合中)将分散在各处不同性质的数据整合到单数据集合中2)使用适合数据分析的结构来存储数据)使用适合数据分析的结构来存储数据3)包含由日常交易数据转换而来的数据,以供管理员决策分析)包含由日常交易数据转换而来的数据,以供
14、管理员决策分析4)要能够及时从数据仓库中取得信息)要能够及时从数据仓库中取得信息5)数据仓库的数据在内部必须有一致性)数据仓库的数据在内部必须有一致性6)用户可以对取得的分析数据做细分与比较)用户可以对取得的分析数据做细分与比较7)数据仓库系统必须包含易于使用的浏览工具)数据仓库系统必须包含易于使用的浏览工具8)在数据仓库中的数据必须完整而且正确。)在数据仓库中的数据必须完整而且正确。14 6060年代,关系数据库之父年代,关系数据库之父E.F.CoddE.F.Codd提出了关系模型,促进了联提出了关系模型,促进了联机事务处理机事务处理(OLTP)(OLTP)的发展的发展(数据以表格的形式而非
15、文件方式存储数据以表格的形式而非文件方式存储)。19931993年,年,E.F.CoddE.F.Codd提出了提出了OLAPOLAP概念,认为概念,认为OLTPOLTP已不能满足终端用已不能满足终端用户对数据库查询分析的需要,户对数据库查询分析的需要,SQLSQL对大型数据库进行的简单查询也对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,提出的需求。因此,E.F.CoddE.
16、F.Codd提出了多维数据库和多维分析的概提出了多维数据库和多维分析的概念,即念,即OLAPOLAP。二、联机事务处理(二、联机事务处理(OLAPOLAP)面向操作人员,支持日常操作面向操作人员,支持日常操作面向决策人员,支持管理需要面向决策人员,支持管理需要面向应用,事务驱动面向应用,事务驱动面向分析,分析驱动面向分析,分析驱动一次处理的数据量小一次处理的数据量小一次处理的数据量大一次处理的数据量大可更新可更新不可更新,但周期性刷新不可更新,但周期性刷新当前值数据当前值数据历史数据历史数据细节性数据细节性数据综合性和提炼性数据综合性和提炼性数据原始数据原始数据导出数据导出数据OLTP数据数据
17、OLAP数据数据15OLAPOLAP是独立于数据仓库的一种技术概念,基本思想是:是独立于数据仓库的一种技术概念,基本思想是:企业决策者应能灵活地操作企业的数据,以多维的形企业决策者应能灵活地操作企业的数据,以多维的形式从多方面和多角度来观察企业的状态并了解企业的变化。式从多方面和多角度来观察企业的状态并了解企业的变化。OLAPOLAP系统与数据源的数据存储相分离,只要提供足够的数据系统与数据源的数据存储相分离,只要提供足够的数据即可完成即可完成OLAPOLAP分析。分析。当当OLAPOLAP与数据仓库结合时,与数据仓库结合时,OLAPOLAP的数据源为数据仓库,数的数据源为数据仓库,数据仓库的
18、大量数据是根据多维方式组织的。据仓库的大量数据是根据多维方式组织的。161 1、OLAPOLAP定义定义定义定义1 1:OLAP(OLAP(联机分析处理联机分析处理)是针对特定问题的联机数据是针对特定问题的联机数据访问和分析。通过对信息访问和分析。通过对信息(维数据维数据)的多种可能的观察形式的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。对数据进行深入观察。定义定义2 2:OLAP(OLAP(联机分析处理联机分析处理)是使分析人员、管理人员是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转
19、化出来的、或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。了解的一类软件技术。(OLAP(OLAP委员会的定义委员会的定义)OLAPOLAP的目标:的目标:是满足决策支持或多维环境特定的查询和报是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是表需求,它的技术核心是“维维”这个概念,因此这个概念,因此OLAPOLAP也可也可以说是多维数据分析工具的集合。以说是多维数
20、据分析工具的集合。172、为什么需要分离的、为什么需要分离的OLAP或数据仓库或数据仓库 分离操作数据库系统和分离操作数据库系统和OLAPOLAP数据仓库的主要原因是提高数据仓库的主要原因是提高两个系统的性能两个系统的性能.操作数据库系统是为已知的任务和负载设操作数据库系统是为已知的任务和负载设计的计的,而数据仓库的查询通常是复杂的而数据仓库的查询通常是复杂的,涉及大量数据在汇总涉及大量数据在汇总级的计算级的计算,在操作数据库系统上处理在操作数据库系统上处理OLAPOLAP查询查询,可能会大大降可能会大大降低操作任务的性能。低操作任务的性能。183 3、OLAPOLAP服务器类型服务器类型1
21、1)关系)关系OLAP(ROLAP)OLAP(ROLAP)模型模型,使用关系或扩充关系使用关系或扩充关系DBMSDBMS存放存放并管理数据仓库并管理数据仓库2 2)多维)多维OLAP(MOLAP)OLAP(MOLAP)服务器服务器,这些服务器通过基于数组的这些服务器通过基于数组的多维存储多维存储,支持数组的多维视图支持数组的多维视图3 3)混合)混合OLAP(HOLAP)OLAP(HOLAP)服务器服务器,结合结合ROLAPROLAP和和MOLAPMOLAP技术技术,得得宜于宜于ROLAPROLAP的可伸缩性的可伸缩性,和和MOLAPMOLAP的快速计算。(如的快速计算。(如MS)MS)4 4
22、)特殊的)特殊的SQLSQL服务器服务器,为了满足在关系数据库中日益增长为了满足在关系数据库中日益增长的的OLAPOLAP需要需要,实现了特殊的实现了特殊的SQLSQL服务器服务器,提供高级查询语言提供高级查询语言和查询处理和查询处理,在星型和雪花模式上支持在星型和雪花模式上支持SQLSQL查询查询19 ROLAPROLAP优势优势没有大小限制没有大小限制现有的关系数据库的技术现有的关系数据库的技术可以沿用可以沿用.可以通过可以通过SQLSQL实现详细数据实现详细数据与概要数据的存储与概要数据的存储现有关系型数据库已经对现有关系型数据库已经对OLAPOLAP做了很多优化,包括做了很多优化,包括
23、并行存储、并行查询、并并行存储、并行查询、并行数据管理、基于成本的行数据管理、基于成本的查询优化、位图索引、查询优化、位图索引、SQL SQL 的的OLAPOLAP扩展扩展(cube,rollup)(cube,rollup)等大大提高等大大提高ROALPROALP的速度的速度 MOLAPMOLAP优势优势性能好、响应速度快性能好、响应速度快专为专为OLAPOLAP所设计所设计支持高性能的决策支支持高性能的决策支持计算持计算 复杂的跨维计算复杂的跨维计算 多用户的读写操作多用户的读写操作 行级的计算行级的计算4、ROLAP与与MOLAP比较比较20 ROLAPROLAP缺点缺点一般比一般比MOL
24、APMOLAP响应速度慢响应速度慢不支持有关预计算的读不支持有关预计算的读写操作写操作SQLSQL无法完成部分计算无法完成部分计算 无法完成多行的计算无法完成多行的计算 无法完成维之间的计无法完成维之间的计算算 MOLAPMOLAP缺点缺点增加系统复杂度,增加增加系统复杂度,增加系统培训与维护费用系统培训与维护费用受操作系统平台中文件受操作系统平台中文件大小的限制,难以达到大小的限制,难以达到TB TB 级级(只能只能1020G)1020G)需要进行预计算,可能需要进行预计算,可能导致数据爆炸导致数据爆炸无法支持维的动态变化无法支持维的动态变化缺乏数据模型和数据访缺乏数据模型和数据访问的标准问
25、的标准215、维的概念:、维的概念:一个电子公司的销售一般从三个方面分析销售额:一个电子公司的销售一般从三个方面分析销售额:时间:时间:在某一段时间内的销售情况,其度量为(年、季度、在某一段时间内的销售情况,其度量为(年、季度、月、旬、天)月、旬、天)地区:地区:在某个地区的销售情况,度量可分为(地区、国家、在某个地区的销售情况,度量可分为(地区、国家、省、市)省、市)产品:产品:某类或某型号产品的销售情况,度量可分为(类别、某类或某型号产品的销售情况,度量可分为(类别、型号等)型号等)此处,(时间,地区,产品)就构成了三个维。此处,(时间,地区,产品)就构成了三个维。维有层次结构,可以在某个
展开阅读全文