数据仓库概述[1]课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据仓库概述[1]课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 概述 课件
- 资源描述:
-
1、2022-3-24数据仓库概述1数据仓库概述数据仓库概述数据仓库概述1课程简介:1. 为什么出现数据仓库与数据挖掘?为什么出现数据仓库与数据挖掘?啤酒与尿布啤酒与尿布7-112. 研究内容研究内容从海量数据中找到规律与联系,为决策提从海量数据中找到规律与联系,为决策提供支持供支持3. 数据仓库与数据库的不同数据仓库与数据库的不同数据仓库概述1数据库与数据仓库数据仓库概述1主要学习内容:第一篇第一篇 数据仓库与数据仓库与OLAP数据仓库数据仓库联机分析处理技术(联机分析处理技术(OLAPOLAP)数据预处理技术数据预处理技术数据清洗数据清洗数据集成和变换数据集成和变换数据约简数据约简第二篇第二篇
2、 数据挖掘数据挖掘数据挖掘技术数据挖掘技术关联规则挖掘、分类、聚类分析关联规则挖掘、分类、聚类分析1.1.数据挖掘在各领域的应用等。数据挖掘在各领域的应用等。数据仓库概述1主要参考书主要参考书: 1 1数据仓库数据仓库 Inmon W.H Inmon W.H 著著 机械工业出版社机械工业出版社 2 2数据挖掘数据挖掘 概念与技术概念与技术 Jiawei Han & Micheline Kamber Jiawei Han & Micheline Kamber 著著 机械工业出版社机械工业出版社 3 3数据挖掘数据挖掘 朱明朱明 著著 中国科学技术大学出版社中国科学技术大学出版社 4 4数据仓库与
3、联机分析处理数据仓库与联机分析处理 王珊等王珊等 著著 科学出版社科学出版社数据仓库概述1考核方法考核方法:考核采取笔试结合实验的方法:考核采取笔试结合实验的方法:实验成绩实验成绩 30%笔试成绩笔试成绩 70%数据仓库概述1第一章第一章 数据仓库概述数据仓库概述 本章介绍了数据仓库技术产生的背景、数据仓库的含义与特征、数据仓库与操作型数据库系统的区别和数据仓库的基本体系结构。数据仓库概述1 1.1 数据仓库的产生 1.2 数据仓库的含义 1.3 数据仓库的特征 1.4 数据库系统与数据仓库 1.5 数据仓库的基本结构 1.6 数据仓库的基本概念 1.7 数据仓库的数据组织数据仓库概述111
4、数据仓库的产生 1. 数据处理分为两类:事物处理分析处理 2. 传统数据库较难满足分析处理的要求:历史数据需求量大不同系统的数据难以集成(蜘蛛网问题)对大量数据的访问性能不足事务处理和分析处理数据环境的分离数据仓库概述1 1.2 1.2 数据仓库的含义数据仓库的含义对于什么是数据仓库,还有许多不同的定义,如: “数据仓库是融合方法、技术和工具以在完整的平台上将数据提交给终端用户的一种手段”。 “数据仓库是对分布在企业内部各处的业务数据的整合、加工和分析的过程”。 “数据仓库是一种具有集成性、稳定性和提供决策支持的处理”。 “为查询和分析(不是事务处理)而设计的关系数据库” 20世纪80年代中期
5、,“数据仓库”这个名词首次出现在号称“数据仓库之父”W.H.Inmon的Building Data Warehouse一书中,在该书中,W.H.Inmon把数据仓库定义为“一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程。”(“A data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions.”)数据仓库概述1William H.Inmon:数据仓库是一个面向主题面向
6、主题的的、集成的集成的、非易失的非易失的且随时间变化的随时间变化的数据集合,用于支持管理人员的决策。数据仓库之父数据仓库之父-Bill Inmon William H. Inmon: William H. Inmon是世界公认的是世界公认的“数据仓库之父数据仓库之父”,是 数 据 仓 库 及 其 相 关 技 术 网 站是 数 据 仓 库 及 其 相 关 技 术 网 站的合作伙伴,是的合作伙伴,是“企业信息工厂企业信息工厂”的创造者之一。他一直致的创造者之一。他一直致力于数据库和数据仓库技术方面的研究,在力于数据库和数据仓库技术方面的研究,在数据管理和数据仓库技术方面以及数据处理数据管理和数据仓
7、库技术方面以及数据处理的管理方面撰写了的管理方面撰写了40多本著作,发表过多本著作,发表过600多篇学术论文,并且经常应邀在技术多篇学术论文,并且经常应邀在技术和学术会议上演讲。和学术会议上演讲。数据仓库概述11.3 数据仓库的特征 数据仓库的数据是面向主题的数据仓库的数据是面向主题的 数据仓库的数据是集成的数据仓库的数据是集成的 数据仓库的数据是非易失的数据仓库的数据是非易失的 数据仓库的数据是随时间不断变化的数据仓库的数据是随时间不断变化的数据仓库概述1面向主题面向主题主题(主题(Subject):特定的数据分析领域与目标。):特定的数据分析领域与目标。面向主题:为特定的数据分析领域提供数
8、据支持。面向主题:为特定的数据分析领域提供数据支持。数据仓库是面向分析、决策人员的主观要求的,不数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。因用户主观要求的变化而变化的。数据仓库概述1面向主题面向主题为特定数据分析领域提供的数据与传统数据库中的为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定
9、分析领域数据则是需要对它们基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。作必要的抽取、加工与总结而形成。数据仓库概述1面向主题示例面向主题示例例:一个面向事务处理的例:一个面向事务处理的“商场商场”数据库系统,其数据数据库系统,其数据模式如下模式如下采购子系统:采购子系统:订单(订单号,供应商号,总金额,日期)订单(订单号,供应商号,总金额,日期)订单细则(订单号,商品号,类别,单价,数量)订单细则(订单号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)供应商(供应商号,供应商名,地址,电话)销售子系统:销售子系统:顾客(顾客号,姓名,性别,年
10、龄,文化程度,地址,电话)顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期)销售(员工号,顾客号,商品号,数量,单价,日期)数据仓库概述1面向主题示例库存管理子系统:库存管理子系统:领料单(领料单号,领料人,商品号,数量,日期)领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)库房(库房号,仓库管理员,地点,库存商品描述)人事管理子系统
11、:人事管理子系统:员工(员工号,姓名,性别,年龄,文化程度,部门号)员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话)部门(部门号,部门名称,部门主管,电话)数据仓库概述1面向主题示例面向主题示例如果按照面向主题的方式进行数据组织,首先应该如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。的数据不尽相同。在每个主题中,都包含了有关该主题的所有信息,在每个主题中,都包含
12、了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合这样一致的信息集合数据仓库概述1主题一:主题一:商品商品p商品固有信息:商品号,商品名,类别,颜色等商品固有信息:商品号,商品名,类别,颜色等p商品采购信息:商品号,供应商号,供应价,供应日期,商品采购
13、信息:商品号,供应商号,供应价,供应日期,供应量等供应量等p商品销售信息:商品号,顾客号,售价,销售日期,销商品销售信息:商品号,顾客号,售价,销售日期,销售量等售量等p商品库存信息:商品号,库房号,库存量,日期等商品库存信息:商品号,库房号,库存量,日期等数据仓库概述1主题二:主题二:供应商供应商p供应商固有信息:供应商号,供应商名,地址,电话等供应商固有信息:供应商号,供应商名,地址,电话等p供应商品信息:供应商号,商品号,供应价,供应日期,供应商品信息:供应商号,商品号,供应价,供应日期,供应量等供应量等数据仓库概述1主题三:主题三:顾客顾客p顾客固有信息:顾客号,顾客名,性别,年龄,文
14、化程顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等度,住址,电话等p顾客购物信息:顾客号,商品号,售价,购买日期,购顾客购物信息:顾客号,商品号,售价,购买日期,购买量等买量等数据仓库概述1)数据仓库概述1 示例了一个电信企业的情况。 计费数据库:计费数据库记录了客户的消费情况 财务数据库:财务数据库记录了客户的缴费情况 客户服务数据库:客户的咨询和投诉情况如果直接基于传统数据库系统进行“客户”和“收益”信息的分析,则需要访问多个数据库才能获得客户或收益各个侧面的信息(收益主题需从计费数据库和财务数据库中了解公司各项业务的收入情况;客户主题则要从计费数据库、财务数据库、客户服
15、务数据库中获得客户消费、交费、咨询等全方位的信息。),这样将极大的影响系统处理的时间和效率,并且数据之间的不一致性和不同步等问题将影响决策的可靠性。而以“客户”和“收益”主题组织的数据仓库,将某个主题的全部相关数据集中于一个地方,这样决策者可以非常方便地在数据仓库中的一个位置检索包含某个主题的所有数据。 数据仓库概述1面向主题每个主题所需数据的物理存储:每个主题所需数据的物理存储: 多维数据库多维数据库(MDDBMulti-Dimensional DataBase)用多维数组形式存储数据。)用多维数组形式存储数据。 关系数据库。关系数据库。用一组关系来组织数据的存储,用一组关系来组织数据的存储
16、,同一主题的一组关系都有一个同一主题的一组关系都有一个公共的关键字公共的关键字,存放的也不是细节性的业务数据,而是经过一存放的也不是细节性的业务数据,而是经过一定程度的综合形成的综合性数据。定程度的综合形成的综合性数据。数据仓库概述1集成的集成的数据是分散的;由于事务处理应用分散、蜘蛛数据是分散的;由于事务处理应用分散、蜘蛛网问题、数据不一致问题、外部数据和非结构网问题、数据不一致问题、外部数据和非结构化数据。化数据。数据仓库中的数据是为分析服务的,而分析需数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中
17、的数据必须从多个数据源中获因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系取,这些数据源包括多种类型数据库、文件系统以及统以及Internet网上数据等,它们通过数据集成网上数据等,它们通过数据集成而形成数据仓库中的数据。而形成数据仓库中的数据。数据仓库概述1 数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来,但并不是原有数据的简单拷贝,而是经过了抽取、筛选、清理、综合等工作。这是因为: 1) 原有数据库系统记录的是每一项业务处理的流水帐,这些数据不适合于分析处理。在进入数据仓库之前必须经过综合、计算,同时抛弃一些分析处理不需要的数据项,必要时还要
18、增加一些可能涉及的外部数据。 2) 数据仓库每一个主题所对应的源数据在源分散数据库中有许多重复或不一致之处,必须将这些数据转换成全局统一的定义,消除不一致和错误之处,以保证数据的质量;显然,对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业做出科学的决策。 3) 源数据加载到数据仓库后,还要根据决策分析的需要对这些数据进行概括、聚集处理。 事实上,决策支持系统需要集成的数据。全面而正确的数据是有效地分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。因此,对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。集成的数据仓库概述1集成的集成的集成的方法:集成的方法: 统一:
19、消除不一致的现象统一:消除不一致的现象 综合:对原有数据进行综合和计算综合:对原有数据进行综合和计算需要考虑的问题: 数据格式 计量单位 数据代码含义混乱 数据名称混乱数据仓库概述1非易失的非易失的数据仓库中的数据是经过抽取而形成的分析型数据,不具有数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是原始性,主要供企业决策分析之用,执行的主要是查询查询操作,一般情况下不执行操作,一般情况下不执行更新更新操作。同时,一个稳定的操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。数据环境也有利于数据分析操作和决策的制订。但这也不等于数据仓库中
20、的数据不需要但这也不等于数据仓库中的数据不需要更新更新操作。操作。 在需要进行新的分析决策时,可能需要进行新的数据抽在需要进行新的分析决策时,可能需要进行新的数据抽取和取和更新更新操作操作 数据仓库中的一些过时的数据,也可以通过数据仓库中的一些过时的数据,也可以通过删除删除操操作丢弃掉。作丢弃掉。因此数据仓库的存储管理相对于因此数据仓库的存储管理相对于DBMSDBMS来说要简单得多。来说要简单得多。数据仓库概述1数据仓库概述1随时间不断变化随时间不断变化数据仓库中的数据必须以一定时间段为单位进行统一更数据仓库中的数据必须以一定时间段为单位进行统一更新。新。 不断增加新的数据内容不断增加新的数据
21、内容 不断删去旧的数据内容不断删去旧的数据内容 更新与时间有关的综合数据更新与时间有关的综合数据数据仓库概述1 1.4 数据仓库与传统数据库的比较1. 两个系统的主要区别两个系统的主要区别 2. 两个系统的查询支持不同两个系统的查询支持不同3. 两个系统数据组织模式不同两个系统数据组织模式不同数据仓库概述11 两个系统的主要区别 传统数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理(OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。另一方面,数据仓库系统在数据分析和决策支持方面提供服务。这种系统称为联机分析处理(OLAP)系
22、统。 两个系统的主要区别概括如下: 数据内容数据内容:数据库系统管理当前数据。通常,这种数据太琐碎,难以用于决策。数据仓库系统管理大量历史的、存档的、归纳的、计算的数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这种特点使得系统容易用于“见多识广”的决策。数据仓库概述1 数据目标数据目标:数据库系统是面向业务操作,用于办事员、客户和信息技术专业人员的事务和查询处理。数据仓库是面向主题的,用于知识工人(包括经理、主管和分析人员)的决策分析。 数据特性数据特性:数据库系统存储的是当前数据,数据是动态变化的,按字段进行更新操作。数据仓库中数据是批量载入的、静态的,系统定期执行提取过程为
展开阅读全文