数据挖掘的数据仓库与OLAP技术课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘的数据仓库与OLAP技术课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 数据仓库 OLAP 技术 课件
- 资源描述:
-
1、第第3章章 数据挖掘的数据仓库与数据挖掘的数据仓库与OLAP技术技术2第第3章章:数据挖掘的数据仓库与数据挖掘的数据仓库与OLAP技术技术n什么是数据仓库什么是数据仓库?n多维数据模型多维数据模型n数据仓库结构数据仓库结构n数据仓库实现数据仓库实现n数据立方体的进一步发展数据立方体的进一步发展n从数据仓库到数据挖掘从数据仓库到数据挖掘3什么是数据仓库什么是数据仓库?n有不同的方法定义有不同的方法定义,但不是严格的但不是严格的.n是一个决策支持数据库是一个决策支持数据库,它与组织机构的操作数据库它与组织机构的操作数据库分分别别维护维护n数据仓库系统允许将各种应用系统集成在一起数据仓库系统允许将各
2、种应用系统集成在一起,为统一为统一的历史数据分析提供坚实的平台的历史数据分析提供坚实的平台,支持信息处理支持信息处理.nW.H.Inmon的定义的定义:数据仓库是数据仓库是 面向主题的面向主题的(subject-oriented),集成的集成的(integrated),时变的时变的(time-variant),和和非易非易失的失的(nonvolatile)数据集合数据集合,支持管理决策过程支持管理决策过程n建立数据仓库建立数据仓库(Data warehousing):n构造和使用数据仓库的过程构造和使用数据仓库的过程4数据仓库数据仓库面向主题的面向主题的n围绕重要的主题围绕重要的主题(如顾客、
3、产品、销售等如顾客、产品、销售等)组织组织.n关注决策制定者的数据建模与分析关注决策制定者的数据建模与分析,而不是日常的操作和而不是日常的操作和事务处理事务处理.n数据仓库排除对于决策过程无用的数据数据仓库排除对于决策过程无用的数据,提供特定主题的提供特定主题的简明视图简明视图.5数据仓库数据仓库 集成的集成的n通过将多个异种的数据源集成在一起通过将多个异种的数据源集成在一起,而构造而构造n比如,关系数据库比如,关系数据库,一般文件一般文件,联机事务记录联机事务记录n使用数据清理和数据集成技术使用数据清理和数据集成技术.n确保命名约定确保命名约定,编码结构编码结构,属性度量等的一致性属性度量等
4、的一致性n例如例如,饭店价格饭店价格:货币种类货币种类,税税,是否含早餐是否含早餐,等等.n当数据装入数据仓库时当数据装入数据仓库时,数据将被转换数据将被转换.6数据仓库数据仓库 时变的时变的n数据仓库的时间跨度显著地比操作数据库长数据仓库的时间跨度显著地比操作数据库长.n操作数据库数据操作数据库数据:当前值数据当前值数据.n数据仓库数据数据仓库数据:从历史的角度提供数据从历史的角度提供数据(例如例如,过去过去 5-10 年年)n数据仓库中的每个键结构数据仓库中的每个键结构n显式或隐式地包含时间元素显式或隐式地包含时间元素,n但是但是,操作数据的键可能包含操作数据的键可能包含,也可能不包含也可
5、能不包含“时间元时间元素素”.7数据仓库数据仓库 非易失的非易失的n从操作环境转换过来的数据物理地分离存放从操作环境转换过来的数据物理地分离存放.n数据的更新不在数据仓库环境中出现数据的更新不在数据仓库环境中出现.n不需要事务处理不需要事务处理,恢复恢复,和并发控制机制和并发控制机制n只需要两种数据存取操作只需要两种数据存取操作:n数据的初始化装入数据的初始化装入 和和 数据访问数据访问.8数据仓库和异种数据仓库和异种DBMSn传统的异种数据库集成传统的异种数据库集成:n在异种数据库上建立一个包装程序在异种数据库上建立一个包装程序(wrappers)或中介程序或中介程序(/mediators)
6、n查询驱动查询驱动的方法的方法n当查询提交给一个站点时当查询提交给一个站点时,使用元数据词典将查询转换使用元数据词典将查询转换成所涉及成所涉及的异构站点的异构站点上的相应查询上的相应查询,查询的结果被集成查询的结果被集成为一个全局回答的集合为一个全局回答的集合 n需要:复杂需要:复杂的信息过滤的信息过滤,对资源的竞争对资源的竞争n数据仓库数据仓库:更新驱动的更新驱动的,高性能高性能n来自异种信息源的数据被预先集成并存储在数据仓库中来自异种信息源的数据被预先集成并存储在数据仓库中,直接用于查询和分析直接用于查询和分析9数据仓库数据仓库VS.操作数据库操作数据库nOLTP(on-line tran
7、saction processing,联机事务处理联机事务处理)n传统关系传统关系 DBMS的主要任务的主要任务n涵盖日常操作涵盖日常操作:购买购买,库存库存,银行银行,制造制造,工资单工资单,注册注册,记帐记帐,等等.nOLAP(on-line analytical processing,联机分析处理联机分析处理)n数据仓库系统的主要任务数据仓库系统的主要任务n数据分析和决策制定上提供服务数据分析和决策制定上提供服务n不同的特点不同的特点(OLTP vs.OLAP):n用户和系统的面向性用户和系统的面向性:顾客顾客 vs.市场市场n数据内容数据内容:当前的当前的,细节的细节的 vs.历史的历
8、史的,合并的合并的n数据库设计数据库设计:ER+应用应用 vs.星型星型+主题主题n视图视图:当前的当前的,局部的局部的 vs.进化的进化的,集成的集成的n访问模式访问模式:更新更新 vs.只读的只读的,但是复杂的查询但是复杂的查询10OLTP vs.OLAP OLTP OLAP 用户用户 办事员办事员,IT 从业人员从业人员 知识工人知识工人 功能功能 日常操作日常操作 决策支持决策支持 DB 设计设计 面向应用面向应用 面向主题面向主题 数据数据 当前的当前的,最新的最新的,细节的细节的,展平的关系的展平的关系的,孤立的孤立的 历史的历史的,汇总的汇总的,多维的多维的,集成的集成的,加固的
9、加固的 用法用法 重复重复 特殊的特殊的 访问访问 读读/写写 在主键上索引在主键上索引/散列散列 大量扫描大量扫描 工作单位工作单位 短的短的,简单的事务简单的事务 复杂的查询复杂的查询 访问的记录量访问的记录量 数以十计数以十计 数百万数百万 用户数用户数 数千数千 数百数百 数据库大小数据库大小 100MB-GB 100GB-TB 度量度量 事务吞吐量事务吞吐量 查询吞吐量查询吞吐量,响应时间响应时间 11为什么建立分离的数据仓库为什么建立分离的数据仓库?n为了两个系统的高性能为了两个系统的高性能nDBMS 目的是目的是 OLTP:存取方法存取方法,索引索引,并发控制并发控制,恢复恢复n
10、数据仓库数据仓库目的是目的是 OLAP:复杂的复杂的 OLAP 查询查询,多维视图多维视图,统统一一.n不同的功能和不同的数据不同的功能和不同的数据:n缺少数据缺少数据:决策支持需要历史数据决策支持需要历史数据,通常操作数据库并不维护通常操作数据库并不维护这些数据这些数据n数据统一数据统一:决策支持需要将来自异种数据源的数据统一决策支持需要将来自异种数据源的数据统一(聚集聚集,汇总汇总)n数据质量数据质量:不同的数据源通常使用不同的数据表示不同的数据源通常使用不同的数据表示,编码编码,和和应当遵循的格式应当遵循的格式12第第2章章:数据挖掘的数据仓库与数据挖掘的数据仓库与OLAP技术技术n什么
11、是数据仓库什么是数据仓库?n多维数据模型多维数据模型n数据仓库结构数据仓库结构n数据仓库实现数据仓库实现n从数据仓库到数据挖掘从数据仓库到数据挖掘n数据立方体的进一步发展数据立方体的进一步发展13由表和电子数据表到数据方由表和电子数据表到数据方n数据仓库基于数据仓库基于 多维数据模型多维数据模型,多维数据模型将数据视为数据多维数据模型将数据视为数据方方(data cube)形式形式n数据方数据方(如如sales)可以将数据建模可以将数据建模,并允许由多个维进行观察并允许由多个维进行观察n维表维表,如如 item(item_name,brand,type),或或 time(day,week,mo
12、nth,quarter,year)n事实表包含度量事实表包含度量(如如 dollars_sold)和每个相关维表的键和每个相关维表的键n在数据仓库的文献中在数据仓库的文献中,一个一个 n-D 基本立方体基本立方体 称作基本方体称作基本方体(base cuboid).最顶部的最顶部的 0-D方体存放最高层的汇总方体存放最高层的汇总,称作顶称作顶点方体点方体(apex cuboid).方体的格形成数据方方体的格形成数据方.14立方体立方体:方体的格方体的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locat
13、ionitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(顶点顶点)方体方体1-D 方体方体2-D方体方体3-D方体方体4-D(基本基本)方体方体15数据仓库的概念建模数据仓库的概念建模n数据仓库建模数据仓库建模:多维模型,涉及维和度量多维模型,涉及维和度量n星型模式星型模式:事实表在中央事实表在中央,连接一组维表连接一组维表n雪花模式雪花模式:星型模式的精炼星型模式
14、的精炼,其中一些维分层结构被规范其中一些维分层结构被规范化成一组较小的维表化成一组较小的维表,形成类似于雪花的形状,减少冗余形成类似于雪花的形状,减少冗余n事实星座事实星座:多个事实表共享维表多个事实表共享维表,可以看作星星的集合可以看作星星的集合,因因此称作星系模式此称作星系模式,或事实星座或事实星座16星型模式的例子星型模式的例子 time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocation事实表事实表 time_key item_keybranch_
15、key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch17雪花模式的例子雪花模式的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSales Fact Table time_key item_keybranch_key location_key units_s
16、olddollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycityprovince_or_statecountrycity18事实星座的例子事实星座的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocati
17、onSales Fact Tabletime_keyitem_keybranch_keylocation_keyunits_solddollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocat
18、ion_keyshipper_typeshipper19数据挖掘查询语言数据挖掘查询语言 DMQL:语言原语语言原语n立方体定义立方体定义(事实表事实表)define cube :n维定义维定义(维表维表)define dimension as()n特殊情况特殊情况(共享维表共享维表)n第一次第一次,如如“cube definition”ndefine dimension as in cube 20用用DMQL定义星型模式定义星型模式define cube sales_star time,item,branch,location:dollars_sold=sum(sales_in_dollar
19、s),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier_type)define dimension branch as(branch_key,branch_name,branch_type)define dimension location as(location_key,stre
20、et,city,province_or_state,country)21用用DMQL定义雪花模式定义雪花模式define cube sales_snowflake time,item,branch,location:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,ite
21、m_name,brand,type,supplier(supplier_key,supplier_type)define dimension branch as(branch_key,branch_name,branch_type)define dimension location as(location_key,street,city(city_key,province_or_state,country)22用用DMQL定义事实星座定义事实星座define cube sales time,item,branch,location:dollars_sold=sum(sales_in_dolla
22、rs),avg_sales=avg(sales_in_dollars),units_sold=count(*)define dimension time as(time_key,day,day_of_week,month,quarter,year)define dimension item as(item_key,item_name,brand,type,supplier_type)define dimension branch as(branch_key,branch_name,branch_type)define dimension location as(location_key,str
23、eet,city,province_or_state,country)define cube shipping time,item,shipper,from_location,to_location:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)define dimension time as time in cube salesdefine dimension item as item in cube salesdefine dimension shipper as(shipper_key,shipper_name,locatio
24、n as location in cube sales,shipper_type)define dimension from_location as location in cube salesdefine dimension to_location as location in cube sales23三类度量(数值函数)三类度量(数值函数)n分布的分布的(distributive):将数据划分为将数据划分为n个集合个集合,函数在每一部函数在每一部分上的计算得到一个聚集值分上的计算得到一个聚集值.如果将函数用于如果将函数用于n个聚集值得到个聚集值得到的结果的结果,与将函数用于所有数据得到的结
25、果一样与将函数用于所有数据得到的结果一样,则该函数可则该函数可以用分布方式计算以用分布方式计算.n例例,count(),sum(),min(),max().n代数的代数的(algebraic):如果它能够由一个具有如果它能够由一个具有M(其中其中,M是一个是一个整数界整数界)个参数的代数函数计算个参数的代数函数计算,而每个参数都可以用一个分而每个参数都可以用一个分布聚集函数求得布聚集函数求得.n例例,avg(),min_N(),standard_deviation().n整体的整体的(holistic):如果描述它的子聚集所需的存储没有一个常如果描述它的子聚集所需的存储没有一个常数界数界.n例
展开阅读全文