4数据挖掘概念与技术-第三章-数据仓库和OLAP技术1课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《4数据挖掘概念与技术-第三章-数据仓库和OLAP技术1课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术 第三 数据仓库 OLAP 课件
- 资源描述:
-
1、11/20/2019 数据挖掘:概念与技术 1 数据挖掘:概念与技术数据挖掘:概念与技术 第三章:数据仓库与 OLAP技术概述 11/20/2019 数据挖掘:概念与技术 2 第三章:数据仓库与OLAP技术概述 ?什么是数据仓库? ?多维数据集模型 ?数据仓库体系结构 ?数据仓库实现 ?从数据仓库到数据挖掘 11/20/2019 数据挖掘:概念与技术 3 什么是数据仓库? ?多种定义方式,但不严格 ?从组织机构的操作数据库分离并独立维护的决策支持数据库 ?支持信息处理,为统一的历史数据分析提供坚实的平台 ?数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管理部门的决策过程。W.
2、 H. Inmon ?建立数据仓库: ?构建和使用数据仓库的过程 11/20/2019 数据挖掘:概念与技术 4 数据仓库面向主题的 ?围绕主题组织数据, 如顾客、产品、销售等。 ?关注决策者的数据建模与分析,而不是组织机构的日常操作和事务处理。 ?提供特定主题的简明视图,排除对于决策支持过程无用的数据。 11/20/2019 数据挖掘:概念与技术 5 数据仓库集成的 ?由多个异构数据源集成构建 ?关系数据库,平面文件,联机事务记录 ?应用数据清理和数据集成技术 ?确保命名约定,编码结构,属性度量等一致性 ?将数据迁入数据仓库时需要进行数据转换 11/20/2019 数据挖掘:概念与技术 6
3、数据仓库时变的 ?数据仓库中数据的时间范围比业务操作系统中长得多 ?业务操作数据库:当前数据 ?数据仓库:提供历史数据信息 (如过去5-10年) ?数据仓库中的结构主键: ?都隐式或显示包含时间元素 ?但业务操作数据主键不一定包含时间元素 11/20/2019 数据挖掘:概念与技术 7 数据仓库非易失的 ?物理存储:与操作环境分离,虽然来自其中。 ?数据仓库环境中不发生数据更新操作 ?不需要事务处理,恢复和并发控制机制 ?只需要两种数据操作: ?i数据初始化装入 ?数据访问 11/20/2019 数据挖掘:概念与技术 8 数据仓库与异构数据库 ?传统异构数据库集成:查询驱动方法 ?在异构数据库
4、上建立包装程序和集成程序(中介程序) ?提交查询时,使用元数据字典将查询转换为异构站点上的查询。然后将查询映射和发送到局部查询处理器,由不同站点返回的结果集成为全局查询结果集。 ?复杂的信息过滤和集成处理,与局部数据源的处理竞争资源 ?数据仓库:更新驱动方法,高性能 ?将异构源的信息预先集成并存储在数据仓库中,供直接查询和分析 ?不包含最近的信息 ?支持复杂多维查询 11/20/2019 数据挖掘:概念与技术 9 数据仓库与业务操作数据库 ?OLTP (on-line transaction processing),联机事务处理 ?传统关系数据库管理系统的主要任务 ?日常操作:购物,库存,制造
5、,银行,工资,注册,记账等。 ?OLAP (on-line analytical processing),联机分析处理 ?数据仓库系统的主要任务 ?数据分析和决策制定 ?区别 (OLTP vs. OLAP): ?用户和系统的面向性:顾客事务和查询(办事员,打工仔)与市场数据分析(知识工人,老板) ?数据内容: 当前的,细节的 vs. 历史的, 汇总聚集的 ?数据库设计: E-R + 业务应用 vs. 星形、雪花型 + 主题 ?视图: 当前的,局部的 vs. 进化的,集成的 ?访问模式: 更新 vs. 只读 但查询复杂 11/20/2019 数据挖掘:概念与技术 10 OLTP vs. OLAP
6、 11/20/2019 数据挖掘:概念与技术 11 为什么需要分离数据仓库? ?提高两个系统的系能 ?DBMS tuned for OLTP: access methods, indexing, concurrency control, recovery ?Warehousetuned for OLAP: complex OLAP queries, multidimensional view, consolidation ?不同的功能和不同的数据: ?数据不全: Decision support requires historical data which operational DBs do
7、 not typically maintain ?数据聚合: DS requires consolidation (aggregation, summarization) of data from heterogeneous sources ?数据质量: different sources typically use inconsistent data representations, codes and formats which have to be reconciled ?Note: 越来越多的系统直接在DBMS上进行 11/20/2019 数据挖掘:概念与技术 12 Chapter 3
8、: Data Warehousing and OLAP Technology: An Overview ?What is a data warehouse? ?A multi-dimensional data model ?Data warehouse architecture ?Data warehouse implementation ?From data warehousing to data mining 11/20/2019 数据挖掘:概念与技术 13 由表和电子数据表到数据立方体 ?数据仓库和OLAP工具基于多维数据模型,以数据立方体的方式观察数据 ?数据立方体,如销售, 从多维角
9、度对数据建模和观察 ?维度表, 如 item (item_name, brand, type), or time(day, week, month, quarter, year) ?事实表 (如 dollars_sold) 包含度量值和关联维度表的码 ?名词: ?数据立方体成为方体(cuboid) ?存放最底层汇总的方体( n-D )成为基本方体(basic cuboid) ?存放最高层汇总的方体( 0-D )称为顶点方体(apex cuboid),用all标记 ? 方体的格成为数据立方体(data cube) 11/20/2019 数据挖掘:概念与技术 14 3-D数据立方体 11/20/2
10、019 数据挖掘:概念与技术 15 4-D数据立方体 11/20/2019 数据挖掘:概念与技术 16 数据立方体:方体的格 time,item time,item,location time, item, location, supplier all time item location supplier time,location time,supplier item,location item,supplier location,supplier time,item,supplier time,location,supplier item,location,supplier 0-D(ap
11、ex) cuboid 1-D cuboids 2-D cuboids 3-D cuboids 4-D(base) cuboid 11/20/2019 数据挖掘:概念与技术 17 数据仓库的概念建模 ?数据仓库建模: dimensions & measures ?星形模型: A fact table in the middle connected to a set of dimension tables ?雪花模型: A refinement of star schema where some dimensional hierarchy is normalized into a set of s
12、maller dimension tables, forming a shape similar to snowflake ?事实星座型: Multiple fact tables share dimension tables, viewed as a collection of stars, therefore called galaxy schema or fact constellation 11/20/2019 数据挖掘:概念与技术 18 星形模型例子 time_key day day_of_the_week month quarter year time location_key s
13、treet city state_or_province country location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_type item branch_key branch_name branch_type branch 11/20/2019 数据挖掘:概念与技术 19 雪花模型例子 time_key day day_of_the_week
14、month quarter year time location_key street city_key location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_key item branch_key branch_name branch_type branch supplier_key supplier_type supplier city_key c
15、ity state_or_province country city 11/20/2019 数据挖掘:概念与技术 20 事实星座型例子 time_key day day_of_the_week month quarter year time location_key street city province_or_state country location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_nam
16、e brand type supplier_type item branch_key branch_name branch_type branch Shipping Fact Table time_key item_key shipper_key from_location to_location dollars_cost units_shipped shipper_key shipper_name location_key shipper_type shipper 11/20/2019 数据挖掘:概念与技术 21 DMQL 中的立方体定义语法 ?立方体定义 (Fact Table) defi
17、ne cube : ?维度定义 (Dimension Table) define dimension as () ?Special Case (Shared Dimension Tables) ?First time as “cube definition” ?define dimension as in cube 11/20/2019 数据挖掘:概念与技术 22 DMQL定义星形模型 define cube sales_star time, item, branch, location: dollars_sold = sum(sales_in_dollars), avg_sales = av
18、g(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_k
19、ey, street, city, province_or_state, country) 11/20/2019 数据挖掘:概念与技术 23 DMQL定义雪花模型 define cube sales_snowflake time, item, branch, location: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quar
20、ter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city(city_key, province_or_state, country) 11/20/2019 数据挖掘:概念与技术 24 DMQL定
展开阅读全文