数据挖掘与知识发现复杂数据对象的数据挖掘与知识发现课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘与知识发现复杂数据对象的数据挖掘与知识发现课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 知识 发现 复杂 对象 课件
- 资源描述:
-
1、数据挖掘与知识发现(复杂数据对象的数据挖掘与知识发现)3 数据仓库3 数据挖掘仓库 3.1数据库与数据仓库数据库与数据仓库3.2数据仓库的操作数据仓库的操作3.3数据仓库的概念模型数据仓库的概念模型3.4数据立方体数据立方体3.5数据仓库的结构数据仓库的结构3.6数据仓库的元数据数据仓库的元数据 3.7数据仓库的建立数据仓库的建立 3.8数据仓库与数据挖掘数据仓库与数据挖掘省器材省器材总公司总公司省邮购局省邮购局市内DDN各县邮购网点机房各县邮购网点机房打印机配货部采购部管理1财务部CICSO2510打印机Modem省邮运局省邮运局CICSO2510 运输管理1库房管理1打印机条码打印机Mod
2、emModemModem局长局长省财务省财务查询查询PSTNDDN/FR各地市综合网机房各地市综合网机房IBMIBM小型机磁盘阵列数据库服务器骨干交换机广域路由器城域路由器访问服务器省综合网机房省综合网机房PSTN各地市邮购网点机房各地市邮购网点机房采用局域网、PSTN或DDN数据仓库数据仓库 河南邮政邮购系统网络拓扑总图河南邮政邮购系统网络拓扑总图吐哈油田开发信息管理与决策支持“数字油田”框架大数据体库大数据体库主数据库主数据库勘探勘探测井测井钻井钻井开发开发经营经营其他其他开发开发数据应用数据应用(缓存和缓存和质量检查质量检查)数据采集数据采集原始数据原始数据审核后审核后审核后审核后项目项
3、目数据库数据库项目项目数据库数据库现有应用系统现有应用系统项目应用项目应用项目应用项目应用集成管理平台集成管理平台勘探勘探数据应用数据应用(以开发数据以开发数据应用为例应用为例)地学研究平台地学研究平台地学研究应用生产管理平台生产管理平台经营管理平台经营管理平台生产管理应用经营管理应用决策支持系统决策支持系统业务逻辑平台业务逻辑平台其他专业其他专业数据应用数据应用源点数据库源点数据库基层生产基层生产管理库管理库质量质量控制控制迁移迁移提升提升应用服务管理体系应用服务管理体系项目库项目库项目库项目库数数据据中中心心专业应用专业应用综合应用综合应用基层应用基层应用采油厂采油厂人工采集人工采集实时采
4、集实时采集甲乙方关系甲乙方关系外部信息外部信息钻测录钻测录政府政府客户客户有限公司源点数据采集平台地学研究地学研究总库总库大数据体大数据体总库总库生产管理生产管理总库总库成果总库成果总库图形、文档图形、文档数据采集标准质量控制标准源点数据库逻辑标准数据中心数据库逻辑标准项目数据库逻辑标准生产管理库逻辑标准物探物探天然气数据标准体系源点数据采集标准数据中心标准应用标准生产管理数据库标准(现有标准、符合国内企业 管理特色)源点数据采集标准采集质量控制标准源点数据库标准(贴近业务需求、继承性)地学研究数据库标准(国际标准)大数据体数据库标准(国际标准)成果数据库标准(国际标准)项目数据库标准(由应用
5、定制)成果数据标准(符合数据中心存贮要求)中石化天然气数据标准数据采集标准天然气数据标准数据应用标准数据库逻辑结构(与国际接轨)源点数据标准(符合国家标准、企业标准、行业标准和现行信息化标准)数据采集标准(符合国内企业生产特点和业务流程)采集质量控制标准数据代码标准(符合数据中心整体要求)科研成果数据标准(符合数据中心整体要求)数据应用标准(符合企业个性化管理特色)数据库管理规章制度成果数据加载标准(符合数据中心加载要求)数据库与数据仓库 什么是数据仓库什么是数据仓库 数据仓库是一个环境,提供用户用于决策数据仓库是一个环境,提供用户用于决策支持的当前和历史数据,这些数据在传统支持的当前和历史数
6、据,这些数据在传统的操作型数据库中很难或不能得到。数据的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作型仓库技术是为了有效的把操作型数据集成数据集成到统一的环境中到统一的环境中以提供决策型数据访问,以提供决策型数据访问,的各种的各种技术和模块技术和模块的总称。所做的一切都的总称。所做的一切都是为了让用户更快更方便查询所需要的信是为了让用户更快更方便查询所需要的信息,提供决策支持。息,提供决策支持。数据库、数据仓库间的关系生产生产人事人事供应供应监测监测销售销售数据数据仓库仓库清理清理转换转换分析分析查询查询用户用户数据库与数据仓库“A data warehouse is a su
7、bject-oriented,integrated,time-variant collection of data in support of managements decision-making process.”W.H.Inmonn多维模型是人们观察数据多维模型是人们观察数据的形象表示 n可以是可以是 2,3,42,3,4或更多维或更多维 n可以对多维模型进分析可以对多维模型进分析 即即:选择哪维作为查询条件选择哪维作为查询条件.多维模型多维模型Product LinesRegionsTimen当数据量大时,传统的数据模型比较复杂当数据量大时,传统的数据模型比较复杂,最终用户难于理最终用
8、户难于理解解n多表联结多表联结(Join)(Join)查询查询(尤其是大表尤其是大表),),既费时既费时,又占用大量资源数据库与数据仓库8维:人们观察数据的特定角度-对应维表。8维成员:维的取值。8维层次:8代表维的细节程度,时间维的层次可以是年,季,月,周,日,等等.8类:8维成员互不相交的一个子集.多维模型:基本概念多维模型多维模型Product LinesRegionsTime维表维表8多维分析:8对以维形式组织的数据采取切片,切块和旋转等动作,以求全面深刻地分析数据.8切片(Slice):8 按照某一维取值做查询.8切块(Dice):8按照一维或多维取值做查询.8旋转:8改变一个报告或
9、页面显示的维方向.多维模型:基本概念8维表:8存放维数据的表.对维进行深层次的分析8事实表:事实表示主题主题8由事实数据元素和维数据元素组成.事实表是多维模型的核心.事实数据是决策分析的数据基础.其中包含事实名称和度量。多维模型:基本概念下面我们看一下数据仓库有哪些特点?下面我们看一下数据仓库有哪些特点?数据仓库的面向主题围绕一些主题 Organized around major subjects,such as customer,product,sales.概念 Focusing on the modeling and analysis of data for decision makers
10、,not on daily operations or transaction processing.Provide a simple and concise view around particular subject issues by excluding data that are not useful in the decision support process.数据仓库的数据集成异种数据源集成 Constructed by integrating multiple,heterogeneous data sources relational databases,flat files,
11、on-line transaction records Data cleaning and data integration techniques are applied.Ensure consistency in naming conventions,encoding structures,attribute measures,etc.among different data sources When data is moved to the warehouse,it is converted.数据仓库的时变性包含历史数据 The time horizon for the data ware
12、house is significantly longer than that of operational systems.Operational database:current value data.Data warehouse data:provide information from a historical perspective(e.g.,past 5-10 years)Every key structure in the data warehouse Contains an element of time,explicitly or implicitly But the key
13、 of operational data may or may not contain“time element”.数据仓库数据的非易失性物理分离 A physically separate store of data transformed from the operational environment.Operational update of data does not occur in the data warehouse environment.Does not require transaction processing,recovery,and concurrency cont
14、rol mechanisms Requires only two operations in data accessing:initial loading of data and access of data.数据仓库的操作3.1数据库与数据仓库数据库与数据仓库3.2数据仓库的操作数据仓库的操作3.3数据仓库的概念模型数据仓库的概念模型3.4数据立方体数据立方体3.5数据仓库的结构数据仓库的结构3.6数据仓库的元数据数据仓库的元数据 3.7数据仓库的建立数据仓库的建立 3.8数据仓库与数据挖掘数据仓库与数据挖掘数据仓库的操作 OLTP(on-line transaction processin
15、g)Major task of traditional relational DBMS Day-to-day operations:purchasing,banking,manufacturing,payroll,accounting,etc.OLAP(on-line analytical processing)Major task of data warehouse system Data analysis and decision makingOLTP 与 OLAP对比 OLTP OLAP users clerk,IT professional knowledge worker funct
16、ion day to day operations decision support DB design application-oriented subject-oriented data current,up-to-date detailed,flat relational isolated historical,summarized,multidimensional integrated,consolidated usage repetitive ad-hoc access read/write index/hash on prim.key lots of scans unit of w
17、ork short,simple transaction complex query#records accessed tens millions#users thousands hundreds DB size 100MB-GB 100GB-TB 测度指标测度指标 交易量交易量 查询量查询量,响应响应 数据仓库的概念模型3.1数据库与数据仓库数据库与数据仓库3.2数据仓库的操作数据仓库的操作3.3数据仓库的概念模型数据仓库的概念模型3.4数据立方体数据立方体3.5数据仓库的结构数据仓库的结构3.6数据仓库的元数据数据仓库的元数据 3.7数据仓库的建立数据仓库的建立 3.8数据仓库与数据挖掘数
18、据仓库与数据挖掘数据仓库的概念模型 Modeling data warehouses 星形结构:以事实表为核心 连接多个维表。雪花结构:精华的事实表,有些维层次规范化,构成雪花状的维表。事实星群结构:多个事实表共享维表,看上去像星簇,所以称之为星河或事实群。星型结构time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSales Fact Table time_key item_key branch_key location_key units_so
19、ld dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch雪花状结构time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresi
20、tem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity事实星群结构time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSales Fact Tabletime_key item_key branch_k
21、ey location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_key item_key shipper_key from_location to_location dollars_cost units_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper概念层次all
22、EuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan.allregionofficecountryTorontoFrankfurtcity概念分层:定义一种映射序列,序关系。许多概念都具有序结构概念分层:定义一种映射序列,序关系。许多概念都具有序结构数据立方体3.1数据库与数据仓库数据库与数据仓库3.2数据仓库的操作数据仓库的操作3.3数据仓库的概念模型数据仓库的概念模型3.4数据立方体数据立方体3.5数据仓库的结构数据仓库的结构3.6数据仓库的元数据数据仓库的元数据 3.7数据仓库的建立数据仓库的建立 3.8数据仓库
23、与数据挖掘数据仓库与数据挖掘数据立方体 销售量是产品,月份以及区域的函数ProductRegionMonthDimensions:Product,Location,Time层次归纳路径为:层次归纳路径为:Industry Region YearCategory Country QuarterProduct City Month Week Office Day数据立方体:允许以多维对数据进行建模和观察数据立方体的实例Total annual salesof TV in U.S.A.DateProductCountrysumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanad
24、aMexicosum立方格,三维立方体allproductdatecountryproduct,dateproduct,countrydate,countryproduct,date,country0-D(apex)cuboid1-D cuboids2-D cuboids3-D(base)cuboid数据立方体实例 Visualization OLAP capabilities Interactive manipulation数据仓库的结构3.1数据库与数据仓库数据库与数据仓库3.2数据仓库的操作数据仓库的操作3.3数据仓库的概念模型数据仓库的概念模型3.4数据立方体数据立方体3.5数据仓库的
25、结构数据仓库的结构3.6数据仓库的元数据数据仓库的元数据 3.7数据仓库的建立数据仓库的建立 3.8数据仓库与数据挖掘数据仓库与数据挖掘DataWarehouseExtractTransformLoadRefreshOLAP EngineAnalysisQueryReportsData miningMonitor&IntegratorMetadataData SourcesFront-End ToolsServeData MartsOperational DBsothersourcesData StorageOLAP Server数据仓库的多层结构 高度综合级 轻度综合级 当前细节级 早期细节
展开阅读全文