书签 分享 收藏 举报 版权申诉 / 84
上传文档赚钱

类型数据仓库与数据挖掘第1~3章课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4482268
  • 上传时间:2022-12-13
  • 格式:PPT
  • 页数:84
  • 大小:276.17KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《数据仓库与数据挖掘第1~3章课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据仓库 数据 挖掘 课件
    资源描述:

    1、复旦大学复旦大学软软 件件 学学 院院20192019年年4 4月月数据仓库与数据挖掘数据仓库与数据挖掘(DATA WAREHOUSING AND DATA MININGDATA WAREHOUSING AND DATA MINING)主要内容主要内容数据仓库与数据挖掘概述数据仓库与数据挖掘概述 (2 2学时)学时)数据仓库的数据模型与数据组织数据仓库的数据模型与数据组织 (4 4学时)学时)数据仓库的设计数据仓库的设计 (4 4学时)学时)数据加载技术数据加载技术 (4 4学时)学时)数据仓库系统的体系结构与实现技术数据仓库系统的体系结构与实现技术 (4 4学时)学时)数据挖掘中的常用方法数

    2、据挖掘中的常用方法 (4 4学时)学时)关联规则挖掘关联规则挖掘 (6 6学时)学时)分类和预测分类和预测 (6 6学时)学时)聚类分析聚类分析 (4 4学时)学时)时序数据和序列数据的挖掘时序数据和序列数据的挖掘 (4 4学时)学时)WebWeb数据挖掘数据挖掘 (4 4学时)学时)数据挖掘的应用数据挖掘的应用 (4 4学时)学时)教学方式与考核方式教学方式与考核方式 教学方式教学方式本课程以课堂教学为主,以电子教案的内容为主线本课程以课堂教学为主,以电子教案的内容为主线课外阅读指定的参考文献并利用网上资源,加深对教学课外阅读指定的参考文献并利用网上资源,加深对教学内容的理解。内容的理解。考

    3、核方式及要求考核方式及要求n撰写课程论文一篇撰写课程论文一篇n课程论文的内容不仅包括数据仓库与数据挖掘的综述,课程论文的内容不仅包括数据仓库与数据挖掘的综述,而且应包括对某一方面深入的分析、独立的见解或实际而且应包括对某一方面深入的分析、独立的见解或实际应用。应用。n课程论文的格式按照正式发表学术论文的要求,篇幅一课程论文的格式按照正式发表学术论文的要求,篇幅一般可大于正式发表的论文。般可大于正式发表的论文。n获得优秀成绩的课程论文必须进行大组报告与交流。获得优秀成绩的课程论文必须进行大组报告与交流。教材与参考书教材与参考书电子教案电子教案W.H.Inmon,W.H.Inmon,Buildin

    4、g the Data WarehouseBuilding the Data Warehouse,王志海等译,机械工业出版,王志海等译,机械工业出版社,社,2000.52000.5,25.0025.00元,元,228228页页San Anahory and Dennis Murray,San Anahory and Dennis Murray,Data Warehousing in the Real Data Warehousing in the Real World World(原版书,国内未发行,(原版书,国内未发行,434434页)页)W.A.Giovinazzo,W.A.Giovinaz

    5、zo,Object-Oriented Data Warehouse DesignObject-Oriented Data Warehouse Design,潇湘工作,潇湘工作室译,人民邮电出版社,室译,人民邮电出版社,2000.122000.12,28.0028.00元,元,193193页页Lou Agosta,Lou Agosta,The Essential Guide to Data WarehouseThe Essential Guide to Data Warehouse,潇湘工作室译,潇湘工作室译,人民邮电出版社,人民邮电出版社,2000.112000.11,45.0045.00元,

    6、元,322322页页T.Y.Lin and N.cercone,T.Y.Lin and N.cercone,Rough Sets Data MiningRough Sets Data Mining (原版书,国内未发行,(原版书,国内未发行,436436页)页)康晓东等康晓东等 基于数据仓库的数据挖掘技术,机械工业出版社,基于数据仓库的数据挖掘技术,机械工业出版社,2019.012019.01Tom HammergrenTom Hammergren著,曹增强等译:数据仓库技术,中国水利水电出版社著,曹增强等译:数据仓库技术,中国水利水电出版社Lou AgostaLou Agosta,数据仓库技

    7、术指南,人民邮电出版社,数据仓库技术指南,人民邮电出版社Jiawei Han,Micheline Kambr,Jiawei Han,Micheline Kambr,DATA MINING CONCEPTS AND DATA MINING CONCEPTS AND TECHNIQUESTECHNIQUES(影印版),高等教育出版社(影印版),高等教育出版社邵峰晶等,数据挖掘原理与算法,中国水利水电出版社,邵峰晶等,数据挖掘原理与算法,中国水利水电出版社,2019.082019.08林杰斌等,数据挖掘与林杰斌等,数据挖掘与OLAPOLAP理论与实务,清华大学出版社,理论与实务,清华大学出版社,20

    8、19.012019.01康博创作室:康博创作室:SQL SERVER 2000SQL SERVER 2000数据仓库设计和使用指南,清华大学出版社数据仓库设计和使用指南,清华大学出版社(美)(美)C.SeidmanC.Seidman:SQL SERVER 2000SQL SERVER 2000数据挖掘技术指南,机械工业出版社,数据挖掘技术指南,机械工业出版社,2019.012019.01因特网上有关参考资料和文献因特网上有关参考资料和文献学术刊物上有关论文学术刊物上有关论文 第第1 1章章 数据仓库与数据挖掘概述数据仓库与数据挖掘概述本章要点本章要点 数据仓库的发展数据仓库的发展 数据仓库的基

    9、本概念数据仓库的基本概念 数据挖掘的发展数据挖掘的发展 数据挖掘的基本概念数据挖掘的基本概念 数据仓库与数据挖掘的集成数据仓库与数据挖掘的集成数据仓库的发展数据仓库的发展 自从自从NCRNCR公司为公司为Wal MartWal Mart建立了第一个数据仓库。建立了第一个数据仓库。20192019年,加拿大的年,加拿大的IDCIDC公司调查了公司调查了6262家实现了数据家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。巨大的收益。早期的数据仓库大都采用当时流行的客户早期的数据仓库大都采用当时流行的客户/服务器结构。服务器结构。近

    10、年来分布式对象技术飞速发展,整个数据仓库体系近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。程序中向用户提供调用的接口。IBMIBM的实验室在数据仓库方面已经进行了的实验室在数据仓库方面已经进行了1010多年的多年的研究,并将研究成果发展成为商用产品。研究,并将研究成果发展成为商用产品。其他数据库厂商在数据仓库领域也纷纷提出了各自的其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。

    11、解决方案。数据仓库的发展数据仓库的发展 IBM:IBM:在其在其DB2UDBDB2UDB发布一年后的发布一年后的20192019年年9 9月发布月发布5.25.2版,并于版,并于20192019年年1212月推向中国市场,除了用于月推向中国市场,除了用于OLAPOLAP(联机分析处理)的后台服务器(联机分析处理)的后台服务器DB2 OLAP DB2 OLAP ServerServer外,外,IBMIBM还提供了一系列相关的产品,包括前还提供了一系列相关的产品,包括前端工具,形成一整套解决方案。端工具,形成一整套解决方案。InformixInformix公司公司:在其动态服务器在其动态服务器ID

    12、SIDS(Informix Informix Dynamic ServerDynamic Server)中提供一系列相关选件,如高级)中提供一系列相关选件,如高级决策支持选件(决策支持选件(Advanced Decision Support Advanced Decision Support OptionOption)、)、OLAPOLAP选件(选件(MetaCube ROLAP MetaCube ROLAP OptionOption)、扩展并行选件()、扩展并行选件(Extended Parallel Extended Parallel OptionOption)等,这种体系结构严谨、管理方

    13、便、索引机)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库制完善,并行处理的效率更高,其中数据仓库和数据库查询的查询的SQLSQL语句的一致性使得用户开发更加简便。语句的一致性使得用户开发更加简便。数据仓库的发展数据仓库的发展 微软公司微软公司:在其在其SQL Server7.0SQL Server7.0以及以及SQL SQL Server2000Server2000中集成了代号为中集成了代号为PlatoPlato的的OLAPOLAP服务器。服务器。Sybase:Sybase:提供了专门的提供了专门的OLAPOLAP服务器服务器Sybase IQSyba

    14、se IQ,并,并将其与数据仓库相关工具打包成将其与数据仓库相关工具打包成Warehouse Warehouse Studio Studio。PLATINUM:PLATINUM:提出了由提出了由InfoPumpInfoPump(数据仓库建模与(数据仓库建模与数据加载工具)和数据加载工具)和Forest&TreesForest&Trees(前端报表工具)(前端报表工具)构成的一套较有特色的整体方案。构成的一套较有特色的整体方案。;OracleOracle公司公司:则推出从数据仓库构建、则推出从数据仓库构建、OLAPOLAP到数据到数据集市管理等一系列产品包(如集市管理等一系列产品包(如Oracl

    15、e Warehouse Oracle Warehouse BuilderBuilder、Oracle ExpressOracle Express、DataMart SuitDataMart Suit等)。等)。数据仓库的我国的发展数据仓库的我国的发展 现状:数据仓库的概念已经被国内用户接受多年,但在现状:数据仓库的概念已经被国内用户接受多年,但在应用方面的收效仍很有限。应用方面的收效仍很有限。原因:原因:尚不存在可靠的、完善的、被广泛接受的数据仓库标准;尚不存在可靠的、完善的、被广泛接受的数据仓库标准;现有的数据库系统不健全,数据积累还不够,无法提出决策现有的数据库系统不健全,数据积累还不够,

    16、无法提出决策支持需求;支持需求;缺乏能够担负规划、设计、构建和维护数据仓库的重任的复缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才;合型人才;缺乏数据仓库前端工具(如缺乏数据仓库前端工具(如OLAPOLAP工具、数据挖掘工具等);工具、数据挖掘工具等);由于国内外文化的差异,一些用于构建数据仓库的知名产品由于国内外文化的差异,一些用于构建数据仓库的知名产品无法处理一些难以预料的问题,使得建立数据仓库的困难加无法处理一些难以预料的问题,使得建立数据仓库的困难加大。大。数据仓库的我国的发展数据仓库的我国的发展 前景:随着计算机技术的发展,尤其是分布式技术前景:随着计算机技术的发展,尤

    17、其是分布式技术的发展,的发展,数据仓库在我国有着广阔的发展空间和良数据仓库在我国有着广阔的发展空间和良好的发展前景。例如:好的发展前景。例如:由于银行商业化的步伐正在加大,各大中型银行在入世的由于银行商业化的步伐正在加大,各大中型银行在入世的机遇和挑战下,开始重新考虑自身的业务,特别是信贷风机遇和挑战下,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多;的基于数据仓库的决策支持系统的需求逐渐增多;由于电子商务的迅速发展,越来越多的电子商务网站,开由于电子商务的迅速发

    18、展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务;度分析等,为客户提供更进一步的个性化服务;如移动通信等各大型企业也开始考虑着手进行决策支持以如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。及数据仓库规划。数据挖掘的发展数据挖掘的发展 数据挖掘是与数据仓库密切相关的一个信息技数据挖掘是与数据仓库密切相关的一个信息技术新领域,它是信息技术自然演化的结果。术新领域,它是信息技术自然演化的结果。随着数据库技术的迅速发展以及数据库管理系随着数据库技术的迅速发展以及

    19、数据库管理系统的广泛应用,人们积累的数据越来越多,但统的广泛应用,人们积累的数据越来越多,但缺乏挖掘数据中隐藏的知识的手段,导致了缺乏挖掘数据中隐藏的知识的手段,导致了“数据爆炸但知识贫乏的数据爆炸但知识贫乏的”现象。现象。自自8080年代后期以来,联机分析处理(年代后期以来,联机分析处理(OLAPOLAP)和数据挖掘技术应运而生。和数据挖掘技术应运而生。数据挖掘的发展数据挖掘的发展 数据挖掘(数据挖掘(Data MiningData Mining,简记为,简记为DMDM)是从关系)是从关系数据库、数据仓库、数据库、数据仓库、WEBWEB数据库以及其他文件系数据库以及其他文件系统中发现重要的数

    20、据模式、规律的过程,因此又称统中发现重要的数据模式、规律的过程,因此又称为数据库中的知识发现(为数据库中的知识发现(Knowledge Knowledge Discovery in Database,Discovery in Database,简记为简记为KDDKDD),它是),它是OLAPOLAP的高级阶段。的高级阶段。自自2020世纪世纪8080年代起,开始了数据挖掘技术的研究。年代起,开始了数据挖掘技术的研究。19891989年在美国召开的国际学术会议上包含了年在美国召开的国际学术会议上包含了“从从数据库中知识发现数据库中知识发现”的主题;的主题;20192019年在加拿大召年在加拿大召

    21、开了第一届知识发现与数据挖掘国际学术会议。开了第一届知识发现与数据挖掘国际学术会议。从数据库到数据仓库从数据库到数据仓库 数据库应用的规模和深度数据库应用的规模和深度点点 线线 面面 互联网互联网 在线分析处理在线分析处理(OLAP)(OLAP)在线事务处理在线事务处理 决策支持决策支持(DS)(DS)(OLTP)(OLTP)数据挖掘数据挖掘(Data Mining)(Data Mining)事务型处理与分析型处理事务型处理与分析型处理 事务型处理:即操作型处理,是指对数据库的联事务型处理:即操作型处理,是指对数据库的联机操作处理。事务型处理是用来协助企业对响应机操作处理。事务型处理是用来协助

    22、企业对响应事件或事务的日常商务活动进行处理。它是事件事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等。事务型处理的应用增、删、改以及简单查询等。事务型处理的应用程序和数据是紧紧围绕着所管理的事件来构造的。程序和数据是紧紧围绕着所管理的事件来构造的。在事务型处理环境中,数据库要求能支持日常事在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。而每次操作处理的时间短。分析型处理分析型处理 分析型处理:

    23、用于管理人员的决策分析,例如分析型处理:用于管理人员的决策分析,例如DSSDSS、EIS EIS、和多维分析等。它帮助决策者分、和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。分析型处理经常析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询。在分要访问大量的历史数据,支持复杂的查询。在分析型处理中,并不是对从事务型处理环境析型处理中,并不是对从事务型处理环境 中得中得到的细节数据进行分析。细节数据量太大,会严到的细节数据进行分析。细节数据量太大,会严重影响分析的效率,而且太多的细节数据不利于重影响分析的效率,而且太多的细节数据不利于分析人员将注意力集中于有用

    24、的信息。分析型处分析人员将注意力集中于有用的信息。分析型处理过程中经常用到外部数据,这部分数据不是由理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数事务型处理系统产生的,而是来自于其他外部数据源。据源。事务型处理数据和分析型处理数据的区别事务型处理数据和分析型处理数据的区别 事务型处理数据事务型处理数据 分析型处理数据分析型处理数据细节的细节的 综合的,或提炼的综合的,或提炼的在存取瞬间是准确的在存取瞬间是准确的 代表过去的数据代表过去的数据可更新可更新 不可更新,只读的不可更新,只读的操作需求事先可知道操作需求事先可知道 操作需求事先不知操作需求事先不知生

    25、命周期符合生命周期符合SDLC完全不同的生命周期完全不同的生命周期对性能要求高对性能要求高 对性能要求宽松对性能要求宽松一个时刻操作一个单元一个时刻操作一个单元一个时刻操作一个一个时刻操作一个事务驱动事务驱动分析驱动分析驱动面向应用面向应用面向分析面向分析一次操作数据量小一次操作数据量小一次操作数据量大一次操作数据量大支持日常操作支持日常操作支持管理需求支持管理需求数据库系统的局限性数据库系统的局限性 数据库适于存储高度结构化的日常事务细节数据,而数据库适于存储高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表决策型数据多为历史性、汇总性或计算性数据,多表现为静态数

    26、据,不需直接更新,但可周期性刷新。现为静态数据,不需直接更新,但可周期性刷新。决策分析型数据是多维性,分析内容复杂。决策分析型数据是多维性,分析内容复杂。在事务处理环境中,决策者可能并不关心具体的细在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。据会分散决策者的注意力。数据库系统的局限性(续)数据库系统的局限性(续)当事务型处理环境和分析型处理环境在同一个数当事务型处理环境和分析型处理环境在同

    27、一个数据库系统中,事务型处理对数据的存取操作频率据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。连续运行几个小时,从而消耗大量的系统资源。决策型分析数据的数据量大,这些数据有来自企决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对如果直接对这些数据操作会造成分析的混乱。对于外部

    28、数据中的一些非结构化数据,数据库系统于外部数据中的一些非结构化数据,数据库系统常常是无能为力的。常常是无能为力的。多库系统的限制(续)多库系统的限制(续)可用性:源站点或通信网络故障将导致系统瘫可用性:源站点或通信网络故障将导致系统瘫痪痪,源站点不能通过网络在线联入多库系统。源站点不能通过网络在线联入多库系统。响应速度:全局查询多级转换和通信传输响应速度:全局查询多级转换和通信传输,延延迟和低层效率影响响应速度。迟和低层效率影响响应速度。系统性能:总体性能取决于源站点中性能最低系统性能:总体性能取决于源站点中性能最低的系统的系统,影响系统性能的发挥影响系统性能的发挥;系统开销:系统开销:每次查

    29、询要启动多个局部系统每次查询要启动多个局部系统,通通信和运行开销大。信和运行开销大。数据仓库数据仓库(Data Warehouse)(Data Warehouse)的定义的定义 数据仓库用来保存从多个数据库或其它信息源选取数据仓库用来保存从多个数据库或其它信息源选取的数据的数据,并为上层应用提供统一并为上层应用提供统一 用户接口,完成数用户接口,完成数据查询和分析。据查询和分析。数据仓库是作为数据仓库是作为DSSDSS服务基础的分析型服务基础的分析型DBDB,用来,用来存放大容量的只读数据,为制定决策提供所需要的存放大容量的只读数据,为制定决策提供所需要的信息。信息。数据仓库是与操作型系统相分

    30、离的、基于标准企业数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更模型集成的、带有时间属性的、面向主题及不可更新的数据集合。新的数据集合。W.H.InmonW.H.Inmon对数据仓库所下的定义:数据仓库是对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。集合,用以支持管理决策的过程。数据仓库的适用范围数据仓库的适用范围 信息源中的数据变化稳定信息源中的数据变化稳定 或可预测应用不需要最新的数据或可预测应用不需要最新的数据 或允许有延迟或允许有延迟 应用要

    31、求有较高的查询性能应用要求有较高的查询性能 而降低精度要求而降低精度要求数据仓库中数据的特点数据仓库中数据的特点 面向主题面向主题 集成性集成性 稳定性稳定性 时变性时变性面向主题面向主题 主题:是一个抽象的概念,是在较高层次上将主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑上,它对应于企业中某一利用的抽象。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。宏观分析领域所涉及的分析对象。面向主题的数据组织方式可在较高层次上对分面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描

    32、述,能完整、析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。从根本上实现数据与应用的分离。集成性集成性 数据仓库中的数据是从原有分散的源数据库中数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不原有的数据库中有许多冗余和不一致

    33、,且与不同的应用逻辑相关。为了创建一个有效的主题同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。因此,数据仓来,使之遵循统一的编码规则。因此,数据仓库在提取数据时必须经过数据集成,消除源数库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质。供的信息更概括、更本质。稳定性稳定性 数据仓库中的数据反映的是一段时间内历史数据仓库中的

    34、数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重合,以及基于撰写快照进行统计、综合和重组的导出数据,而不是联机处理的数据。主组的导出数据,而不是联机处理的数据。主要供企业高层决策分析之用,所涉及的数据要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作主要是查询,一般情况下并不进行修改操作,即数据仓库中的数据是不可实时更新操作,即数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入据仓

    35、库中删除,提取新的数据经集成后输入数据仓库。数据仓库。时变性时变性 时变性:许多商业分析要求对发展趋势做出时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉因此数据仓库必须不断捕捉OLTPOLTP数据库中数据库中变化的数据,生成数据库的快照,经集成后变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综的数据,并且还需要按规定的时间

    36、段增加综合数据。合数据。支持管理决策支持管理决策数据仓库支持数据仓库支持OLAPOLAP(联机分析处理)、数据挖(联机分析处理)、数据挖掘和决策分析。掘和决策分析。OLAPOLAP从数据仓库中的综合数据从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数分析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测

    37、。据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。策,而不是事务处理。数据仓库的技术要求数据仓库的技术要求 大量数据的组织和管理:包含了大量的历史数据,大量数据的组织和管理:包含了大量的历史数据,它是从数据库中提取得来的,不必关心它的数据安它是从数据库中提取得来的,不必关心它的数据安全性和数据完整性。全性和数据完整性。复杂分析的高性能体现:涉及大量数据的聚集、综复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、合等,在进行复杂查询时经常会使用多表的联接、累计、

    38、分类、排序等操作。累计、分类、排序等操作。对提取出来的数据进行集成:数据仓库中的数据是对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重以如何对数据进行集成也是构建数据仓库的一个重要方面。要方面。对进行高层决策的最终用户的界面支持:提供各种对进行高层决策的最终用户的界面支持:提供各种分析应用工具。分析应用工具。数据挖掘的定义数据挖掘的定义 数据挖掘(数据挖掘(Data MiningD

    39、ata Mining,简记为,简记为DMDM):是指从大型数据库):是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式的高级处理过程。的信息或模式的高级处理过程。模式:即知识,它给出了数据特性或数据之间的关系,是对数据模式:即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。按功能可以分为预测型模式和描述所包含的信息更抽象的描述。按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模

    40、式等。模式和序列模式等。数据挖掘和数据仓库是作为两种独立的信息技术出现的。它们都数据挖掘和数据仓库是作为两种独立的信息技术出现的。它们都可以完成对决策过程的支持,并且相互间有一定的内在联系。因可以完成对决策过程的支持,并且相互间有一定的内在联系。因此,将数据仓库与数据挖掘集成到一个系统中将能够更有效地提此,将数据仓库与数据挖掘集成到一个系统中将能够更有效地提高系统的决策支持能力。高系统的决策支持能力。数据挖掘是一门交叉性学科,它涉及到机器学习、模式识别、统数据挖掘是一门交叉性学科,它涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家计学、智能数据库、知识获取、

    41、数据可视化、高性能计算、专家系统等多个领域。可广泛地应用于信息管理、过程控制、科学研系统等多个领域。可广泛地应用于信息管理、过程控制、科学研究、决策支持等许多方面。究、决策支持等许多方面。数据挖掘的类型数据挖掘的类型数据挖掘的任务是从大量的数据中发现模式。数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种类型,其中比根据数据挖掘的任务可分为多种类型,其中比较典型的有:较典型的有:预测模型预测模型关联分析关联分析分类分析分类分析聚类分析聚类分析序列分析序列分析偏差检测偏差检测模式相似性挖掘模式相似性挖掘WebWeb数据挖掘数据挖掘预测模型预测模型 预测模型(预测模型(Predi

    42、ctive ModelingPredictive Modeling):所谓):所谓预测即从数据库或数据仓库中已知的数据推预测即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。测未知的数据或对象集中某些属性的值分布。建立预测模型的常用方法:建立预测模型的常用方法:回归分析回归分析 线性模型线性模型 关联规则关联规则 决策树预测决策树预测 遗传算法遗传算法 神经网络神经网络关联分析关联分析 关联(关联(AssociationAssociation)分析:关联规则描述了一组数据项之)分析:关联规则描述了一组数据项之间的密切度或关系。关联分析用于发现项目集之间的关联。在间的密切

    43、度或关系。关联分析用于发现项目集之间的关联。在关联规则挖掘算法中,通常给出了置信度和支持度两个概念,关联规则挖掘算法中,通常给出了置信度和支持度两个概念,对于置信度和支持度均大于给定阈值的规则称为强规则,而关对于置信度和支持度均大于给定阈值的规则称为强规则,而关联分析主要就是对强规则的挖掘。联分析主要就是对强规则的挖掘。关联规则挖掘近几年研究较多。现在,关联规则的挖掘已经从关联规则挖掘近几年研究较多。现在,关联规则的挖掘已经从单一概念层次关联规则的发现发展到多概念层次的关联规则的单一概念层次关联规则的发现发展到多概念层次的关联规则的发现,并把研究的重点放在提高算法的效率和规模可收缩性上。发现,

    44、并把研究的重点放在提高算法的效率和规模可收缩性上。它广泛地运用于帮助市场导向、商品目录设计客户关系管理)它广泛地运用于帮助市场导向、商品目录设计客户关系管理)(CRMCRM)和其他各种商业决策过程中。)和其他各种商业决策过程中。关联分析算法:关联分析算法:APRIORIAPRIORI算法、算法、DHPDHP算法、算法、DICDIC算法、算法、PARTITIONPARTITION算法及它们的各种改进算法等。另外,对于大规算法及它们的各种改进算法等。另外,对于大规模、分布在不同站点上的数据库或数据仓库,关联规则的挖掘模、分布在不同站点上的数据库或数据仓库,关联规则的挖掘可以使用并行算法,如:可以使

    45、用并行算法,如:CoCou untnt分布算法、分布算法、D Da at ta a分布算法、分布算法、C Ca andidndida ate te 分布算法、智能分布算法、智能D Da at ta a分布算法(分布算法(IDDIDD)和)和DMADMA分布算法等。分布算法等。分类分析分类分析 分类(分类(ClassificationClassification)分析:所谓分类是根据数)分析:所谓分类是根据数据的特征为每个类别建立一个模型,根据数据的属性据的特征为每个类别建立一个模型,根据数据的属性将数据分配到不同的组中。在实际应用过程中,分类将数据分配到不同的组中。在实际应用过程中,分类规则可

    46、以分析分组中数据的各种属性,并找出数据的规则可以分析分组中数据的各种属性,并找出数据的属性模型,从而确定哪些数据属于哪些组。这样就可属性模型,从而确定哪些数据属于哪些组。这样就可以利用该模型来分析已有数据,并预测新数据将属于以利用该模型来分析已有数据,并预测新数据将属于哪一个组。类的描述可以是显式的,如用一组特征概哪一个组。类的描述可以是显式的,如用一组特征概念描述;也可以是隐式的,如用一个数学公式或数学念描述;也可以是隐式的,如用一个数学公式或数学模型描述。分类分析已经成功地用于顾客分类、疾病模型描述。分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。分类、商业建模和信用卡分

    47、析等。分类分析的常用方法:分类分析的常用方法:约略(约略(RoughRough)集)集 决策树决策树 神经网络神经网络 统计分析法统计分析法聚类分析聚类分析 聚类聚类(Clustering)(Clustering)分析:所谓聚类是指一组彼此间分析:所谓聚类是指一组彼此间非常非常“相似相似”的数据对象的集合。相似的程度可以通的数据对象的集合。相似的程度可以通过距离函数来表示,由用户或专家指定。聚类分析是过距离函数来表示,由用户或专家指定。聚类分析是按照某种相近程度度量方法将数据分成互不相同的一按照某种相近程度度量方法将数据分成互不相同的一些分组。每一个分组中的数据相近,不同分组之间的些分组。每一

    48、个分组中的数据相近,不同分组之间的数据相差较大。好的聚类方法可以产生高质量的聚类,数据相差较大。好的聚类方法可以产生高质量的聚类,保证每一聚类内部的相似性很高,而各聚类之间的相保证每一聚类内部的相似性很高,而各聚类之间的相似性很低。聚类分析的核心是将某些定性的相近程度似性很低。聚类分析的核心是将某些定性的相近程度测量方法转换成定量测试方法。采用聚类分析,系统测量方法转换成定量测试方法。采用聚类分析,系统可以根据部分数据发现规律,找出对全体数据的描述。可以根据部分数据发现规律,找出对全体数据的描述。聚类分析的常用方法:聚类分析的常用方法:随机搜索聚类法随机搜索聚类法 特征聚类特征聚类 CFCF树

    49、树序列分析序列分析 序列(序列(SequenceSequence)分析:序列分析主要)分析:序列分析主要用于分析数据仓库中的某类与时间相关的用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。例如,时序模式、周期性、趋势和偏离等。例如,它可以导出类似它可以导出类似“若若AT&TAT&T股票连续上涨股票连续上涨两天且两天且DECDEC股票不下跌,则第三天股票不下跌,则第三天IBMIBM股股票上涨的可能性为票上涨的可能性为75%75%”的数据关系。序的数据关系。序列模式可以看成是一种特定的关联模型,列模式可以看

    50、成是一种特定的关联模型,它在关联模型中增加了时间属性。它在关联模型中增加了时间属性。偏差检测与模式相似性挖掘偏差检测与模式相似性挖掘 偏差检测(偏差检测(Deviation DetectionDeviation Detection):用于检测):用于检测并解释数据分类的偏差,它有助于滤掉知识发现引并解释数据分类的偏差,它有助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产生新的关注性事实。同时可产生新的关注性事实。模式相似性挖掘:用于在时间数据库或空间数据库模式相似性挖掘:用于在时间数据库或空间数据库中搜索相似模式时,从所有对

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:数据仓库与数据挖掘第1~3章课件.ppt
    链接地址:https://www.163wenku.com/p-4482268.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库