数据仓库与数据挖掘第1~3章课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据仓库与数据挖掘第1~3章课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 课件
- 资源描述:
-
1、复旦大学复旦大学软软 件件 学学 院院20192019年年4 4月月数据仓库与数据挖掘数据仓库与数据挖掘(DATA WAREHOUSING AND DATA MININGDATA WAREHOUSING AND DATA MINING)主要内容主要内容数据仓库与数据挖掘概述数据仓库与数据挖掘概述 (2 2学时)学时)数据仓库的数据模型与数据组织数据仓库的数据模型与数据组织 (4 4学时)学时)数据仓库的设计数据仓库的设计 (4 4学时)学时)数据加载技术数据加载技术 (4 4学时)学时)数据仓库系统的体系结构与实现技术数据仓库系统的体系结构与实现技术 (4 4学时)学时)数据挖掘中的常用方法数
2、据挖掘中的常用方法 (4 4学时)学时)关联规则挖掘关联规则挖掘 (6 6学时)学时)分类和预测分类和预测 (6 6学时)学时)聚类分析聚类分析 (4 4学时)学时)时序数据和序列数据的挖掘时序数据和序列数据的挖掘 (4 4学时)学时)WebWeb数据挖掘数据挖掘 (4 4学时)学时)数据挖掘的应用数据挖掘的应用 (4 4学时)学时)教学方式与考核方式教学方式与考核方式 教学方式教学方式本课程以课堂教学为主,以电子教案的内容为主线本课程以课堂教学为主,以电子教案的内容为主线课外阅读指定的参考文献并利用网上资源,加深对教学课外阅读指定的参考文献并利用网上资源,加深对教学内容的理解。内容的理解。考
3、核方式及要求考核方式及要求n撰写课程论文一篇撰写课程论文一篇n课程论文的内容不仅包括数据仓库与数据挖掘的综述,课程论文的内容不仅包括数据仓库与数据挖掘的综述,而且应包括对某一方面深入的分析、独立的见解或实际而且应包括对某一方面深入的分析、独立的见解或实际应用。应用。n课程论文的格式按照正式发表学术论文的要求,篇幅一课程论文的格式按照正式发表学术论文的要求,篇幅一般可大于正式发表的论文。般可大于正式发表的论文。n获得优秀成绩的课程论文必须进行大组报告与交流。获得优秀成绩的课程论文必须进行大组报告与交流。教材与参考书教材与参考书电子教案电子教案W.H.Inmon,W.H.Inmon,Buildin
4、g the Data WarehouseBuilding the Data Warehouse,王志海等译,机械工业出版,王志海等译,机械工业出版社,社,2000.52000.5,25.0025.00元,元,228228页页San Anahory and Dennis Murray,San Anahory and Dennis Murray,Data Warehousing in the Real Data Warehousing in the Real World World(原版书,国内未发行,(原版书,国内未发行,434434页)页)W.A.Giovinazzo,W.A.Giovinaz
5、zo,Object-Oriented Data Warehouse DesignObject-Oriented Data Warehouse Design,潇湘工作,潇湘工作室译,人民邮电出版社,室译,人民邮电出版社,2000.122000.12,28.0028.00元,元,193193页页Lou Agosta,Lou Agosta,The Essential Guide to Data WarehouseThe Essential Guide to Data Warehouse,潇湘工作室译,潇湘工作室译,人民邮电出版社,人民邮电出版社,2000.112000.11,45.0045.00元,
6、元,322322页页T.Y.Lin and N.cercone,T.Y.Lin and N.cercone,Rough Sets Data MiningRough Sets Data Mining (原版书,国内未发行,(原版书,国内未发行,436436页)页)康晓东等康晓东等 基于数据仓库的数据挖掘技术,机械工业出版社,基于数据仓库的数据挖掘技术,机械工业出版社,2019.012019.01Tom HammergrenTom Hammergren著,曹增强等译:数据仓库技术,中国水利水电出版社著,曹增强等译:数据仓库技术,中国水利水电出版社Lou AgostaLou Agosta,数据仓库技
7、术指南,人民邮电出版社,数据仓库技术指南,人民邮电出版社Jiawei Han,Micheline Kambr,Jiawei Han,Micheline Kambr,DATA MINING CONCEPTS AND DATA MINING CONCEPTS AND TECHNIQUESTECHNIQUES(影印版),高等教育出版社(影印版),高等教育出版社邵峰晶等,数据挖掘原理与算法,中国水利水电出版社,邵峰晶等,数据挖掘原理与算法,中国水利水电出版社,2019.082019.08林杰斌等,数据挖掘与林杰斌等,数据挖掘与OLAPOLAP理论与实务,清华大学出版社,理论与实务,清华大学出版社,20
8、19.012019.01康博创作室:康博创作室:SQL SERVER 2000SQL SERVER 2000数据仓库设计和使用指南,清华大学出版社数据仓库设计和使用指南,清华大学出版社(美)(美)C.SeidmanC.Seidman:SQL SERVER 2000SQL SERVER 2000数据挖掘技术指南,机械工业出版社,数据挖掘技术指南,机械工业出版社,2019.012019.01因特网上有关参考资料和文献因特网上有关参考资料和文献学术刊物上有关论文学术刊物上有关论文 第第1 1章章 数据仓库与数据挖掘概述数据仓库与数据挖掘概述本章要点本章要点 数据仓库的发展数据仓库的发展 数据仓库的基
9、本概念数据仓库的基本概念 数据挖掘的发展数据挖掘的发展 数据挖掘的基本概念数据挖掘的基本概念 数据仓库与数据挖掘的集成数据仓库与数据挖掘的集成数据仓库的发展数据仓库的发展 自从自从NCRNCR公司为公司为Wal MartWal Mart建立了第一个数据仓库。建立了第一个数据仓库。20192019年,加拿大的年,加拿大的IDCIDC公司调查了公司调查了6262家实现了数据家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。巨大的收益。早期的数据仓库大都采用当时流行的客户早期的数据仓库大都采用当时流行的客户/服务器结构。服务器结构。近
10、年来分布式对象技术飞速发展,整个数据仓库体系近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。程序中向用户提供调用的接口。IBMIBM的实验室在数据仓库方面已经进行了的实验室在数据仓库方面已经进行了1010多年的多年的研究,并将研究成果发展成为商用产品。研究,并将研究成果发展成为商用产品。其他数据库厂商在数据仓库领域也纷纷提出了各自的其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。
11、解决方案。数据仓库的发展数据仓库的发展 IBM:IBM:在其在其DB2UDBDB2UDB发布一年后的发布一年后的20192019年年9 9月发布月发布5.25.2版,并于版,并于20192019年年1212月推向中国市场,除了用于月推向中国市场,除了用于OLAPOLAP(联机分析处理)的后台服务器(联机分析处理)的后台服务器DB2 OLAP DB2 OLAP ServerServer外,外,IBMIBM还提供了一系列相关的产品,包括前还提供了一系列相关的产品,包括前端工具,形成一整套解决方案。端工具,形成一整套解决方案。InformixInformix公司公司:在其动态服务器在其动态服务器ID
12、SIDS(Informix Informix Dynamic ServerDynamic Server)中提供一系列相关选件,如高级)中提供一系列相关选件,如高级决策支持选件(决策支持选件(Advanced Decision Support Advanced Decision Support OptionOption)、)、OLAPOLAP选件(选件(MetaCube ROLAP MetaCube ROLAP OptionOption)、扩展并行选件()、扩展并行选件(Extended Parallel Extended Parallel OptionOption)等,这种体系结构严谨、管理方
13、便、索引机)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库制完善,并行处理的效率更高,其中数据仓库和数据库查询的查询的SQLSQL语句的一致性使得用户开发更加简便。语句的一致性使得用户开发更加简便。数据仓库的发展数据仓库的发展 微软公司微软公司:在其在其SQL Server7.0SQL Server7.0以及以及SQL SQL Server2000Server2000中集成了代号为中集成了代号为PlatoPlato的的OLAPOLAP服务器。服务器。Sybase:Sybase:提供了专门的提供了专门的OLAPOLAP服务器服务器Sybase IQSyba
14、se IQ,并,并将其与数据仓库相关工具打包成将其与数据仓库相关工具打包成Warehouse Warehouse Studio Studio。PLATINUM:PLATINUM:提出了由提出了由InfoPumpInfoPump(数据仓库建模与(数据仓库建模与数据加载工具)和数据加载工具)和Forest&TreesForest&Trees(前端报表工具)(前端报表工具)构成的一套较有特色的整体方案。构成的一套较有特色的整体方案。;OracleOracle公司公司:则推出从数据仓库构建、则推出从数据仓库构建、OLAPOLAP到数据到数据集市管理等一系列产品包(如集市管理等一系列产品包(如Oracl
15、e Warehouse Oracle Warehouse BuilderBuilder、Oracle ExpressOracle Express、DataMart SuitDataMart Suit等)。等)。数据仓库的我国的发展数据仓库的我国的发展 现状:数据仓库的概念已经被国内用户接受多年,但在现状:数据仓库的概念已经被国内用户接受多年,但在应用方面的收效仍很有限。应用方面的收效仍很有限。原因:原因:尚不存在可靠的、完善的、被广泛接受的数据仓库标准;尚不存在可靠的、完善的、被广泛接受的数据仓库标准;现有的数据库系统不健全,数据积累还不够,无法提出决策现有的数据库系统不健全,数据积累还不够,
16、无法提出决策支持需求;支持需求;缺乏能够担负规划、设计、构建和维护数据仓库的重任的复缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才;合型人才;缺乏数据仓库前端工具(如缺乏数据仓库前端工具(如OLAPOLAP工具、数据挖掘工具等);工具、数据挖掘工具等);由于国内外文化的差异,一些用于构建数据仓库的知名产品由于国内外文化的差异,一些用于构建数据仓库的知名产品无法处理一些难以预料的问题,使得建立数据仓库的困难加无法处理一些难以预料的问题,使得建立数据仓库的困难加大。大。数据仓库的我国的发展数据仓库的我国的发展 前景:随着计算机技术的发展,尤其是分布式技术前景:随着计算机技术的发展,尤
17、其是分布式技术的发展,的发展,数据仓库在我国有着广阔的发展空间和良数据仓库在我国有着广阔的发展空间和良好的发展前景。例如:好的发展前景。例如:由于银行商业化的步伐正在加大,各大中型银行在入世的由于银行商业化的步伐正在加大,各大中型银行在入世的机遇和挑战下,开始重新考虑自身的业务,特别是信贷风机遇和挑战下,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多;的基于数据仓库的决策支持系统的需求逐渐增多;由于电子商务的迅速发展,越来越多的电子商务网站,开由于电子商务的迅速发
18、展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务;度分析等,为客户提供更进一步的个性化服务;如移动通信等各大型企业也开始考虑着手进行决策支持以如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。及数据仓库规划。数据挖掘的发展数据挖掘的发展 数据挖掘是与数据仓库密切相关的一个信息技数据挖掘是与数据仓库密切相关的一个信息技术新领域,它是信息技术自然演化的结果。术新领域,它是信息技术自然演化的结果。随着数据库技术的迅速发展以及数据库管理系随着数据库技术的迅速发展以及
19、数据库管理系统的广泛应用,人们积累的数据越来越多,但统的广泛应用,人们积累的数据越来越多,但缺乏挖掘数据中隐藏的知识的手段,导致了缺乏挖掘数据中隐藏的知识的手段,导致了“数据爆炸但知识贫乏的数据爆炸但知识贫乏的”现象。现象。自自8080年代后期以来,联机分析处理(年代后期以来,联机分析处理(OLAPOLAP)和数据挖掘技术应运而生。和数据挖掘技术应运而生。数据挖掘的发展数据挖掘的发展 数据挖掘(数据挖掘(Data MiningData Mining,简记为,简记为DMDM)是从关系)是从关系数据库、数据仓库、数据库、数据仓库、WEBWEB数据库以及其他文件系数据库以及其他文件系统中发现重要的数
20、据模式、规律的过程,因此又称统中发现重要的数据模式、规律的过程,因此又称为数据库中的知识发现(为数据库中的知识发现(Knowledge Knowledge Discovery in Database,Discovery in Database,简记为简记为KDDKDD),它是),它是OLAPOLAP的高级阶段。的高级阶段。自自2020世纪世纪8080年代起,开始了数据挖掘技术的研究。年代起,开始了数据挖掘技术的研究。19891989年在美国召开的国际学术会议上包含了年在美国召开的国际学术会议上包含了“从从数据库中知识发现数据库中知识发现”的主题;的主题;20192019年在加拿大召年在加拿大召
21、开了第一届知识发现与数据挖掘国际学术会议。开了第一届知识发现与数据挖掘国际学术会议。从数据库到数据仓库从数据库到数据仓库 数据库应用的规模和深度数据库应用的规模和深度点点 线线 面面 互联网互联网 在线分析处理在线分析处理(OLAP)(OLAP)在线事务处理在线事务处理 决策支持决策支持(DS)(DS)(OLTP)(OLTP)数据挖掘数据挖掘(Data Mining)(Data Mining)事务型处理与分析型处理事务型处理与分析型处理 事务型处理:即操作型处理,是指对数据库的联事务型处理:即操作型处理,是指对数据库的联机操作处理。事务型处理是用来协助企业对响应机操作处理。事务型处理是用来协助
22、企业对响应事件或事务的日常商务活动进行处理。它是事件事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等。事务型处理的应用增、删、改以及简单查询等。事务型处理的应用程序和数据是紧紧围绕着所管理的事件来构造的。程序和数据是紧紧围绕着所管理的事件来构造的。在事务型处理环境中,数据库要求能支持日常事在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。而每次操作处理的时间短。分析型处理分析型处理 分析型处理:
23、用于管理人员的决策分析,例如分析型处理:用于管理人员的决策分析,例如DSSDSS、EIS EIS、和多维分析等。它帮助决策者分、和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。分析型处理经常析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询。在分要访问大量的历史数据,支持复杂的查询。在分析型处理中,并不是对从事务型处理环境析型处理中,并不是对从事务型处理环境 中得中得到的细节数据进行分析。细节数据量太大,会严到的细节数据进行分析。细节数据量太大,会严重影响分析的效率,而且太多的细节数据不利于重影响分析的效率,而且太多的细节数据不利于分析人员将注意力集中于有用
24、的信息。分析型处分析人员将注意力集中于有用的信息。分析型处理过程中经常用到外部数据,这部分数据不是由理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数事务型处理系统产生的,而是来自于其他外部数据源。据源。事务型处理数据和分析型处理数据的区别事务型处理数据和分析型处理数据的区别 事务型处理数据事务型处理数据 分析型处理数据分析型处理数据细节的细节的 综合的,或提炼的综合的,或提炼的在存取瞬间是准确的在存取瞬间是准确的 代表过去的数据代表过去的数据可更新可更新 不可更新,只读的不可更新,只读的操作需求事先可知道操作需求事先可知道 操作需求事先不知操作需求事先不知生
25、命周期符合生命周期符合SDLC完全不同的生命周期完全不同的生命周期对性能要求高对性能要求高 对性能要求宽松对性能要求宽松一个时刻操作一个单元一个时刻操作一个单元一个时刻操作一个一个时刻操作一个事务驱动事务驱动分析驱动分析驱动面向应用面向应用面向分析面向分析一次操作数据量小一次操作数据量小一次操作数据量大一次操作数据量大支持日常操作支持日常操作支持管理需求支持管理需求数据库系统的局限性数据库系统的局限性 数据库适于存储高度结构化的日常事务细节数据,而数据库适于存储高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表决策型数据多为历史性、汇总性或计算性数据,多表现为静态数
展开阅读全文