数据库课件:第十讲 数据挖掘概述 .ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据库课件:第十讲 数据挖掘概述 .ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据库课件:第十讲 数据挖掘概述 数据库 课件 第十 数据 挖掘 概述
- 资源描述:
-
1、1第十讲 数据挖掘概述本讲讲授目标:本讲讲授目标:1. 数据挖掘基本概念数据挖掘基本概念2. 数据挖掘系统的体系结构数据挖掘系统的体系结构3. 数据挖掘的过程数据挖掘的过程4. 数据挖掘系统的组成数据挖掘系统的组成5. 数据挖掘常用技术数据挖掘常用技术6. 数据挖掘的类型数据挖掘的类型一. 数据挖掘基本概念1. 什么是数据挖掘? Data Mining 最早定义 从现有的大量数据中,获取不明显、之前未知、可能有用的信息。 William Frawley & Gregory Piatetsky Shapiro,1991 目标 建立起决策模型(比如哪一类用户对我的产品感兴趣?) 根据过去的行动来预
2、测未来的行为一. 数据挖掘基本概念4一. 数据挖掘基本概念保险业保险业银行业银行业政府政府通信业通信业零售业零售业数据数据挖掘挖掘2. 数据挖掘的应用一. 数据挖掘基本概念3. 数据挖掘的发展历程一. 数据挖掘基本概念4. 数据挖掘工具7一. 数据挖掘基本概念5. 数据挖掘的定义数据挖掘的定义 又称为数据库中的知识发现,是基于、机器学习、又称为数据库中的知识发现,是基于、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库等中提取可信的、新颖纳性推理,从数据仓库或数据库等中提取可信的、新颖的、有效的、人们感兴趣的
3、、能被人理解的知识的高级的、有效的、人们感兴趣的、能被人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。帮助管理者作出正确的决策。模式:它给出了数据特性或数据之间的关系,是对数据所包模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、式和描述型模式。在实际应用中,可以
4、细分为关联模式、分类模式、聚类模式和序列模式等。分类模式、聚类模式和序列模式等。数据库中的知识发现知识发现过程: 属性选择 数据清洗 属性扩展 数据编码 数据挖掘 形成报告属性选择数据清洗属性扩展数据编码数据编码14二二. 数据挖掘系统的体系结构数据挖掘系统的体系结构(1)DM的步骤:的步骤:l数据准备:数据准备:n数据集成数据集成n数据选择数据选择n预分析预分析l挖掘挖掘l表述表述l评价评价(2)DM系统的结构:系统的结构: 用户界面用户界面结果输出结果输出数据挖掘核心数据挖掘核心知识库知识库数据仓库数据仓库数据库数据库文件系统文件系统其他其他数据源数据源ODBC或其他专用数据库接口或其他专
5、用数据库接口三三. 数据挖掘的过程数据挖掘的过程 取样(Sample) 输入数据源、数据分块,取样 探索(Explore) 数据分布情况, 关联分析, 变量选择, 修改(Modify) 异常过滤, 属性变换, 属性选择, 建立模型(Model) 决策树, 神经网络, 回归, 聚类, 关联, 评估(Assess) 评估、打分、结果呈现16三三. 数据挖掘的过程数据挖掘的过程又可分为四个阶段:又可分为四个阶段:1. 数据准备阶段:经过处理过的数据一般存数据准备阶段:经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最将影
6、响到数据挖掘的效率和准确度以及最终模式的有效性。包括:终模式的有效性。包括:n 数据的选择:选择相关的数据数据的选择:选择相关的数据n 数据的净化:消除噪音、冗余数据数据的净化:消除噪音、冗余数据n 数据的推测:推算缺失数据数据的推测:推算缺失数据n 数据的转化:离散值数据与连续值数据之间数据的转化:离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之的相互转换、数据值的分组分类、数据项之间的计算组合等间的计算组合等n 数据的缩减:减少数据量数据的缩减:减少数据量17三三. 数据挖掘的过程数据挖掘的过程2. 挖掘阶段:该阶段是数据挖掘的核心步骤,挖掘阶段:该阶段是数据挖掘的核心步骤
7、,也是技术难点所在。根据数据挖掘的目标,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。过可视化工具表述所获得的模式或规则。18三三. 数据挖掘的过程数据挖掘的过程3. 评价阶段:在数据挖掘中得到的模式可能评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要在某些情
8、况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。也可以直接用数据来检验其准确性。19三三. 数据挖掘的过程数据挖掘的过程4. 巩固和运用阶段:用户理解的、并被认为巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。使知识得到巩固
9、。 运用知识有两种方法:一种是只需看知识运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。而需要对知识作进一步的优化。20四. 数据挖掘系统的组成数据挖掘系统的组成 数据挖掘系统可以采用三层的数据挖掘系统可以采用三层的C/S结构:结构: 第一层:为图形用户界面,位于系统的客户端;第一层:为图形用户界面,位于系统的客户端; 第二层:为数据挖掘引擎,它是数据挖掘系统第二层
10、:为数据挖掘引擎,它是数据挖掘系统的核心,位于系统的应用服务器端;的核心,位于系统的应用服务器端; 第三层:为数据库与数据仓库,位于数据服务第三层:为数据库与数据仓库,位于数据服务器端。器端。21数据挖掘系统的组成数据挖掘系统的组成图形用户界面图形用户界面 该模块实现用户与数据挖掘系统之间的通该模块实现用户与数据挖掘系统之间的通信,允许用户与系统交互。用户可以通过信,允许用户与系统交互。用户可以通过图形化界面指定数据挖掘任务、输入有关图形化界面指定数据挖掘任务、输入有关信息,根据系统以可视化形式输出的数据信息,根据系统以可视化形式输出的数据挖掘的中间结果进行探索式的数据挖掘。挖掘的中间结果进行
11、探索式的数据挖掘。此外,该模块还提供用户浏览数据库和数此外,该模块还提供用户浏览数据库和数据仓库模式或数据结构、评价数据挖掘的据仓库模式或数据结构、评价数据挖掘的模式等功能。模式等功能。22数据挖掘系统的组成数据挖掘系统的组成 数据挖掘引擎数据挖掘引擎 数据挖掘引擎是数据挖掘系统最基本、最数据挖掘引擎是数据挖掘系统最基本、最重要的部分,是数据挖掘系统的核心。该重要的部分,是数据挖掘系统的核心。该部分由一系列功能模块组成,分别用于关部分由一系列功能模块组成,分别用于关联规则挖掘、分类规则挖掘、聚类规则挖联规则挖掘、分类规则挖掘、聚类规则挖掘、时序与序列数据挖掘和掘、时序与序列数据挖掘和WEB数据
12、挖掘数据挖掘等。等。23数据挖掘系统的组成数据挖掘系统的组成数据库与数据仓库数据库与数据仓库 该部分位于数据服务器端,包括数据库、该部分位于数据服务器端,包括数据库、知识库、文件系统、其他数据源以及存放知识库、文件系统、其他数据源以及存放经过数据准备提取和集成后数据的数据仓经过数据准备提取和集成后数据的数据仓库。在知识库中存放领域知识,用于搜索库。在知识库中存放领域知识,用于搜索和对模式进行评价。和对模式进行评价。 数据库与数据仓库服务器的功能是根据用数据库与数据仓库服务器的功能是根据用户的数据挖掘请求,提取相应的数据供数户的数据挖掘请求,提取相应的数据供数据挖掘引擎使用。据挖掘引擎使用。24
展开阅读全文