第1章绪论(new)-数据挖掘课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第1章绪论(new)-数据挖掘课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 绪论 new 数据 挖掘 课件
- 资源描述:
-
1、陈俊杰陈俊杰太原理工大学计算机与软件学院太原理工大学计算机与软件学院数据挖掘技术的产生与发展数据挖掘技术的产生与发展 数据挖掘的概念数据挖掘的概念 数据挖掘的数据挖掘的任务任务数据挖掘的对象数据挖掘的对象数据挖掘的数据挖掘的分类分类数据挖掘的知识表示数据挖掘的知识表示数据挖掘的方法和技术数据挖掘的方法和技术不同数据存储形式下的数据挖掘问题不同数据存储形式下的数据挖掘问题粗糙集方法及其在数据挖掘中的应用粗糙集方法及其在数据挖掘中的应用数据挖掘技术应用分析数据挖掘技术应用分析第一章第一章第一章第一章第一章第一章 绪论绪论绪论绪论绪论绪论 随着信息技术的高速发展,数据库应用的规模、范随着信息技术的高
2、速发展,数据库应用的规模、范围和深度不断扩大,网络环境成为主流等。人们已围和深度不断扩大,网络环境成为主流等。人们已经习惯面队这样一个事实经习惯面队这样一个事实,超量数据充斥着我们的超量数据充斥着我们的计算机、网络和生活。事实上这些数据中只有一小计算机、网络和生活。事实上这些数据中只有一小部分被利用,产生了部分被利用,产生了“数据丰富而知识贫乏(数据丰富而知识贫乏(Data Rich&Knowledge Poor)”现象。现象。在强大的需求的驱动下,我们开始思考如何从大容在强大的需求的驱动下,我们开始思考如何从大容量数据集中获取有用信息和知识的方法,希望能够量数据集中获取有用信息和知识的方法,
3、希望能够提供更高层次的数据处理功能。新需求推动新技术提供更高层次的数据处理功能。新需求推动新技术的诞生。数据挖掘技术应用而生。的诞生。数据挖掘技术应用而生。运用基于计算机的方法,从而在数据中获得有用的运用基于计算机的方法,从而在数据中获得有用的知识的整个过程,就叫做数据挖掘。知识的整个过程,就叫做数据挖掘。datainformationknowledge数据(数据(Data)、信息()、信息(Information)和知识)和知识(Knowledge)是广义数据表现的不同形式。)是广义数据表现的不同形式。数据挖掘是在相关学科充分发展的基础上被提出数据挖掘是在相关学科充分发展的基础上被提出和发展
4、的。和发展的。主要的相关技术:主要的相关技术:数据库等信息技术的发展数据库等信息技术的发展 统计学深入应用统计学深入应用 人工智能技术的研究和应用人工智能技术的研究和应用 Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceAI/MachineLearningVisualization 60年代:简单文件处理系统向数据库系统变革年代:简单文件处理系统向数据库系统变革。70年代:层次、网络和关系型数据库普及。年代:层次、网络和关系型数据库普及。80年代:年代:RDBS及其相关工具、数据索引及数据组织技
5、术及其相关工具、数据索引及数据组织技术被广泛采用;中期开始,分布式数据库广泛讨论,关系数被广泛采用;中期开始,分布式数据库广泛讨论,关系数据库技术和新型技术的结合。据库技术和新型技术的结合。90年代:数据库领域中的新内容、新应用、新技术层出不年代:数据库领域中的新内容、新应用、新技术层出不穷,形成了庞大的数据库家族;人们期望分析预测、决策穷,形成了庞大的数据库家族;人们期望分析预测、决策支持等高级应用,支持等高级应用,Data mining 和和 data warehousing等出等出现。现。本世纪开始:本世纪开始:Data mining 得到理论以及技术深化。得到理论以及技术深化。强大有效
6、的数理统计方法和工具,已成为信息咨强大有效的数理统计方法和工具,已成为信息咨询业的基础。询业的基础。统计分析技术是基于严格的数学理论和高超的应统计分析技术是基于严格的数学理论和高超的应用技巧的。用技巧的。数据挖掘技术是数理统计分析应用的延伸和发展。数据挖掘技术是数理统计分析应用的延伸和发展。和数据库技术的结合性研究。和数据库技术的结合性研究。人工智能是计算机科学研究中争议最多而又仍始终保持强人工智能是计算机科学研究中争议最多而又仍始终保持强大生命的研究领域。大生命的研究领域。专家系统曾经是人工智能研究工作者的骄傲,但是诸多难专家系统曾经是人工智能研究工作者的骄傲,但是诸多难题限制了专家系统的应
7、用:题限制了专家系统的应用:知识获取成为专家系统研究中公认的瓶颈问题。知识获取成为专家系统研究中公认的瓶颈问题。知识表示成为一大难题。知识表示成为一大难题。对常识和百科知识出奇地贫乏。对常识和百科知识出奇地贫乏。数据挖掘继承了专家系统的高度实用性特点,并且以数据数据挖掘继承了专家系统的高度实用性特点,并且以数据为基本出发点,客观地挖掘知识。为基本出发点,客观地挖掘知识。机器学习得到了充分的研究和发展:理论和算法。机器学习得到了充分的研究和发展:理论和算法。数据挖掘研究在继承已有的人工智能相关领域,特别是机数据挖掘研究在继承已有的人工智能相关领域,特别是机器学习的研究成果的基础上,成为新的研究分
8、支。器学习的研究成果的基础上,成为新的研究分支。数据挖掘本质上是一种新的信息处理技术:数据挖掘本质上是一种新的信息处理技术:数据挖掘技术将对数据的应用,从低层次的联数据挖掘技术将对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更机查询操作,提高到决策支持、分析预测等更高级应用上。高级应用上。通过对数据的统计、分析、综合和推理,发现通过对数据的统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括数据间的关联性、未来趋势以及一般性的概括知识等,这些知识性的信息可以用来指导高级知识等,这些知识性的信息可以用来指导高级商务活动。商务活动。从决策、分析和预测等目的看,原始
9、数据只是未从决策、分析和预测等目的看,原始数据只是未被开采的矿山,需要挖掘和提炼才能获得有用的被开采的矿山,需要挖掘和提炼才能获得有用的规律性知识。规律性知识。数据挖掘的概念数据挖掘的概念 数据库中的知识发现(数据库中的知识发现(KDD:Knowledge Discovery in Databases)是比数据挖掘出现更早的一个名词。)是比数据挖掘出现更早的一个名词。KDD与与Data Mining的关系,有不同的看法:的关系,有不同的看法:KDD看成数据挖掘的一个特例:这是早期比较流行的观点,看成数据挖掘的一个特例:这是早期比较流行的观点,这种描述强调了数据挖掘在源数据形式上的多样性。这种描
10、述强调了数据挖掘在源数据形式上的多样性。数据挖掘是数据挖掘是KDD的一个关键步骤:这种观点得到大多数学的一个关键步骤:这种观点得到大多数学者认同,有它的合理性。者认同,有它的合理性。KDD与与Data Mining含义相同:事实上,在现今的许多场含义相同:事实上,在现今的许多场合,如技术综述等,这两个术语仍然不加区分地使用着。合,如技术综述等,这两个术语仍然不加区分地使用着。也有其他的说法:也有其他的说法:KDD在人工智能界更流行,在人工智能界更流行,Data Mining在数据库界使在数据库界使用更多。用更多。研究领域被称作研究领域被称作KDD,工程领域则称之为数据挖掘。,工程领域则称之为数
11、据挖掘。数据挖掘定义有广义和狭义之分。数据挖掘定义有广义和狭义之分。从广义的观点,数据挖掘是从大型数据集(可从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。先不知道的、对决策有用的知识的过程。从这种狭义的观点上,我们可以定义数据挖掘从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。是从特定形式的数据集中提炼知识的过程。数据挖掘方法可以是基于数学理论的,也可以是非数学的;数据挖掘方法
12、可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以是归纳的。可以是演绎的,也可以是归纳的。研究者可能是来自于数据库、人工智能、数理统计、计算研究者可能是来自于数据库、人工智能、数理统计、计算机科学以及其他方面的学者和工程技术人员,他们会从不机科学以及其他方面的学者和工程技术人员,他们会从不同的视点进行探讨性研究。同的视点进行探讨性研究。有下面一些重要的理论视点值得关注:有下面一些重要的理论视点值得关注:模式发现(模式发现(Pattern Discovery)架构)架构 规则发现(规则发现(Rule Discovery)架构)架构 基于概率和统计理论基于概率和统计理论 微观经济学观点(
13、微观经济学观点(Microeconomic View)基于数据压缩(基于数据压缩(Data Compression)理论)理论 基于归纳数据库(基于归纳数据库(Inductive Database)理论)理论 可视化数据挖掘(可视化数据挖掘(Visual Data Mining)等等)等等 关联规则关联规则 时间序列模式时间序列模式 聚类聚类 分类分类 偏差检测偏差检测 预测预测 数据挖掘的任务数据挖掘的任务关联规则:关联规则:数据集中的数据项的取值之间重复出现且概率很数据集中的数据项的取值之间重复出现且概率很高,则表明它们存在某种关联,可以建立它们的关联高,则表明它们存在某种关联,可以建立它
14、们的关联规则。规则。如买面包的顾客有如买面包的顾客有90%还买了牛奶。即是一条规则。还买了牛奶。即是一条规则。在大型数据集中这种关联规则很多,需要筛选,在大型数据集中这种关联规则很多,需要筛选,一般用一般用“支持度支持度”和和“可信度可信度”两个阈值来淘汰无用两个阈值来淘汰无用的关联规则。的关联规则。支持度:支持度:该规则所代表的事例占全部事例的百分比。该规则所代表的事例占全部事例的百分比。如买面包又牛奶的顾客占全部顾客的百分比如买面包又牛奶的顾客占全部顾客的百分比可信度:可信度:该规则所代表的事例占满足前提条件事例的该规则所代表的事例占满足前提条件事例的百分比。如买面包又牛奶的顾客占买面包顾
15、客的百分百分比。如买面包又牛奶的顾客占买面包顾客的百分比。比。时间序列模式:时间序列模式:通过时间序列找出重复发生概率较高的模通过时间序列找出重复发生概率较高的模式。强调时间序列的影响。如买激光打印机式。强调时间序列的影响。如买激光打印机的人中,半年后有的人中,半年后有80%再购买新硒鼓。再购买新硒鼓。在时间序列模式中,需要找出在某个最小在时间序列模式中,需要找出在某个最小时间内出现比率一直高于某一百分比(阈值)时间内出现比率一直高于某一百分比(阈值)的规则。的规则。聚类:聚类:数据集中的数据可以划分成一系列有意义数据集中的数据可以划分成一系列有意义的子集,即类。在同一类中,数据间的的子集,即
16、类。在同一类中,数据间的“距离距离”较小,而不同类中,数据间的距离偏大。通过较小,而不同类中,数据间的距离偏大。通过聚类可建立宏观概念,如鸡、鸭、鹅等归为家聚类可建立宏观概念,如鸡、鸭、鹅等归为家禽类。禽类。聚类方法包括:统计分析方法、机器学习聚类方法包括:统计分析方法、机器学习方法、神经网络方法等。方法、神经网络方法等。分类:分类:找出一个类别的概念描述,它代表这个类别的整找出一个类别的概念描述,它代表这个类别的整体信息,即类的内涵描述,一般用规则和决策树模体信息,即类的内涵描述,一般用规则和决策树模式表示。该模式可将数据集的数据映射到给定类别式表示。该模式可将数据集的数据映射到给定类别中的
17、某一个类别中。中的某一个类别中。类的内涵描述分为:特征性描述和辨别性描述。类的内涵描述分为:特征性描述和辨别性描述。分类可利用训练样本集,通过相关算法求得。分类可利用训练样本集,通过相关算法求得。建立决策树的方法包括:建立决策树的方法包括:ID3、C4.5、IBLE等法、等法、机器学习方法、神经网络方法等。机器学习方法、神经网络方法等。偏差检测:偏差检测:数据集中的数据存在很多异常情况,从数据数据集中的数据存在很多异常情况,从数据分析中发现这些异常情况也很重要,以引起人们对分析中发现这些异常情况也很重要,以引起人们对它的注意。如离群数据挖掘。它的注意。如离群数据挖掘。偏差包括很多有用的知识,如
18、下面几类:偏差包括很多有用的知识,如下面几类:分类中的反常实例;分类中的反常实例;模式的例外模式的例外 观察结果对模型预测的偏差;观察结果对模型预测的偏差;量值随时间的变化。量值随时间的变化。预测:预测:预测是利用历史数据找出变化规律,建立模预测是利用历史数据找出变化规律,建立模型,并以此模型预测未来数据的种类、特征等。型,并以此模型预测未来数据的种类、特征等。典型的方法是回归分析:利用大量的历史数据,典型的方法是回归分析:利用大量的历史数据,以时间为变量,建立线性或非线性回归方程。预测以时间为变量,建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可得时,只要输入任意的时
19、间值,通过回归方程就可得到该时间的状态。到该时间的状态。近年来,还有神经网络的方法。近年来,还有神经网络的方法。结构化数据:主要是关系数据库结构化数据:主要是关系数据库半结构化和非结构化数据半结构化和非结构化数据 数据挖掘的对象数据挖掘的对象文本数据文本数据图像和视频数据图像和视频数据WebWeb数据数据1.关系数据库:关系数据库:数据挖掘方法主要是研究数据库中的属性之间数据挖掘方法主要是研究数据库中的属性之间的关系,挖掘出多个属性取值之间的规则。的关系,挖掘出多个属性取值之间的规则。数据库的特点:数据库的特点:数据动态性数据动态性数据不完整性数据不完整性数据噪声(由于数据录入等原因造成错误的
20、数据)数据噪声(由于数据录入等原因造成错误的数据)数据冗余性数据冗余性数据稀疏性数据稀疏性海量数据海量数据2.文本:文本:以字符串形式表示的数据,文本分析包括:以字符串形式表示的数据,文本分析包括:关键字或特征提取关键字或特征提取相似检索相似检索文本聚类文本聚类文本分类文本分类3.图像和视频数据:图像和视频数据:典型的多媒体数据,数据以点阵或帧形式存储,典型的多媒体数据,数据以点阵或帧形式存储,数据量很大。图像和视频的数据挖掘包括:数据量很大。图像和视频的数据挖掘包括:图像和视频数据特征提取图像和视频数据特征提取基于内容的相似检索基于内容的相似检索视频数据流的编辑与组织视频数据流的编辑与组织
21、4.Web数据:数据:Web数据挖掘的特点:数据挖掘的特点:异构数据集成和挖掘异构数据集成和挖掘Web上每个站点都是一个数据源,且是异构的,形成巨大上每个站点都是一个数据源,且是异构的,形成巨大的异构数据库环境。首先将其集成,形成统一的视图,才的异构数据库环境。首先将其集成,形成统一的视图,才能进行挖掘;能进行挖掘;半结构化数据模型抽取半结构化数据模型抽取Web上的数据非常复杂,虽然每个站点上的数据是结构化上的数据非常复杂,虽然每个站点上的数据是结构化的,但各自的设计对整个网络而言是非完全结构化的,称的,但各自的设计对整个网络而言是非完全结构化的,称半结构化数据。对此,需要找一种半结构化模型抽
22、取技术半结构化数据。对此,需要找一种半结构化模型抽取技术来自动抽取各站点的数据。来自动抽取各站点的数据。XML就是一种半结构化的数据就是一种半结构化的数据模型。模型。关联规则挖掘关联规则挖掘序列模式挖掘序列模式挖掘聚类数据挖掘聚类数据挖掘分类数据挖掘分类数据挖掘偏差分析挖掘(异常和趋势发现)偏差分析挖掘(异常和趋势发现)预测模型挖掘预测模型挖掘 数据挖掘的分类数据挖掘的分类数据库挖掘数据库挖掘文本数据挖掘文本数据挖掘多媒体数据挖掘多媒体数据挖掘webweb数据挖掘数据挖掘关系数据库挖掘关系数据库挖掘面向对象数据库挖掘面向对象数据库挖掘空间数据库挖掘空间数据库挖掘时态数据库挖掘时态数据库挖掘异质
23、数据库挖掘异质数据库挖掘遗产数据库挖掘遗产数据库挖掘归纳学习方法(基于信息论和基于集合论)归纳学习方法(基于信息论和基于集合论)仿生物技术仿生物技术统计分析方法统计分析方法粗糙集(粗糙集(Rough Set)或模糊集方法)或模糊集方法机器学习方法机器学习方法近似推理和不确定性推理方法近似推理和不确定性推理方法基于证据理论和元模式的方法基于证据理论和元模式的方法现代数学分析方法现代数学分析方法集成方法等集成方法等u神经网络(神经网络(Neural Network)方法)方法u遗传算法(遗传算法(Genetic Algorithm)方法)方法挖掘广义型知识挖掘广义型知识挖掘差异型知识挖掘差异型知识
24、挖掘关联型知识挖掘关联型知识挖掘预测型知识挖掘预测型知识挖掘偏离型(异常)知识挖掘偏离型(异常)知识挖掘不确定性知识等挖掘不确定性知识等 数据挖掘的目的是发现知识,数据挖掘各种方数据挖掘的目的是发现知识,数据挖掘各种方法获得知识的表示形式主要有法获得知识的表示形式主要有6种:种:规则规则 决策树决策树 知识基(浓缩数据)知识基(浓缩数据)网络权值网络权值 公式公式 案例案例 数据挖掘的知识表示数据挖掘的知识表示1.规则规则 规则知识由规则知识由前提条件前提条件和和结论结论两两部分组成。部分组成。由字段项(属性)取值的和取由字段项(属性)取值的和取(与)和析取(与)和析取(或)组合而成或)组合而
25、成由决策字段项(属性)取值或者类由决策字段项(属性)取值或者类别项组成别项组成身高身高头发头发眼睛眼睛第第一一类类人人矮矮金色金色蓝色蓝色高高红色红色蓝色蓝色高高金色金色蓝色蓝色矮矮金色金色灰色灰色第第二二类类人人高高金色金色黑色黑色矮矮黑色黑色蓝色蓝色高高黑色黑色蓝色蓝色高高黑色黑色灰色灰色矮矮金色金色黑色黑色举例:两类人群举例:两类人群9个元组个元组利用数据挖掘方法,可得到如下规则知识:利用数据挖掘方法,可得到如下规则知识:IF(头发(头发=金色金色 红色)(眼睛红色)(眼睛=蓝色蓝色 灰色)灰色)THEN 第一类人第一类人IF(头发(头发=黑色)(眼睛黑色)(眼睛=黑色)黑色)THEN
展开阅读全文