书签 分享 收藏 举报 版权申诉 / 85
上传文档赚钱

类型第1章绪论(new)-数据挖掘课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:5170824
  • 上传时间:2023-02-15
  • 格式:PPT
  • 页数:85
  • 大小:401.50KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第1章绪论(new)-数据挖掘课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    绪论 new 数据 挖掘 课件
    资源描述:

    1、陈俊杰陈俊杰太原理工大学计算机与软件学院太原理工大学计算机与软件学院数据挖掘技术的产生与发展数据挖掘技术的产生与发展 数据挖掘的概念数据挖掘的概念 数据挖掘的数据挖掘的任务任务数据挖掘的对象数据挖掘的对象数据挖掘的数据挖掘的分类分类数据挖掘的知识表示数据挖掘的知识表示数据挖掘的方法和技术数据挖掘的方法和技术不同数据存储形式下的数据挖掘问题不同数据存储形式下的数据挖掘问题粗糙集方法及其在数据挖掘中的应用粗糙集方法及其在数据挖掘中的应用数据挖掘技术应用分析数据挖掘技术应用分析第一章第一章第一章第一章第一章第一章 绪论绪论绪论绪论绪论绪论 随着信息技术的高速发展,数据库应用的规模、范随着信息技术的高

    2、速发展,数据库应用的规模、范围和深度不断扩大,网络环境成为主流等。人们已围和深度不断扩大,网络环境成为主流等。人们已经习惯面队这样一个事实经习惯面队这样一个事实,超量数据充斥着我们的超量数据充斥着我们的计算机、网络和生活。事实上这些数据中只有一小计算机、网络和生活。事实上这些数据中只有一小部分被利用,产生了部分被利用,产生了“数据丰富而知识贫乏(数据丰富而知识贫乏(Data Rich&Knowledge Poor)”现象。现象。在强大的需求的驱动下,我们开始思考如何从大容在强大的需求的驱动下,我们开始思考如何从大容量数据集中获取有用信息和知识的方法,希望能够量数据集中获取有用信息和知识的方法,

    3、希望能够提供更高层次的数据处理功能。新需求推动新技术提供更高层次的数据处理功能。新需求推动新技术的诞生。数据挖掘技术应用而生。的诞生。数据挖掘技术应用而生。运用基于计算机的方法,从而在数据中获得有用的运用基于计算机的方法,从而在数据中获得有用的知识的整个过程,就叫做数据挖掘。知识的整个过程,就叫做数据挖掘。datainformationknowledge数据(数据(Data)、信息()、信息(Information)和知识)和知识(Knowledge)是广义数据表现的不同形式。)是广义数据表现的不同形式。数据挖掘是在相关学科充分发展的基础上被提出数据挖掘是在相关学科充分发展的基础上被提出和发展

    4、的。和发展的。主要的相关技术:主要的相关技术:数据库等信息技术的发展数据库等信息技术的发展 统计学深入应用统计学深入应用 人工智能技术的研究和应用人工智能技术的研究和应用 Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceAI/MachineLearningVisualization 60年代:简单文件处理系统向数据库系统变革年代:简单文件处理系统向数据库系统变革。70年代:层次、网络和关系型数据库普及。年代:层次、网络和关系型数据库普及。80年代:年代:RDBS及其相关工具、数据索引及数据组织技

    5、术及其相关工具、数据索引及数据组织技术被广泛采用;中期开始,分布式数据库广泛讨论,关系数被广泛采用;中期开始,分布式数据库广泛讨论,关系数据库技术和新型技术的结合。据库技术和新型技术的结合。90年代:数据库领域中的新内容、新应用、新技术层出不年代:数据库领域中的新内容、新应用、新技术层出不穷,形成了庞大的数据库家族;人们期望分析预测、决策穷,形成了庞大的数据库家族;人们期望分析预测、决策支持等高级应用,支持等高级应用,Data mining 和和 data warehousing等出等出现。现。本世纪开始:本世纪开始:Data mining 得到理论以及技术深化。得到理论以及技术深化。强大有效

    6、的数理统计方法和工具,已成为信息咨强大有效的数理统计方法和工具,已成为信息咨询业的基础。询业的基础。统计分析技术是基于严格的数学理论和高超的应统计分析技术是基于严格的数学理论和高超的应用技巧的。用技巧的。数据挖掘技术是数理统计分析应用的延伸和发展。数据挖掘技术是数理统计分析应用的延伸和发展。和数据库技术的结合性研究。和数据库技术的结合性研究。人工智能是计算机科学研究中争议最多而又仍始终保持强人工智能是计算机科学研究中争议最多而又仍始终保持强大生命的研究领域。大生命的研究领域。专家系统曾经是人工智能研究工作者的骄傲,但是诸多难专家系统曾经是人工智能研究工作者的骄傲,但是诸多难题限制了专家系统的应

    7、用:题限制了专家系统的应用:知识获取成为专家系统研究中公认的瓶颈问题。知识获取成为专家系统研究中公认的瓶颈问题。知识表示成为一大难题。知识表示成为一大难题。对常识和百科知识出奇地贫乏。对常识和百科知识出奇地贫乏。数据挖掘继承了专家系统的高度实用性特点,并且以数据数据挖掘继承了专家系统的高度实用性特点,并且以数据为基本出发点,客观地挖掘知识。为基本出发点,客观地挖掘知识。机器学习得到了充分的研究和发展:理论和算法。机器学习得到了充分的研究和发展:理论和算法。数据挖掘研究在继承已有的人工智能相关领域,特别是机数据挖掘研究在继承已有的人工智能相关领域,特别是机器学习的研究成果的基础上,成为新的研究分

    8、支。器学习的研究成果的基础上,成为新的研究分支。数据挖掘本质上是一种新的信息处理技术:数据挖掘本质上是一种新的信息处理技术:数据挖掘技术将对数据的应用,从低层次的联数据挖掘技术将对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更机查询操作,提高到决策支持、分析预测等更高级应用上。高级应用上。通过对数据的统计、分析、综合和推理,发现通过对数据的统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括数据间的关联性、未来趋势以及一般性的概括知识等,这些知识性的信息可以用来指导高级知识等,这些知识性的信息可以用来指导高级商务活动。商务活动。从决策、分析和预测等目的看,原始

    9、数据只是未从决策、分析和预测等目的看,原始数据只是未被开采的矿山,需要挖掘和提炼才能获得有用的被开采的矿山,需要挖掘和提炼才能获得有用的规律性知识。规律性知识。数据挖掘的概念数据挖掘的概念 数据库中的知识发现(数据库中的知识发现(KDD:Knowledge Discovery in Databases)是比数据挖掘出现更早的一个名词。)是比数据挖掘出现更早的一个名词。KDD与与Data Mining的关系,有不同的看法:的关系,有不同的看法:KDD看成数据挖掘的一个特例:这是早期比较流行的观点,看成数据挖掘的一个特例:这是早期比较流行的观点,这种描述强调了数据挖掘在源数据形式上的多样性。这种描

    10、述强调了数据挖掘在源数据形式上的多样性。数据挖掘是数据挖掘是KDD的一个关键步骤:这种观点得到大多数学的一个关键步骤:这种观点得到大多数学者认同,有它的合理性。者认同,有它的合理性。KDD与与Data Mining含义相同:事实上,在现今的许多场含义相同:事实上,在现今的许多场合,如技术综述等,这两个术语仍然不加区分地使用着。合,如技术综述等,这两个术语仍然不加区分地使用着。也有其他的说法:也有其他的说法:KDD在人工智能界更流行,在人工智能界更流行,Data Mining在数据库界使在数据库界使用更多。用更多。研究领域被称作研究领域被称作KDD,工程领域则称之为数据挖掘。,工程领域则称之为数

    11、据挖掘。数据挖掘定义有广义和狭义之分。数据挖掘定义有广义和狭义之分。从广义的观点,数据挖掘是从大型数据集(可从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。先不知道的、对决策有用的知识的过程。从这种狭义的观点上,我们可以定义数据挖掘从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。是从特定形式的数据集中提炼知识的过程。数据挖掘方法可以是基于数学理论的,也可以是非数学的;数据挖掘方法

    12、可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以是归纳的。可以是演绎的,也可以是归纳的。研究者可能是来自于数据库、人工智能、数理统计、计算研究者可能是来自于数据库、人工智能、数理统计、计算机科学以及其他方面的学者和工程技术人员,他们会从不机科学以及其他方面的学者和工程技术人员,他们会从不同的视点进行探讨性研究。同的视点进行探讨性研究。有下面一些重要的理论视点值得关注:有下面一些重要的理论视点值得关注:模式发现(模式发现(Pattern Discovery)架构)架构 规则发现(规则发现(Rule Discovery)架构)架构 基于概率和统计理论基于概率和统计理论 微观经济学观点(

    13、微观经济学观点(Microeconomic View)基于数据压缩(基于数据压缩(Data Compression)理论)理论 基于归纳数据库(基于归纳数据库(Inductive Database)理论)理论 可视化数据挖掘(可视化数据挖掘(Visual Data Mining)等等)等等 关联规则关联规则 时间序列模式时间序列模式 聚类聚类 分类分类 偏差检测偏差检测 预测预测 数据挖掘的任务数据挖掘的任务关联规则:关联规则:数据集中的数据项的取值之间重复出现且概率很数据集中的数据项的取值之间重复出现且概率很高,则表明它们存在某种关联,可以建立它们的关联高,则表明它们存在某种关联,可以建立它

    14、们的关联规则。规则。如买面包的顾客有如买面包的顾客有90%还买了牛奶。即是一条规则。还买了牛奶。即是一条规则。在大型数据集中这种关联规则很多,需要筛选,在大型数据集中这种关联规则很多,需要筛选,一般用一般用“支持度支持度”和和“可信度可信度”两个阈值来淘汰无用两个阈值来淘汰无用的关联规则。的关联规则。支持度:支持度:该规则所代表的事例占全部事例的百分比。该规则所代表的事例占全部事例的百分比。如买面包又牛奶的顾客占全部顾客的百分比如买面包又牛奶的顾客占全部顾客的百分比可信度:可信度:该规则所代表的事例占满足前提条件事例的该规则所代表的事例占满足前提条件事例的百分比。如买面包又牛奶的顾客占买面包顾

    15、客的百分百分比。如买面包又牛奶的顾客占买面包顾客的百分比。比。时间序列模式:时间序列模式:通过时间序列找出重复发生概率较高的模通过时间序列找出重复发生概率较高的模式。强调时间序列的影响。如买激光打印机式。强调时间序列的影响。如买激光打印机的人中,半年后有的人中,半年后有80%再购买新硒鼓。再购买新硒鼓。在时间序列模式中,需要找出在某个最小在时间序列模式中,需要找出在某个最小时间内出现比率一直高于某一百分比(阈值)时间内出现比率一直高于某一百分比(阈值)的规则。的规则。聚类:聚类:数据集中的数据可以划分成一系列有意义数据集中的数据可以划分成一系列有意义的子集,即类。在同一类中,数据间的的子集,即

    16、类。在同一类中,数据间的“距离距离”较小,而不同类中,数据间的距离偏大。通过较小,而不同类中,数据间的距离偏大。通过聚类可建立宏观概念,如鸡、鸭、鹅等归为家聚类可建立宏观概念,如鸡、鸭、鹅等归为家禽类。禽类。聚类方法包括:统计分析方法、机器学习聚类方法包括:统计分析方法、机器学习方法、神经网络方法等。方法、神经网络方法等。分类:分类:找出一个类别的概念描述,它代表这个类别的整找出一个类别的概念描述,它代表这个类别的整体信息,即类的内涵描述,一般用规则和决策树模体信息,即类的内涵描述,一般用规则和决策树模式表示。该模式可将数据集的数据映射到给定类别式表示。该模式可将数据集的数据映射到给定类别中的

    17、某一个类别中。中的某一个类别中。类的内涵描述分为:特征性描述和辨别性描述。类的内涵描述分为:特征性描述和辨别性描述。分类可利用训练样本集,通过相关算法求得。分类可利用训练样本集,通过相关算法求得。建立决策树的方法包括:建立决策树的方法包括:ID3、C4.5、IBLE等法、等法、机器学习方法、神经网络方法等。机器学习方法、神经网络方法等。偏差检测:偏差检测:数据集中的数据存在很多异常情况,从数据数据集中的数据存在很多异常情况,从数据分析中发现这些异常情况也很重要,以引起人们对分析中发现这些异常情况也很重要,以引起人们对它的注意。如离群数据挖掘。它的注意。如离群数据挖掘。偏差包括很多有用的知识,如

    18、下面几类:偏差包括很多有用的知识,如下面几类:分类中的反常实例;分类中的反常实例;模式的例外模式的例外 观察结果对模型预测的偏差;观察结果对模型预测的偏差;量值随时间的变化。量值随时间的变化。预测:预测:预测是利用历史数据找出变化规律,建立模预测是利用历史数据找出变化规律,建立模型,并以此模型预测未来数据的种类、特征等。型,并以此模型预测未来数据的种类、特征等。典型的方法是回归分析:利用大量的历史数据,典型的方法是回归分析:利用大量的历史数据,以时间为变量,建立线性或非线性回归方程。预测以时间为变量,建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可得时,只要输入任意的时

    19、间值,通过回归方程就可得到该时间的状态。到该时间的状态。近年来,还有神经网络的方法。近年来,还有神经网络的方法。结构化数据:主要是关系数据库结构化数据:主要是关系数据库半结构化和非结构化数据半结构化和非结构化数据 数据挖掘的对象数据挖掘的对象文本数据文本数据图像和视频数据图像和视频数据WebWeb数据数据1.关系数据库:关系数据库:数据挖掘方法主要是研究数据库中的属性之间数据挖掘方法主要是研究数据库中的属性之间的关系,挖掘出多个属性取值之间的规则。的关系,挖掘出多个属性取值之间的规则。数据库的特点:数据库的特点:数据动态性数据动态性数据不完整性数据不完整性数据噪声(由于数据录入等原因造成错误的

    20、数据)数据噪声(由于数据录入等原因造成错误的数据)数据冗余性数据冗余性数据稀疏性数据稀疏性海量数据海量数据2.文本:文本:以字符串形式表示的数据,文本分析包括:以字符串形式表示的数据,文本分析包括:关键字或特征提取关键字或特征提取相似检索相似检索文本聚类文本聚类文本分类文本分类3.图像和视频数据:图像和视频数据:典型的多媒体数据,数据以点阵或帧形式存储,典型的多媒体数据,数据以点阵或帧形式存储,数据量很大。图像和视频的数据挖掘包括:数据量很大。图像和视频的数据挖掘包括:图像和视频数据特征提取图像和视频数据特征提取基于内容的相似检索基于内容的相似检索视频数据流的编辑与组织视频数据流的编辑与组织

    21、4.Web数据:数据:Web数据挖掘的特点:数据挖掘的特点:异构数据集成和挖掘异构数据集成和挖掘Web上每个站点都是一个数据源,且是异构的,形成巨大上每个站点都是一个数据源,且是异构的,形成巨大的异构数据库环境。首先将其集成,形成统一的视图,才的异构数据库环境。首先将其集成,形成统一的视图,才能进行挖掘;能进行挖掘;半结构化数据模型抽取半结构化数据模型抽取Web上的数据非常复杂,虽然每个站点上的数据是结构化上的数据非常复杂,虽然每个站点上的数据是结构化的,但各自的设计对整个网络而言是非完全结构化的,称的,但各自的设计对整个网络而言是非完全结构化的,称半结构化数据。对此,需要找一种半结构化模型抽

    22、取技术半结构化数据。对此,需要找一种半结构化模型抽取技术来自动抽取各站点的数据。来自动抽取各站点的数据。XML就是一种半结构化的数据就是一种半结构化的数据模型。模型。关联规则挖掘关联规则挖掘序列模式挖掘序列模式挖掘聚类数据挖掘聚类数据挖掘分类数据挖掘分类数据挖掘偏差分析挖掘(异常和趋势发现)偏差分析挖掘(异常和趋势发现)预测模型挖掘预测模型挖掘 数据挖掘的分类数据挖掘的分类数据库挖掘数据库挖掘文本数据挖掘文本数据挖掘多媒体数据挖掘多媒体数据挖掘webweb数据挖掘数据挖掘关系数据库挖掘关系数据库挖掘面向对象数据库挖掘面向对象数据库挖掘空间数据库挖掘空间数据库挖掘时态数据库挖掘时态数据库挖掘异质

    23、数据库挖掘异质数据库挖掘遗产数据库挖掘遗产数据库挖掘归纳学习方法(基于信息论和基于集合论)归纳学习方法(基于信息论和基于集合论)仿生物技术仿生物技术统计分析方法统计分析方法粗糙集(粗糙集(Rough Set)或模糊集方法)或模糊集方法机器学习方法机器学习方法近似推理和不确定性推理方法近似推理和不确定性推理方法基于证据理论和元模式的方法基于证据理论和元模式的方法现代数学分析方法现代数学分析方法集成方法等集成方法等u神经网络(神经网络(Neural Network)方法)方法u遗传算法(遗传算法(Genetic Algorithm)方法)方法挖掘广义型知识挖掘广义型知识挖掘差异型知识挖掘差异型知识

    24、挖掘关联型知识挖掘关联型知识挖掘预测型知识挖掘预测型知识挖掘偏离型(异常)知识挖掘偏离型(异常)知识挖掘不确定性知识等挖掘不确定性知识等 数据挖掘的目的是发现知识,数据挖掘各种方数据挖掘的目的是发现知识,数据挖掘各种方法获得知识的表示形式主要有法获得知识的表示形式主要有6种:种:规则规则 决策树决策树 知识基(浓缩数据)知识基(浓缩数据)网络权值网络权值 公式公式 案例案例 数据挖掘的知识表示数据挖掘的知识表示1.规则规则 规则知识由规则知识由前提条件前提条件和和结论结论两两部分组成。部分组成。由字段项(属性)取值的和取由字段项(属性)取值的和取(与)和析取(与)和析取(或)组合而成或)组合而

    25、成由决策字段项(属性)取值或者类由决策字段项(属性)取值或者类别项组成别项组成身高身高头发头发眼睛眼睛第第一一类类人人矮矮金色金色蓝色蓝色高高红色红色蓝色蓝色高高金色金色蓝色蓝色矮矮金色金色灰色灰色第第二二类类人人高高金色金色黑色黑色矮矮黑色黑色蓝色蓝色高高黑色黑色蓝色蓝色高高黑色黑色灰色灰色矮矮金色金色黑色黑色举例:两类人群举例:两类人群9个元组个元组利用数据挖掘方法,可得到如下规则知识:利用数据挖掘方法,可得到如下规则知识:IF(头发(头发=金色金色 红色)(眼睛红色)(眼睛=蓝色蓝色 灰色)灰色)THEN 第一类人第一类人IF(头发(头发=黑色)(眼睛黑色)(眼睛=黑色)黑色)THEN

    26、第二类人第二类人2.决策树决策树 由信息量最大的由信息量最大的属性值作为根结点,属性值作为根结点,其各取值为分枝,对其各取值为分枝,对各分枝所划分的数据各分枝所划分的数据元组子集,重复建树元组子集,重复建树过程,扩展决策树,过程,扩展决策树,最后得到相同类别的最后得到相同类别的子集,以该类别作为子集,以该类别作为叶结点。叶结点。金色金色头发头发眼睛眼睛蓝色蓝色灰色灰色红色红色第一类人第一类人第二类人第二类人黑色黑色第一类人第一类人第一类人第一类人第二类人第二类人黑色黑色金色金色头发头发眼睛眼睛蓝色蓝色灰色灰色红色红色第一类人第一类人第二类人第二类人黑色黑色第一类人第一类人第一类人第一类人第二类

    27、人第二类人黑色黑色头发头发金色金色第二类人第二类人黑色黑色 3.知识基(浓缩数据)知识基(浓缩数据)数据挖掘方法能计算数据挖掘方法能计算 属性的重要程度属性的重要程度,对不重要的属对不重要的属性字段进行删除性字段进行删除,对元组能按一定的原则进行合并。这样可对元组能按一定的原则进行合并。这样可大大压缩元组和属性的数目,得到浓缩数据,称为数据基。大大压缩元组和属性的数目,得到浓缩数据,称为数据基。它是数据的精华,很容易转化为规则知识。它是数据的精华,很容易转化为规则知识。头发头发眼睛眼睛第一类人第一类人金色金色蓝色蓝色红色红色蓝色蓝色黑色黑色灰色灰色第二类人第二类人金色金色黑色黑色黑色黑色蓝色蓝

    28、色黑色黑色灰色灰色4.网络权值网络权值 神经网络方法经对训练样本集的学神经网络方法经对训练样本集的学习后,所得到的知识是神经网络连接权习后,所得到的知识是神经网络连接权值和结点的阈值。值和结点的阈值。5.公式公式 科学和工程数据库中存储着大量的实验数据,蕴科学和工程数据库中存储着大量的实验数据,蕴涵着一定的规律性,通过知识发现算法,可以找出变涵着一定的规律性,通过知识发现算法,可以找出变量间的关系,用公式表示。如,太阳系行星运动数据量间的关系,用公式表示。如,太阳系行星运动数据中包含行星运动周期和行星与太阳的距离,见下表。中包含行星运动周期和行星与太阳的距离,见下表。水星水星金星金星地球地球火

    29、星火星木星木星土星土星周期(天)周期(天)p882253656874343.510767.5距离(百万公里)距离(百万公里)d581081492287781430 通过物理定律发现系统通过物理定律发现系统BACON和公式发现系统和公式发现系统FDD均可得到开普勒第三定律:均可得到开普勒第三定律:d3/p3=256.案例案例 案例是指人们经历过的一次完整事件。可以利用以前案例中案例是指人们经历过的一次完整事件。可以利用以前案例中解决问题的方法或处理结果,作为参考或适当修改,以解决当前解决问题的方法或处理结果,作为参考或适当修改,以解决当前新的问题。可见,案例是解决新问题的一种知识。如,新的问题。

    30、可见,案例是解决新问题的一种知识。如,基于案例基于案例的推理的推理,首先建立一个案例库,存储大量成功或失败的案例。推,首先建立一个案例库,存储大量成功或失败的案例。推理时利用相似检索技术,针对新闻体,到案例库中去搜索相似案理时利用相似检索技术,针对新闻体,到案例库中去搜索相似案例,再经过对旧案例的修改来解决新问题。例,再经过对旧案例的修改来解决新问题。案例知识一般表示为三元组:案例知识一般表示为三元组:问题描述:对求解的问题及周围世界或环境所有特征的描述;问题描述:对求解的问题及周围世界或环境所有特征的描述;解描述:对问题求解方案的描述;解描述:对问题求解方案的描述;效果描述:描述解决方案结果

    31、的情况,是成功还是失败。效果描述:描述解决方案结果的情况,是成功还是失败。n 广义知识挖掘n 关联知识挖掘n 类知识挖掘n 预测型知识挖掘n 特异型知识挖掘 数据挖掘的方法和技术数据挖掘的方法和技术广义知识是指描述类别特征的概括性知识。广义知识是指描述类别特征的概括性知识。数据集中存放的一般是细节性的数据,而我们希望从数据集中存放的一般是细节性的数据,而我们希望从较高层次的视图上处理或观察这些数据。数据挖掘的较高层次的视图上处理或观察这些数据。数据挖掘的目的就是根据这些数据的微观特征发现具有普遍性的、目的就是根据这些数据的微观特征发现具有普遍性的、更高层次概念的中观或宏观的知识。这类数据挖掘系

    32、更高层次概念的中观或宏观的知识。这类数据挖掘系统是对细节数据所蕴涵的概念特征信息、汇总信息和统是对细节数据所蕴涵的概念特征信息、汇总信息和比较信息等的概括和抽象的过程。比较信息等的概括和抽象的过程。被挖掘出的广义知识可以结合可视化技术以直观的图被挖掘出的广义知识可以结合可视化技术以直观的图表形式展示,也可作为分类、预测的基础知识。表形式展示,也可作为分类、预测的基础知识。主要方法和技术有:主要方法和技术有:概念描述(概念描述(Concept Description)方法)方法 多维数据分析多维数据分析 多层次概念描述问题多层次概念描述问题概念描述(概念描述(Concept Descriptio

    33、n)方法:)方法:概念描述本质上就是对某类对象的内涵特征进行概括。概念描述本质上就是对某类对象的内涵特征进行概括。分为:分为:概念描述是广义知识挖掘的重要方法。概念描述是广义知识挖掘的重要方法。概念归概念归纳纳是最具代表性的方法。这种方法来源于机器学习。是最具代表性的方法。这种方法来源于机器学习。l 特征性(特征性(Characterization)描述:描述某类对象的共同特征)描述:描述某类对象的共同特征l 区别性(区别性(Discrimination)描述:描述不同类对象之间的区别)描述:描述不同类对象之间的区别多维数据分析多维数据分析 多维数据分析是一种广义知识挖掘的有效方法。多维数据分

    34、析是一种广义知识挖掘的有效方法。数据分析的经常性工作是数据的聚集,如计数、求数据分析的经常性工作是数据的聚集,如计数、求和、求平均、求最大值等。可将这些汇总的操作结和、求平均、求最大值等。可将这些汇总的操作结果预先计算并存储起来,以便于高级分析使用。最果预先计算并存储起来,以便于高级分析使用。最流行的存储汇集数据类的方法是流行的存储汇集数据类的方法是多维数据库技术多维数据库技术,它可提供不同抽象层次上的数据视图。如,周数据、它可提供不同抽象层次上的数据视图。如,周数据、月数据、年数据等。月数据、年数据等。多层次概念描述问题多层次概念描述问题 由数据归纳出的概念是有层次的,不同层次的概念是对由数

    35、据归纳出的概念是有层次的,不同层次的概念是对原始数据的不同粒度上的概念抽象。例如,原始数据的不同粒度上的概念抽象。例如,“北京工业大学北京工业大学”能归纳出能归纳出“北京市北京市”、“中国中国”、“亚洲亚洲”等层次。等层次。一个记录销售人员销售情况的销售表一个记录销售人员销售情况的销售表SALES(ENO,ENAME,EAGE,VALUE,DEPT),),它的每个属性的定义域都可能存在蕴涵于领域知识它的每个属性的定义域都可能存在蕴涵于领域知识内的概念延伸。例如,内的概念延伸。例如,DEPT能归纳出公司能归纳出公司COMPANY、城市、城市CITY或国家或国家COUNTRY等层次等层次概念分层(

    36、概念分层(Concept Hierarchy)技术:)技术:将低层概将低层概念集映射到高层概念集的方法,是一个常用的处理念集映射到高层概念集的方法,是一个常用的处理多层次概念描述的方法多层次概念描述的方法。主要的概念分层方法有:主要的概念分层方法有:l 模式分层模式分层(Schema Hierarchy):利用属性在特):利用属性在特定背景知识下的语义层次形成不同层次的模式关定背景知识下的语义层次形成不同层次的模式关联。联。这种关联是一种的全序或偏序关系。这种关联是一种的全序或偏序关系。例如,跨国公司的部门例如,跨国公司的部门DEPT的模式分层结构的模式分层结构可能是:可能是:DEPTCOMP

    37、ANYCITYCOUNTRY。这种结构定义了一个属性由低层概念向高层概这种结构定义了一个属性由低层概念向高层概念的转化路径念的转化路径,为从源数据集中挖掘广义知识提为从源数据集中挖掘广义知识提供领域知识支撑供领域知识支撑.l 集合分组分层集合分组分层(Set-Grouping Hierarchy):将属):将属性在特定背景知识下的取值范围合理分割,形成性在特定背景知识下的取值范围合理分割,形成替代的离散值或区间集合。替代的离散值或区间集合。例如,销售人员年龄例如,销售人员年龄EAGE可以抽象成可以抽象成20,29,30,39,40,49,50,59或者或者青年,青年,中年,老年中年,老年。VA

    38、LUE可以抽象成可以抽象成0,1000),1000,2000),2000,3000),3000,4000),4000,5000)或者或者低低,中中,高高。操作导出分层操作导出分层(Operation-Drived Hierarchy):):有些属性可能包含多类信息。有些属性可能包含多类信息。例如,一个跨国公司的雇员号可能包含这个雇例如,一个跨国公司的雇员号可能包含这个雇员的所在的部门、城市、国家和雇佣的时间等。员的所在的部门、城市、国家和雇佣的时间等。对这类对象可以作为背景知识定义它的结构,对这类对象可以作为背景知识定义它的结构,在数据挖掘的过程中可以根据具体的抽象层次在数据挖掘的过程中可以根

    39、据具体的抽象层次通过编码解析等操作完成概念的抽象。通过编码解析等操作完成概念的抽象。基于规则分层基于规则分层(Rule-Based Hierarchy):通过):通过定义背景知识的抽象规则,形成不同层次上的概定义背景知识的抽象规则,形成不同层次上的概念的抽象。念的抽象。关联知识挖掘的目的就是找出数据库中隐藏的关关联知识挖掘的目的就是找出数据库中隐藏的关联信息。联信息。关联知识反映一个事件和其他事件之间的依赖关联知识反映一个事件和其他事件之间的依赖或关联。或关联。关联可分为关联可分为简单关联简单关联、时序关联时序关联、因果关联因果关联、数量关联数量关联等。等。从广义上讲,关联分析是数据挖掘的本质

    40、。既然从广义上讲,关联分析是数据挖掘的本质。既然数据挖掘的目的是发现潜藏在数据背后的知识数据挖掘的目的是发现潜藏在数据背后的知识,那那么这种知识一定是反映不同对象之间的关联。前么这种知识一定是反映不同对象之间的关联。前面的广义知识挖掘实际上挖掘数据与不同概念层面的广义知识挖掘实际上挖掘数据与不同概念层次之间的关联。而这里的关联知识挖掘则针对数次之间的关联。而这里的关联知识挖掘则针对数据集中对象之间的关联及程度刻画。据集中对象之间的关联及程度刻画。关联规则挖掘(关联规则挖掘(Association Rule Mining)是关联)是关联知识发现的最常用方法。是数据挖掘研究中比较知识发现的最常用方

    41、法。是数据挖掘研究中比较深入的分支,其理论和算法已经被提出。深入的分支,其理论和算法已经被提出。最著名的是最著名的是Apriori算法及其改进算法。算法及其改进算法。关联规则挖掘的目的就是从数据集中挖掘出满关联规则挖掘的目的就是从数据集中挖掘出满足最小支持度和最小可信度的关联规则。足最小支持度和最小可信度的关联规则。类知识类知识(Class)刻画了一类事物,这类事物具有某)刻画了一类事物,这类事物具有某种意义上的共同特征,并明显和不同类事物相区别。种意义上的共同特征,并明显和不同类事物相区别。有两个基本的方法来挖掘类知识:聚类和分类。有两个基本的方法来挖掘类知识:聚类和分类。分类:分类:分类是

    42、数据挖掘中的一个重要的目标和任务,是目分类是数据挖掘中的一个重要的目标和任务,是目前研究和应用最多的分支之一。前研究和应用最多的分支之一。分类的目的是学会一个分类模型(称作分类器),该分类的目的是学会一个分类模型(称作分类器),该模型能把数据库中的数据项映射到给定类别中。模型能把数据库中的数据项映射到给定类别中。从机器学习的观点,分类技术是一种有指导的学习,从机器学习的观点,分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标识,通过学习即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。可以形成表达数据对象与类标识间对应的知识。分类数据挖掘的目的

    43、就是根据样本数据形成类知分类数据挖掘的目的就是根据样本数据形成类知识并对源数据进行分类,进而也可以预测未来数据的识并对源数据进行分类,进而也可以预测未来数据的归类。归类。具有代表性的分类知识挖掘技术有:具有代表性的分类知识挖掘技术有:l决策树方法决策树方法最典型是最典型是ID3算法,之后的改进算法有算法,之后的改进算法有ID4、ID5、C4.5、C5.0等,对大样本集很难适应。等,对大样本集很难适应。Agrawal提出的提出的SLIQ、SPRINT算法则强调了算法则强调了对大样本集适应性。对大样本集适应性。还有一些研究针对决策树裁减、决策树中规还有一些研究针对决策树裁减、决策树中规则的提取,规

    44、则的可视化等则的提取,规则的可视化等l贝叶斯分类贝叶斯分类贝叶斯分类源自概率统计学,并在机器学习中得到很好的贝叶斯分类源自概率统计学,并在机器学习中得到很好的研究。研究。最典型是朴素贝叶斯分类最典型是朴素贝叶斯分类具有坚实的理论基础,理论上具有较小的出错率,但适应具有坚实的理论基础,理论上具有较小的出错率,但适应性差。性差。l神经网络神经网络神经网络基于自学习数学模型,通过数据的编码及神经元神经网络基于自学习数学模型,通过数据的编码及神经元的迭代求解,完成复杂的模型抽取及趋势分析功能。的迭代求解,完成复杂的模型抽取及趋势分析功能。作为相对独立的研究分支已经很早被提出,具有高度的抗作为相对独立的

    45、研究分支已经很早被提出,具有高度的抗干扰能力和可以对未训练数据进行分类等优点,。干扰能力和可以对未训练数据进行分类等优点,。因此产生了神经网络和数据挖掘技术的结合性研究,因此产生了神经网络和数据挖掘技术的结合性研究,可在可在数据挖掘中使用神经网络技术,已提出了一些算法数据挖掘中使用神经网络技术,已提出了一些算法l遗传算法与进化理论遗传算法与进化理论采用遗传结合、遗传交叉变异以及自然选择采用遗传结合、遗传交叉变异以及自然选择等操作实现规则的生成。等操作实现规则的生成。进化式程序设计方法,自动生成有关目标变进化式程序设计方法,自动生成有关目标变量对其他多种变量依赖关系的各种假设。量对其他多种变量依

    46、赖关系的各种假设。l类比学习类比学习最典型的类比学习方法是最典型的类比学习方法是k-最临近方法,可用最临近方法,可用语分类和聚类中,属于懒散学习法,与决策树语分类和聚类中,属于懒散学习法,与决策树等急切学习法相比,具有训练时间短而分类时等急切学习法相比,具有训练时间短而分类时间长的特点。间长的特点。基于案例学习方法基于案例学习方法l其他:非线性回归方法、粗糙集、模糊集方法等其他:非线性回归方法、粗糙集、模糊集方法等 聚类:聚类:数据挖掘的目标之一是进行聚类分析。数据挖掘的目标之一是进行聚类分析。聚类是把一组个体按照相似性归成若干类别,目的聚类是把一组个体按照相似性归成若干类别,目的是使得属于同

    47、一类别的个体之间的差别尽可能的小,是使得属于同一类别的个体之间的差别尽可能的小,而不同类别上的个体间的差别尽可能的大。而不同类别上的个体间的差别尽可能的大。聚类分析生成的类知识,刻画了数据所蕴涵的类知聚类分析生成的类知识,刻画了数据所蕴涵的类知识。识。聚类是以统计方法、机器学习、神经网络等方法为聚类是以统计方法、机器学习、神经网络等方法为基础的。基础的。作为统计学的一个分支,聚类分析得到广泛应用,聚作为统计学的一个分支,聚类分析得到广泛应用,聚类分析和回归分析、判别分析一起被成为三大多元数类分析和回归分析、判别分析一起被成为三大多元数据分析方法。据分析方法。比较有代表性的聚类技术是基于几何距离

    48、度量的聚类比较有代表性的聚类技术是基于几何距离度量的聚类方法,如欧氏距离、曼哈坦距离、明考斯基距离等。方法,如欧氏距离、曼哈坦距离、明考斯基距离等。在机器学习中,聚类属于无指导学习(在机器学习中,聚类属于无指导学习(Unsupervised Learning),当一组数据对象可以由一个概念(区,当一组数据对象可以由一个概念(区别于其他的概念)来描述时,就形成一个簇别于其他的概念)来描述时,就形成一个簇(Cluster)。)。l基于划分的聚类方法基于划分的聚类方法:k-平均算法是统计学中的一个经平均算法是统计学中的一个经典聚类方法,它以预先定义好的簇平均值,构造划分,典聚类方法,它以预先定义好的

    49、簇平均值,构造划分,评价和选择他们。评价和选择他们。l基于层次的聚类方法基于层次的聚类方法:通过对源数据库中的数据进行:通过对源数据库中的数据进行层次分解,达到目标簇的逐步生成。层次分解,达到目标簇的逐步生成。凝聚(凝聚(Agglomeration):由小到大逐步合并、评价。):由小到大逐步合并、评价。分裂(分裂(Division)由大到小逐步分裂、评价。)由大到小逐步分裂、评价。2000年,年,Han等人归纳了基于划分、层次、密度、网络等人归纳了基于划分、层次、密度、网络和模型五大类聚类方法:和模型五大类聚类方法:l基于密度的聚类方法基于密度的聚类方法:是通过度量区域所包含的对象数:是通过度

    50、量区域所包含的对象数目来形成最终目标的。如果一个区域的密度超过指定的目来形成最终目标的。如果一个区域的密度超过指定的值,那么它就需要进一步分解。值,那么它就需要进一步分解。l基于网格的聚类方法基于网格的聚类方法:是把对象空间离散化成有限的网:是把对象空间离散化成有限的网格单元,聚类工作在这种网格结构上进行。格单元,聚类工作在这种网格结构上进行。l基于模型的聚类方法基于模型的聚类方法:为每个簇假定一个模型,寻找数:为每个簇假定一个模型,寻找数据对给定模型的最佳拟和。目前主要研究集中在利用概据对给定模型的最佳拟和。目前主要研究集中在利用概率统计模型进行概念聚类和利用神经网络技术进行自组率统计模型进

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第1章绪论(new)-数据挖掘课件.ppt
    链接地址:https://www.163wenku.com/p-5170824.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库