第15章复杂对象数据挖掘课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第15章复杂对象数据挖掘课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 15 复杂 对象 数据 挖掘 课件
- 资源描述:
-
1、Slide no 1数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典 元昌安元昌安 主编主编 邓松李文敬刘海涛编著邓松李文敬刘海涛编著 电子工业出版社电子工业出版社Slide no 2 Slide no 315.1 15.1 空间数据库挖掘空间数据库挖掘 15.2 15.2 多媒体数据挖掘多媒体数据挖掘 15.3 15.3 文本挖掘文本挖掘15.4 15.4 挖掘万维网挖掘万维网15.5 15.5 挖掘数据流挖掘数据流15.6 15.6 时间序列数据挖掘时间序列数据挖掘 15.7 15.7 挖掘事务数据库中的序列模式挖掘事务数据库中的序列模式15.8 15.8 挖掘生
2、物学数据中的序列模式挖掘生物学数据中的序列模式Slide no 4 空间数据库挖掘(SDM)实质上是空间信息技术发展的必然结果,它是数据库挖掘(DM)的一个重要分支,面对的都是空间数据库(spatial database,SDB)。 空间实体之间又具有空间拓扑、空间距离、空间方位这3种关系 Slide no 5 空间数据是指与二维、三维或更高维空间的空间坐标及空间范围相关的数据 空间数据的复杂性特征有: 空间属性之间的非线性关系 空间数据的多尺度特征 空间信息的模糊性 空间维数的增高 空间数据的缺值Slide no 6 空间查询及其操作的主要特点有:空间操作相对复杂和不精确空间连接(Spati
3、al Join)问题相同的地理区域经常有不同的视图一个空间实体可用空间和非空间的属性来描述Slide no 7 很多基本空间查询是数据挖掘行为的基础,这些查询包括: 区域查询或范围查询:寻找那些与在查询中指定区域相交的实体。 最邻近查询:寻找与指定实体相邻的实体 距离扫描:寻找与指定的实体相距一段确定距离的实体,这个距离是逐渐增大的。 小提示:所有这些查询都可以用来辅助空间聚类或分类操作。 Slide no 8 空间关系计算 (1) 常用的两个空间实体之间的距离有: 最小值方法最小值方法:定义实体A和B的距离为A中的所有点与和B中的所有点之间的欧氏或曼哈顿距离中最小的,即 (15 -1)(,)
4、,(,)( , )min(,),(,)aabbaabbxyA xyBdis A Bdis xyxySlide no 9大值方法大值方法:定义实体A和B的距离为A中的所有点与和B中的所有点之间的欧氏或曼哈顿距离中最大的,即 (15-2)平均值方法平均值方法:定义实体A和B的距离为A中的所有点与和B中的所有点之间的欧氏或曼哈顿距离的平均值,即 (15-3)(,),(,)( , )max(,),(,)aabbaabbxyA xyBdis A Bdis xyxy(,),(,)( , )(,),(,)aabbaabbxyA xyBdis A Baveragedis xyxySlide no 10 中心方
5、法中心方法:定义实体A和B的距离为A中的中心点与和B中的中心点之间的欧氏或曼哈顿距离的平均值,即 (15-4) 其中最简单的方法就是取实体A的中心点和B的中心点,该中心点可以通过查找实体的几何中心来识别。 ( , )(,),(,)cacacbcbdis A Bdis xyxySlide no 11 (2) 两个空间实体之间存在若干拓扑关系。这些关系基于两个实体的位置:分离(Disjoint) :A与B分离,表示B中任何点都不在A中,反之亦然。重叠/相交: A与B重叠或相交表示至少有一个点既在A里也在B里。等价: A与B这两个实体的所有点都是共有的。Slide no 12l包含于: A包含于B,
6、表示A的所有点都在B里,反之不一定。l覆盖/包含: A覆盖或包含B,当且仅当B包含于A。 (3) 方位是描述两个点状实体位置关系的一种度量,如果要分析面状实体间的方位关系,则应把多边形转换为重心点或其它点状实体。 Slide no 13 空间场模型空间场模型空间场模型主要用于模拟在空间上连续分布的地理现象,属性取值既可以式连续的,也可以是离散的。空间场数据模型的优点是数据结构简单,便于空间法分析与模拟。缺点是不利于表达空间实体,数据量也大。Slide no 14 空间要素模型图15-3 基于要素的空间信息模型对现实世界的抽象基于要素的空间信息模型对现实世界的抽象现实世界现实世界专题要素专题要素
7、1实体实体1专题要素专题要素2专题要素专题要素n实体实体2实体实体n时间特征时间特征属性特征属性特征空间关空间关 系特征系特征几何特征几何特征Slide no 15 小提示:实体必须符合三个条件:可被识别,重要(与问题相关),可被描述(有特征)。表15-2 现实世界与信息世界的对应关系 Slide no 16空间网络模型空间网络模型 空间网络结构模型中地理现象被抽象为链、结点以及它们之间的连通关系(图15-4 对空间网络的抽象)。 图的形式化定义为 (15-10) 图15-4 对空间网络的抽象 ( ),( ),GGV G E G RACDBSlide no 17 位置位置属性一体化的空间实体信
8、息模型属性一体化的空间实体信息模型 一般空间实体的形式化模型为一个四元组,分别代表空间实体四个方面的特征。其中位置特征数据为 (15-11) 1122112211( , ),ExxxExxxxEiiPPnnnnx yP当 为点( ,y),(,y ), ,(,y ),当 为折线( ,y),(,y ), ,(,y ),( ,y ),当 为面Slide no 18 空间数据挖掘(SDM)是指对空间数据库中非明确存在的知识,空间关系,或其它有意义的模式等的提取。 15.1.3.1 15.1.3.1 空间数据挖掘的框架体系空间数据挖掘的框架体系 一般认为可以大致分为三 层结构,如图15-5空间数据挖掘的
9、体系结构所示。其中,第一层是数据源;第二层是挖掘器;第三层是用户界面。 Slide no 19图15-5 空间数据挖掘的体系结构Slide no 20 空间评价。 空间分类与聚类。 空间分布计算。 空间优化。 空间回归分析。 空间动态模拟与预测。 空间与时序关联知识归纳。 Slide no 2115.1.4.1 空间关联分析 空间关联规则挖掘是传统关联规则挖掘的延伸,常用最小支持度和最小可信度来作为基本的统计参数,由于空间数据的特点,往往是在多层概念上进行归纳。Slide no 22 挖掘空间关联规则的有效方法是自上而下、逐步加深的搜索技术。首先在高的概念层次进行搜索,在较粗的精度级别查找频繁
10、发生的模式和在这些模式中较强的隐含关系;然后,对频繁发生的模式加深搜索至较低的概念层次,这种处理持续到找不到频繁发生的模式为止。Slide no 23典型的五步算法:典型的五步算法: Step1:通过给定的查询抽取出相关的数据。 Step2:应用一个粗的空间运算方法,计算整个相关数据的集合。 Step3:过滤出那些支持度小于最小支持度阈值的1阶谓词。 Step4:应用一个细化的空间计算方法,从所导出的粗的谓词集合中计算谓词。 Step5:向低层深入,在多个概念层次上找到关联规则的完整集合。Slide no 24空间分类指分析空间对象导出与一定空间特征有关的分类模式 小提示:小提示:空间因素可以
11、是非空间属性和空间属性,也可以是二者同时使用。 (1) 对于样本数据的训练可以通过改造传统的分类算法来完成 (2) 空间决策树 空间分类技术建构决策树采用两步方法。这个方法的思想基础是空间实体可以与其接近的实体来描述。假设类的描述是基于与实体相近最相关的谓词的集合。建造一个决策树Slide no 25空间决策树有五个主要步骤: 根据已知的分类,从数据D中找到例子S。 确定最佳谓词p用来分类。一般首先在较粗的层次中寻找相关谓词,然后再在较为细化的层次。Slide no 26 找到最佳的缓冲区大小和形状。对于取样中的每个实体,它周围的区域被称为缓冲区。目标是选择一个能产生对测试集中的类型进行最不同
12、的缓冲区。 使用p和C,对每个缓冲区归纳谓词。 使用泛化的谓词和ID3建造二叉树T。Slide no 27 空间聚类分析是空间模式识别和空间数据挖掘的重要手段之一。它的目的是要在一个较大的多维数据集中根据距离的计算找出簇,或稠密区域。 小提示:空间聚类找到的聚类不应该依赖于检验空间中的点的顺序,而且聚类也不应该受不相干的点影响。 本节介绍的空间聚类方法是基于坐标属性一体化的空间信息模型, Slide no 28从两类直至每个样本为一类的系统聚类算法步骤如下: 对地理特征向量中的每一个元素进行无量纲化。 令类别数k = 2 ,置迭代误差阈值emin =0.100001 (可根据需要设置) 。 置
13、迭代次数t = 0 ,k 个初始聚类中心为: 对第t 次迭代,若有 则把样本Si 分配到第j0 个聚类域 。如此,所有的m 个样本可以被划分到k 个聚类域 中.( )jC= S , j = 1 ,2 , ,ktj(t)(t)jiji0SC SC , j = 1 ,2 , ,k, ; i = 1 ,2 , ,m且jj0( ) tjD( ) tjDSlide no 29 计算新的聚类中心 式中Nj 为第j个聚类域中包含的样本个数。 若 则停止迭代,第t 次迭代结果为划分为k 个类别的聚类方案,转向(7) ;否则,t = t + 1 ,转向(4) 。 当k m 时,k = k + 1 ,转向(3)
14、;否则,系统聚类结束。( )(1)1,1,2,ti DjtjisjCsjkN(1)( )min,1,2,ttjjCCejkSlide no 3015.2.1 多媒体数据挖掘的特点 多媒体数据复杂。 多媒体信息语义关联性强。 多媒体信息具有时空相关性。 知识的表达和解释比较困难,多媒体挖掘所得出的模式往往比较隐晦。Slide no 31多媒体数据挖掘典型系统结构 多媒体数据挖掘系统是在基于内容的多媒体数据检索系统发展的基础上出现的。它的一般结构图如图15-8所示。图图15-8 多媒体数据挖掘系统结构多媒体数据挖掘系统结构挖掘任务媒体数据库多媒体数据集知识库挖掘引擎数据立方体媒体属性特征数据预处理
15、用户挖掘接口Slide no 32 关于多媒体数据挖掘的内容一般包括图像数据挖掘、音频数据挖掘、关于多媒体数据挖掘的内容一般包括图像数据挖掘、音频数据挖掘、视频数据挖掘等。视频数据挖掘等。 图像挖掘图像挖掘 图像包含着丰富的视觉特性和空间特性。 视频挖掘视频挖掘 视频包括丰富的内容特性,除了图像具有的视觉特性和空间特性外,还具有时间特性、视频对象特性和运动特性等。 Slide no 33 音频挖掘音频挖掘 音频挖掘通常有两种途径: 运用语音识别技术将语音识别成文字,将音频挖掘转换成文本挖掘; 直接从音频中提取声音特征,如音调、韵律等,运用聚类的方法分析声音模式。 Web Web 挖掘挖掘 多媒
16、体综合挖掘多媒体综合挖掘 多媒体概念与单媒体的区别在于,它是一个集成的系统概念,媒体之间有联系。Slide no 34 在图像和视频数据库中可以挖掘涉及多媒体对象的关联规则,至少包含以下三类: 图像内容和非图像内容特征间的关联 与空间关系无关的图像内容的关联 与空间关系有关的图像内容的关联Slide no 35 对多媒体数据相似性搜索,主要考虑两种多媒体标引和检索系统: (1)基于描述的检索系统,主要是在图像描述之上建立标引和执行对象检索,如关键字、标题、尺寸、创建时间等; (2)基于内容的检索系统,它支持基于图像内容的检索,如颜色构成、质地、形状、对象和小波变换等。Slide no 36 在
17、基于内容的检索系统中,通常有两种查询: 基于图像样本的查询(image sample-based queries)。图像样本查询是指找出所有与给定图像样本相似的图像。 图像特征描述查询(image feature specification queries) 。图像特征描述查询是指给出图像的特征描述或概括Slide no 37 到目前为止人们已经提出了几种在图像数据库中基于图像特征标识的相似检索方法: 基于颜色直方图的特征标识 多特征构成的特征标识 基于小波的特征标识 带有区域粒度的小波特征标识Slide no 38 我们也可以对多媒体数据进行分类和预测分析,尤其用在如天文学、地震学、地理科学
18、等的研究中。分类是多媒体数据的一种分析形式,它根据媒体某一特征(或一组特征)将数据分成不同的类。它是一个两步过程:第1步,建立一个模型,用来描述预定义类集。第2步,使用模型进行分类。Slide no 3915.3.1文本挖掘概述 数据库挖掘处理的对象是结构化的数据,目的是从结构化数据源中发现不同属性之间的关联规则,或者是对数据对象进行聚类及分类处理,或者是构造数据的预测模型。 Slide no 40文本挖掘的一般过程 文本挖掘过程一般包括文本准备、特征标引、特征集缩减、知识模式的提取、知识模式的评价、知识模式的输出等过程 .文本特征标引特征集缩减知识模型的提取知识模型的评价知识模型的输出Sli
19、de no 41文本挖掘的主要目标是获得文本的主要内容特征文本挖掘的主要目标是获得文本的主要内容特征 特征提取 主题标引 文本分类 文本聚类 自动摘要Slide no 42 文本的预处理 目前,人们在对文本集进行自动分类、自动聚类、自动摘要或更深层次的挖掘处理时常常采用这样的策略:先用一个高度概括的向量来表示一篇文本,将文本集概括成一个向量集,这个向量集等同于一个二维表格,然后通过对文本集对应的向量集进行相关的分析,达到对文本集进行自动分类、自动聚类、自动产生文摘或自动挖掘出更深层的隐含知识的目的。Slide no 43文本的表示文本的表示 文本表示是指用文本的特征信息集合来代表原来的文本.向
20、量空间模型的基本思想是以向量来表示文本,其中为第i个特征项的权重。 相对词频的计算方法主要运用TF-IDF公式。公式如下: (15-15))(),(),(tIDFtdTFtdIDFTFSlide no 44 所谓标引,是指给出信息内容特征的过程。 汉语自动分词方法有多种,主要有词典法、切分标记法等。 1词典分词法 2. 切分标记分词法 小提示:切分标记法的典型代表是非用词后缀表法。该法将汉字分为“非用字”、“条件用字”、“表内用字”、“表外用字”。主要利用“非用字”和“条件用字”进行词语的切分。Slide no 45 1 1基于评估函数的方法基于评估函数的方法 基于评估函数的特征集缩减算法使用
21、特征独立性假设以简化特征选择。 2 2潜在语义标引潜在语义标引 潜在语义标引法利用矩阵理论中的“奇异值分解”技术,将词频矩阵转化为维数大大减小的奇异矩阵。 Slide no 46 文本自动分类的一般过程如下:首先,取一个预分类的文本集作为训练集。然后,分析训练集以导出分类模型。通常,需要用一个检验过程对该分类模型求精。所导出的分类模型可以用于其它联机文本分类。Slide no 47 下面介绍几种已经成功应用于文本分类的典型的分类方法。1简单向量距离分类 具体步骤如下:(1). 根据训练集文本向量空间模型计算每类文本集的中心向量;(2). 将新文本表示为特征向量;(3). 计算新文本特征向量和每
22、类中心向量间的相似度;(4). 比较每类中心向量与新文本的相似度,将文本分到相似度最大的那个类别中。Slide no 48 2简单贝叶斯分类算法算法具体步骤如下:计算特征词属于每个类别的概率向量 。对于新文本di,计算该文本属于类Cj 的概率。比较新文本属于所有类的概率,将文本分到概率最大的那个类别中。n,21Slide no 49 3 3K K最近邻居(最近邻居(KNNKNN)算法)算法 该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的K篇文本,根据这几篇文本所属的类别判定新文本所属的类别,该算法具体的步骤如下: Slide no 50(1). 根据特征项
23、集合重新描述训练文本向量;(2). 将新文本表示为特征向量;(3).比较类的权重,将文本分到权重最大的那个类别中 (4).在训练文本集中选出与新文本最相似的K个文本,计算公式为: mkjkmkikmkjkikjiWWWWddsim12121,.(15-16)Slide no 51 (5).在新文本的K个邻居中,依次计算每类的权重,计算公式: jiKNNdijCdydxsimCxP,.(15-17)其中, 为新文本的特征向量, 为相似度计算公式, 为类别属性函数,即如果 属于类 ,那么函数值为1,否则为0。xidxsim ,jiCdy,idjCSlide no 521 1光谱聚类方法光谱聚类方法
24、 首先,对原始数据进行光谱嵌入(维度归约),然后对维度归约后的文本空间运用传统的聚类算法(如k均值)。Slide no 532 2混合模型聚类方法混合模型聚类方法 用混合模型对文本数据聚类包括两个步骤: (1) 基于文本数据和附加的先验知识估计模型参数; (2) 基于估计的模型参数推断聚类。Slide no 54 遗传算法(GA)为文本聚类提供了一种非层次的聚类方法,其核心思想是使簇内文本间的相似度最大化。其核心思想是使簇内文本间的相似度最大化。 Slide no 5515.4 15.4 挖掘互联网挖掘互联网 15.4.1 15.4.1 挖掘挖掘WebWeb页面布局结构页面布局结构 Web结构
展开阅读全文