11复杂数据类型的挖掘课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《11复杂数据类型的挖掘课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 复杂 数据类型 挖掘 课件
- 资源描述:
-
1、广东商学院信息学院1/93广东商学院信息学院 胡建军数据仓库与数据挖掘2/72n复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘3/72n复杂数据对象的多维分析和描述性挖掘复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘4/72n简单数据简单数据 关系数据库、事务数据库、数据仓库n复杂类型数据复杂类型数据 复杂对象、空间数据、多媒体数据、时间序列数据、文本数据、Web数据等 挖掘技术:挖掘技术:基本挖掘技术的扩展 针对复杂数据类型的新技术 实施知识
2、挖掘的方法5/72n商品化数据仓库和OLAP工具用于多维分析的局限:维非数字数据度量聚集值n复杂数据对象的概化及其概化数据的应用n复杂数据的组织及存储方法H类、类/子类H对象:对象标识、属性、方法6/72n复杂结构数据:H集合、元组、列表、树、记录等及其组合;H概化方法:4保持原结构不变,概化其属性4把原结构扁平化,概化扁平化的结构4用高层概念或聚集汇总低沉结构4返回原结构的类型或概貌7/72n集合值集合值一般概化方法:H将集合中的每个值概化为其对应的更高级别的概念H导出集合的一般特征(元素个数、区间、平均值、最大值等)示例:业余爱好网球,曲棍球,国际象棋,小提琴,任天堂游戏 概化:体育,音乐
3、,电子游戏 体育(3),音乐(1),电子游戏(1)8/72n列表值/序列值 类似于集合值属性的概化,要求保持元素的次序。一般概化方法:H将列表中的每个值概化为对应的高层概念H导出列表的一般特征(长度、元素类型、平均值、最大值等)9/72n聚集和近似计算n空间数据例:土地规划n多媒体数据H图像:尺寸、颜色、形状、纹理、方位等H音乐:音调、节拍、乐器等H文本:摘要、关键词等10/72n对象标识符沿类/子类层次结构概化n继承特性数据概化对直接数据与继承数据同等对待n方法 方法本身不能概化,但是可以对方法导出的数据进行概化11/72n复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘空间数据库挖掘n多
4、媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘12/72n空间数据库及其一般特点H存储了大量与空间有关的数据H包含拓扑/距离信息H复杂的、多维的索引结构H访问通过空间数据的方法,通常需要空间推理、地理计算、空间知识表示技术n空间数据挖掘:要综合数据挖掘与空间数据库技术13/72n传统空间数据分析(统计方法)的不足H统计方法通常假设空间分布的数据间是统计上独立的,但现实是空间对象间是相互关联的;H大部分统计模型只有具有相当丰富领域知识和统计方面经验的统计专家才用得起来;H统计方法不适用符号值,或不完整或非确定的数据,对大规模数据库其计算代价也十分昂贵。n空间数据挖掘空间数据
5、挖掘将对传统的空间分析方法加以扩展,重点解决其高效性,可伸缩性,与数据库系统的紧密结合,改进与用户的交互,以及新的知识的发现。14/72 空间关联规则形如:ABs%,c%其中A和B空间和非空间谓词的集合,s%表示规则的支持度,c%表示规则的的可信度。例例:Is_a(X,”school”)close_to(X,“sports_center”)close_to(X,“park”)0.5%,80%此规则表明80%靠近体育中心的学校同时也靠近公园,并且有0。5%的数据符合这一规则。15/72n 空间数据聚类是要在一个较大的多维数据集中根据距离的计算找出簇,或稠密区域。16/72n空间分类空间分类指分析
6、空间对象导出与一定空间特征有关的分类模式,如郊区,高速公路,河流的邻接。n空间趋势分析空间趋势分析处理的是另一类问题:根据某空间维找出变化趋势。例如,当离城市中心越来越远时,我们要分析经济形势的变化趋势,或离海洋越来越远时,气候与植物的变化趋势。17/72n复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘18/72n多媒体数据库多媒体数据库是指存储和管理大量多媒体对象的数据库,如音频数据,图象数据,视频数据,序列数据,以及超文本数据,包含文本,文本标记(text markup),和链接(linkage)。
7、n多媒体数据的相似搜索多媒体数据的相似搜索 主要考虑两种多媒体标引和检索系统:(1)基于描述的检索系统,主要是在图象描述之上建立标引和执行对象检索,如关键字,标题,尺寸,创建时间等;(2)基于内容的检索系统,它支持基于图象内容的检索,如颜色构成,质地,形状,对象,和小波变换等。n多媒体数据的分类和预测分析多媒体数据的分类和预测分析 n多媒体数据中的关联规则挖掘多媒体数据中的关联规则挖掘 19/72n复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘20/72n时序数据库:时序数据库:由随时间变化的序列或事件组成的数据库H等
8、时间间隔测得的数据(regular intervals)H时序数据库是一种序列数据库n序列数据库序列数据库:由有序事件序列组成的数据库H可有时间标记,也可以没有时间标记H可以是时序数据库,也可以不是。如WEB遍历。21/72Time-series plot22/72n趋势分析趋势分析 通过对趋势,循环,季节和非规则成分的运动的系统分析,使人们可以在较合理的情况下,制定出长期或短期的预测(即预报时序)n相似搜索相似搜索 找出与给定查询序列最接近的数据序列。子序列匹配子序列匹配(subsequence matching)是找出与给定序列相似的所有数据序列,整体序列匹配整体序列匹配(whole se
展开阅读全文