厦门大学数据挖掘数据的排序即有向聚类分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《厦门大学数据挖掘数据的排序即有向聚类分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 厦门大学 数据 挖掘 排序 聚类分析 课件
- 资源描述:
-
1、2022-6-2第五章第五章 数据的排序及有向聚类分析数据的排序及有向聚类分析 5.1 引言 5.2 事务项的排序标准 5.3 属相项的排序标准 5.4 数据的衍生 5.5 有序近邻聚类分析 5.6 有序平均秩效应聚类分析2022-6-25.1 引 言 数据排序在数据挖掘中显得尤为重要,但往往被人们所忽视.因为在数据量较少时,对于排序看起来不是什么问题,也无需专门去研究和讨论.然而,对于海量数据的分析,排序问题就不是那么简单了.可以想象利用Web的有关资料,我们如何将网络广告、街头广告、报刊广告等对电视广告的影响程度排序呢?又如,在大学生成长和发展过程,因素q1,q2,.,q25所起的作用大小
2、又是如何呢?这些问题的解决不仅为进一步的数据挖掘提供适合的数据形式,而且为数据分析过程中的算法改进、提高精度、增强有效性奠定了理论基础.2022-6-2 数据排序必须要有研究对象,即我们是对属性项(变量)进行排序,还是对事务项(样本)进行排序,这一点必须要明确.研究对象要根据问题的研究目的和内容来确定. 在明确了排序的对象后,进行排序前还要确定一个排序标准,标准不一样,排序的结果不一样.排序标准的确定不是那么轻而易举的,如果标准确定不好,不仅反映不出实际问题,而且还有可能误导人们对问题的认识.因此,排序标准的确定既要建立在一定的理论基础上,而且又要有一定的实际背景.这方面的内容我们将在后面详细
3、探讨.2022-6-2 随着对数据的进一步考虑,我们将会发现,排序后数据之间的“距离”(包括相似的概念,以后不再强调)并不相等,也就是排序后数据的稀疏程度不均匀.由于数据量过大,我们自然要关心的是对一个数据集合进行分析,这样就提出了如何对排序资料进行聚类分析.2022-6-2 我们知道聚类分析源于许多研究领域,包括数据挖掘、统计学、生物学以及机器学习,但对有序样品的聚类分析的理论内容并不多 (胡国定,张润楚 (1989), 286-319),而且所研究的内容立足点是,已知变量(或样品)具有一定的顺序,其顺序在聚类中是不能打乱的,即只能按其顺序分成若干类.例如,欲了解儿童的生长发育规律,对所获得
4、的儿童的体重按发育阶段进行分类,这里很清楚,只能按年龄由小到大分成若干个发育阶段,如果按不同的年龄(非顺序性)将儿童的体重进行聚类分析,这样的结果不适合生长发育规律的要求.这类有序变量(或样品)是客观现实中存在的,这种有序我们称为客观有序.2022-6-2 对于非有序数据进行聚类分析,这在数据挖掘中已经成为一个非常活跃的研究课题 (Trespv,V. (2001),Van Hulle,M.M.(2000),Gardner,M., Lalmas,M.and Ruthven,I.(2001),Friedman,J.H. (1997).但是根据我们研究的内容和聚类的目的,将数据排序后,再进行聚类分析
5、,这样不仅会对聚类的结果有更细致深刻的认识,还会大大提高聚类的运算速度.在这里我们所涉及到的有序数据是根据某一研究的目的排列而成的,这种有序我们称为目的有序.2022-6-25.2.1 以信息源为标准的排序5.2 事务项(样品)的排序标准2022-6-22022-6-25.2.2 以综合属性项为标准的排序2022-6-22022-6-22022-6-22022-6-22022-6-25.2.3 移动通讯用户综合费用排序 我们已经对某地区中国移动通讯用户数据库进行了压缩分析,得到了关于属性子集A=本地话费、长途话费、漫游费的压缩信息系统.现在将利用上面的方法对移动通讯用户的消费情况进行综合评价,
6、以2001年10月的压缩信息系统为例分析.计算出综合评价指标Z,将其可视化得到2001年10月移动通讯用户消费属性综合评价分布(图1-b),比较接近用户消费概率分布 (图1-a),综合排序以后的分布见图2,由于图2反映出排序以后前20位的综合指标较大,将其事务项列出见下表.2022-6-2 图1-a 图1-b 移动通讯用户消费概率分布与综合属性评价分布比较2022-6-2图 2移动通讯用户消费综合属性评价排序2022-6-22022-6-2 通过分析我们可以挖掘出以下知识: i).以此排序结果看,该地区移动手机用户平均消费最大的综合评价指标值是0.9865,即本地话费在3档上(100-300元
展开阅读全文