聚类算法课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《聚类算法课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 算法 课件
- 资源描述:
-
1、实验十十一 聚类算法主要内容1、聚类和聚类分析2、数据类型3、相似度量方法4、聚类方法的分类5、划分聚类的方法6、层次聚类方法7、基于空间索引的聚类方法8、聚类的应用案例1 聚类和聚类分析概述 1.1 聚类的起源1.2 聚类举例1.3 聚类的定义和相关概念1.1 聚类的起源人们认识世界的一种方法是将认识的对象按照一定的特征进行划分同一类事物之间有着相似的属性划分种类的方式包含分类和聚类1.2 分类举例1.2 聚类举例(一)对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X2
2、8181121262016142422Y29232223292322232927Z281816222622222424241.2 聚类举例(二)例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。1.3 聚类的定义及相关概念1.聚类的定义无监督的知识发现把物理或抽象对象的集合分成相似的对象类的过程成为聚类。2.相关概念簇:数据对象的集合距离:数据对象间的距离好的聚类:簇内部对象的距离小,而簇之间的距离大假如要分两个簇,如何分?00.20.40.60.811.21.41.
3、61.8200.20.40.60.811.21.41.61.82(0.1 0.1)(0.2 0.2)(1.8 1.8)(1.9 1.9)2 数据类型2.1 数据类型的分类2.2 数值型数据的标准化2.1 数据类型的分类从数据聚类的角度看,数据可以分为分类型和数值型分类型:名义型、等级型和布尔型名义型:属性值之间没有顺序,属性值的加减没有意义等级型:属性值之间有大小顺序,但不知道一个值比另一个值究竟大多少布尔型:分类型的特例,只有两个属性值数值型属性:属性值的加减、排序等均有意义2.2 数值型属性的标准化1 为什么要标准化数值型属性的量纲和单位不同,必须把不同的度量单位统一成相同的度量单位00.
4、20.40.60.811.21.41.61.820200400600800100012001400160018002000单 位:千 克单位:克00.20.40.60.811.21.41.61.820200400600800100012001400160018002000单 位:千 克单位:米2 标准化的常用方法Z-score标准化:均值为0,方差为1减去均值,除以绝对方差标准化值域,将值域映射到0,1除以均值:令均值为1除以最大值:令最大值为1前提:所有数值均为正值1()ijijjjxxxs11njijjisxxn3 注意:注意:不要为了标准化而标准化当我们需要比较的两个(或多个)序列是同一
5、量纲下的,则不必标准化标准化是按照属性进行标准化对哪些数列进行标准化作业:数列标准化(按小组交)设计一个excel表,实现数列标准化3 相似度量方法对象间的相似性计算是聚类的核心,有两种主要的方法:距离和相似度。00.20.40.60.811.21.41.61.8200.20.40.60.811.21.41.61.82(0.1 0.1)(0.2 0.2)(1.8 1.8)(1.9 1.9)3.1 距离1 距离的要求 0ijijdxx,0iji jx x d,iji jj ix x dd,ijki ji kk jx xx ddd2 常见的距离曼哈顿距离:欧式距离:切比雪夫距离:,1mi jikj
6、kkdxx2 0.5,1()mi jikjkkdxx,maxi jikjkdxx例子:分析上海股市和深圳股市的距离2.2 相似系数1.相似系数的要求0ijijrxx,0,1iji jx x r,iji jj ix x rr2 相似度的度量方式数量积法相关系数法111mijikjkkijrx xijM1,ijijijrx xij例子:分析上海股市和深圳股市的相似系数简单匹配法累积匹配的属性个数,匹配属性所占的比例作为相似系数大家利用匹配算法计算一下样本3和4、8和11的相似系数匹配系数针对二值型匹配系数=121234()/()waw dwaw dw bw c大家利用匹配系数计算上证指数和深证成指
展开阅读全文