聚类分析算法学习报告课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《聚类分析算法学习报告课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 算法 学习 报告 课件
- 资源描述:
-
1、聚类分析算法聚类分析算法 学习汇报学习汇报第1页,共31页。聚类分析概述聚类分析概述宁夏大学宁夏大学数学与计算机学院数学与计算机学院 1、什么是聚类?、什么是聚类?聚类(聚类(clustering)是将物理或抽象对象的集合分组成)是将物理或抽象对象的集合分组成为为多个多个类或簇(类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。的相似度,而不同簇中的对象差别较大。2、与分类的不同、与分类的不同 它要划分的类是未知的。即聚类是一种无指导学习,它不依赖它要划分的类是未知的。即聚类是一种无指导学习,它不依
2、赖预先定义的类和带类标号的训练实例。预先定义的类和带类标号的训练实例。第2页,共31页。聚类分析的应用聚类分析的应用 聚类分析已经广泛的用在许多应用中,包括模式识别、数据分析、图像处理以及聚类分析已经广泛的用在许多应用中,包括模式识别、数据分析、图像处理以及市场研究。典型的应用:市场研究。典型的应用:(1)商业:帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模)商业:帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模式描述不同客户群的特征。式描述不同客户群的特征。(2)生物学:推导植物或动物的分类,活的对种群固有结构的认识。)生物学:推导植物或动物的分类,活的
3、对种群固有结构的认识。(3)WEB文档分类文档分类 (4)其他:地球观测数据库中相似地区的确定各类保险投保人的分组,一个城市中不同)其他:地球观测数据库中相似地区的确定各类保险投保人的分组,一个城市中不同类型、价值、地理位置房子的分组等。类型、价值、地理位置房子的分组等。(5)作为其他数据挖掘算法的预处理:即先进行聚类,然后再进行分类等其)作为其他数据挖掘算法的预处理:即先进行聚类,然后再进行分类等其他数据挖掘他数据挖掘宁夏大学宁夏大学数学与计算机学院数学与计算机学院第3页,共31页。聚类分析的要求聚类分析的要求宁夏大学宁夏大学数学与计算机学院数学与计算机学院可伸缩性可伸缩性处理不同类型属性的
4、能力处理不同类型属性的能力 发现任意形状的聚类发现任意形状的聚类 用于决定输入参数的领域知识最小化用于决定输入参数的领域知识最小化 处理噪声数据的能力处理噪声数据的能力 对于输入记录的顺序不敏感对于输入记录的顺序不敏感 高维性高维性基于约束的聚类基于约束的聚类 可解释性和可用性可解释性和可用性第4页,共31页。聚类分析中的数据类型聚类分析中的数据类型宁夏大学宁夏大学数学与计算机学院数学与计算机学院 聚类分析中数据类型用于度量对象间的相异度,常聚类分析中数据类型用于度量对象间的相异度,常用的数据类型用的数据类型:区间标度变量区间标度变量二元变量二元变量标称型、序数型和比例标度型变量标称型、序数型
5、和比例标度型变量混合类型变量混合类型变量第5页,共31页。区间标度变量区间标度变量 宁夏大学宁夏大学数学与计算机学院数学与计算机学院 1 1、区间标度变量是一个粗略线性标度的连续度量。典型的例区间标度变量是一个粗略线性标度的连续度量。典型的例子包括重量和高度,经度和纬度坐标,以及大气温度。子包括重量和高度,经度和纬度坐标,以及大气温度。2 2、选择不同的度量单位(如选择不同的度量单位(如“米米”与英尺、与英尺、“千克千克”与与“磅磅”等)等)将直接影响聚类分析的结果。将直接影响聚类分析的结果。3 3、为了避免聚类分析对度量单位的依赖性,数据需要进行标为了避免聚类分析对度量单位的依赖性,数据需要
6、进行标准化。准化。4 4、怎样将一个变量的数据标准化呢?为了实现度量值的标准化,、怎样将一个变量的数据标准化呢?为了实现度量值的标准化,一种方法是将原来的度量值转换为无单位的值。一种方法是将原来的度量值转换为无单位的值。第6页,共31页。度量值的标准化度量值的标准化|)|.|(|121fnffffffmxmxmxns.).211nffffxx(xn m宁夏大学宁夏大学数学与计算机学院数学与计算机学院 (1)计算平均的绝对偏差()计算平均的绝对偏差(mean absolute deviation):其中:其中:(2)计算标准化的度量值,或()计算标准化的度量值,或(z-score):ffifif
7、smx z第7页,共31页。对象间的相异度计算对象间的相异度计算欧几里德距离:欧几里德距离:曼哈坦距离:曼哈坦距离:明考斯基距离:明考斯基距离:)|.|(|),(2222211ppjxixjxixjxixjid宁夏大学宁夏大学数学与计算机学院数学与计算机学院jpipjijixxxxxxjid2211),(qqppqqjxixjxixjxixjid)|.|(|),(2211第8页,共31页。聚类分析中的数据类型聚类分析中的数据类型宁夏大学宁夏大学数学与计算机学院数学与计算机学院 聚类分析中数据类型用于度量对象间的相异度,常用的聚类分析中数据类型用于度量对象间的相异度,常用的数据类型数据类型:区间
8、标度变量区间标度变量二元变量二元变量标称型、序数型和比例标度型变量标称型、序数型和比例标度型变量混合类型变量混合类型变量第9页,共31页。二元变量二元变量宁夏大学宁夏大学数学与计算机学院数学与计算机学院 一个二元变量只有两个状态:一个二元变量只有两个状态:0或者或者1,0表示该变量为空,表示该变量为空,1表示该变表示该变量存在。量存在。如果假设所有的二元变量有相同的权重,则得到一个两行两列的可如果假设所有的二元变量有相同的权重,则得到一个两行两列的可能性表。在下面这个表中,能性表。在下面这个表中,a是对于对象是对于对象i和和j值都为值都为1的变量的数目,的变量的数目,b是对于是对于对象对象I值
9、为值为1而对象而对象j的值为的值为0的变量数目,的变量数目,s是对于对象是对于对象c值为值为0而在对于对象而在对于对象j值值为为1的变量数目,的变量数目,d是对于对象是对于对象i和和j的值都为的值都为0的变量的数目。变量的总数是的变量的数目。变量的总数是p,p=a+b+c+d。pdbcasumdcdcbabasum0101Object jObject i第10页,共31页。基于对称二元变量的相似度称为恒定的相似度,即当一些基于对称二元变量的相似度称为恒定的相似度,即当一些或者全部二元变量编码改变时,计算结果不会发生变化。或者全部二元变量编码改变时,计算结果不会发生变化。如果二元变量的两个状态的
10、输出不是同样重要,则该二如果二元变量的两个状态的输出不是同样重要,则该二元变量是不对称的。基于这样变量的相似度被称为非恒定元变量是不对称的。基于这样变量的相似度被称为非恒定的相似度。的相似度。二元变量相似度的计算二元变量相似度的计算dcbacb jid),(宁夏大学宁夏大学数学与计算机学院数学与计算机学院cbacb jid),(第11页,共31页。聚类分析中的数据类型聚类分析中的数据类型宁夏大学宁夏大学数学与计算机学院数学与计算机学院 聚类分析中数据类型用于度量对象间的相异度,常聚类分析中数据类型用于度量对象间的相异度,常用的数据类型用的数据类型:区间标度变量区间标度变量二元变量二元变量标称型
11、、序数型和比例标度型变量标称型、序数型和比例标度型变量混合类型变量混合类型变量第12页,共31页。1、标称型变量、标称型变量 标称变量(标称变量(nominalnominal)是二元变量的推广,它可以具有多)是二元变量的推广,它可以具有多于两个的状态值。例如,于两个的状态值。例如,map-colormap-color是一个标称变量,它可是一个标称变量,它可能有五个状态:红色,黄色,绿色,粉红色和蓝色。两个对能有五个状态:红色,黄色,绿色,粉红色和蓝色。两个对象和象和j j之间的相异度可以用两种方法来计算:之间的相异度可以用两种方法来计算:(1)简单匹配方法)简单匹配方法 M是匹配的数目,是匹配
12、的数目,P是全部变量的数目是全部变量的数目 (2)使用二元变量)使用二元变量 为每一个状态创建一个新的二元变量,可以用非对称的二元变为每一个状态创建一个新的二元变量,可以用非对称的二元变量来编码标称变量。量来编码标称变量。标称型变量标称型变量宁夏大学宁夏大学数学与计算机学院数学与计算机学院pmpjid),(第13页,共31页。一个离散的序数(一个离散的序数(ordinal)型变量类似于标称变量,除了)型变量类似于标称变量,除了序数型变量的个状态是以有意义的序列排序的。在计算序数型变量的个状态是以有意义的序列排序的。在计算对象的相异度时,序数型变量的处理与区间标度变量非常对象的相异度时,序数型变
13、量的处理与区间标度变量非常类似。类似。(1)将)将xif 用它对应的秩代替。用它对应的秩代替。(2)将每个变量的值域映射到)将每个变量的值域映射到0.0,1.0上,使得每个变量都上,使得每个变量都有相同的权重。这通过用有相同的权重。这通过用zif来替代来替代rif来实现。来实现。(3)用前面所述的区间标度变量的任一种距离计算方法来计算。)用前面所述的区间标度变量的任一种距离计算方法来计算。序数型变量序数型变量,.,1fifMr 宁夏大学宁夏大学数学与计算机学院数学与计算机学院11fififMrz第14页,共31页。用比例标度型变量描述对象之间相异度有以下三种方法:用比例标度型变量描述对象之间相
14、异度有以下三种方法:(1)采用与处理区间标度变量相同的方法。)采用与处理区间标度变量相同的方法。(2)对比例标度型变量进行对数变换,如:)对比例标度型变量进行对数变换,如:yif=log(xif)然后再对变换得到的值按区间标度的值处理。然后再对变换得到的值按区间标度的值处理。(3)将其作为连续的序数型数据,将其秩作为区间标度的值来)将其作为连续的序数型数据,将其秩作为区间标度的值来对待。对待。比例标度型变量比例标度型变量宁夏大学宁夏大学数学与计算机学院数学与计算机学院第15页,共31页。聚类分析中的数据类型聚类分析中的数据类型宁夏大学宁夏大学数学与计算机学院数学与计算机学院 聚类分析中数据类型
15、用于度量对象间的相异度,常聚类分析中数据类型用于度量对象间的相异度,常用的数据类型用的数据类型:区间标度变量区间标度变量二元变量二元变量标称型、序数型和比例标度型变量标称型、序数型和比例标度型变量混合类型变量混合类型变量第16页,共31页。在许多现实的数据库中,对象是被混合类型的变量描述的。一般来说,一个数据在许多现实的数据库中,对象是被混合类型的变量描述的。一般来说,一个数据库可能包含上面列出的全部六种变量类型。用以下的公式计算库可能包含上面列出的全部六种变量类型。用以下的公式计算i和和j的相异度:的相异度:其中,其中,p为对象中的变量个数为对象中的变量个数 (1)如果)如果xif或或xjf
16、缺失(即对象缺失(即对象i或对象或对象j没有变量没有变量f的值),或者的值),或者xif=xjf=0,且变,且变量量f是不对称的二元变量,则指示项是不对称的二元变量,则指示项ij(f)=0;否则;否则ij(f)=1。(2)f 是二元变量或标称变量是二元变量或标称变量:if xif=xjf dij(f)=0,else dij(f)=1 (3)f是区间标度变量:是区间标度变量:dij(f)=|xif-xjf|/maxhxhf-minhxhf (4)f 是序数型或比例标度型:是序数型或比例标度型:计算秩计算秩rif 计算计算zif并将其作为区间标度变量值对待并将其作为区间标度变量值对待混合类型变量混
展开阅读全文