第14章 聚类方法.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第14章 聚类方法.pptx》由用户(淡淡的紫竹语嫣)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第14章 聚类方法 14 方法
- 资源描述:
-
1、第十四章 聚类方法 相似度或距离 假设有n个样本,每个样本由m个属性的特征向量组成,样本合集 可以用矩阵X表示 聚类的核心概念是相似度(similarity) 或距离(distance), 有多种相似度或距离定义。因为相似度直接影响聚类的结果,所 以其选择是聚类的根本问题。 闵可夫斯基距离 闵可夫斯基距离越大相似度越小,距离越小相似度越大。 给定样本集合X, X是m维实数向量空间Rm中点的集合,其中 样本xi与样本xj 的闵可夫斯基距离(Minkowski distance)定义 为 闵可夫斯基距离 当p=2时称为欧氏距离(Euclidean distance) 当p=1时称为曼哈顿距离(Ma
2、nhattan distance) 当p= 时称为切比雪夫距离(Chebyshev distance) 马哈拉诺比斯距离 马哈拉诺比斯距离(Mahalanobis distance),简称马氏距离, 也是另一种常用的相似度,考虑各个分量(特征)之间的相关性 并与各个分量的尺度无关。 马哈拉诺比斯距离越大相似度越小,距离越小相似度越大。 给定一个样本集合X, X = ,其协方差矩阵记作S。样本xi 与样本xj之间的马哈拉诺比斯距离dij定义为 相关系数 样本之间的相似度也可以用相关系数(correlation coefficient)来表示。 相关系数的绝对值越接近于1,表示样本越相似 越接近于
3、0,表示样本越不相似。 样本xi与样本xj之间的相关系数定义为 夹角余弦 样本之间的相似度也可以用夹角余弦(cosine)来表示。 夹角余弦越接近于1,表示样本越相似 越接近于0,表示样本越不相似。 样本xi与样本xj之间的夹角余弦定义为 相似度 用距离度量相似度时,距离越小样本越相似 用相关系数时,相关系数越大样本越相似 注意不同相似度度量得到的结果并不一定一致。 从右图可以看出,如果从距离的角度看, A和B比A和C更相似 但从相关系数的角度看, A和C比A和B更相似。 类或簇 通过聚类得到的类或簇,本质是样本的子集。 如果一个聚类方法假定一个样本只能属于一个类,或类的交集为 空集,那么该方
4、法称为硬聚类(hard clustering)方法。 如果一个样本可以属于多个类,或类的交集不为空集,那么该方 法称为软聚类(soft clustering)方法。 类或簇 用G表示类或簇(cluster),用xi, xj表示类中的样本,用nG表示 G中样本的个数,用dij表示样本xi与样本xj之间的距离。 类或簇有多种定义,下面给出几个常见的定义。 类或簇 类或簇 类或簇 类或簇 类或簇 类的特征可以通过不同角度来刻画,常用的特征有下面三种: 类或簇 类的特征可以通过不同角度来刻画,常用的特征有下面三种: 类或簇 类的特征可以通过不同角度来刻画,常用的特征有下面三种: 类与类之间的距离 下面
5、考虑类Gp与类Gq之间的距离D(p,q),也称为连接(linkage)。 类与类之间的距离也有多种定义。 设类Gp包含 np个样本, Gq包含 nq个样本,分别用 和 表示Gp和Gq的均值,即类的中心 。 类与类之间的距离 最短距离或单连接(single linkage) 定义类Gp的样本与Gq的样本之间的最短距离为两类之间的距离 类与类之间的距离 最长距离或完全连接(complete linkage) 定义类Gp的样本与Gq的样本之间的最长距离为两类之间的距离 类与类之间的距离 中心距离 定义类Gp与Gq的中心 与 之间的距离为两类之间的距 离 类与类之间的距离 平均距离 定义类Gp与Gq任
6、意两个样本之间距离的平均值为两类之间的距离 层次聚类 层次聚类假设类别之间存在层次结构,将样本聚到层次化的类中。 层次聚类又有聚合(agglomerative)或自下而上(bottom-up) 聚类、分裂(divisive)或自上而下(top-down)聚类两种方法。 因为每个样本只属于一个类,所以层次聚类属于硬聚类 层次聚类 聚合聚类开始将每个样本各自分到一个类 之后将相距最近的两类合并,建立一个新的类 重复此操作直到满足停止条件 得到层次化的类别 分裂聚类开始将所有样本分到一个类 之后将已有类中相距最远的样本分到两个新的类 重复此操作直到满足停止条件 得到层次化的类别 聚合聚类的具体过程
展开阅读全文