聚类分析解析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《聚类分析解析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 解析 课件
- 资源描述:
-
1、对外经济贸易大学国际商学院统计与技术经济系许晓娟引言距离的测定 距离公式 类间距离两个聚类方法 系统聚类 K均值聚类市场分析人员想要对消费者进行分类,从而有针对性地投放广告生物学家想要为昆虫、哺乳动物和爬行动物等建立生物分类政府管理人员想要对不同的国家或地区进行分级,从而提供不同模式的援助1.他们事先并不敢确定有哪些类别2.可供分类的指标可能较多将个体或对象进行分类,使得同一类中的对象之间的相似性比与其它类的对象的相似性更强以多变量的样本数据为依据,在确保同类对象的同质性最大化,类间对象的异质性最大化的前提下,进行分类通常适用于分析截面数据,是一门静态数据分析技术系统聚类K-均值聚类(快速聚类
2、)模糊聚类有序样品的聚类分解法加入法需要大家掌握前两种方法点间距离类间距离对样品的分类:Q型聚类对变量的分类:R型聚类这两种聚类在数学上是对称的,没有什么不同。如表9.2所示,每个样品有p个指标,共有n个样品每个样品就构成p维空间中的一个点 :第i个样品的第k个指标对应的取值 i=1n;k=1p :第i个样品和第j个样品之间的距离 i=1n;j=1nl样品间距离与指标间距离l间隔尺度、有序尺度与名义尺度l数学距离与统计距离l相似性与距离:一个硬币的两面间隔尺度 数学距离 明氏距离 绝对值距离 欧氏距离 切比雪夫距离 兰氏距离 统计距离:马氏距离有序或名义尺度 匹配指标数绝对值距离欧氏距离明氏距
3、离切比雪夫距离1(1)pijikjkkdXX21/21(2)()pijikjkkdXX1()maxijikjkkpdXX 例如,横轴X1代表重量(以kg为单位),纵轴X2代表长度(以cm为单位)。有四个点A、B、C、D见图1.1,它们的坐标如图1.1所示2022-8-16中国人民大学六西格玛质量管理研究中心15 目录 上页 下页 返回 结束 1011101251052222CDAB这时显然AB比CD要长。现在,如果 用mm作单位,单位保持不变,此时A坐标为(0,50),C坐标为(0,100),则2X1X100011100260010502222CDAB结果CD反而比AB长!这显然是不够合理的。
4、对数据进行标准化处理 减均值,除以标准差再计算距离 兰氏距离 适用于x大于0的情况 只克服了量纲问题2022-8-16中国人民大学六西格玛质量管理研究中心17 目录 上页 下页 返回 结束 下面先用一个一维的例子说明欧氏距离与马氏距离的差异。设有两个一维正态总体 。若有一个样品,其值在A处,A点距离哪个总体近些呢?由图1-2),(:),(:22222111GG和图1-2从绝对值来看,A点距离G1更近,这是欧式距离从标准差来看,A点与G1的距离是4个标准差,距离G2则是3个标准差,也就是距离G2更近,这是马氏距离马氏距离马氏距离从概率上定义距离,因而也被称为统计距离2022-8-16中国人民大学
5、六西格玛质量管理研究中心21 目录 上页 下页 返回 结束 以上几种距离均是适用于间隔尺度的变量,如果指标是有序尺度或名义尺度时也有一些定义距离的方法。例3.3:欧洲各国的语言有许多相似之处,有的十分相似。为了研究这些语言的历史关系,也许通过比较它们数字的表达比较恰当。表3.3列举了英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语和芬兰语的1,2,10的拼法,希望计算这11种语言之间的距离。定义距离的较灵活的思想方法夹角余弦相关系数 数据标准化后的夹角余弦定义9.1:距离小于给定阀值的点的集合类的特征 重心:均值 样本散布阵和协差阵 直径最短距离法最长距离法重心法
6、类平均法离差平方和法等等极小异常值在实际中不多出现,避免极大值的影响 可能被极大值扭曲,删除这些值之后再聚类类间所有样本点的平均距离该法利用了所有样本的信息,被认为是较好的系统聚类法类的重心之间的距离类的重心之间的距离对异常值不敏感,结果更稳定对异常值不敏感,结果更稳定 W代表直径,D2=WMWKWL即 对异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。LKLKMkLKLXXXXnnnD2Cluster KCluster LCluster Mn个样品自成一类计算两两类间距离距离最近的两类定义为一个新类类的个数是否为1生成聚类图是否系统聚类不必事先确定分类数最佳分类数的
7、确定方法尚未形成根据研究目的确定根据聚合系数确定根据树状图确定类重心之间距离必须大各类所包含的元素都不要过分多分类数应该符合使用的目的采用几种不同的聚类方法处理时,应在各自的聚类图上发现相同的类16种饮料的热量、咖啡因、钠及价格四种变量 选择AnalyzeClassifyHierarchical Cluster,然后把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格)选入Variables,在Cluster选Cases(这是Q型聚类:对观测值聚类),如果要对变量聚类(R型聚类)则选Variables,为 了 画 出 树 状 图,选 P l o t s,再
8、 点Dendrogram等。可以在Method中定义点间距离和类间距离有水平型和垂直型跟树形图的功能类似分别分成1到n组,看分组情况适用于数据量较小时如果事先指定分类数可以在SAVE中实现把样品初略分成k个初始类根据样品与类的距离进行归类重新计算新的类重心各类有样品进出将样本分为类否是迭代次数达到最高限制是否事先确定分类数计算过程无须存储数据,因此能处理更大的数据量,也称快速聚类样品的最终聚类在某种程度上依赖于最初的划分或种子点K-均值聚类选择AnalyzeClassifyK-Menas Cluster,然后把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(
展开阅读全文