第15章聚类分析1统计学原理.课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第15章聚类分析1统计学原理.课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 15 聚类分析 统计学 原理 课件
- 资源描述:
-
1、12 - 12 - 12 - 1 1 1统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月聚类分析聚类分析12 - 12 - 12 - 3 3 3统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 4 4 4统计学统计学统计学统计学统计学统计学STATISTICSSTATIS
2、TICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 7 7 7统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 8 8 8统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8
3、月月月12 - 12 - 12 - 9 9 9统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 111111统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 121212统计学统计学统计学统计学统计学统计学STATISTICSSTATISTIC
4、SSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 131313统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月 Euclidean距离距离Squared Euclidean距离距离Block距离距离Chebychev距离距离Minkovski距离距离piiiyx12)(qpiqiiyx1iiyx maxpiiiyx12)(piiiyx112 -
5、 12 - 12 - 141414统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月 夹角余弦夹角余弦 Pearson相关系数相关系数iiiiiiixyyxyx22cosiiiiiiixyyyxxyyxxr22)()()(12 - 12 - 12 - 171717统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8
6、 8月月月12 - 12 - 12 - 181818统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 191919统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 212121统计学统计学统计学统计学统计学统计学STATISTICSSTATIS
7、TICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 222222统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月最短距离法最短距离法(Nearest neighbor)最长距离法最长距离法(Furthest neighbor)重心法重心法(Centroid clustering)组间平均距离组间平均距离(Between-groups lin
8、kage)离差平方和法离差平方和法(Wards method)ijGxGxkldDljki,minijGxGxkldDljki,max)()(2lklkklxxxxD kiliGxGxijlkkldnnD1lkmklWWWD212 - 12 - 12 - 232323统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 252525统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTI
9、CS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 262626统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月第第1步步 选择【Analyze】下拉菜单,并选择【Classify- Hierarchical Cluster】,进入主对话框第第2步步 将用于聚类的所有变量选入【Variable(s)】;把区分样 本的标签 (本例为“地区”)选入【Label Cas
10、es by】;若 对样本进行聚类,在【Cluster】下选择【Cases】(本 例选择对样本聚类),若对变量进行聚类,在 【Cluster】下选择【Variables】第第3步步 点入【Statistics】选中【Agglomeration schedule】, 点击【Continue】回到主对话框第第4步步 点入【Plots】选中【Dendrogram】,点击 【Continue】回到主对话框12 - 12 - 12 - 272727统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )2008
11、20082008年年年8 8 8月月月第第5步步 点入【Method】,在【Cluster Method】中选择类间距离的 定义方法(本例选择Wards method);在【Measure】下选择 点间距离的定义方法(本例使用Squared Euclidean distance);在【Transform Values】的【Standardize】框中 选择否对原始数据进行标准化处理(本例选择了【Z scores】)。点击【Continue】回到主对话框第第6步步 点入【Save】,在【Cluster Membership】下选择在原始数 据中保留分类结果,其中【Single solution】
12、表示指定要分成 类时各样本所属的类,【Range of solution】表示指定要分成 最少类、最多类时各样本所属的类(SPSS会将分类的结果以 变量形式保存到原数据窗口中),点击【Continue】【OK】12 - 12 - 12 - 282828统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 292929统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第
13、三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月n 第第1列是聚类的步骤号。第列是聚类的步骤号。第2列和第列和第3列给出了每列给出了每一步被合并的对象一步被合并的对象(这里是地区这里是地区)n 首先把首先把31个地区各自作为一类个地区各自作为一类(共有共有31类类)。第。第1步步是把距离最近的两个地区是把距离最近的两个地区21(海南海南)和地区和地区30(宁夏宁夏)合并成一类。在后面的步骤中,对于包含多个样合并成一类。在后面的步骤中,对于包含多个样本的新类别,实际上是用类中的一个样本来代表本的新类别,实际上是用类中的一个样本来代表该类别,比如,第该类别
14、,比如,第2步被合并的是步被合并的是21和地区和地区29(青青海海),这里的,这里的“21”实际上是指在第实际上是指在第1步中被合并的步中被合并的类别,只是用类别,只是用“21”表示表示21(海南海南)所在的类别所在的类别12 - 12 - 12 - 303030统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月n第第4列给出每一步被合并的两个类之间的聚类系数列给出每一步被合并的两个类之间的聚类系数(即距离即距离)。距。距离按从小到大排列,越早合并
15、的类距离越近。离按从小到大排列,越早合并的类距离越近。0.013是地区是地区21(海南海南)和地区和地区30(宁夏宁夏)之间的距离,而之间的距离,而0.040是先被合并的第一小是先被合并的第一小类与地区类与地区29(青海青海)之间的距离之间的距离n第第5列和第列和第6列表示本步聚类中参与聚类的是原始的样本还是已列表示本步聚类中参与聚类的是原始的样本还是已经合并的小类,经合并的小类,0表示本步聚类的是原始的样本,第一次出现在表示本步聚类的是原始的样本,第一次出现在聚类过程中,其他数字则表示第几步聚类生成的小类参与了本聚类过程中,其他数字则表示第几步聚类生成的小类参与了本步聚类。第步聚类。第7列给
展开阅读全文