11-聚类分析-PPT课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《11-聚类分析-PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 聚类分析 PPT 课件
- 资源描述:
-
1、111. 聚类分析211.2 层次聚类法优缺点 优点可对变量(样品)或记录进行聚类变量可为连续或分类变量提供了丰富的距离测量方法和结果表示方法(树状图) 缺点由于它要反复计算距离,所以当样本量太大或变量较多时,其运算速度明显较慢。311.2 层次聚类法类间距离的定义 不同的类间距离的定义,构成了不同的层次聚类方法Between-groups linkage(组间平均距离法、类平均法) 用两个类别间各个数据点两两间的距离的平均来表示两个类别间的距离Within-groups linkageNearest neighbor(最短距离法) 用两个类别间各个数据点间的最短的距离来表示两个类别间的距离4
2、11.2 层次聚类法Furthest neighbor(最长距离法)Centroid clustering(重心法) 用两个类别的重心间的距离来表示两个类别间的距离Median clustering(中位数法)Wards method(离差平方和法) 思想来自方差分析 使类中的离差平方和较小,而类间的离差平方和较大基本操作 Analyze Classify Hierarchical Cluster511.2 层次聚类法输入参与输入参与层次聚类层次聚类的变量的变量输入标输入标记变量记变量选择聚选择聚类类型类类型Q型聚类R型聚类输出聚类分析的凝聚状态表输出个体间的距离矩阵不输出样本所属类指定输出当
3、分成n类时各样本所属类,是单一解指定输出当分成m至n类时(mn)各样本所属类,是多个解611.2 层次聚类法输出树形图(谱系图)输出冰挂图,没前者好输出每个阶段的冰挂图输出某个阶段的冰挂图,输入从第几步开始,到第几步结束,中间间隔几步纵向横向指定如何显示冰挂图选择计算个体与小类、小类与小类间距离的方法,多次尝试后的结果选择不同变量类型下个体距离的计算方法连续型定距变量计数型变量二值变量选择消除变量数量级差异的方法,并指定是针对变量还是针对样本711.2 层次聚类法Z scores:计算Z分数。将各变量值减去均值后除以标准差,标准化后变量值的均值为0,标准差为1;Range -1 to 1:将各
4、变量值除以全距,处理后的变量值位于-1+1。适用于变量值中有负值的变量;Range 0 to 1:将各变量值减去最小值后除以全距,处理后的变量值的范围为0+1;Maximum magnitude of 1:将各变量值除以最大值,处理后的变量值的最大值为1;Mean of 1:将各变量值除以均值;Standard deviation of 1:将各变量值除以标准差。Save将聚类分析的结果以变量的形式保存到数据编辑窗口。生成的变量名为clun_m,其中n表类数,m表第m次分析。不同的距离计算方法会产生不同的聚类分析结果。实际中应反复尝试以最终得到符合实际的合理解。811.2 层次聚类法例11.1
5、 现搜集了02年中国部分省市的国民经济数据,希望将这些省份归类,从而更好地了解各地区生活水平的差异。 数据的初步分析5个指标的数量级各不相同,均值100.82 9377.11,标准差1.39 7165.65,表明量纲间很强的差异性。Descriptive StatisticsDescriptive Statistics312895.2937382.009377.10577165.6461531262.509405.504080.82262643.68482313894.519336.105367.76811445.44846311098.394753.231828.8500819.933643
6、198.50104.00100.80321.3941531人均GDP人口数城镇居民家庭平均每人全年消费性支出农村居民家庭平均每人生活消费支出各地区居民消费价格指数Valid N (listwise)NMinimumMaximumMeanStd. Deviation911.2 层次聚类法 需要标准化。从条形图可知,前4个变量地区间取值的差异较大,各地区居民消费价格指数的取值差异很小。1011.2 层次聚类法1111.2 层次聚类法1211.2 层次聚类法1311.2 层次聚类法1411.2 层次聚类法 Pindex _ Revise = 各地区居民消费价格指数-100 反映了消费价格当年净增长的
7、百分点,使得CPI在各省市的分布有着明显的差异。 聚类1511.2 层次聚类法Agglomeration ScheduleAgglomeration Schedule317.111002312.246101557.40700458.62430132027.857001129301.121002028311.39000204141.666001015232.10200144252.751802120243.419501220224.16711019565.010401915166.12790233187.428201821268.8130021111910.248002231012.010150
8、2352013.835131225282916.130762742118.530101625111321.2981702831524.6201814291228.41200264532.9282119271941.6662402842854.44125202911168.9722622303487.75723273013150.00028290Stage表示聚类的第几步123456789101112131415161718192021222324252627282930Cluster 1Cluster 2Cluster Combined表示本步聚类中哪两个样本或小类聚成一类Coefficien
9、ts表示个体或小类距离Cluster 1Cluster 2Stage Cluster First Appears表示本步参与聚类的是个体(0)还是小类(n表示由第n步聚类生成的小类)Next Stage表示本步聚类结果将在以下第几步中用到1611.2 层次聚类法Agglomeration Schedule (凝聚状态表) 第一步中,第3个样本(河北)和第17个样本(湖北)首先合并,其平方欧氏距离为0.111,该小类将在第2步用到; 第二步中,第一步聚成的小类(用该小类中第一个样本的记号3表示)和第12个样本(安徽)合并,其Ward距离为0.246,该小类将在第15步用到。Dendrogram
10、(树状图、谱系图) 最终类数的确定1711.2 层次聚类法原则 各类的重心间距离应较大 各类所包含的个体数不应过多 分类数目应符合分析的目的方法 距离类数散点图(距离由凝聚状态表获得) 由下图知,随着类的不断凝聚、类数目的不断减少,类间距离在逐渐增大。 在聚成6类之前,类间距离增大的幅度较小,形成极为“陡峭的山峰”,但到3类后,类间的距离迅速增大,形成极为“平坦的碎石路”。1811.2 层次聚类法 根据类间距离小形成类的相似性大,类间距离大形成类的相似性小的原则,可找到“山脚”下的“拐点”碎石,将它作为确定分类数目的参考。 所以,本例可考虑聚成2类 6类,综合考虑分成5类较合适(类不大也不小,
11、Frequency)。1911.2 层次聚类法Ward Method (6)Ward Method (6)26.56.56.5825.825.832.31341.941.974.213.23.277.439.79.787.1412.912.9100.031100.0100.0123456TotalValidFrequencyPercentValid PercentCumulativePercentWard Method (5)Ward Method (5)39.79.79.7825.825.835.51341.941.977.439.79.787.1412.912.9100.031100.01
12、00.012345TotalValidFrequencyPercentValid PercentCumulativePercentWard Method (4)Ward Method (4)39.79.79.7825.825.835.51754.854.890.339.79.7100.031100.0100.01234TotalValidFrequencyPercentValid PercentCumulativePercentWard Method (3)Ward Method (3)619.419.419.4825.825.845.21754.854.8100.031100.0100.01
13、23TotalValidFrequencyPercentValid PercentCumulativePercentWard Method (2)Ward Method (2)619.419.419.42580.680.6100.031100.0100.012TotalValidFrequencyPercentValid PercentCumulativePercentWard Method (7)Ward Method (7)26.56.56.5825.825.832.3516.116.148.4825.825.874.213.23.277.439.79.787.1412.912.9100.
14、031100.0100.01234567TotalValidFrequencyPercentValid PercentCumulativePercent2011.2 层次聚类法 最终类差异的显著性判断(Means)各类别在5个变量上差异显著ReportReportMean27686.481343.00008415.34673452.06201.43337751.29917468.06254927.48751704.3075.72506286.35353143.61544694.00311447.7899.369213582.315437.66677355.71002895.1985-.7333
15、5787.73071388.00004661.42501299.21023.05009377.10574080.82265367.76811828.8500.8032Ward Method (5)12345Total人均GDP人口数城镇居民家庭平均每人全年消费性支出农村居民家庭平均每人生活消费支出各地区居民消费价格指数-100ANOVA TableANOVA Table1E+0094313904198.628.659.0003E+0082610952990.302E+009302E+008440055267.0821.060.00049451015261901962.1142E+0083049
16、166874412291718.4223.651.0001351276426519721.69262679638301444959743612399.19416.422.000571913926219966.868201687353030.96447.7417.360.00027.346261.05258.31030(Combined)Between GroupsWithin GroupsTotal(Combined)Between GroupsWithin GroupsTotal(Combined)Between GroupsWithin GroupsTotal(Combined)Betwe
17、en GroupsWithin GroupsTotal(Combined)Between GroupsWithin GroupsTotal人均GDP * Ward Method (5)人口数 * Ward Method (5)城镇居民家庭平均每人全年消费性支出 *Ward Method (5)农村居民家庭平均每人生活消费支出 *Ward Method (5)各地区居民消费价格指数-100 * WardMethod (5)Sum ofSquaresdfMean SquareFSig.2111.2 层次聚类法 最终类的特征描述第一类 高生活水平省市 上海、北京、天津等3个直辖市; 人均GDP、城镇
18、居民和农村居民家庭平均每人全年消费支出远高于其它类别。第二类 人口最多、生活水平一般省市 河北、湖北、安徽、湖南、江苏、山东、四川、河南等8省市; 平均人口远高于其它类别。2211.2 层次聚类法第三类 人口较少、生活水平一般省市 广西、陕西、贵州、重庆、内蒙古、吉林、黑龙江、辽宁、山西、江西、云南、海南、西藏等13省市。第四类 生活水平较高,平均物价水平降低的省市 浙江、广东、福建等3省市第五类 人口稀少、生活水平低的省市 青海、宁夏、甘肃、新疆等4省市2311.2 层次聚类法例11.2 现有7国裁判员以及热心观众分别给300名运动员的平均打分的数据,试分析各裁判员的打分标准是否有相似性。
19、R型聚类分析Vertical IcicleVertical IcicleXXXXXXXXXXXXXXXX XXXXXXXXXXXXXX XXXXX XXXXXXXX XXXXX XXXXX XX XXXXX X XXX XX X XXX X XXX XX X XXX X X X XNumber of clusters1234567热心观众 美国 法国 韩国 俄罗斯 中国 罗马尼亚 意大利Case2411.2 层次聚类法由冰柱图知,韩国和法国裁判员的打分相似性最强;其次是中国和罗马尼亚。若聚成3类,则热心观众自成一类,美国、法国、韩国一类,俄罗斯、中国、罗马尼亚、意大利一类。 若要从上述裁判中选
展开阅读全文