田间试验与统计方法12-聚类与主成分分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《田间试验与统计方法12-聚类与主成分分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 田间试验 统计 方法 12 成分 分析 课件
- 资源描述:
-
1、第一节第一节 聚类分析聚类分析第二节第二节 主成分分析主成分分析 第一节第一节 聚类分析聚类分析一、什么是聚类分析一、什么是聚类分析二、相似性的度量二、相似性的度量三、系统聚类三、系统聚类四、四、K-均值聚类均值聚类一、什么是聚类分析?(cluster analysis)什么是聚类分析?(两种分类方式)什么是聚类分析?(按什么分类)二、相似性的度量相似性的度量相似性的度量(样本点间距离的计算方法)相似性的度量(样本点间距离的计算方法)Euclidean距离距离Squared Euclidean距离距离Block距离距离Chebychev距离距离Minkovski距离距离piiiyx12)(qp
2、iqiiyx1iiyx maxpiiiyx12)(piiiyx1相似性的度量(变量相似系数的计算方法)夹角余弦夹角余弦 Pearson相关系数相关系数iiiiiiixyyxyx22cosiiiiiiixyyyxxyyxxr22)()()(三、系统聚类(hierarchical cluster)系统聚类(合并法)系统聚类(分解法)类间距离的计算方法类间距离的计算方法最短距离法最短距离法(Nearest neighbor)最长距离法最长距离法(Furthest neighbor)重心法重心法(Centroid clustering)组间平均距离组间平均距离(Between-groups linka
3、ge)离差平方和法离差平方和法(Wards method)ijGxGxkldDljki,minijGxGxkldDljki,max)()(2lklkklxxxxD kiliGxGxijlkkldnnD1lkmklWWWD2类间距离的计算方法实际例子校准化(Z)消除量纲和数量级的影响其它标准化方法Z Scores:标准化后均值为0,标准差为1,其转化函数为:Range-1 to 1:每个变量值除以该变量组的全距;Range 0 t0 1:每变量减最小值后除以该变量组的全距;极差标准化极差标准化 最大值为1:每变量除以该变量组的最大值;均值为1:每变量除以该变量组的平均值;标准差为1:每变量除以该
4、变量组的标准差。中心标准化、对数标准化、平方根标中心标准化、对数标准化、平方根标准化等等准化等等系统聚类聚类结果解读四、K-均值聚类(K-means cluster)K-均值聚类(步骤)K-均值聚类(步骤)方差分析,看方差分析,看各变量在各变量在不同不同类别类别之间之间的的差异是否显著;差异是否显著;K-均值聚类(步骤)K-均值聚类的应用(实例分析)K-均值聚类的应用(实例分析)数据标准化数据标准化(SPSS)l【Analyze】【Descriptive Statistics】【Descriptives】主对话框主对话框l将需要标准化的变量选入将需要标准化的变量选入【Variable(s)】【
5、Save standardized values as variables】【OK】K-均值聚类的应用(实例分析)K-均值聚类的应用(实例分析)该表列出每一类别的初始聚类中心,本例的这些中心是由该表列出每一类别的初始聚类中心,本例的这些中心是由SPSS自动生自动生成的,它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心成的,它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心点距离其他点尽可能远。例如,第一类的聚类中心是点距离其他点尽可能远。例如,第一类的聚类中心是3.17960,这实际上,这实际上就是上海的人均就是上海的人均GDP标准化后的值。第二类聚类中心是标准化后的值。第二
6、类聚类中心是1.83293则是天津则是天津的标准化人均的标准化人均GDP,等等,等等K-均值聚类的应用(实例分析)该表该表从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数的增加,类别中心点的变化越来越小。本例只的增加,类别中心点的变化越来越小。本例只4次就已经收敛了次就已经收敛了K-均值聚类的应用(实例分析)表中的数据表示各个类别在各变量上的平均值。如,第一类的表中的数据表示各个类别在各变量上的平均值。如,第一类的2.88521表示被分到第一类的地区表示被分到第一类的地区(北京和上海北京和上海)标准化后的人均标准化后的人均GDP平
7、均值平均值 K-均值聚类的应用(实例分析)利用方差分析表利用方差分析表可以判断所分的类别是否合理。从表中可以看出,分可以判断所分的类别是否合理。从表中可以看出,分类后各变量在类后各变量在不同类别之间不同类别之间的差异都是显著的的差异都是显著的(P值均接近值均接近0)K-均值聚类的应用(实例分析)由该表可以看出,第一类包括由该表可以看出,第一类包括2个地区,第二类包括个地区,第二类包括11个地区个地区,第三类包括,第三类包括4个地区,第四类包括个地区,第四类包括14个地区个地区K-均值聚类的应用(实例分析)K-均值聚类的应用(分类汇总)类别类别地区地区地区个数地区个数第一类第一类上海,北京上海,
8、北京 2第二类第二类天津,内蒙古,吉林,海南,重庆,贵天津,内蒙古,吉林,海南,重庆,贵州,西藏,甘肃,青海,宁夏,新疆州,西藏,甘肃,青海,宁夏,新疆 11第三类第三类江苏,浙江,山东,广东江苏,浙江,山东,广东 4第四类第四类河北,山西,辽宁,黑龙江,安徽,福河北,山西,辽宁,黑龙江,安徽,福建,江西,河南,湖北,湖南,广西,建,江西,河南,湖北,湖南,广西,四川,云南,陕西四川,云南,陕西 14聚类分析的注意事项聚类分析的注意事项聚类分析的注意事项聚类分析的注意事项第二节第二节 主成分分析主成分分析一、主成分分析的基本原理什么是主成分分析?(principal component ana
9、lysis)主成分分析的基本思想(以两个变量为例)主成分分析的基本思想(以两个变量为例)去掉了重去掉了重叠信息!叠信息!主成分分析的基本思想(以两个变量为例)二、主成分分析的数学模型主成分分析的数学模型ppppppppppxaxaxayxaxaxayxaxaxay22112222121212121111主成分分析的数学模型主成分分析的数学模型aij为第为第i个主成分个主成分yi和原和原来的第来的第j个变量个变量xj之间的之间的线性相关系数,称为载线性相关系数,称为载荷荷(loading)。比如,。比如,a11表示第表示第1主成分和原来的主成分和原来的第第1个变量之间的相关系个变量之间的相关系数
展开阅读全文