书签 分享 收藏 举报 版权申诉 / 82
上传文档赚钱

类型田间试验与统计方法12-聚类与主成分分析课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:5158410
  • 上传时间:2023-02-15
  • 格式:PPT
  • 页数:82
  • 大小:3.69MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《田间试验与统计方法12-聚类与主成分分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    田间试验 统计 方法 12 成分 分析 课件
    资源描述:

    1、第一节第一节 聚类分析聚类分析第二节第二节 主成分分析主成分分析 第一节第一节 聚类分析聚类分析一、什么是聚类分析一、什么是聚类分析二、相似性的度量二、相似性的度量三、系统聚类三、系统聚类四、四、K-均值聚类均值聚类一、什么是聚类分析?(cluster analysis)什么是聚类分析?(两种分类方式)什么是聚类分析?(按什么分类)二、相似性的度量相似性的度量相似性的度量(样本点间距离的计算方法)相似性的度量(样本点间距离的计算方法)Euclidean距离距离Squared Euclidean距离距离Block距离距离Chebychev距离距离Minkovski距离距离piiiyx12)(qp

    2、iqiiyx1iiyx maxpiiiyx12)(piiiyx1相似性的度量(变量相似系数的计算方法)夹角余弦夹角余弦 Pearson相关系数相关系数iiiiiiixyyxyx22cosiiiiiiixyyyxxyyxxr22)()()(三、系统聚类(hierarchical cluster)系统聚类(合并法)系统聚类(分解法)类间距离的计算方法类间距离的计算方法最短距离法最短距离法(Nearest neighbor)最长距离法最长距离法(Furthest neighbor)重心法重心法(Centroid clustering)组间平均距离组间平均距离(Between-groups linka

    3、ge)离差平方和法离差平方和法(Wards method)ijGxGxkldDljki,minijGxGxkldDljki,max)()(2lklkklxxxxD kiliGxGxijlkkldnnD1lkmklWWWD2类间距离的计算方法实际例子校准化(Z)消除量纲和数量级的影响其它标准化方法Z Scores:标准化后均值为0,标准差为1,其转化函数为:Range-1 to 1:每个变量值除以该变量组的全距;Range 0 t0 1:每变量减最小值后除以该变量组的全距;极差标准化极差标准化 最大值为1:每变量除以该变量组的最大值;均值为1:每变量除以该变量组的平均值;标准差为1:每变量除以该

    4、变量组的标准差。中心标准化、对数标准化、平方根标中心标准化、对数标准化、平方根标准化等等准化等等系统聚类聚类结果解读四、K-均值聚类(K-means cluster)K-均值聚类(步骤)K-均值聚类(步骤)方差分析,看方差分析,看各变量在各变量在不同不同类别类别之间之间的的差异是否显著;差异是否显著;K-均值聚类(步骤)K-均值聚类的应用(实例分析)K-均值聚类的应用(实例分析)数据标准化数据标准化(SPSS)l【Analyze】【Descriptive Statistics】【Descriptives】主对话框主对话框l将需要标准化的变量选入将需要标准化的变量选入【Variable(s)】【

    5、Save standardized values as variables】【OK】K-均值聚类的应用(实例分析)K-均值聚类的应用(实例分析)该表列出每一类别的初始聚类中心,本例的这些中心是由该表列出每一类别的初始聚类中心,本例的这些中心是由SPSS自动生自动生成的,它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心成的,它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心点距离其他点尽可能远。例如,第一类的聚类中心是点距离其他点尽可能远。例如,第一类的聚类中心是3.17960,这实际上,这实际上就是上海的人均就是上海的人均GDP标准化后的值。第二类聚类中心是标准化后的值。第二

    6、类聚类中心是1.83293则是天津则是天津的标准化人均的标准化人均GDP,等等,等等K-均值聚类的应用(实例分析)该表该表从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数的增加,类别中心点的变化越来越小。本例只的增加,类别中心点的变化越来越小。本例只4次就已经收敛了次就已经收敛了K-均值聚类的应用(实例分析)表中的数据表示各个类别在各变量上的平均值。如,第一类的表中的数据表示各个类别在各变量上的平均值。如,第一类的2.88521表示被分到第一类的地区表示被分到第一类的地区(北京和上海北京和上海)标准化后的人均标准化后的人均GDP平

    7、均值平均值 K-均值聚类的应用(实例分析)利用方差分析表利用方差分析表可以判断所分的类别是否合理。从表中可以看出,分可以判断所分的类别是否合理。从表中可以看出,分类后各变量在类后各变量在不同类别之间不同类别之间的差异都是显著的的差异都是显著的(P值均接近值均接近0)K-均值聚类的应用(实例分析)由该表可以看出,第一类包括由该表可以看出,第一类包括2个地区,第二类包括个地区,第二类包括11个地区个地区,第三类包括,第三类包括4个地区,第四类包括个地区,第四类包括14个地区个地区K-均值聚类的应用(实例分析)K-均值聚类的应用(分类汇总)类别类别地区地区地区个数地区个数第一类第一类上海,北京上海,

    8、北京 2第二类第二类天津,内蒙古,吉林,海南,重庆,贵天津,内蒙古,吉林,海南,重庆,贵州,西藏,甘肃,青海,宁夏,新疆州,西藏,甘肃,青海,宁夏,新疆 11第三类第三类江苏,浙江,山东,广东江苏,浙江,山东,广东 4第四类第四类河北,山西,辽宁,黑龙江,安徽,福河北,山西,辽宁,黑龙江,安徽,福建,江西,河南,湖北,湖南,广西,建,江西,河南,湖北,湖南,广西,四川,云南,陕西四川,云南,陕西 14聚类分析的注意事项聚类分析的注意事项聚类分析的注意事项聚类分析的注意事项第二节第二节 主成分分析主成分分析一、主成分分析的基本原理什么是主成分分析?(principal component ana

    9、lysis)主成分分析的基本思想(以两个变量为例)主成分分析的基本思想(以两个变量为例)去掉了重去掉了重叠信息!叠信息!主成分分析的基本思想(以两个变量为例)二、主成分分析的数学模型主成分分析的数学模型ppppppppppxaxaxayxaxaxayxaxaxay22112222121212121111主成分分析的数学模型主成分分析的数学模型aij为第为第i个主成分个主成分yi和原和原来的第来的第j个变量个变量xj之间的之间的线性相关系数,称为载线性相关系数,称为载荷荷(loading)。比如,。比如,a11表示第表示第1主成分和原来的主成分和原来的第第1个变量之间的相关系个变量之间的相关系数

    10、,数,a21表示第表示第2主成分主成分和原来的第和原来的第1个变量之间个变量之间的相关系数的相关系数主成分的选择主成分的选择三、主成分分析的步骤 数据检验 数据检验 主成分分析的步骤主成分分析(实例分析)第第1步步 选择【Analyze】下拉菜单,并选择【Data Reduction-Factor】,进入主对话框第第2步步 在主对话框中将所有原始变量选入【Variables】第第3步步 点击【Descriptives】,在【correlation Matrix】下选择 【Coefficirnts】,点击【Continue】回到主对话框第第4步步 点击【Extraction】,在【Display

    11、】下选择【Scree Plot】,点击【Continue】回到主对话框第第5步步 点击【Rotation】,在【Display】下选择【Loading Plot】,点击【Continue】回到主对话框 点击【OK】用SPSS进行主成分分析SPSS的输出结果变量之间的存在较强的相关关系,适合作主成分分析变量之间的存在较强的相关关系,适合作主成分分析 SPSS的输出结果(选择主成分)该表是选择主成分的主要依据该表是选择主成分的主要依据根据什么选择主成分?根据什么选择主成分?nSPSS还提供了一个更还提供了一个更为直观的图形工具来帮为直观的图形工具来帮助选择主成分,即碎石助选择主成分,即碎石图图(S

    12、cree Plot)n从碎石图可以看到从碎石图可以看到6个个主轴长度变化的趋势主轴长度变化的趋势n实践中,通常结合具体实践中,通常结合具体情况,选择碎石图中变情况,选择碎石图中变化趋势出现拐点的前几化趋势出现拐点的前几个主成分作为原先变量个主成分作为原先变量的代表,该例中选择前的代表,该例中选择前两个主成分即可两个主成分即可根据什么选择主成分?(Scree Plot)拐点拐点怎样解释主成分?l表表1中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数成分分析模型中的系数aijl比如,第一主成分所在列的系数比

    13、如,第一主成分所在列的系数0.670表示第表示第1个主成分和原来的第一个变个主成分和原来的第一个变量量(人均人均GDP)之间的线性相关系数。这个系数越大,说明主成分对该变量之间的线性相关系数。这个系数越大,说明主成分对该变量的代表性就越大的代表性就越大怎样解释主成分?(主成分与原始变量的关系)65432126543211263.0721.0728.0351.0055.0725.0950.0674.0633.0896.0976.0670.0 xxxxxxyxxxxxxy注意:表达式中的不是原始变量,而是标准化变量注意:表达式中的不是原始变量,而是标准化变量n 载荷图载荷图(Loading Plo

    14、t)直观显示直观显示主成分对原始主成分对原始6变量的解释情况变量的解释情况n 图中横轴表示第一个主成分与原图中横轴表示第一个主成分与原始变量间的相关系数;纵轴表示始变量间的相关系数;纵轴表示第二个主成分与原始变量之间的第二个主成分与原始变量之间的相关系数相关系数n 每一个变量对应的主成分载荷就每一个变量对应的主成分载荷就对应坐标系中的一个点,比如,对应坐标系中的一个点,比如,人均人均GDP变量对应的点是变量对应的点是(0.670,0.725)n 第一个主成分很充分地解释了原第一个主成分很充分地解释了原始的始的6个变量个变量(与每个原始变量都与每个原始变量都有较强的正相关关系有较强的正相关关系)

    15、,第二个,第二个主成分则较好地解释了居民消费主成分则较好地解释了居民消费水平、人均水平、人均GDP和年末总人口和年末总人口这这3个变量个变量(与它们的相关关系较与它们的相关关系较高高),而与其他变量的关系则较,而与其他变量的关系则较弱弱(相关系数的点靠近坐标轴相关系数的点靠近坐标轴)怎样解释主成分?(Loading Plot)相关系数的点越相关系数的点越远离坐标轴,主远离坐标轴,主成分对原始变量成分对原始变量的代表性就越大的代表性就越大。这。这3个点远离主个点远离主成分成分2的坐标的坐标主成份分析的环境应用KMO(Kaiser-Meyer-Olkin)检验统计量是用于比较变量间简单相检验统计量

    16、是用于比较变量间简单相关系数和偏相关系数的指标。关系数和偏相关系数的指标。KMO统计量是取值在统计量是取值在0和和1之间。之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,时,KMO值接近值接近1.KMO值越接近于值越接近于1,意味着变量间的相关性越意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近平方和接近0时,时,KMO值接近值接近0.KMO值越接近于值越接近于0,意味着变量间意味着变量间的相关性越弱,原有变量越不适合作因子分

    17、析。的相关性越弱,原有变量越不适合作因子分析。Kaiser给出了常给出了常用的用的kmo度量标准度量标准:0.9以上表示非常适合;以上表示非常适合;0.8表示适合;表示适合;0.7表表示一般;示一般;0.6表示不太适合;表示不太适合;0.5以下表示极不适合。以下表示极不适合。Bartlett 球度检验:球度检验:巴特利特球度检验的统计量是根据相关系数矩巴特利特球度检验的统计量是根据相关系数矩阵的行列式得到的,如果该值较大,且其对应的相伴概率值小于阵的行列式得到的,如果该值较大,且其对应的相伴概率值小于用户心中的显著性水平,那么应该拒绝零假设,认为相关系数矩用户心中的显著性水平,那么应该拒绝零假

    18、设,认为相关系数矩阵不可能是单位阵,即原始变量之间存在相关性,适合于做主成阵不可能是单位阵,即原始变量之间存在相关性,适合于做主成份分析;相反,如果该统计量比较小,且其相对应的相伴概率大份分析;相反,如果该统计量比较小,且其相对应的相伴概率大于显著性水平,则不能拒绝零假设,认为相关系数矩阵可能是单于显著性水平,则不能拒绝零假设,认为相关系数矩阵可能是单位阵,不宜于做因子分析。位阵,不宜于做因子分析。R 相关矩阵0.7 表明适合进行主因子分析。Bartlett 检验拒绝0假设,也认为适合进行主因子分析。方差贡献(方差贡献(特征值)特征值)特征特征向量向量平方根平方根本例是这本例是这样求,不样求,不能推广。能推广。特征值特征向量特征值特征向量求特征值特征向量(不同矩阵,具体求法不同,求特征值特征向量(不同矩阵,具体求法不同,略)略)e7e5e8e1e6e2e3e4F1=0.577x1+0.577x2+0.577x3特征向量特征向量主成分分析评价结果第一季度:第二季度:第三季度:第四季度:如果提取的不只一个主成分,怎么办?如果提取的不只一个主成分,怎么办?.THE END,THANKS!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:田间试验与统计方法12-聚类与主成分分析课件.ppt
    链接地址:https://www.163wenku.com/p-5158410.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库