多元统计分析-基于R-语言-课件-主成分分析.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《多元统计分析-基于R-语言-课件-主成分分析.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 基于 语言 课件 成分 分析
- 资源描述:
-
1、多元统计分析中国人民大学:何晓群苏州大学:马学俊基于R语言多元统计分析中国人民大学:何晓群基于R 语言主成分分析主成分分析学习目标:学习目标:1.理解主成分分析的基本理论与方法;2.了解主成分的性质;3.理解主成分的求解方法;4.掌握用R软件求解主成分的方法;5.正确理解软件输出结果并对结果进行分析05主成分分析学习目标:0 55.1 主成分分析的基本原理主成分分析 主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越
2、的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息。5.1 主成分分析的基本原理主成分分析主成分分析是利用降维的5.1 主成分分析的基本原理5.1.1 主成分分析的基本思想u 思想:思想:通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),可以在保留原始变量主要信息的前提下起到降维与简化问题的作用u 主成分与原始变量之间有如下基本关系:主成分与原始变量之间有如下基本关系:每一个主成分都是各原始变量的线性组合;主成分的数目大大少于原始变量的数目;主成分保留了原始变量的绝大多数信息;各主成分之间互不相关5.1 主成分分析的
3、基本原理5.1.1 主成分分析的基本思想5.1 主成分分析的基本原理5.1.2 主成分分析的基本理论5.1 主成分分析的基本原理5.1.2 主成分分析的基本理论5.1 主成分分析的基本原理5.1.2 主成分分析的基本理论5.1 主成分分析的基本原理5.1.2 主成分分析的基本理论5.1 主成分分析的基本原理念5.1.3 主成分分析的几何意义5.1 主成分分析的基本原理念5.1.3 主成分分析的几何意5.2 总体主成分及其性质本节导论5.2 总体主成分及其性质本节导论 5.2.1 从协方差矩阵出发求解主成分结论5.2 总体主成分及其性质引论引论5.2.1 从协方差矩阵出发求解主成分结论5.2 总
4、体主成分5.2.1 从协方差矩阵出发求解主成分结论5.2 总体主成分及其性质结论结论5.2.1 从协方差矩阵出发求解主成分结论5.2 总体主成分5.2.2 主成分的性质5.2 总体主成分及其性质定义定义5.15.15.2.2 主成分的性质5.2 总体主成分及其性质定义5.15.2.2 主成分的性质5.2 总体主成分及其性质定义定义5.25.2u 因子负荷量是主成分解释中非常重要的解释依据因子负荷量是主成分解释中非常重要的解释依据,因子负荷量的绝对值大小因子负荷量的绝对值大小刻画了该主成分的主要意义及其成因;因子负荷量与系数向量成正比。刻画了该主成分的主要意义及其成因;因子负荷量与系数向量成正比
5、。5.2.2 主成分的性质5.2 总体主成分及其性质定义5.25.2.2 主成分的性质5.2 总体主成分及其性质定义定义5.35.35.2.2 主成分的性质5.2 总体主成分及其性质定义5.35.2.2 主成分的性质性质15.2 总体主成分及其性质性质2性质3性质4性质55.2.2 主成分的性质性质1 5.2 总体主成分及其性质性质5.2.3 从相关矩阵出发求解主成分5.2 总体主成分及其性质5.2.3 从相关矩阵出发求解主成分5.2 总体主成分及其性5.2.4 由相关阵求主成分时主成分性质的简单形式性质5.2 总体主成分及其性质5.2.4 由相关阵求主成分时主成分性质的简单形式性质5.25.
6、3 样本主成分的导出符符号号定定义义5.3 样本主成分的导出符号定义 5.3 样本主成分的导出由由相相关关阵阵R R求求解解主主成成分分5.3 样本主成分的导出 5.3 样本主成分的导出由由相相关关阵阵R R求求解解主主成成分分5.3 样本主成分的导出 5.4 有关问题的讨论5.4.1 关于由协方差矩阵或相关矩阵出发求解主成分1.1.相同之处相同之处2.2.如何选择如何选择u 求主成分的过程是一致的,实际就是对矩阵结构进行分析的过程求主成分的过程是一致的,实际就是对矩阵结构进行分析的过程,也就是求解特征根的过程。也就是求解特征根的过程。u 对于度量单位不同的指标或取值范围彼此差异非常大的指标对
7、于度量单位不同的指标或取值范围彼此差异非常大的指标,不直接不直接由其协方差矩阵出发进行主成分分析而应该考虑将数据标准化由其协方差矩阵出发进行主成分分析而应该考虑将数据标准化u 对同度量或取值范围在同量级的数据对同度量或取值范围在同量级的数据,直接从协方差矩阵求解主成分直接从协方差矩阵求解主成分为宜。为宜。u 对于从什么出发求解主成分对于从什么出发求解主成分,现在还没有一个定论,要考虑实际情况现在还没有一个定论,要考虑实际情况5.4 有关问题的讨论5.4.1 关于由协方差矩阵或相关矩阵5.4 有关问题的讨论5.4.2 主成分分析不要求数据来自正态总体u 与很多多元统计方法不同与很多多元统计方法不
8、同,主成分分析不要求数据来自正态总体主成分分析不要求数据来自正态总体u 主成分分析的这一特性大大扩展了其应用范围主成分分析的这一特性大大扩展了其应用范围,对多维数据对多维数据,只要是涉只要是涉及降维的处理我们都可以尝试用主成分分析而不用花太多精力考虑其及降维的处理我们都可以尝试用主成分分析而不用花太多精力考虑其分布情况分布情况。5.4 有关问题的讨论5.4.2 主成分分析不要求数据来自正5.4 有关问题的讨论5.4.3 主成分分析与重叠信息5.4 有关问题的讨论5.4.3 主成分分析与重叠信息 5.5 主成分分析步骤及框图5.5.1 主成分分析步骤step1:step1:根据研究问题选取初始分
9、析变量根据研究问题选取初始分析变量;step2:step2:根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分;step3:step3:求协方差阵或相关阵的特征根与相应标准特征向量求协方差阵或相关阵的特征根与相应标准特征向量;step4:step4:判断是否存在明显的多重共线性判断是否存在明显的多重共线性,若存在若存在,则回到第步则回到第步;step5:step5:得到主成分的表达式并确定主成分个数得到主成分的表达式并确定主成分个数,选取主成分选取主成分;step6:step6:结合主成分对研究问题进行分析并深入研究。结合主成分
10、对研究问题进行分析并深入研究。5.5 主成分分析步骤及框图5.5.1 主成分分析步骤s t e5.6 主成分分析的上机实现 【例例5-15-1】为掌握我国各地区主要行业的城镇私营企业就业人员的平均工资水平为掌握我国各地区主要行业的城镇私营企业就业人员的平均工资水平,选取选取20162016年我国年我国3030个省、直辖市、自治区个省、直辖市、自治区(西藏地区数据缺失西藏地区数据缺失)9)9个行业就业人员的平均工资数据个行业就业人员的平均工资数据(数据数据来源于来源于20172017年年中国统计年鉴中国统计年鉴)。我们用主成分分析方法处理该数据。我们用主成分分析方法处理该数据,以期用较少的变量描
11、以期用较少的变量描述这些行业各地区就业人员的工资水平。本例中各变量的量纲差别不大述这些行业各地区就业人员的工资水平。本例中各变量的量纲差别不大,为了保留各变量自身为了保留各变量自身的变异的变异,选择从协方差阵出发求解主成分。主要分为以下三步:选择从协方差阵出发求解主成分。主要分为以下三步:Step1Step1:读入数据:读入数据,计算特征值计算特征值Step2Step2:计算特征向量和因子负荷量:计算特征向量和因子负荷量Step3Step3:第:第3 3步步:进一步分析主成分的选择进一步分析主成分的选择5.6 主成分分析的上机实现 【例5-1】为掌握我5.6 主成分分析的上机实现u Step1
12、Step1:读入数据:读入数据,计算特征值,输入如下:计算特征值,输入如下:1.rm(list=ls()2.ex5.1 dat51 rownames(dat51)#协方差矩阵6.sigm my51#特征值9.lam p#方差贡献率12.cumlam VE colnames(VE)print(VE)5.6 主成分分析的上机实现S t e p 1:读入数据,计算特征值5.6 主成分分析的上机实现u Step1Step1:读入数据:读入数据,计算特征值,我们使用计算特征值,我们使用eigeneigen函数对协方差矩阵进行特征值分解。第函数对协方差矩阵进行特征值分解。第一主成分的方差贡献率为一主成分的
13、方差贡献率为82.302%,82.302%,是保留的特征根占所有特征根的和的比值是保留的特征根占所有特征根的和的比值,由此可见由此可见第一主成分解释原始变量总差异的效果比较好。第二个主成分的方差贡献率为第一主成分解释原始变量总差异的效果比较好。第二个主成分的方差贡献率为8.857%,8.857%,这个相对第一主成分贡献率低很多。碎石图显示选择这个相对第一主成分贡献率低很多。碎石图显示选择2 2个主成分比较好。个主成分比较好。16.1 特征根 贡献率 累计贡献率17.2 768365315 0.823019789 0.823019818.2 82685252 0.088566724 0.9115
14、86519.3 29249216 0.031329738 0.942916320.4 17215863 0.018440442 0.961356721.5 14296274 0.015313180 0.976669922.6 7511072 0.008045341 0.984715223.7 6169207 0.006608028 0.991323224.8 5030735 0.005388576 0.996711825.9 3069824 0.003288183 1.000000026.#碎石图27.plot(lam,type=o,xlab=主成分序号,ylab=特征值)5.6 主成分分析的
15、上机实现S t e p 1:读入数据,计算特征值5.6 主成分分析的上机实现u Step2Step2:计算特征向量和因子负荷量。:计算特征向量和因子负荷量。1.#特征向量2.gam colnames(gam)print(gam,1:2)5.vec1 vec26.1,-0.1191864-0.319971097.2,-0.2320962-0.356934528.3,-0.1694318-0.353153119.4,-0.1452976-0.3842006310.5,-0.1302961-0.2754620511.6,-0.7438316 0.5106414512.7,-0.4091319 0.0
16、737365413.8,-0.2533333-0.1232186014.9,-0.2833341-0.375013425.6 主成分分析的上机实现S t e p 2:计算特征向量和因子负5.6 主成分分析的上机实现u Step2Step2:计算特征向量和因子负荷量。:计算特征向量和因子负荷量。15.#因子负荷量16.lam_ma sigmai#特征向量*特征根的算数平方根19.gamsla load colnames(load)print(load,1:2)23.load1 load224.1,-0.6478731-0.5705638225.2,-0.8469924-0.4272973726.
17、3,-0.6590387-0.4506187127.4,-0.6636656-0.5756773228.5,-0.7368664-0.5110333629.6,-0.9717312 0.2188354830.7,-0.9320512 0.0551047831.8,-0.9099041-0.1451810032.9,-0.8757826-0.380254525.6 主成分分析的上机实现S t e p 2:计算特征向量和因子负5.6 主成分分析的上机实现u Step3Step3:进一步分析主成分的选择。第一主成分和第二主成分对原始各变量方差贡献:进一步分析主成分的选择。第一主成分和第二主成分对原始
18、各变量方差贡献率的和率的和,即即0.412+0.145+=7.483,0.412+0.145+=7.483,以及该主成分占所有主成分对原始变量方差贡以及该主成分占所有主成分对原始变量方差贡献率总和献率总和(等于等于9)9)的比值为的比值为0.8320.832。这说明前面选择两个主成分比较合适。这说明前面选择两个主成分比较合适。1.#定义5.3 第一和二主成分对X1-X9的方差贡献率2.VV print(VV,1:2)4.load1 load25.1,0.4197396 0.3255430736.2,0.7173962 0.1825830467.3,0.4343320 0.2030572258.
展开阅读全文