1、SPSS统计分析第10章主成分分析和因子分析1主要内容主要内容10.1 主成分分析和因子分析简介主成分分析和因子分析简介10.2 主成分分析主成分分析10.3 因子分析因子分析10.1主成分分析和因子分析简介主成分分析和因子分析简介10.1.1 基本概念和主要用途基本概念和主要用途(1 1) 基本概念基本概念 主成分分析就是考虑各指标之间的相互关系,利用降维的方法将多个指标转换为少数几个互不相关的指标,从而使进一步研究变得简单的一种统计方法。主成分分析是由Hotelling于1933年首先提出的,是利用“降维”的思想,在损失很少信息的前提下把多个指标转化为几个综合指标,称为主成分。每个主成分均
2、是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。 因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的分析方法,最早是由心理学家Chales Spearman在1904年提出的,它的基本思想是将实测的多个指标,用少数几个潜在指标(因子)的线性组合表示。10.1主成分分析和因子分析简介主成分分析和因子分析简介(2 2)主要用途)主要用途解决共线性问题; 评估问卷的结构效度;寻找变量之间的潜在结构; 内在结构证实。(3 3)常用术语)常用术语因子载荷变量共同度公共因子的方差贡献10.1主成分分析和因子分析简介主成分分析和因子分析简介10.
3、1.2主成分和公因子数量的确定主成分和公因子数量的确定(1 1) 确定时遵循几个原则确定时遵循几个原则主成分的累积贡献率:主成分的累积贡献率:一般来说,提取主成分的累积贡献率达到80%85%以上就比较满意了,可以由此确定需要提取多少个主成分。 特征值:特征值:特征值在某种程度上可以看成表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入原变量的平均解释力度大。因此一般可以用特征值大于1作为纳入标准。 综合判断:综合判断:大量的实际情况表明,如果根据累积贡献率来确定主成分数往往较多,而用特征值来确定又往往较少,很多时候应当将两者结合起来,以综合确定合适的数量。10
4、.1主成分分析和因子分析简介主成分分析和因子分析简介10.1.3 两者两者的区别与联系的区别与联系(1)两者都是在多个原始变量中通过它们之间的内部相关性来获得新的变量(主成分变量或因子变量),达到既能减少分析指标个数,又能概括原始指标主要信息的目的。 (2)提取公因子主要有主成分分析法和公因子法,若采用主成分法,则主成分分析和因子分析基本等价。(3)因子分析提取的公因子比主成分分析提取的主成分更具有解释性。 (4)两者分析的实质和重点不同。 (5)两者的SPSS操作都是通过“分析降维因子分析”过程实现的,主成分分析不需要因子旋转,而因子分析需要经过旋转。主要内容主要内容10.1 主成分分析和因
5、子分析简介主成分分析和因子分析简介10.2 主成分分析主成分分析10.3 因子分析因子分析10.2 主成分分析主成分分析10.2.1 统计原理与分析步骤统计原理与分析步骤(1)(1)统计原理统计原理 10.2 主成分分析主成分分析(1)(1)统计原理统计原理 111 11221221 122221 122mmmmppppmmye xe xe xye xe xexye xexex10.2 主成分分析主成分分析10.2.1 统计原理与分析步骤统计原理与分析步骤(2 2)分析步骤)分析步骤 第1步 原始数据的标准化处理。 第2步 计算相关系数矩阵。第3步 计算特征值及单位特征向量。第4步 计算主成分
6、的方差贡献率和累积方差贡献率。第5步 计算主成分。 10.2 主成分分析主成分分析10.2.2 SPSS实例分析实例分析【例10-1】 为了从总体上反映世界经济全球化的状况,现选择了具有代表性的16个国家的数据,这些国家参与经济全球化的程度指标值如下表所示。试分析一个国家参与经济全球化的程度主要受哪些因素的影响。编号国家x1x2x3x4x5x6x7x8x9x10 x11x12x13x14x151中国3.20554.528.530.8781.4090.89411.62.3050.5472.9324.8189.0032.73.9141.4722印度1.44931.10.2790.3390.2720
7、.12.70.1280.1930.8252.3185.1270.640.2183日本14.07952.30.65310.25411.7691.09701.9671.36.17814.74627.29730.957.73415.1254韩国1.318136.31.0111.60.421.8381.30.770.782.26723.3242.8759.112.1290.4525新加坡0.275739.53.57227.8410.88413.31428.60.6220.1431.885169.772 319.90754.2917.3280.7186美国29.64146.13.6826.42920.5
8、634.8085.424.25329.94115.63810.78424.55513.624.49521.2747加拿大2.056101.50.8988.2762.3135.36910.52.4445.1453.85434.69167.04715.121.831.3628巴西2.43427.11.5842.3270.9622.9056.81.9532.30.8574.71610.1016.75.4981.1049墨西哥1.567151.41.6572.8370.7971.47110.90.670.2122.18618.48537.9864.54.8870.46810英国4.67118.40.4
9、9726.15112.45622.13711.216.55219.6425.54228.43458.766.1278.96811.28911法国4.639120.61.849.2424.49210.8488.58.2825.8415.2128.4654.05229.256.4538.88912德国6.84132.92.2529.5586.6467.7472.28.5898.9718.84332.12163.1743651.51412.1813意大利3.792104.50.3218.1533.7241.0592.50.771.9134.03222.86943.9242717.7765.67814
10、俄罗斯1.358.61.5331.4990.5520.4992.50.310.2980.9877.7712.5811.12.0010.46915澳大利亚1.30994.50.5025.7730.9411.98718.90.5271.3711.13115.74533.79513.224.1170.79710.2 主成分分析主成分分析第第1步步 分析:分析:从数据来看,一共有15个因素,但有些因素是存在相关性的,同时各因素对全球化影响的程度也是不一样的,故可采用主成分分析。 第第2步步 数据组织:数据组织:按如教材所示的“指标”一列定义变量,输入数据并保存。第第3步步 主成分分析的设置:主成分分析
11、的设置:按“分析降维因子分析”顺序打开“因子分析”对话框,将x1x15这15个变量移入“变量”对话框中,并按如下所示的图形进行设置。 10.2 主成分分析主成分分析10.2 主成分分析主成分分析 由于在SPSS中并没有完整的主成分分析过程,其主成分分析过程是集成在“因子分析”过程中的,但并不完善。由于主成分的得分需要对因子得分情况进行进一步计算,故不需设置“得分”子对话框,即不需保存因子得分情况,即使保存了,因子得分也不是各主成分得分的结果。 对于提取因子的个数问题,一般遵循两个标准,其一是累计方差贡献率在80%以上,其二是其特征值大于1。本例之所以设置为3,是因为通过预先分析,发现前3个主成
12、分可以解释总体信息的86.7%。 10.2 主成分分析主成分分析第四步第四步 因子分析的结果:因子分析的结果:特征值和方差贡献表成分初始特征值提取平方和载入合计方差的%累积%合计方差的%累积%16.04940.32540.3256.04940.32540.32525.81338.75579.0805.81338.75579.08031.1427.61686.6961.1427.61686.6964.8765.84292.5385.5993.99696.5346.3262.17498.7097.119.79699.5058.041.27299.7769.018.12199.89710.010.0
13、6399.96111.004.02799.98812.001.00999.99713.000.00299.99914.000.001100.000154.080E-72.720E-6100.000提取方法:主成分分析。从表中可以看出前3个主成分已经解释了总方差的近86.7%,故可以选择前3个主成分进行分析。 10.2 主成分分析主成分分析第四步第四步 因子分析的结果:因子分析的结果:主成分的碎石图 该图从另一个侧面说明了取前三个主成分为宜。10.2 主成分分析主成分分析第四步第四步 因子分析的结果:因子分析的结果:旋转前的因子载荷矩阵 成分123x1.407.805.268x2.596-.72
14、7.209x3-.147.016.821x4.895-.333-.181x5.614.763.028x6.826-.124-.281x7.273-.627.184x8.636.703.041x9.619.703.008x10.552.766.196x11.654-.691.172x12.666-.685.166x13.863-.191-.297x14.728-.632.144x15.579.760.005提取方法 :主成分。a. 已提取了 3 个成分。教材中公式10.7中的 是标准化正交向量,并不是SPSS输出“因子载荷矩阵”中的系数。而“因子载荷矩阵”中各分量的系数为单位特征向量乘以相应的特
15、征值的平方根的结果,其公式为 。故需进一步利用因子分析的结果进行主成分分析。12(,)iiipieeee /ijijiea10.2 主成分分析主成分分析第五步第五步 利用因子分析的结果进行主成分分析。利用因子分析的结果进行主成分分析。10.2 主成分分析主成分分析第六步第六步 主要结果:主要结果:y综编号国家y1y2y31中国-2.190.073.01-0.632印度-2.56-0.11-0.46-1.113日本0.451.85-0.270.884韩国-1.69-0.46-0.27-0.885新加坡5.28-6.261.19-0.206美国3.306.071.463.807加拿大-0.43-0
16、.47-0.31-0.388巴西-1.91-0.06-0.43-0.839墨西哥-1.68-0.680.03-0.9410英国4.460.98-1.752.0511法国0.870.46-0.520.4912德国1.401.34-0.261.0613意大利-0.610.10-0.54-0.2514俄罗斯-2.35-0.20-0.30-1.0515澳大利亚-1.36-0.92-0.30-0.9316新西兰-0.99-1.73-0.28-1.09过综合得分的高低可知各国参与国际化水平的高低,其中美国最高,印度最低。主要内容主要内容10.1 主成分分析和因子分析简介主成分分析和因子分析简介10.2 主
17、成分分析主成分分析10.3 因子分析因子分析10.3 因子分析因子分析10.3.1 统计原理与分析步骤统计原理与分析步骤(1)统计原理)统计原理111 11221221 122221 122mmmmppppmmxa Fa Fa Fxa Fa FaFxa FaFaFXAFa其中x1,x2, ,xp为p个原有变量,是均值为零,标准差为1的标准化变量,F1,F2,Fm为m个因子变量,m小于p,表示成矩阵形式为:10.3 因子分析因子分析10.3.1 统计原理与分析步骤统计原理与分析步骤(2)分析步骤)分析步骤第1步 将原始数据进行标准化;第2步 确定待分析的原有若干变量是否适合于因子分析;第3步 构
18、造因子变量;第4步 利用旋转使得因子变量更具有可解释性;第5步 计算因子变量的得分。计算因子得分和模型为:11jjjppFXXj=1,2,m 10.3 因子分析因子分析10.3.2 SPSS实例分析实例分析【例10-2】 为了研究几个省市的科技创新力问题,现取了2005年8个省市的15个科技指标数据,试分析一个省的科技创新能力主要受哪些潜在因素的影响?省市x1x2x3x4x5x6x7x8x9x10 x11x12x13x14x15北京 229 80.2648.524.49 3.55 5.55 10.23 44774.45 25.0224.1 779.24 226.01 34.42 3183.29
19、 2.12天冿8767.48 36.82 14.08 2.62 1.964.49 35451.77 33.59 21.38 410.34 73.15 25.06 495.78 1.82辽宁4465.69 35.948.342.32 1.562.4518974.2 11.295.57 263.35 22.32 15.21 204.98 1.78上海 104 74.06 35.98 17.84 4.78 2.284.851485.83 39.72 19.08 654.31 112.32 15.85 1303.322江苏5060.79 34.076.82.13 1.473.17 24489.18 4
20、3.13 17.99 206.6816.69.14134.89 1.41浙江5363.48 31.085.423.95 1.221.83 27435.38 7.947.63 257.65 22.665.8279.011.72山东3064.59 33.224.441.81 1.051.59 20022.57 9.175.69 117.739.768.41106.36 1.34广东3569.64 37.275.813.66 1.092.18 24327.32 35.67 24.99 117.5120.45.08122.33 1.4710.3 因子分析因子分析第第1步步 分析:分析:如题所述,要分析
21、一个省的科技创新能力受哪些潜在因素的影响,可用因子分析法进行分析。第第2步步 数据组织:数据组织:建立x1x15共15个数据变量和一个“省市”字符型变量,将北京、天津等8个省市作为个案数据输入并保存。第第3步步 因子分析设置:因子分析设置:按“分析降维因子分析”打开“因子分析”对话框,将x1x15这15个变量移入“变量”对话框中,表示对这15个变量数据进行因子分析。10.3 因子分析因子分析“得分”对话框的设置:单击“得分(S)”按钮,弹出此子对话框,选择“保存为变量”,即将因子得分保存下来。第第4步主要结果及分析:步主要结果及分析:特征值与方差贡献表可以看出前3个特征值大于1,同时这3个公共
22、因子的方差贡献率占了93.924%,说明提取这3个公共因子可以解释原变量的绝大部分信息。10.3 因子分析因子分析旋转前的因子载荷矩阵 表的底部表明使用的是主成分分析法,3个主成分被抽取出来。成分123x1.973-.158.052x2.919.036-.090 x3.883-.161.334x4.985-.004-.022x5.482.497-.664x6.947-.242.131x7.972-.108.178x8.849.340-.301x9.300.834.386x10.611.637.399x11.955-.001-.211x12.992-.091-.001x13.876-.282.2
23、05x14.968-.156.032x15.859-.092-.385提取方法 :主成分。a. 已提取了3个成分。10.3 因子分析因子分析旋转后的因子载荷矩阵 是按照前面设定的“方差极大法”对因子载荷矩阵旋转的结果。在表10.10所示未经旋转的载荷矩阵中,因子变量在许多变量上均有较高的载荷,从旋转后的因子载荷矩阵可以看出,因子1在1、3、4、6、7、12、13、14上有较大载荷 ,反映科技投入与产出情况,可以命名为创新水平因子;因子2在指标5、8、15上有较大载荷,反映地区经济发展及财政科教投入水平,可以命名为创新环境因子;因子3在指标9和指标10上有较大载荷,可以命名为高技术产业发展因子。
24、成分123x1.936.286.130 x2.776.459.202x3.924.016.251x4.867.413.221x5.068.940.180 x6.966.177.095x7.944.202.235x8.541.726.327x9.018.137.956x10.377.172.876x11.794.558.118x12.913.365.161x13.937.071.084x14.926.301.119x15.705.626-.069提取方法:主成分。旋转法:具有Kaiser标准化的正交旋转法。a. 旋转在 5 次迭代后收敛。10.3 因子分析因子分析因子转换矩阵表 表明因子提取的方
25、法是主成分分析,旋转的方法是方差极大法。成分1231.884.403.2392-.405.400.8223.236-.823.517提取方法:主成分。旋转法:具有Kaiser标准化的正交旋转法。因子得分及综合因子得分情况 省市F1F2F3F综合排序山东-0.344-1.001-0.945-0.5368浙江-0.7910.905-1.223-0.4737江苏-0.488-1.0241.073-0.3426广东-0.791-0.1041.202-0.3275辽宁-0.002-0.500-1.206-0.2694天冿0.248-0.2750.5720.1773上海-0.1361.9470.4810.3662北京2.3050.0530.0451.40611230.60280.195070.14137FFFF