1、第第11章章 因子分析因子分析因子分析是利用降维的思想,把一些具有错综复杂关系的变量归结为少数几个不可观测的综合因子的一种多变量统计分析方法。11.1 因子分析引例因子分析引例体育科学研究涉及的变量较多,有些变量之间相关性高,而有些变量之间相关性低。因子分析的基本思想是根据相关性的大小将变量分组,使得同组内变量间的相关性较高,不同组的变量间的相关性较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构称为公共因子。通常因子分析的目的在于从一些有错综复杂关系的问题中找出少数几个主要因子,这些主要因子可以帮助我们对复杂的问题进行分析和解释。因此,因子分析就是用少数几个因子来描
2、述许多指标或因素之间的联系,以较少几个因子反映原资料的大部分信息的统计学方法。英国统计学家Moser scott在1961年对英国157个城镇发展水平进行调查时,原始测量的变量有57个,而通过因子分析发现,只需要用5个新的综合变量(它们是原始变量的线性组合),就可以解释95的原始信息。对问题的研究从57维度降低到5个维度,因此中以进行更容易的分析。另外一个十分著名的因子分析研究,是美围统计学家stone在1947年关于国民经济的研究,它根据美国1927年到1938年的数据,得到17个反映国民收入与支出的变量要素,经过因子分析,得到了3个新的变量,可以解释17个原始变量97.4的信息。下面举一个
3、因子分析在体育中的应用案例下面举一个因子分析在体育中的应用案例:例如例如,我们测试了某体院120名学生八项身体素质指标,包括100米、背抛铅球、卧推、跳高、60米、400米、30米和立定跳远。这八个变量中,100米和60米、400米、30米起跑相关较高,背抛铅球、卧推之间相关较高,跳高和立定跳远之间相关较高。这样,可以将八个变量分成三组。100米、60米、400米、30米起跑为一组,反映了学生的素速度素质;背抛铅球、卧推为一组,反映了学生的上肢力量;跳高和立定跳远为一组,反映了学生的下肢爆发力。学生的素度素质、上肢力量、下肢爆发力就是因子,它们是各组变量的共同特征。因子分析的特点:(1)因子变
4、量的数量远少于原有的指标变量的数量,对因子变量的分析能够减少分析中的计算工作量。(2)因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,它能够反映原有变量大部分的信息。(3)因子变量之间不存在线性相关关系,对变量的分析比较方便。(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。利用因子分析方法可以寻找变量间的潜在结构,也可以评价问卷的结构效度等。11.2 因子分析基本原理因子分析基本原理一、因子分析的基本模型一、因子分析的基本模型因子分析的数学模型可表示成如下形式:其中:F1,Fm是公共因子(以下在不会引起混淆时简称因子),是只和 Zi有关的特殊因子(也称
5、为误差项),它们分别只对某一个原始观测变量起作用。pmpmpppmmmmFaFaFaZFaFaFaZFaFaFaZ2211222221212112121111二、因子模型中指标的统计意义二、因子模型中指标的统计意义1因子负荷因子负荷由于变量进行了标准化处理,因此,因子负荷就是变量Zi与因子Fj的相关系数rZiFj,它既反映了Zi依赖于Fj的程度,也反映了Zi在因子Fj上的相对重要性。2变量共同度变量共同度它度量了全部m个公共因子对变量Zi方差的贡献,反映了变量Zi对公共因子的依赖程度。第二部分是特殊因子的方差,称为特殊方差。mjijiah122 3公共因子公共因子Fj的方差贡献的方差贡献 j=
6、1,2,m 表示第j个公共因子Fj对所有变量Z1,Z2,Zp的总影响或方差贡献,它是是衡量公共因子相对重要性的指标。越大,表明Fj对所有变量Z1,Z2,Zp的贡献越大。若将 (j=1,2,m)都计算出来,并按其大小排序,就可以产生最有影响的几个公共因子。piijjag1222jg2jg三、因子分析结果的解释三、因子分析结果的解释【例例11-1】对120名某体院学生8个项目的成绩做因子分析得出3个公共因子,因子负荷、共同度和方差贡献率见表10-1,试解释因子分析结果。11.3 因子分析过程因子分析过程因子分析通常有如下步骤:计算相关矩阵。因子提取。因子旋转。计算因子得分。对因子做出解释。其中前4
7、步都可以由计算机软件完成。11.4 因子分析的适用条件因子分析的适用条件1.样本量样本量 样本量与变量数的比例应在样本量与变量数的比例应在5:1以上,实际上理以上,实际上理想的样本量应为变量数的想的样本量应为变量数的1025倍,但这很难做到。倍,但这很难做到。510倍之间虽略显不足,但一般都能得到较好的结倍之间虽略显不足,但一般都能得到较好的结果。果。总样本量不得少于总样本量不得少于100,而且原则上越大越好。,而且原则上越大越好。参考:张文彤主编参考:张文彤主编.SPSS11统计分析教程统计分析教程(高级篇)(高级篇).北京希望电子出版社北京希望电子出版社.2002年年6月月.2.相关性相关
8、性KM0统计量:用于探查变量间的偏相关性,它比较的是各变量间的简单相关和偏相关的大小,取值范围在01之间。如果各变量间存在内在联系,则由于计算偏相关时控制其他因素就会同时控制潜在变量,导致偏相关系数远远小于简单相关系数,此时KMO统计量接近1,做因子分析的效果好。一般认为当KMO大于0,9时效果最佳,0.80.9时适合,0.70.8时效果尚可,0.60.7时不太适合,0.5以下时不适宜做因子分析。Banletts球形检验:用于检验相关阵是否是单位阵,即各变量是否各自独立。它的零假设相关系数矩阵是一个单位阵,即相关系数矩阵对角线上的所有元素都为1,所有非对角线上的元素都为零。如果结论拒绝零假设,
9、则认为相关系数据不可能是单位阵,即原始变量之间存在相关性,适合于作因子分析;相反,如果该统计量比较小,且其对应的相伴概率大于显著性水平,则不能拒绝零假设,认为相关系数矩阵可能是单位阵,说明这些变量可能各自独立提供一些信息,之间恐怕没什么联系,不适宜做因子分析。11.5 因子分析因子分析SPSS实例实例【例例】在运动选材中,测得42名学生的8项身体形态指标:体重、身高、坐高、上肢长、胸围、腰围、肩宽、骨盆宽,数据资料见图11-0-1和图11-0-2所示,试进行因子分析。结果如下:结果如下:图图11-0-1 42名男子的名男子的8项身体形态指标数据(项身体形态指标数据(1)实例图实例图11-0-2
10、 42名男子的名男子的8项身体形态指标数据(项身体形态指标数据(2)Descriptive Statistics(描述统计量)(描述统计量)Mean(均值)Std.Deviation(标准差)Analysis N(分析个案数N)体重54.99294.7283042身高164.19294.3878142坐高87.99522.5476942上肢长69.80484.1043142胸围82.85713.7113042腰围66.89763.5252742肩宽33.98812.5312942骨盆宽29.42862.0651942Correlation Matrix(相关矩阵)(相关矩阵)体重身高坐高上肢长
11、胸围腰围肩宽骨盆宽Correlation(相关)体重1.000.768.763.473.534.840.338.535身高.7681.000.748.558.061.541.310.511坐高.763.7481.000.453.240.575.242.410上肢长.473.558.4531.000.015.245.068.197胸围.534.061.240.0151.000.725.324.375腰围.840.541.575.245.7251.000.407.582肩宽.338.310.242.068.324.4071.000.550骨盆宽.535.511.410.197.375.582.55
12、01.000方差贡献表方差贡献表成份序号初始特征值及方差贡献旋转前因子的方差贡献旋转后因子的方差贡献特征值方差%累积方差%合计方差%累积方差%合计方差的%累积方差%14.26553.31653.3164.26553.31653.3162.78234.77234.77221.44218.03171.3471.44218.03171.3472.11526.43661.2083.89611.20382.550.89611.20382.5501.70721.34282.5504.5446.79689.3465.4145.17894.5236.2443.05297.5767.1151.43499.010
13、8.079.990100.000提取方法:主成份分析。旋转因子矩阵Component123 体 重.706.608.237身 高.872.090.331坐 高.794.306.169上肢长.802-.051-.043胸 围-.062.940.164腰 围.398.806.315肩 宽.037.148.901骨盆宽.293.294.757因子命名:旋转后的因子矩阵比较容易解释因子。在因子1上负荷较大的顺序是身高、上肢长、坐高和体重,可命名大为“长度因子”;在因子2上负荷较大的是胸围、腰围和体重,可命名大为“围度因子”;在因子3上负荷较大的是肩宽和骨盆宽。可命名大为“宽度因子”。因此,影响身体形态的因素依次是长度、围度和宽度。