应用SPSS进行主成分分析与因子分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《应用SPSS进行主成分分析与因子分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 SPSS 进行 成分 分析 因子分析 课件
- 资源描述:
-
1、第13章 主成分分析与因子分析介绍:介绍:1、主成分分析与因子分析的概念、主成分分析与因子分析的概念 2、主成分分析与因子分析的过程、主成分分析与因子分析的过程主成分分析与因子分析的概念需要与可能:在各个领域的科学研究中,往往需要对反映事物的需要与可能:在各个领域的科学研究中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许度上增加了数据采集
2、的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性,同时对多变量之间可能存在相关性而增加了问题分析的复杂性,同时对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。因此需要找到一个合理的方法,减少分析指标的同时,尽结论。因此需要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。量减少原指标包含信息的损失,对所收集的资料作全面的分析。由
3、于各变量间存在一定的相关关系,因此有可能用较少的综合指由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析标分别综合存在于各变量中的各类信息。主成分分析与因子分析就是这样一种降维的方法。就是这样一种降维的方法。主成分分析与因子分析是将多个实测变量转换为少数几个不相关主成分分析与因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法的综合指标的多元统计分析方法直线综合指标往往是不能直接观测到的,但它更能反映事物的本直线综合指标往往是不能直接观测到的,但它更能反映事物的本质。因此在医学、心理学、经济学等科学领域以及社会化
4、生产中质。因此在医学、心理学、经济学等科学领域以及社会化生产中得到广泛的应用。得到广泛的应用。主成分分析与因子分析的概念(续)由于实测的变量间存在一定的相关关系,由于实测的变量间存在一定的相关关系,因此有可能用较少数的综合指标分别综因此有可能用较少数的综合指标分别综合存在于各变量中的各类信息,而综合合存在于各变量中的各类信息,而综合指标之间彼此不相关,即各指标代表的指标之间彼此不相关,即各指标代表的信息不重叠。综合指标称为因子或主成信息不重叠。综合指标称为因子或主成分(提取几个因子),一般有两种方法:分(提取几个因子),一般有两种方法:w特征值特征值1w累计贡献率累计贡献率0.8主成分分析实例
5、P316不旋转使用默认值进行最简单的使用默认值进行最简单的主成分分析主成分分析(默认为主成分分析法默认为主成分分析法:Principal components)例子例子P316:对美国洛杉矶:对美国洛杉矶12个人口调查区的个人口调查区的5个经济学变量的数据进行因个经济学变量的数据进行因子分析,子分析,data13-01a,数据见下一张幻灯片),数据见下一张幻灯片)菜单:AnalyzeData ReductionFactornVariables:pop,School,employ,Services,housen其他使用默认值(主成分分析法Principal components,选取特征值1,不
6、旋转)n比较有用的结果:两个主成分比较有用的结果:两个主成分(因子因子)f1,f2及因子载荷矩阵及因子载荷矩阵(Component Matrix),根据该,根据该表可以写出每个原始变量(标准化值)的因子表达式:表可以写出每个原始变量(标准化值)的因子表达式:Pop 0.581f1+0.806f2 School 0.767f1-0.545f2 employ 0.672f1+0.726f2 Services 0.932f1-0.104f2 house 0.791f1-0.558f2n每个原始变量都可以是每个原始变量都可以是5个因子的线性组合,提取两个因子个因子的线性组合,提取两个因子f1和和f2,
7、可以概括原始变量所包,可以概括原始变量所包含信息的含信息的93.4%。f1和和f2前的系数表示该因子对变量的影响程度,也称为变量在因子上的前的系数表示该因子对变量的影响程度,也称为变量在因子上的载荷。载荷。n但每个因子(主成分)的系数但每个因子(主成分)的系数(载荷载荷)没有很明显的差别,所以不好命名。没有很明显的差别,所以不好命名。因此为了对因子因此为了对因子进行命名,可以进行旋转,使系数向进行命名,可以进行旋转,使系数向0和和1两极分化,这就要使用选择项。两极分化,这就要使用选择项。洛衫矶对洛衫矶对12个人口调查区的数据个人口调查区的数据编号编号 总人口总人口 中等学校平均中等学校平均 总
8、雇员数总雇员数 专业服务专业服务 中等房价中等房价no pop 校龄校龄School employ 项目数项目数Services house15700 12.8 2500 270 25000 21000 10.9 600 10 10000 33400 8.8 1000 10 9000 43800 13.6 1700 140 2500054000 12.8 1600 140 25000 68200 8.3 2600 6012000 71200 11.4 400 1016000 89100 11.5 3300 6014000 99900 12.5 3400 180 18000109600 13.7
9、 3600 390 25000119600 9.6 3300 80 12000129400 11.4 4000 100 13000因子分析实例322旋转Rotation由于系数没有很明显的差别由于系数没有很明显的差别,所以要进行旋转所以要进行旋转(Rotation:method一般用一般用Varimax方方差最大旋转差最大旋转),使系数向使系数向0和和1两极分化两极分化,例子同上例子同上菜单:菜单:AnalyzeData ReductionFactornVariables:pop,School,employ,Services,housenExtraction:使用默认值(:使用默认值(meth
10、od:Principal components,选取特征值,选取特征值1)nRotation:method选选VarimaxnScore:Save as variables 和和Display factor score Coefficient matrixn比较有用的结果:两个主成分比较有用的结果:两个主成分(因子因子)f1,f2及旋转后的因子载荷矩阵及旋转后的因子载荷矩阵(Rotated Component Matrix),根据该表可以写出每个原始变量(标准化值)的因子表达式:,根据该表可以写出每个原始变量(标准化值)的因子表达式:Pop 0.01602 f1+0.9946f2 School
11、 0.941f1-0.00882f2 employ 0.137f1+0.98f2 Services 0.825f1+0.447f2 house 0.968f1-0.00605f2n第一主因子对中等学校平均校龄第一主因子对中等学校平均校龄,专业服务项目专业服务项目,中等房价有绝对值较大的载荷中等房价有绝对值较大的载荷(代代表一般社会福利表一般社会福利-福利条件因子福利条件因子);而第二主因子对总人口和总雇员数有较大的载荷而第二主因子对总人口和总雇员数有较大的载荷(代表人口代表人口-人口因子人口因子).P326n比较有用的结果比较有用的结果:因子得分因子得分fac1_1,fac2_1。其计算公式:
12、因子得分系数和原始。其计算公式:因子得分系数和原始变量的标准化值的乘积之和(变量的标准化值的乘积之和(P326)。然后可以利用因子得分进行聚类。然后可以利用因子得分进行聚类p327(Analyze-Classify-Hierarchical Cluster)。)。主成分分析实例P330 不旋转市场研究中的顾客偏好分析在市场研究中,常常要求分析顾客的偏好和当前市场的产品与顾在市场研究中,常常要求分析顾客的偏好和当前市场的产品与顾客偏好之间的差别,从而找出新产品开发的方向。顾客偏好分析客偏好之间的差别,从而找出新产品开发的方向。顾客偏好分析时常用到主成分分析方法(因子没有旋转)。时常用到主成分分析
13、方法(因子没有旋转)。例子例子P330:数据来自:数据来自SAS公司,公司,1980年一个汽车制造商在竞争年一个汽车制造商在竞争对手中选择了对手中选择了17种车型,访问了种车型,访问了25个顾客,要求他们根据自己的个顾客,要求他们根据自己的偏好对偏好对17种车型打分。打分范围种车型打分。打分范围09.9,9.9表示最高程度的偏表示最高程度的偏好。好。data13-02a(1725:17个个case,25个变量个变量V1-V25)菜单:AnalyzeData ReductionFactornVariables:V1-V25nExtraction:method:Principal componen
14、ts Extract:Number of factors:3 要三个主成分nScore:Save as variablesn比较有用的结果:比较有用的结果:3个主成分及其个主成分及其因子载荷矩阵因子载荷矩阵(Component Matrix):第一主第一主成分和第二主成分的载荷图(成分和第二主成分的载荷图(Loading plots)n比较有用的结果比较有用的结果:因子得分因子得分fac1_1,fac2_1,fac3_1。然后可以利用因子得分。然后可以利用因子得分进行各种分析:做偏好图:进行各种分析:做偏好图:用用fac1_1,fac2_1做散点图(做散点图(Graphs-Scatter:X-
15、fac1_1,Y-fac2_1):第一主成分反映了车的产地,第二主成分反映了车第一主成分反映了车的产地,第二主成分反映了车的特性(质量、动力、座位数等)的特性(质量、动力、座位数等)n具体见具体见P332-334补充:补充:主成分分析和因子分析主成分分析和因子分析以下的讲义是吴喜之教授有关主成分分析和因子分析的讲义,我觉得比书上讲得清楚。主成分分析和因主成分分析和因子分析子分析 汇报什么?汇报什么?假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上面介
16、绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?当然不能。你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。主成分分析主成分分析每个人都会遇到有很多变量的数据。比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。本章就介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子分
17、析的一个特例。在引进主成分分析之前,先看下面的例子。成绩数据(成绩数据(student.sav)100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。从本例可能提出的问题从本例可能提出的问题目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。主成分分析主成分分析例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。先假定只有二维,即只有两个变量,它们由横坐标和纵
展开阅读全文