主成分分析法 .ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《主成分分析法 .ppt》由用户(saw518)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 主成分分析法 成分 分析
- 资源描述:
-
1、主成分分析法主成分分析法4.1 主成分分析法的基本原理主成分分析法的基本原理 主成分分析(Principal Components Analysis)是由Hotelling于1933年首先提出的,它是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。4.1.1 基本思想基本思想 对原始变量相关矩阵结构关系进行研究,找出影响某一经济过程的几个综合指标,使综合指标变为原来变量的线性组合,从而不仅保留了原始变量的主要信息,彼此之间又不相关,更有助于抓住主要矛盾。借助于一个正交变换T,将其分量相关的原随机向量x=(x1,x2,L,xp)T,转化成其分向量不相关的新随机向量u=(u1,u
2、2,L,up)T,这在代数上表现为将x的协方差阵变换成对角形阵,在几何上表现为将远坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维度变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。定义:称为第k主成分分量的方差贡献率,称为前k个主成分分量的累计方差贡献率。11pkii111pkiiii 例:儿童身高和体重两个变量之间的关系。下表表示儿童身高与体重数据:变量观测量身高h体重w1h1w12h2w23h3w3nhnwn使用散点图表示儿童身高与体重 y1y2 wh i=1,2,n 以该直线为一个坐标轴
3、y1,以该轴的垂直线为另一个坐标轴y2。因为所有观测点均在坐标轴y1周围,而 y1 与 y2 是两个相互垂直的坐标轴,因此彼此不相关。上述也可以看成是将h轴和w轴同时按逆时针方向旋转角度,得到新的坐标轴y1和 y2,y1和 y2是两个新的变量。根据旋转公式 y1=h cos+w sin y2=-h sin+w cos 我们看到新变量 y1和 y2 是原变量h和w的线性组合,它的矩阵表示形式为 y1 cos sin h =Ux y2 一sin cos w其中其中U为正交矩阵,即有为正交矩阵,即有U=U-1,U U-1=I 旋转变换的目的是为了使得n个样本点在 y1 轴方向上的离散程度最大,即 y
4、1的方差最大。变量 y1 代表了原始数据的绝大部分信息,即把原始数据的信息集中到 y1轴上,对数据中包含的信息起到了浓缩作用。y1和 y2 可称为原始变量h和w的综合变量。由于n个点在 y1 轴上的方差最大,因而将二维空间的点的描述用 y1这个综合变量来代替,所损失的信息最小,由此称 y1 为第一主成分,y2为第二主成分。4.1.2 主成分分析法与因子分析法主成分分析法与因子分析法 主成分分析通过线性组合将原变量综合主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原成几个主成分,用较少的综合指标来代替原来较多的指标来较多的指标(变量变量)。在多变量分析中,某些。在多变量分
5、析中,某些变量间往往存在相关性。是什么原因使变量变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?但影响可观测变量变化的公共因子?因子分析法因子分析法(Factor Analysis)就是寻找就是寻找这些公共因子的模型分析方法,它是在主成这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量以它们为框架分解原变量,以此考察原变量间的联系与区别。间的联系与区别。4.1.2 主成分分析法与因子分析法主成
6、分分析法与因子分析法 例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即
7、将相关性高的变量分为一组,用共性因子代替该组变量。4.2 主成分分析的一般数学模型主成分分析的一般数学模型 变量观测量X1X2X3X4Xm1X11X12X13X14X1m2X21X22X23X24X2mnXn1Xn2Xn3Xn4Xnm 推广到一般情况,实测变量X1Xm,共测得n个样品:原始数据矩阵为:X11 X12 X1m X21 X22 X2m Xn1 Xn2 XnmX=在原始变量的m维空间中,找到新的m个坐标轴,新变量与原始变量的关系可以表示为:y1=u11x1+u12x2+u1mxmy2=u21x1+u22x2+u2mxm ym=um1x1+um2x2+ummxm 并且满足uk12+uk
8、22+ukm2=1 k=1,2,m系数uij由下列原则来确定:(1)yi与yj(i j,i,j=1,2,p)相互无关。(2)y1是x1、x2、xp的一切线性组合中方差最大者;y2是与y1不相关的x1、x2、xp的所有线性组合中方差最大者;yp是与y1、y2、yp-1都不相关的x1、x2、xp的所有线性组合中方差最大者。如此决定的综合变量y1、y2、yp分别称为原始变量的第1、第2、第p个主成分。其中y1在总方差中占的比重最大,综合变量y1、y2、yp的方差依次递减,在具体分析时只挑选前几个方差最大的主成分,从而达到简化系统结构的目的。4.3 主成分分析法的算法主成分分析法的算法 主成分分析法原
展开阅读全文