地质数据处理课件:12-主成份分析.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《地质数据处理课件:12-主成份分析.ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 地质 数据处理 课件 12 成份 分析
- 资源描述:
-
1、1主成份分析洪金益洪金益中南大学地学院中南大学地学院地质数据处理基础122第12章 主成分分析 1 引言 2 总体的主成分 3 样本的主成分31 引言 主成分分析(或称主分量分析,principal component analysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。 主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。 主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。4寻找主成分的正交旋转 旋转公式
2、:112212cossinsincosyxxyxx 52 总体的主成分 一、主成分的定义及导出 二、主成分的性质 三、从相关阵出发求主成分6一、主成分的定义及导出 设 为一个p维随机向量,E(x)=, V(x)=。考虑如下的线性变换希望在约束条件 下寻求向量a1,使得 达到最大,y1就称为第一主成分。 设12 p0为的特征值, , i=1,2, ,p为相应的单位特征向量,且相互正交。则可求得第一主成分为它的方差具有最大值1。12( ,)px xxx111 121211ppya xa xa x a x1 11a a111V y a a12,iiipitttt111 121211ppyt xt x
3、t x t x7 如果第一主成分所含信息不够多,还不足以代表原始的p个变量,则需考虑再使用一个综合变量 ,为使y2所含的信息与y1不重叠,应要求Cov(y1,y2) =0在此条件和约束条件 下寻求向量a2,使得 达到最大,所求的 称为第二主成分。求得的第二主成分为其方差为2。 一般来说,x的第i主成分是指:在约束条件 和 Cov(yk,yi)=0, k=1,2, ,i1下寻求ai,使得达到最大。第i主成分为22y a x221a a222V y a a2y212 122222ppyt xt xtx t x1iia aiiiV y a a1122,1,2,iiipipiyt xt xt xipt
4、 x8主成分的几何意义 在几何上,ti表明了第i主成分的方向,yi是x在ti上的投影值(其绝对值即为投影长度),i是这些值的方差,它反映了在ti上投影点的分散程度。cosiiiiiyt xxxt xtx其中i是ti与x的夹角。9主成分向量与原始向量之间的关系式111222pppyyyt xtt xtyxT xt xt12,piktTt tt其中是正交矩阵。xTy11121112122222121111211221222212ppppppppppppppppytttxytttxytttxxtttyxtttyxtttyy1y2ypx1t11t12t1px2t21t22t2pxptp1tp 2tpp
5、主成分与原始变量之间的关系式矩阵10正交变换 的几何意义 正交变换 的几何意义是将Rp中由x1,x2, ,xp构成的原p维坐标轴作一正交旋转,一组正交单位向量t1,t2, ,tp表明了p个新坐标轴的方向,这些新坐标轴彼此仍保持正交(或说垂直)。yT xyT x11二、主成分的性质 1.主成分向量的协方差矩阵 2.主成分的总方差 3.原始变量xi与主成分yk之间的相关系数 4.m个主成分对原始变量的贡献率 5.原始变量对主成分的影响121.主成分向量的协方差矩阵V(y)= 其中=diag(1, 2, ,p),即V(yi)= i, i=1,2, ,p,且y1,y2, ,yp互不相关。132.主成分
6、的总方差 由于所以 或 trtrtrtrAT TTT11ppiiiii 11ppiiiiV yV x14 总方差中属于第i主成分yi (或被yi所解释)的比例为称为主成分yi的贡献率。 第一主成分y1的贡献率最大,表明它解释原始变量 x1,x2, ,xp的能力最强,而y2,y3, ,yp的解释能力依次递减。 主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。 1piii15 前m个主成分的贡献率之和称为主成分y1,y2, ,ym的累计贡献率,它表明y1,y2, ,ym解释x1,x2, ,xp的能力。 通常取(相对
7、于p)较小的m ,使得累计贡献达到一个较高的百分比(如8090)。此时,y1,y2, ,ym可用来代替x1,x2, ,xp,从而达到降维的目的,而信息的损失却不多。11pmiiii163.原始变量xi与主成分yk之间的相关系数 x=Ty即xi=ti1y1+ti2y2+tipyp所以Cov(xi,yk)=Cov(tikyk,yk)=tikk 在实际应用中,通常我们只对xi (i=1,2, ,p)与yk (k=1,2, ,m)的相关系数感兴趣。 Cov(),1,2,kikikikiiikx yx yti kpV xV y,174.m个主成分对原始变量的贡献率 m个主成分y1,y2, ,ym从原始变
8、量x1,x2, ,xp中提取的信息量,可度量为xi与y1,y2, ,ym的复相关系数的平方,称为m个主成分y1,y2, ,ym对原始变量xi的贡献率。其值为 当m=p时, 11121,1221110CovCovCov0Coviiimmimimiimmiimikk ikiikkimV yx yx yx yV yx yV xx yx yx yx ytx y, , ,22111ppikk ikiikkx yt,18 例 设x=(x1,x2,x3)的协方差矩阵为其特征值为1=5.83,2=2.00,3=0.17相应的特征向量为若只取一个主成分,则贡献率为5.83/(5.83+2.00+0.17)=0.
9、72875=72.875%120250002 1230.38300.9240.924 ,0 ,0.3830.00010.000 ttt19可见,y1对第三个变量的贡献率为零,这是因为x3与x1和x2都不相关,在y1中未包含一点有关x3的信息,这时仅取一个主成分就显得不够了,故应再取y2,此时累计贡献率为(5.83+2.00)/8=97.875%(y1,y2)对每个变量xi的贡献率分别为 , 都比较高。222 1,23 1,299.6%,100%21,285.5%i表 y1及( (y1,y2) )对每个原始变量的贡献率i(y1,xi)(y2,xi)10.9250.8550.0000.85520.
10、9980.9960.0000.99630.0000.0001.0001.00021i21,2i21i21,2i205.原始变量对主成分的影响 yk=t1kx1+t2kx2+ +tpkxp称tik为第k主成分yk在第i个原始变量xi上的载荷,它度量了xi对yk的重要程度。 在解释主成分时,我们需要考察载荷,同时也应考察一下相关系数。 方差大的那些变量与具有大特征值的主成分有较密切的联系,而方差小的另一些变量与具有小特征值的主成分有较强的联系。通常我们取前几个主成分,因此所取主成分会过于照顾方差大的变量,而对方差小的变量却照顾得不够。21 例 设x=(x1,x2,x3)的协方差矩阵为经计算,的特征
11、值及特征向量为1=109.793,2=6.469,3=0.738 相应的主成分分别为162302143041001230.3050.9440.1270.041 ,0.120,0.9920.9510.3080.002ttt22y1=0.305x1+0.041x2+0.951x3y2=0.944x1+0.120 x20.308x3y3=0.127x1+0.992x20.002x3可见,方差大的原始变量x3在很大程度上控制了第一主成分y1,方差小的原始变量x2几乎完全控制了第三主成分y3,方差介于中间的x1则基本控制了第二主成分y2。y1的贡献率为这么高的贡献率首先归因于x3的方差比x1和x2的方差
12、大得多,其次是x1,x2,x3相互之间存在着一定的相关性。y3的特征值相对很小,表明x1,x2,x3之间有这样一个线性依赖关系:0.127x1+0.992x20.002x3c其中c=0.1271+0.99220.0023为一常数。1123109.7930.93811723三、从相关阵出发求主成分 最常用的标准化变换是令 。 显然,的协方差矩阵正是x的相关矩阵R。 从R出发求主成分,主成分分析将均等地对待每一个原始变量。 从R出发求得主成分的方法与从出发是完全类似的,并且主成分的一些性质具有简洁的数学形式。设 为R的p个特征值, 为相应的单位特征向量,且相互正交,则p个主成分为 。记 ,于是y*
展开阅读全文