最新-第10章典型相关分析-PPT精品课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《最新-第10章典型相关分析-PPT精品课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 10 典型 相关 分析 PPT 精品 课件
- 资源描述:
-
1、1.两个随机变量两个随机变量Y与与X 2.一个随机变量一个随机变量Y与一组随机变量与一组随机变量X1,X2,Xp 3.一组随机变量一组随机变量Y1,Y2,Yq与另一组随机变量与另一组随机变量X1,X2,Xp 是研究是研究相关性的一种统计分析相关性的一种统计分析方法方法.也是一种降维技术也是一种降维技术.由由Hotelling(1935,1936)最早提最早提出,出,Cooley and Lohnes(1971)、Kshirsagar(1972)和和 Mardia,Kent,and Bibby(1979)推动了它的应用。推动了它的应用。),(21pXXX),(21qYYY 在解决实际问题中,这种
2、方法有广泛的应在解决实际问题中,这种方法有广泛的应用。用。如,在工厂里常常要研究产品的如,在工厂里常常要研究产品的q个质量指个质量指标标 和和p个原材料的指标个原材料的指标 之间的相关关系;也可以是采用典型相关分析之间的相关关系;也可以是采用典型相关分析来解决的问题。如果能够采用类似于主成分的来解决的问题。如果能够采用类似于主成分的思想,分别找出两组变量的线性组合既可以使思想,分别找出两组变量的线性组合既可以使变量个数简化,又可以达到分析相关性的目的。变量个数简化,又可以达到分析相关性的目的。),(21pXXX),(21qYYY:户主受教育程度:家庭的年收入:户主的年龄321YYY:每年外出看
3、电影频率率:每年去餐馆就餐的频21XX X1X2Y1Y2Y3X11.000.800.260.670.34X20.801.000.330.590.34Y10.260.331.000.370.21Y20.670.590.371.000.35Y30.340.340.210.351.00Y2Y3Y1X2X133122111112211111YbYbYbWXaXaV33222211222221122YbYbYbWXaXaV?),(11WV?),(22WV 首先分别在每组变量中找出第一对线性组首先分别在每组变量中找出第一对线性组合,使其具有最大相关性,合,使其具有最大相关性,qqppYbYbYbWXaXa
4、XaV1221111112211111 然后再在每组变量中找出第二对线性组然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相合,使其分别与本组内的第一线性组合不相关,第二对本身具有次大的相关性。关,第二对本身具有次大的相关性。V2和和W2与与V1和和W1相互独立相互独立,但但V2和和W2相关相关.如如此继续下去此继续下去,直至进行到直至进行到 r 步步,两组变量的相关性两组变量的相关性被提取完为止被提取完为止.R min(p,q),可以得到可以得到 r 组变量组变量.qqppYbYbYbWXaXaXaV2222112222221122 一般地一般地,假设有一组变量假设有一
5、组变量X1,Xp与与Y1,Yq,我们要我们要研究这两组变量的相关关系研究这两组变量的相关关系,如何给两组变量之间的相如何给两组变量之间的相关性以数量的描述关性以数量的描述?当当 时时,就是研究两个变量就是研究两个变量 X 与与 Y 之间的相关关系之间的相关关系.相相关系数就是最常见的度量关系数就是最常见的度量,其定义为其定义为)()(),(YVarXVarYXCovXY 当当 时时,p维随机向量维随机向量,),(1pXXX设设 则称则称,),(21pNYX,YYYXXYXXYYXYXXYXR1为为Y与与X1,Xp的的,全相关系数用于度量一个随机变量全相关系数用于度量一个随机变量Y与一组随机向量
6、与一组随机向量X1,Xp的相关关系的相关关系.当当 时时,利用主成分分析的思想利用主成分分析的思想,可以把多个变量与多个可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关变量之间的相关化为两个新的综合变量之间的相关.也就是也就是 求求 和和 ,使得新的综合变量使得新的综合变量1),(p1),(qXXXXVpp2211和和YYYYWqq2211之间有最大可能的相关之间有最大可能的相关,基于这个思想就产生了典型相关分析基于这个思想就产生了典型相关分析.设设 及及 为随机向量为随机向量,我们用我们用1),(pXXX1),(qYYYX 和和 Y 的线性组合的线性组合 和和 之间的相关性来
7、研究两组随机变量之间的相关性来研究两组随机变量XYX 和和 Y 之间的相关性之间的相关性.我们希望找到我们希望找到 和和 ,使使 最大最大.),(YX由相关系数的定义由相关系数的定义)()(),(),(YVarXVarYXCovYX易得出对任意的常数易得出对任意的常数 e,f,c 和和 d,均有均有),()(,)(YXdYcfXe这说明使得相关系数最大的这说明使得相关系数最大的 并不唯一并不唯一.故求综合变量故求综合变量YX和常限定常限定 ,.于是有以下定义于是有以下定义.1)(XVar1)(YVar 设设 p+q 维随机维随机,),(1pXXX,),(1qYYY向量向量 的均值向量为的均值向
8、量为0,协方差阵协方差阵 0(不妨设不妨设pq).如果如果YX存在存在 和和 使得使得1111),(paaa,),(1111qbbb),(max),(1)(,1)(11YXYbXaYVarXVar则称则称 是是X,Y的的,它们之间的相它们之间的相YbXa11,关系数称为关系数称为.;1,)1(关对典型相关变量都不相和前面 kYbXakk;1)(,1)()2(YbVarXaVarkk,)3(的相关系数最大和YbXakk则称则称 是是X,Y的的,它们之间的相它们之间的相YbXakk,关系数称为关系数称为(k=2,p).如果存在如果存在1),(pkkkaaa,),(1qkkkbbb和使得使得设随机向
9、量设随机向量YXZ其中其中 (不妨设不妨设pq);11),(,),(qpYYYXXXE(Z)=0;以及以及D(Z)=.022211211令令 则则 V,W 的相关系数的相关系数,YWXV221112),(WV求第一对典型相关变量就等价于求求第一对典型相关变量就等价于求 和和1),(p,),(1q使使1)(1)(.),(max221112YVarXVartsYX用拉格朗日乘子法用拉格朗日乘子法,令令)1(2)1(2),(22211112(其中其中 1和和 2为拉格朗日乘子为拉格朗日乘子)为求为求 的极大值的极大值,对上式分别关于对上式分别关于 ,求偏导求偏导,并令其为零并令其为零,得得00222
10、2111112再分别用再分别用 左乘方程左乘方程(10.1.1),002222111112),(1221WVdef 得得则方程组则方程组(10.1.1)等价于等价于0022211211则方程组则方程组(10.1.2)有非零解的充要条件是有非零解的充要条件是022211211(10.1.3)该方程的左端是该方程的左端是 的的p+q次多项式次多项式.求解求解 的高次方程的高次方程(10.1.3),把求把求得的最大的得的最大的 代回方程组代回方程组(10.1.2),再求得再求得 和和 ,从而得出第一对从而得出第一对典型相关变量典型相关变量.具体计算时具体计算时,因因 的高次方程的高次方程(10.1.
11、3)不易解不易解;将其代入方程组将其代入方程组(10.1.2)后还需求解后还需求解(p+q)阶方程阶方程.为了计算上的简便为了计算上的简便,常作以下变换常作以下变换:用用 12 22-1左乘方程组左乘方程组(10.1.2)的第二项的第二项,022122122112212得得2112212121()将上将上()式代入方程组式代入方程组(10.1.2)得第一式得得第一式得:01211221211即即01122112212再用再用 11-1左乘上式得左乘上式得:0)(22112212111pI 的特征根的特征根是是 ,相应的特征向,相应的特征向量为量为21122121112将将 左乘左乘(10.1.
12、2)的第一式的第一式,并将第二式代入并将第二式代入,得得111210211211121121112121101221211121()再用再用 22-1左乘左乘()式得式得:0)(21211121122qI 的特征根的特征根是是 ,相应的特征向,相应的特征向量为量为21111121222故求解方程故求解方程(10.1.3)等价于求解方程组等价于求解方程组(10.1.4):002121112112222112212111qpII(10.1.4)由于由于 110,220,故故 11-1 0,22-1 0.-1-1111122221-1-1222211112M=M=令2221MM 至此,典型相关分析转
13、化为求至此,典型相关分析转化为求M1和和M2特特征根和特征向量的问题。征根和特征向量的问题。第一对典型变量提取了原始变量第一对典型变量提取了原始变量X与与Y之之间相关的主要部分,如果这部分还不能足以间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数。第二对典型变量和他们的典型相关系数。在剩余的相关中再求出第二对典型变量和他们的典型相关系在剩余的相关中再求出第二对典型变量和他们的典型相关系数数.设第二对典型变量为:设第二对典型变量为:XV22YW22求第二对典型相关变量就等价于求求第二对典型相关变量
14、就等价于求 2和和 2,使使1)(1)(.),(max2222221122212222YVarXVartsYX0),(211121VVCov0),(222121WWCov 设设YXZ11),(,),(qpYYYXXX(不妨设不妨设pq);E(Z)=0,D(Z)=.022211211,其中其中记记,2121221211T并设并设 p 阶方阵阶方阵 的特征值依次为的特征值依次为TT;),2,1,0(022221piip而而l1,lp为为相应的单位正交特征向量相应的单位正交特征向量.令令),2,1(,2112211121pkablakkkkkYbWXaVkkkk,则为为X 和和Y 的第的第 k 对典
15、型相关变量对典型相关变量.k为第为第k个典型相关系数个典型相关系数.:户主受教育程度:家庭的年收入:户主的年龄321YYY:每年外出看电影频率率:每年去餐馆就餐的频21XX分析两组变量之间的关系。分析两组变量之间的关系。X1X2Y1Y2Y3X11.000.800.260.670.34X20.801.000.330.590.34Y10.260.331.000.370.21Y20.670.590.371.000.35Y30.340.340.210.351.00典型相关分析典型相关分析 典型相典型相关系数关系数调整典型调整典型相关系数相关系数近似方差近似方差 典型相关系典型相关系数的平方数的平方10
16、.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919X组典型变量的系数组典型变量的系数 V1V2X1(就餐)就餐)-1.4787X2(电影电影)0.2721Y组典型变量的系数组典型变量的系数 W1W2Y1(年龄年龄)0.0491Y2(收入收入)-0.5837Y3(文化文化)0.19000.29562112721.07689.0XXV2126443.14787.1XXV32111900.08975.00491.0YYYW32122956.05837.00003.1YYYWYbWXaVkkkk,因为特征向量之间是正交的因为
17、特征向量之间是正交的.故故0),(),(11jijijiaaXaXaCovVVCov)(ji0),(),(22jijijibbYaYbCovWWCov)(ji不同组内一对典型变量之间的相关系数为不同组内一对典型变量之间的相关系数为),(),(YbXaCovWVCovjijijijii,0,同对则协方差为同对则协方差为 ,不同对则为零。,不同对则为零。i:户主受教育程度:家庭的年收入:户主的年龄321YYY:每年外出看电影频率率:每年去餐馆就餐的频21XX分析两组变量之间的关系。分析两组变量之间的关系。X1X2Y1Y2Y3X11.000.800.260.670.34X20.801.000.330
18、.590.34Y10.260.331.000.370.21Y20.670.590.371.000.35Y30.340.340.210.351.00典型相关分析典型相关分析 典型相典型相关系数关系数调整典型调整典型相关系数相关系数近似方差近似方差 典型相关系典型相关系数的平方数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919X组典型变量的系数组典型变量的系数 V1V2X1(就餐)就餐)-1.4787X2(电影电影)0.2721Y组典型变量的系数组典型变量的系数 W1W2Y1(年龄年龄)0.0491Y2(收入
19、收入)-0.5837Y3(文化文化)0.19000.29562112721.07689.0XXV2126443.14787.1XXV32111900.08975.00491.0YYYW32122956.05837.00003.1YYYW典型变量的结构(相关系数)典型变量的结构(相关系数)V1V2X10.9866-0.1632X20.88720.4614 W1W2Y10.42110.8464Y20.9822-0.1101Y30.51450.3013典型变量的结构(相关系数)典型变量的结构(相关系数)W1W2X10.6787-0.0305X20.61040.0862 V1V2Y10.28970.1
20、582Y20.6757-0.0206Y30.35390.0563 两个反映消费的指标与第一对典型变量中两个反映消费的指标与第一对典型变量中V1的相关系数分别为的相关系数分别为0.9866和和0.8872,可以看,可以看出出V1可以作为消费特性的指标,第一对典型变可以作为消费特性的指标,第一对典型变量中量中V1与与Y2之间的相关系数为之间的相关系数为0.9822,可见典,可见典型变量型变量V1主要代表了了家庭收入,主要代表了了家庭收入,V1和和 W1的的相关系数为相关系数为0.6879,这就说明家庭的消费与一,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的;个家庭的收入之间其关系是很密切
21、的;22211211RRRR12111211222112212111)()()()(RRRRBRRRRA 求求X,Y 变量组的相关阵变量组的相关阵R=求矩阵求矩阵A、B 可以证明可以证明A、B有相同的非零特征根有相同的非零特征根 3.求求A或或B的的i(相关平方相关平方)与与Cov(Vi,Wi),i1,m 4.求求A、B关于关于i的特征根向量即变量系数的特征根向量即变量系数已知已知X、Y 的相关阵的相关阵R=22211211RRRR试求试求X、Y 的典型相关变量和典型相关系数的典型相关变量和典型相关系数.Cov(X)R11Cov(Y)R22Cov(Y,X)R21Cov(X,Y)R1212111
22、211222112212111)()()()(RRRRBRRRRA0IBIAA A、B B有相同的非零特征值有相同的非零特征值1482.03544.05110.07373.08742.05544332211RRRRR。的方差为此外,还应满足的矩阵为:关于第一特征根如矩阵17643.03142.02171.00210.01757.01421.00948.00806.00061.003770.00669.00979.00915.01759.02523.03877.00510.00376.00966.04468.05238.00840.05489.02739.02274.00168.00007.01
23、939.01669.00701.00912.01778.02919.03986.03053.04586.05298.07643.0A*616*1111161514131211161514131211XaXaVaaaaaaaaaaaaaAa。的方差为此外,还应满足的矩阵为:关于第一特征根如矩阵15436.03142.02171.00210.01757.01421.00948.00806.00061.003770.00669.00979.00915.01759.02523.03877.00510.00376.00966.04468.05238.00840.05489.02739.02274.001
24、68.00007.01939.01669.00701.00912.01778.02919.03986.03053.04586.05298.05436.0A*626*1212262524232221262524232221XaXaVaaaaaaaaaaaaaAa。的方差为此外,还应满足的矩阵为:关于第一特征根如矩阵1022.03142.02171.00210.01757.01421.00948.00806.00061.003770.00669.00979.00915.01759.02523.03877.00510.00376.00966.04468.05238.00840.05489.02739
25、.02274.00168.00007.01939.01669.00701.00912.01778.02919.03986.03053.04586.05298.0022.0A*656*1515565554535251565554535251XaXaVaaaaaaaaaaaaaAaSXXXXXXXVXXXV*6*2*15*6*2*11X5140.05590.18298.0.1948.02175.05852.0原变量,即的表示为正态离差标准化常数)()()(),、()、,)、(,(为对应的均数标准差分别、如6216211621*6*2*115069.03153.04074.03842.017.271
展开阅读全文