典型相关分析.课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《典型相关分析.课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 典型 相关 分析 课件
- 资源描述:
-
1、第十章第十章 典型相关分析(典型相关分析(Canonical Correlation Analyses-CCA)v典型相关分析及基本思想典型相关分析及基本思想v典型相关分析的数学描述典型相关分析的数学描述v总体总体的典型相关系数和典型变量的典型相关系数和典型变量v样本样本的典型相关系数和典型变量的典型相关系数和典型变量v典型相关系数典型相关系数的显著性检验的显著性检验v计算步骤及实例计算步骤及实例10.1 典型相关分析及基本思想典型相关分析及基本思想 典型相关分析方法典型相关分析方法(canonical correlation analysis-CCA)最早源于荷泰林最早源于荷泰林(H,Hot
2、elling)于于1936年在年在生物统计生物统计期刊上发表的一篇论文期刊上发表的一篇论文两组两组变式之间的关系变式之间的关系。他所提出的方法经过多年的应用。他所提出的方法经过多年的应用及发展,逐渐达到完善,在及发展,逐渐达到完善,在70年代臻于成熟。年代臻于成熟。 由于典型相关分析涉及较大量的由于典型相关分析涉及较大量的矩阵矩阵计算,其方计算,其方法的应用在早期曾受到相当的限制。但随着当代计算法的应用在早期曾受到相当的限制。但随着当代计算机技术及其软件的迅速发展,弥补了应用典型相关分机技术及其软件的迅速发展,弥补了应用典型相关分析中的困难,因此它的应用开始走向普及化。析中的困难,因此它的应用
3、开始走向普及化。 The canonical correlation analysis-CCA 在解决实际问题中,这种方法有广泛的应用。在解决实际问题中,这种方法有广泛的应用。如,在工厂里常常要研究产品的如,在工厂里常常要研究产品的 q个个质量指标质量指标 和和 p 个个原材料指标原材料指标 的的相关相关关系。关系。 当然可以用最原始的方法,分别计算两组变量当然可以用最原始的方法,分别计算两组变量之间的之间的全部相关系数全部相关系数,一共有,一共有p p* *q q个个简单相关系数简单相关系数,这样又烦琐又不能抓住问题的本质。这样又烦琐又不能抓住问题的本质。 如果能够采用类似于如果能够采用类似
4、于主成分主成分的思想,分别找出的思想,分别找出两组变量的各自的某个线性组合,讨论两组变量的各自的某个线性组合,讨论线性组合之线性组合之间间的相关关系,则更简捷。的相关关系,则更简捷。),(21pxxx),(21qyyyThe canonical correlation analysis-CCA2022-6-22DXL4vWith canonical correlation, we are working with two sets of variable (e.g.,we might have one set of variables measuring the personality cha
5、racteristics of high school students and another set of variables measuring their vocational interests ).vIn canonical correlation, we are also trying to re-express and simplify the data. Our goal is to find two linear combinations of the original variables-one combination from the first set variabl
6、es and one combination from the second (called canonical variables )- that exhibit the largest possible covariance.vFrom James etcAnalyzing Multivariate Data2022-6-22DXL5From James .Analyzing Multivariate DatavIn principal components analysis (PCA), we found that a small number of components could a
7、ccount for much of the variance (i.e., information )in the entire data set. vWith canonical correlation, we will find that a few pairs of canonical variates can account for much of the interdependence between two sets of variables.例:例:家庭特征家庭特征与与家庭消费家庭消费之间的关系之间的关系 为了了解家庭的特征与其消费模式之间的关系。为了了解家庭的特征与其消费模式
8、之间的关系。调查了调查了70个家庭的下面两组变量:个家庭的下面两组变量: :户户主主受受教教育育程程度度:家家庭庭的的年年收收入入:户户主主的的年年龄龄321yyy :每年外出看电影频率:每年外出看电影频率率率:每年去餐馆就餐的频:每年去餐馆就餐的频21xx分析分析两组变量之间两组变量之间的关系。的关系。The canonical correlation analysis-CCAX1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340
9、.210.351.00变量间的变量间的相关系数相关系数矩阵矩阵The canonical correlation analysis-CCAy2y3y1x2x1 33122111112211111ybybybVxaxau 33222211222221122ybybybvxaxau?),(11 vu ?),(22 vu The canonical correlation analysis-CCA 典型相关分析的典型相关分析的思想思想: 首先分别在每组变量中找出首先分别在每组变量中找出第一对第一对线性组合,线性组合,使其具有使其具有最大相关性最大相关性, 1111212111112121ppqqua
10、xaxaxvbybyby The canonical correlation analysis-CCA 然后再在每组变量中找出然后再在每组变量中找出第二对第二对线性组合,使线性组合,使其分别与本组内的第一线性组合其分别与本组内的第一线性组合不相关不相关,第二对线,第二对线性组合本身具有性组合本身具有次大次大的相关性。的相关性。 既既:u2和和v2与与u1和和v1相互独立相互独立,但,但u2和和v2有有次大次大相相关性关性。如此继续下去,直至进行到。如此继续下去,直至进行到r步,两组变量的步,两组变量的相关性被提取完为止。相关性被提取完为止。r min(p,q),可以得到,可以得到r组变组变量。
11、量。212 1222221212222ppqqua xa xa xvb yb yb yThe canonical correlation analysis-CCA10.2 典型相关的数学描述典型相关的数学描述 考虑两组变量的向量考虑两组变量的向量 1212(,)pqx xxyyyZ其其协方差阵协方差阵为为pqpq11122122 其中其中 1111是是第一组第一组变量的协方差矩阵;变量的协方差矩阵; 2222是是第二第二组组变量的协方差矩阵;变量的协方差矩阵; 是是X X和和Y Y的的其其协方差协方差矩矩阵。阵。1221 矩阵的矩阵的分块分块The canonical correlation
12、analysis-CCA 如果我们记两组变量的如果我们记两组变量的第一对第一对线性组合为:线性组合为:11u = a X11v = b Y 其中:其中: 11211(,)paaa1a11211(,)qbbb1b122()1VarVar1111vb(Y)bb b1()11Cov u ,vCov11u ,v11121a(X,Y)ba b 所以,典型相关分析就是求所以,典型相关分析就是求a a1 1和和b b1 1,使,使 uvuv达到最大达到最大。1()()1Var uVar111111aX aa a想一想想一想如何求如何求?The canonical correlation analysis-C
13、CA10.3 10.3 总体总体的典型的典型相关系数相关系数和典型变量和典型变量 在在约束约束条件条件: :( )1Var u11a a( )1Var v22b b下,求下,求a a1 1和和b b1 1,使,使 uvuv达到最大。令达到最大。令1 211 a1 222 b1 211a1 222b1 1 2111左乘2122左乘The canonical correlation analysis-CCA 根据数学分析中根据数学分析中条件极值条件极值的求法,引入的求法,引入LagrangeLagrange乘数乘数,求,求极值极值问题,则可以转化为求问题,则可以转化为求11(,)(1)(1)(1)
14、22a b112111111221a ba ab b 的的极大值极大值,其中,其中 和和 是是 LagrangeLagrange乘数。乘数。The canonical correlation analysis-CCA不含1不含1110(2)0a121111211221 b - a a - b(3)121111211221 b - a = 0 a - b = 0将上面的将上面的3 3式分别左乘式分别左乘 和和 1a1b 1121111112111221a b -a a = 0b a - b b = 0The canonical correlation analysis-CCA( )1Var u1
15、1a a注意注意到到( )1Var v22b b 11211211a bb a11( , )u v 1121a b将将 左乘(左乘(3 3)的第二式,得)的第二式,得-11222 0-1-112222111222221 a - b0-11222211121 a - b 并将并将第一式第一式代入,得代入,得0-121222211111 a - a0-1-121112222111 a - a 的特征根的特征根是是 ,相应的特征向,相应的特征向量为量为211221211121(3)121111211221 b - a = 0 a - b = 0等于等于单位阵单位阵特征根定义特征根定义The cano
16、nical correlation analysis-CCA将将 左乘(左乘(3 3)的第一式,并将第二式代入,得)的第一式,并将第二式代入,得111120-12111211121 b - a0-122111121221 b - b10-1-12222111121 b - b 的特征根的特征根是是 ,相应的特征向,相应的特征向量为量为211111212221回顾特征根回顾特征根定义定义12111211222112212111BA令令mBmll22AThe canonical correlation analysis-CCA 结论:结论: 既是既是A A又是又是B B的特征根,的特征根, 和和
17、是相应于是相应于A A和和B B的特征向量。的特征向量。211 至此,典型相关分析转化为求至此,典型相关分析转化为求A A和和B B特征根特征根和和特征特征向量向量的问题。的问题。 第一对典型变量提取了原始变量第一对典型变量提取了原始变量X X与与Y Y之间相关的之间相关的主要部分,如果这部分还不能足以解释原始变量,可主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出以在剩余的相关中再求出第二对第二对典型变量和他们的典典型变量和他们的典型相关系数。型相关系数。The canonical correlation analysis-CCA 在剩余的相关中再求出在剩余的相关中再求出
18、第二对第二对典型变量和他们典型变量和他们的的典型相关系数典型相关系数。设第二对典型变量为:。设第二对典型变量为:2u2a x22v = b y在在约束条件约束条件: 2()1Var u2112a a2()1Var v2222b b12cov( ,)cov()0u u121112a x,a xa a12cov( ,)cov()0v v121112b y,b yb b 求使求使 达到达到最大最大的的 和和 。22cov(,)u v2122a b2a2b独立独立性性The canonical correlation analysis-CCA例:家庭特征与家庭消费之间的关系例:家庭特征与家庭消费之间的
19、关系 为了了解家庭的特征与其消费模式之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了调查了70个家庭的下面两组变量:个家庭的下面两组变量:户主受教育程度:家庭的年收入:户主的年龄321yyy:每年外出看电影频率率:每年去餐馆就餐的频21xx分析分析两组变量两组变量之间的关系。之间的关系。The canonical correlation analysis-CCAX1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.21
20、0.351.00变量间的相关系数矩阵变量间的相关系数矩阵The canonical correlation analysis-CCA典型相关分析典型相关分析典型相典型相关系数关系数调整典型调整典型相关系数相关系数近似方差近似方差典型相关典型相关系数的平系数的平方方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919The canonical correlation analysis-CCAX X组典型变量的系数组典型变量的系数U1U2X1( (就餐)就餐)0.7689-1.4787X2(电影)(电影)0.27211
21、.6443Y Y组典型变量的系数组典型变量的系数V1V2Y1(年龄)(年龄)0.04911.0003Y2(收入)(收入)0.8975-0.5837Y3(文化)(文化)0.19000.29562112721. 07689. 0 xxu2126443. 14787. 1xxu32111900. 08975. 00491. 0yyyv32122956. 05837. 00003. 1yyyv典型变量的典型变量的性质性质1 1、同一组同一组的典型变量之间的典型变量之间互不相关互不相关 kuka xkvk= b yikrik;, 2 , 1,cov(,)cov()0kiiu ukik k11a x,a
22、xa aX组的典型变量之间是组的典型变量之间是相互独立相互独立的:的:cov(, )cov(0kiv vkik11ib y,b y) = b b =Y组的典型变量之间是组的典型变量之间是相互独立相互独立的:的:因为特征向量之间是因为特征向量之间是正交正交的。故的。故注意正交注意正交与独立的与独立的关系关系The canonical correlation analysis-CCA2 2、不同组的典型变量之间、不同组的典型变量之间相关性相关性 不同组内一对典型变量之间的不同组内一对典型变量之间的相关系数相关系数为:为:cov( ,)cov()iju vija x,b ycov()jii12jax
23、,y ba b-1/2-1/2i111222j ,0,iijij),min(, 2 , 121ppi同对同对则协方差为则协方差为 i ,不同对不同对则为零。则为零。The canonical correlation analysis-CCA2022-6-22DXL26小结小结v1、典型相关分析关注并解决原始数据中、典型相关分析关注并解决原始数据中两组变量两组变量之间之间的相关关系问题;的相关关系问题;v2、典型相关分析最终转化为求、典型相关分析最终转化为求A和和B的的特征根特征根和和特特征向量征向量问题。问题。 v3、第一对第一对典型变量,典型变量,第二对第二对典型变量典型变量;v4、注意构造
24、各、注意构造各”对对”典型变量的典型变量的约束约束条件;条件;v5、注意典型变量的两个、注意典型变量的两个性质。性质。12111211222112212111BAmBmll22AThe canonical correlation analysis-CCA10.4、样本样本典型相关系数和典型变量典型相关系数和典型变量 在实际应用中,总体的协方差矩阵在实际应用中,总体的协方差矩阵 常常是常常是未未知知的,类似于其他的统计分析方法,需要从总体中的,类似于其他的统计分析方法,需要从总体中抽出一个样本,根据样本对总体的协方差或相关系抽出一个样本,根据样本对总体的协方差或相关系数矩阵数矩阵R进行进行估计估
展开阅读全文