典型相关分析(八)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《典型相关分析(八)课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 典型 相关 分析 课件
- 资源描述:
-
1、第八讲典型相关分析典型相关分析典型相关分析典型相关分析(Canonical correlation)典型相关分析(典型相关分析(Canonical correlation)是研究两组变量之间相关关系的一种多是研究两组变量之间相关关系的一种多元统计方法,它能够揭示出两组变量之元统计方法,它能够揭示出两组变量之间的内在联系。间的内在联系。这一方法是由这一方法是由Hotelling(霍特林,(霍特林,1935)首先提出来的。首先提出来的。两组变量的相关问题两组变量的相关问题 我们知道如何衡量两个变量之间是我们知道如何衡量两个变量之间是否相关的问题;这是一个简单的公否相关的问题;这是一个简单的公式就可
2、以解决的问题(式就可以解决的问题(PearsonPearson相关相关系数、系数、Kendalls tKendalls t、Spearman Spearman 秩相关系数秩相关系数)。如果我们有两组变量,如何表明它如果我们有两组变量,如何表明它们之间的关系呢?们之间的关系呢?典型相关分析典型相关分析(Canonical correlation)在实际问题中,经常遇到要研究一部分变量与在实际问题中,经常遇到要研究一部分变量与另一部分变量之间的相互关系。例如:在工厂,另一部分变量之间的相互关系。例如:在工厂,考察原料的主要指标考察原料的主要指标 与产品的主要指标与产品的主要指标 ;在经济学;在经济
3、学中,研究商品的价格与销售之间的关系;在教中,研究商品的价格与销售之间的关系;在教育学中,考察研究生入学考试成绩与本科阶段育学中,考察研究生入学考试成绩与本科阶段一些主要课程成绩的相关性,等等。一些主要课程成绩的相关性,等等。),(21pXXX),(21qYYY典型相关分析典型相关分析(Canonical correlation)典型相关分析的目的是识别并量化两组典型相关分析的目的是识别并量化两组变量之间的联系,将两组变量相关关系变量之间的联系,将两组变量相关关系的分析转化为一组变量的线性组合与另的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析。一组变量线性组合之间的相关关
4、系分析。一、典型相关分析的基本思想一、典型相关分析的基本思想典型相关分析的基本思想和主成分分析非常相似。典型相关分析的基本思想和主成分分析非常相似。首先在每组变量中找出变量的线性组合,使得两组的线性组合之首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。间具有最大的相关系数。然后选取和最初挑选的这对线性组合不相关的线性组合,使其配然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去,直到两组变量之间对,并选取相关系数最大的一对,如此下去,直到两组变量之间的相关性被提取完毕为止。的相关性被提取完毕为止。被选出的线性组合配对称为
5、典型变量(被选出的线性组合配对称为典型变量(canonical variable),它),它们的相关系数称为典型相关系数(们的相关系数称为典型相关系数(canonical coefficient)。典型)。典型系数度量了这两组变量之间联系的强度。系数度量了这两组变量之间联系的强度。例例.1.1 例如:业内人士和观众对于一些电视节目的观点例如:业内人士和观众对于一些电视节目的观点有什么样的关系呢?有什么样的关系呢?数据是不同的人群对数据是不同的人群对3030个电个电视节目所作的平均评分。视节目所作的平均评分。观众评分来自低学历观众评分来自低学历(led)(led)、高学历高学历(hedhed)和
6、网络和网络(net)(net)调查三种,它们形成调查三种,它们形成第一组变量第一组变量;而业内人士分评分来自包括演员和导演在内的艺而业内人士分评分来自包括演员和导演在内的艺术家术家(artiarti)、发行发行(com)(com)与业内各部门主管与业内各部门主管(man)(man)三种,形成三种,形成第二组变量第二组变量。人们对这样两组变量之。人们对这样两组变量之间的关系感到兴趣。间的关系感到兴趣。第一组第一组变量变量:观众观众第二组第二组变量变量:业内业内人士人士低低学学历历高高学学历历网网络络主主管管发发行行人人艺艺术术家家典型相关典型相关如何进行典型相关如何进行典型相关 如果直接对这六个
7、变量的相关进行两两如果直接对这六个变量的相关进行两两分析,很难得到关于这两组变量之间关分析,很难得到关于这两组变量之间关系的一个清楚的印象。系的一个清楚的印象。希望能够把多个变量与多个变量之间的希望能够把多个变量与多个变量之间的相关化为相关化为两个两个变量之间的相关。变量之间的相关。现在的问题是为每一组变量现在的问题是为每一组变量选取一个综选取一个综合变量作为代表;合变量作为代表;而一组变量最简单的综合形式就是该组而一组变量最简单的综合形式就是该组变量的变量的线性组合线性组合。如何进行典型相关如何进行典型相关 由于一组变量可以有无数种线性组合由于一组变量可以有无数种线性组合(线性组合由相应的系
8、数确定),因此(线性组合由相应的系数确定),因此必须找到必须找到既有意义又可以确定的线性组既有意义又可以确定的线性组合。合。典型相关分析典型相关分析(canonical correlation(canonical correlation analysis)analysis)就是要找到这两组变量线性组就是要找到这两组变量线性组合的系数,使得这两个由线性组合生成合的系数,使得这两个由线性组合生成的变量(和其他线性组合相比)之间的的变量(和其他线性组合相比)之间的相关系数最大。相关系数最大。XV1V2|VdYW1W2|Wdx1x2xiy1y2yjcr1cr2crdd=min(i,j)(V=a0+a1
9、x1+aixi)(W=b0+b1y1+bjyj)二、典型相关分析的原理及方法二、典型相关分析的原理及方法二、典型相关分析的原理及方法二、典型相关分析的原理及方法三、样本的典型相关分析三、样本的典型相关分析(一)样本典型相关系数的计算(一)样本典型相关系数的计算 在实际分析应用中,总体的协方差矩阵在实际分析应用中,总体的协方差矩阵通常是未知的,往往需要从研究的总体通常是未知的,往往需要从研究的总体中随机抽取一个样本,根据样本估计出中随机抽取一个样本,根据样本估计出总体的协差阵,并在此基础上进行典型总体的协差阵,并在此基础上进行典型相关分析。相关分析。三、样本的典型相关分析三、样本的典型相关分析三
10、、样本的典型相关分析三、样本的典型相关分析样本均值向量)2()1(XXX,其中,naaXnX1)1()1(1,naaXnX1)2()2(1。样本协差阵为22211211,其中,)()(1)()()()(11lkjnjkkjklXXXXn,2,1,lk。三、样本的典型相关分析三、样本的典型相关分析由此得到矩阵1M和2M的样本估计 1211121122221122121111MM 如前所述,求解1M和2M的特征根及其相应的特征向量,即可得到所要求的典型相关变量及其典型相关系数。建立第一对典型变量建立第一对典型变量(函数函数)的原则的原则 尽量使所建的两个典型变量之间的相关尽量使所建的两个典型变量之
11、间的相关系数最大化,就是在两个变量组各自的系数最大化,就是在两个变量组各自的总变化中先寻求他们之间最大的一部分总变化中先寻求他们之间最大的一部分共变关系,并用一对典型变量所描述。共变关系,并用一对典型变量所描述。因而,第一维度上的典型相关系数也随因而,第一维度上的典型相关系数也随之求的。之求的。建立第二对典型变量建立第二对典型变量(函数函数)的原则的原则 继续在两组变量剩余的变化中寻找第二继续在两组变量剩余的变化中寻找第二个最大的共变部分,形成第二对典型变个最大的共变部分,形成第二对典型变量,并解出第二维度上的典型相关系数。量,并解出第二维度上的典型相关系数。依此类推,直至所有变化部分被剥离完
12、依此类推,直至所有变化部分被剥离完毕。毕。典型相关系数典型相关系数 这里所涉及的主要的数学工具还是矩阵的特这里所涉及的主要的数学工具还是矩阵的特征值和特征向量问题。而所得的特征值与征值和特征向量问题。而所得的特征值与V和和W的典型相关系数有直接联系。的典型相关系数有直接联系。由于特征值问题的特点,实际上找到的是多由于特征值问题的特点,实际上找到的是多组典型变量组典型变量(V1,W1),(V2,W2),,其中其中V1和和W1最相关,而最相关,而V2和和W2次之等等,次之等等,而且而且V1,V2,V3,之间及之间及W1,W2,W3,之间互之间互不相关。这样又出现了选择多少组典型变量不相关。这样又出
13、现了选择多少组典型变量(V,W)的问题了。实际上,只要选择特征值累的问题了。实际上,只要选择特征值累积总贡献占主要部分的那些即可。积总贡献占主要部分的那些即可。注意注意 严格地说,一个典型相关系数描述的只严格地说,一个典型相关系数描述的只是一对典型变量之间的相关,而不是两是一对典型变量之间的相关,而不是两个变量组之间的相关。个变量组之间的相关。而各对典型变量之间构成的多维典型相而各对典型变量之间构成的多维典型相关才共同揭示了两个观测变量组之间的关才共同揭示了两个观测变量组之间的相关形式。相关形式。但但是是有有可可能能得得到到的的两两组组变变量量的的样样本本协协差差阵阵不不为为零零,因因此此,在
14、在用用样样本本数数据据进进行行典典型型相相关关分分析析时时,应应就就两两组组变变量量的的协协差差阵阵是是否否为为零零进进行行检检验验。即即对对假假设设1211200:,0:HH进进行行检检验验,似似然然比比统统计计量量近近似似服服从从2分分布布。在在给给定定显显著著性性水水平平下下,当当统统计计量量大大于于临临界界值值时时,拒拒绝绝原原假假设设,认认为为两两组组变变量量间间存存在在相相关关性性。即对假设即对假设 0:,0:11210krkkHH 进行检验,似然比统计量进行检验,似然比统计量2分布。先从分布。先从k=0进行进行检验,若拒绝原假设,则至少有一个典型相关系数大检验,若拒绝原假设,则至
15、少有一个典型相关系数大于零,自然应该是最大的典型相关系数于零,自然应该是最大的典型相关系数01。重复以上步骤直至接受原假设重复以上步骤直至接受原假设 0:10rjjH,此时选取,此时选取1j对典型变量进行分析对典型变量进行分析。(一)(一)典型相关模型的基本假设和数据要求典型相关模型的基本假设和数据要求 要求两组变量之间为线性关系,即每对典型变要求两组变量之间为线性关系,即每对典型变量之间为线性关系;量之间为线性关系;每个典型变量与本组所有观测变量的关系也是每个典型变量与本组所有观测变量的关系也是线性关系。如果不是线性关系,可先线性化:线性关系。如果不是线性关系,可先线性化:如经济水平和收入水
16、平与其他一些社会发展水如经济水平和收入水平与其他一些社会发展水之间并不是线性关系,可先取对数。之间并不是线性关系,可先取对数。即即log经济水平,经济水平,log收入水平。收入水平。(二)从相关矩阵出发计算典型相关(二)从相关矩阵出发计算典型相关 典型相关分析涉及多个变量,不同变量往往具有不同的量纲及不同的数量级别。因此,为了消除量纲和数量级别的影响,必须对数据进行标准化处理,然后再进行典型相关分析。经过标准变换后的协差阵就是相关系数矩阵,因而,也通常应从相关矩阵出发进行典型相关分析。其结果同从协差阵出发得到的特征值相同,因此检验结果也相同。提取第一典型变量,按照类似方法可求得典型变量系数向量
17、,即可得到标准化的第一对典型变量。(三)典型载荷分析(三)典型载荷分析 进行典型载荷分析有助于更好解释分析已提取的对典型变量。所谓的典型载荷分析是指原始变量与典型变量之间相关性分析。(四)典型冗余分析(四)典型冗余分析 在进行样本典型相关分析时,我们也想了解每组变量提取出的典型变量所能解释的该组样本总方差的比例,从而定量测度典型变量所包含的原始信息量的大小。六、典型相关分析实例六、典型相关分析实例 下面就例下面就例1 1数据进行典型相关分析的说明数据进行典型相关分析的说明头两对典型变量头两对典型变量(V,W)的累积特征根已经占了总的累积特征根已经占了总量的量的99.427%99.427%。它们
18、的典型相关系数也都在。它们的典型相关系数也都在0.950.95之上。之上。典型相关系数的平方典型相关系数的平方 与简单相关系数一样,典型相关系数的实际意与简单相关系数一样,典型相关系数的实际意义并不十分明确。义并不十分明确。所以,由经验的研究人员往往更愿意采用典型所以,由经验的研究人员往往更愿意采用典型相关系数的平方(相当于回归分析中的确定系相关系数的平方(相当于回归分析中的确定系数)。数)。由于相关涉及的两个典型变量都是标准化的,由于相关涉及的两个典型变量都是标准化的,所以双方的方差都等于所以双方的方差都等于1。典型相关系数的平。典型相关系数的平方的实际意义是一对典型变量之间的共享方差方的实
19、际意义是一对典型变量之间的共享方差在两个典型变量各自方差中的比例。在两个典型变量各自方差中的比例。典型相关系数的检验典型相关系数的检验 整体检验:整体检验:0:210dcrcrcrH典型相关系数的检验典型相关系数的检验 维度递减检验:仍然是一种多元检验,维度递减检验:仍然是一种多元检验,但可以提供每对典型变量的典型相关是但可以提供每对典型变量的典型相关是否显著的信息。否显著的信息。Dimension Reduction AnalysisRootsWilks L.F HypothDFError DFSig.of F1 to 32 to 33 to 30.000500.054710.5938214
20、1.58046 40.94049 17.78432 9.00 4.00 1.00 58.56 50.00 26.00 0.000 0.000 0.000典型系数典型系数 下面表格给出的是第一组变量相应于上面三个下面表格给出的是第一组变量相应于上面三个特征根的三个典型变量特征根的三个典型变量V V1 1、V V2 2和和V V3 3的系数,即的系数,即典型系数典型系数(canonical coefficient)(canonical coefficient)。这些系数以两种方式给出;一种是没有标准化这些系数以两种方式给出;一种是没有标准化的原始变量的线性组合的典型系数的原始变量的线性组合的典型系
21、数(raw(raw canonical coefficient)canonical coefficient),一种是一种是标准化标准化之后之后的典型系数的典型系数(standardized canonical(standardized canonical coefficient)coefficient)。标准化的典型系数直观上对典标准化的典型系数直观上对典型变量的构成给人以更加清楚的印象。型变量的构成给人以更加清楚的印象。典型系数典型系数 可以看出,头一个典型变量可以看出,头一个典型变量V V1 1相应相应于前面第一个(也是最重要的)特于前面第一个(也是最重要的)特征值,主要代表征值,主要代表
22、高学历变量高学历变量hedhed;而相应于前面第二个(次要的)特而相应于前面第二个(次要的)特征值的第二个典型变量征值的第二个典型变量V V2 2主要代表主要代表低学历变量低学历变量ledled和部分的网民变量和部分的网民变量netnet,但高学历变量在这里起负面作但高学历变量在这里起负面作用。用。典型系数典型系数 类似地,也可以得到被称为协变量类似地,也可以得到被称为协变量(covariate)(covariate)的标准化的第二组变量的相应于头三个特征值的标准化的第二组变量的相应于头三个特征值得三个典型变量得三个典型变量W W1 1、W W2 2和和W W2 2的系数:的系数:典型负载(相
23、关)系数典型负载(相关)系数 也称为因变量或协变量与典型变量之间也称为因变量或协变量与典型变量之间的两两相关系数。的两两相关系数。例子结论例子结论 从这两个表中可以看出从这两个表中可以看出,V V1 1主要和变量主要和变量hedhed相关,相关,而而V V2 2主要和主要和ledled及及netnet相关相关;W W1 1主要和变量主要和变量artiarti及及manman相相关,关,而而W W2 2主要和主要和comcom相关;这和它们的典型系数是一相关;这和它们的典型系数是一致的。致的。由于由于V V1 1和和W W1 1最相关,这说明最相关,这说明V V1 1所代表的高学历观众所代表的高
展开阅读全文