书签 分享 收藏 举报 版权申诉 / 59
上传文档赚钱

类型第5章-多重共线性的情形及其处理课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:3404208
  • 上传时间:2022-08-28
  • 格式:PPT
  • 页数:59
  • 大小:1.85MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第5章-多重共线性的情形及其处理课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    多重 线性 情形 及其 处理 课件
    资源描述:

    1、第五章第五章 多重共线性的情形及其处理多重共线性的情形及其处理5.1 多重共线性产生的背景和原因及其 影响5.2 多重共线性的诊断5.3 主成分回归5.4 岭回归第五章第五章 多重共线性的情形及其处理多重共线性的情形及其处理 如果存在不全为0的p+1个数c0,c1,c2,cp,使得c0+c1xi1+c2xi2+cpxip=0,i=1,2,n (6.1)则称自变量x1,x2,xp之间存在着完全多重共线性。在实际经济问题中完全的多重共线性并不多见,常见的是(6.1)式近似成立的情况,即存在不全为0的p+1个数c0,c1,c2,cp,使得c0+c1xi1+c2xi2+cpxip0,i=1,2,n(6

    2、.2)称自变量x1,x2,xp之间存在着多重共线性(Multi-collinearity),也称为复共线性。5.1多重共线性产生的经济背景和原因及多重共线性产生的经济背景和原因及其影响其影响 在研究社会、经济问题时,因为问题本身的复杂性,设计的因素很多。在建立回归模型时,往往由于研究者认识水平的局限性,很难在众多因素中找到一组互不相关又对因变量y有显著影响的变量,不可避免地出现所选按自变量相关的情形。设回归模型y=0+1x1+2x2+pxp+存在完全的多重共线性,即对设计矩阵X的列向量存在不全为零的一组数c0,c1,c2,cp,使得c0+c1xi1+c2xi2+cpxip=0,i=1,2,n

    3、设计矩阵X的秩rank(X)p+1,此时|xx|=0,正规方程组的解不唯一,(xx)-1不存在,回归参数的最小二乘估计表达式 不成立。y yX XX XX X-1)(对非完全共线性,存在不全为零的一组数c0,c1,c2,cp,使得c0+c1xi1+c2xi2+cpxip0,i=1,2,n例:做y对两个自变量x1,x2的线性回归,假定y与x1,x2都已经中心化,此时回归常数项为零,回归方程为1 122111222111212122221111222221122 iiiinniiiiiiyxxxxxxxxxxxXxxxxxxxxxX Xxxxxxx中心化:可以11122122 LLX XLL简记为

    4、12122122212212111211112212221221211112212112 ()11 1 (1)VX XLLLLX XLLLLX XL LLLLLLL Lrxr最小二乘估计的协方差矩阵 其中 12212221122112212121212iiiixxxLL Lxxxxxxxxr2是自变量 与 的相关系数。随着 与 的相关性增强,的值变大,和的方差将逐渐增大。5.2 多重共线性的诊断多重共线性的诊断 一、方差扩大因子法一、方差扩大因子法 对自变量做中心标准化,则X*X*=(rij)为自变量的相关阵。记C=(cij)=(X*X*)-1称其主对角线元素VIFj=cjj为自变量xj的方差

    5、扩大因子(Variance Inflation Factor,简记为VIF)。根据OLS性质3可知,pjLcjjjjj,1 ,/)var(2其中Ljj是xj的离差平方和,由(6.6)式可知用cjj做为衡量自变量xj的方差扩大程度的因子是恰如其分的。5.2 多重共线性的诊断多重共线性的诊断 5.2 多重共线性的诊断多重共线性的诊断 经验表明,当VIFj10时,就说明自变量xj与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。还可用p个自变量所对应的方差扩大因子的平均数来度量多重共线性。当pjjVIFpVIF11远远大于1时就表示存在严重的多重共线性问题。5.2

    6、多重共线性的诊断多重共线性的诊断5.2 多重共线性的诊断多重共线性的诊断以下用SPSS软件诊断例3.2中国民航客运量一例中的多重共线性问题。Coefficientsa450.909178.0782.532.030.354.0852.4474.152.002.0011963-.561.125-2.485-4.478.001.0011741-7.E-03.002-.083-3.510.006.3153.17121.5784.030.5315.354.000.01855.5.435.052.5648.440.000.04025.2(Constant)X1X2X3X4X5BStd.ErrorUnsta

    7、ndardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinearityStatisticsDependent Variable:Ya.5.2 多重共线性的诊断多重共线性的诊断二、特征根判定法二、特征根判定法(一)特征根分析 根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。因而,当行列式|X XX X|0时,矩阵X XX X至少有一个特征根近似为零。反之可以证明,当矩阵X XX X至少有一个特征根近似为零时,X X 的列向量间必存在复共线性,证明如下:记X X=(X X0,X X1,X Xp),其中 X

    8、 Xi为X X 的列向量,X X0=(1,1,1)是元素全为1的n维列向量。是矩阵X XX X的一个近似为零的特征根,0c c=(c0,c1,cp)是对应于特征根的单位特征向量,则X XX X c c=c c0 0 上式两边左乘c c,得 c cX XX X c c0 0从而有 X X c c0 0即 c0X X0+c1X X1+cp X Xp0 0写成分量形式即为 c0+c1xi1+c2xi2+cpxip0,i=1,2,n这正是定义的多重共线性关系。(二)条件数 特征根分析表明,当矩阵XX有一个特征根近似为零时,设计矩阵X 的列向量间必存在复共线性。那么特征根近似为零的标准如何确定哪?这可以

    9、用下面介绍的条件数确定。记XX的最大特征根为m,称p,0,1,2,i ,imik为特征根i的条件数(Condition Index)。0k10时,设计矩阵X没有多重共线性;10k100时,认为X存在较强的多重共线性;当k100时,则认为存在严重的多重共线性。用条件数判断多重共线性的准则 Collinearity Diagnosticsa5.5781.000.00.00.00.00.00.00.3783.842.00.00.00.00.00.003.745E-0212.205.01.00.00.00.03.194.203E-0336.431.17.00.01.09.50.041.939E-035

    10、3.643.72.00.01.66.15.718.080E-05262.762.10.99.99.25.31.06Dimension123456EigenvalueConditionIndex(Constant)X1X2X3X4X5Variance ProportionsDependent Variable:Ya.对例3.2中国民航客运量的例子,用SPSS软件计算出特征根与条件数如下:方差比例是用于判断哪几个自变量之间存在共线性的。实际上共线性关系可以直接从特征向量看出来,只是SPSS软件在线性回归模块中没有输出特征向量阵。把特征向量按照特征值由大到小排成行向量,每个数值平方后再除以特征值,然

    11、后再把每列数据除以列数据之和,使得每列数据之和为1,这样就得到了输出结果6.2的方差比。再次强调的是线性回归分析共线性诊断中设计阵X包含代表常数项的一列1,而因子分析模块中给出的特征向量是对标准化的设计阵给出的,两者之间有一些差异。三、等级相关系数法 (Spearman Rank Correlation)2,2,Spearman 6 1(1)ijk ijkk ijijrDn nnDxx 等级相关系数,分析两个指标的等级(秩次)之间是否相关其中 为样本容量,为自变量 和 等级之差。如果两个自变量的等级相关系数比较高,如大于0.8,则可认为存在着较严重的多重共线性。四、Bartlett球度检验(B

    12、artlett test of sphericity)Bartlett球度检验以原有变量的相关系数矩阵为出发点,其原假设是:相关系数矩阵式单位阵,即相关系数矩阵为对角阵(对角元素不为0,非对角元素均为0)且对角元素均为1.Bartlett球度检验的检验统计量根据相关系数矩阵的行列式计算得到,且近似服从卡方分布。如果该统计量的观测值比较大,且对应的概率P值小于给定的显著性水平,则应拒绝原假设,认为相关系数矩阵不太可能是单位阵;反之,如果检验统计量的观测值比较小且对应的概率P值大于给定的显著性水平,则不能拒绝原假设,可以认为相关系数矩阵与单位阵无显著差异。5.2 多重共线性的诊断多重共线性的诊断

    13、五、直观判定法 1.当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化。2.从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验。3.有些自变量的回归系数所带正负号与定性分析结果违背。4.自变量的相关矩阵中,自变量间的相关系数较大。5.一些重要的自变量的回归系数的标准误差较大。5.3 消除多重共线性的方法消除多重共线性的方法 一、剔除一些不重要的解释变量一、剔除一些不重要的解释变量 在剔除自变量时,可以将回归系数的显著性检验、方差扩大因子VIF以及自变量的经济含义结合起来考虑,以引进或剔除变量。5.3 消除多重共线性的方法消除多重共线性的方法二、增大样本容量二

    14、、增大样本容量例如1121221)1()var(Lr2221222)1()var(Lr 可以看到,在r12固定不变时,当样本容量n增大时,L11和L22都会增大,两个方差均可减小,从而减弱了多重共线性对回归方程的影响。5.3 消除多重共线性的方法消除多重共线性的方法 三、回归系数的有偏估计三、回归系数的有偏估计 消除多重共线性对回归模型的影响是近30年来统计学家们关注的热点课题之一,除以上方法被人们应用外,统计学家还致力于改进古典的最小二乘法,提出以采用有偏估计为代价来提高估计量稳定性的方法,如:主成分回归法 岭回归法 偏最小二乘法等。5.4 主成分回归主成分回归 主成分分析(Principa

    15、l Components Analysis,简记为PCA)是多元统计分析的一个基本方法,是对数据做一个正交旋转变换,也就是对原有变量做一些线性变换,变换后的变量是正交的。为了避免变量的量纲不同所产生的影响,要求先把数据做中心标准化,中心标准化后的自变量样本观测数据矩阵(即设计阵)就是n行p列的矩阵,就是相关阵。*()rXX 一、定义 任何一组p各变量均可变换为一组p个正交的变量,新的正交的变量称为主成分,记为 每一个线性回归方程都可用一组正交的预测变量来重新表述,这些新变量是以原始预测变量的线性组合形式获得的,称为自变量集的主成分。1,pcc 二、步骤 用主成分分析方法选择kp个独立的主成分,

    16、可以解释设计矩阵的大多数或所有变化。将因变量对k个主成分回归,得到最小二乘估计。(1)对p个自变量计算主成分(2)选择k个含有原始变量大部分信息的主成分(3)用y对k个主成分F1,F2,Fk做普通最小二乘回归(4)转换回到用原始自变量表示的回归方程 转换方法:载荷矩阵;主成分对自变量做线性回归 三、注意事项 舍弃任何主成分时都应慎重;结果可能会过度收到异常点和强影响点的影响5.5 岭回归岭回归一、岭回归的定义一、岭回归的定义 岭回归(Ridge Regression,简记为RR)提出的想法是很自然的。当自变量间存在复共线性时,XX0,我们设想给XX加上一个正常数矩阵kI,(k0),那么XX+k

    17、I接近奇异的程度就会比XX接近奇异的程度小得多。考虑到变量的量纲问题,我们先对数据做标准化,为了记号方便,标准化后的设计阵仍然用X表示我们称 y yX XI IX XX X-1)k(k)为的岭回归估计,其中k称为岭参数。由于假设X已经标准化,所以XX就是自变量样本相关阵,上式计算的实际是标准化岭回归估计。式中因变量观测向量y可以经过标准化也可以未经标准化。显然,岭回归做为的估计应比最小二乘估计稳定,当k=0时的岭回归估计就是普通的最小二乘估计。二、岭回归估计的性质二、岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定估计式中因变量观测向量y未经标准化。岭回归的不足(1)碰运气;(2)k可变

    18、动,不唯一;(3)有偏。三、岭迹分析三、岭迹分析 三、三、岭迹岭迹分析分析 四、四、岭参数岭参数k的选择的选择 1、岭迹法、岭迹法 岭迹法选择k值的一般原则是:(1)各回归系数的岭估计基本稳定;(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;(3)回归系数没有不合乎经济意义的绝对值;(4)残差平方和增大不太多。2、方差扩大因子法、方差扩大因子法 三、由残差平方和来确定三、由残差平方和来确定k值值 岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE(k)的增加幅度控制在一定的限度以内,可以给定一个大于1的c值,要求:SSE(k)cSSE 寻找使上式成

    19、立的最大的k值。在后边的例子中我们将会看到对该方法的应用。五、五、用岭回归选择变量用岭回归选择变量岭回归选择变量的原则:(1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。(2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。(3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。例例7.2 空气污染问题。Mcdonald和Schwing在参考文献18中曾研究死亡率与空气污染、气候以及社会经

    20、济状况等因素的关系。考虑了15个解释变量,收集了60组样本数据。x1Average annual precipitation in inches 平均年降雨量x2Average January temperature in degrees F 1月份平均气温x3Same for July 7月份平均气温x4Percent of 1960 SMSA population aged 65 or older 年龄65岁以上的人口占总人口的百分比x5Average household size 每家人口数x6Median school years completed by those over 22

    21、年龄在22岁以上的人受教育年限的中位数x7Percent of housing units which are sound&with all facilities 住房符合标准的家庭比例数x8Population per sq.mile in urbanized areas,1960 每平方公里人口数x9Percent non-white population in urbanized areas,1960 非白种人占总人口的比例x10Percent employed in white collar occupations 白领阶层人口比例x11Percent of families with

    22、 income$3000 收入在3000美元以下的家庭比例x12Relative hydrocarbon pollution potential 碳氢化合物的相对污染势x13 Same for nitric oxides 氮氧化合物的相对污染势x14Same for sulphur dioxide 二氧化硫的相对污染势x15Annual average%relative humidity at 1pm 年平均相对湿度yTotal age-adjusted mortality rate per 100,000 每十万人中的死亡人数计算X XX X的15个特征为:4.5272,2.7547,2.0

    23、545,1.3487,1.22270.9605,0.6124,0.4729,0.3708,0.21630.1665,0.1275,0.1142,0.0460,0.0049条件数 396.30918.9230049.0/5275.4/151k注:以上特征根是按照原文献的计算方式,自变量观测阵未包含代表常数项的第一列1,与用SPSS计算结果有所不同进行岭迹分析 把15个回归系数的岭迹画到图7.4中,我们可看到,当k=0.20时岭迹大体上达到稳定。按照岭迹法,应取k=0.2。若用方差扩大因子法,因k=0.18时,方差扩大因子接近于1,当k在0.020.08时,方差扩大因子小于10,故应建议在此范围选

    24、取k。由此也看到不同的方法选取k值是不同的。在用岭回归进行变量选择时,因为从岭迹看到自变量x4,x7,x10,x11和x15有较稳定且绝对值比较小的岭回归系数,根据变量选择的第一条原则,这些自变量可以去掉。又因为自变量x12和x13的岭回归系数很不稳定,且随着k的增加很快趋于零,根据上面的第二条原则这些自变量也应该去掉。再根据第三条原则去掉变量x3和x5。这个问题最后剩的变量是x1,x2,x6,x8,x9,x14。例例7.3Gorman-Torman例子(见参考文献2)。本例共有10个自变量,X已经中心化和标准化了,XX的特征根为:3.692,1.542,1.293,1.046,0.972,0.659,0.357,0.220,0.152,0.068 最后一个特征根10=0.068,较接近于零。368.7294.54068.0/692.3/101k 条件数k=7.36810。从条件数的角度看,似乎设计矩阵X没有复共线性。但下面的研究表明,作岭回归还是必要的。关于条件数,这里附带说明它的一个缺陷,就是当XX所有特征根都比较小时,虽然条件数不大,但多重共线性却存在。五、五、用岭回归选择变量用岭回归选择变量五、五、用岭回归选择变量用岭回归选择变量五、五、用岭回归选择变量用岭回归选择变量五、五、用岭回归选择变量用岭回归选择变量五、五、用岭回归选择变量用岭回归选择变量

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第5章-多重共线性的情形及其处理课件.ppt
    链接地址:https://www.163wenku.com/p-3404208.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库