[工程科技]多重共线性课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《[工程科技]多重共线性课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工程科技 工程 科技 多重 线性 课件
- 资源描述:
-
1、 多元共线性的产生 多元共线性的影响与表现 多元共线性的诊断 多元共线性的处理 Logistic回归与Cox回归模型中的多元共线性问题多元共线性o“多元共线”一词最早由R.佛里希于1934年提出,其最初的含义是指回归模型中的某些自变量是线性相关的,即对于出现在模型中的自变量有关系 成立.其中常数km(m=1,2,n)不全为0.称为完全多元共线;0Mm2211XkXkXko 现在所说的“多元共线”有更广泛的含义,除包括完全共线性的情况,也包括变量间有某种关系但又不是十分完全的线性关系.如下式所示的情况 其中 为随机误差项.此时可称为近似多元共线。0Mm2211XkXkXk一、多元共线性的产生o
2、对于多元共线性问题产生的根源,可以从两个方面考虑:n 1、由变量性质引起由变量性质引起n 2、由数据问题引起n 情况一:样本含量过小情况一:样本含量过小n 情况二情况二:出现强影响观测值出现强影响观测值n 情况三情况三:时序变量时序变量 1、由变量性质引起n 在进行多元统计分析时,作为自变量的某些变量高度相关,比如身高、体重和胸围,变量之间的相关性是由变量自身的性质决定的,此时不论数据以什么形式取得,样本含量是大是小,都会出现自变量的共线性问题。因此,变量间自身的性质是导致多元共线性的重要原因。情况一:样本含量过小 假设只有两个自变量X1与X2,当n=2时,两点总能连成一条直线,即使性质上原本
3、并不存在线性关系的变量X1与X2,由于样本含量问题产生了共线性。样本含量较小时,自变量容易呈现线性关系。如果研究的自变量个数大于2,设为X1,X2,.,XP,虽然各自变量之间没有线性关系,但如果样本含量n小于模型中自变量的个数,就可能导致多元共线性问题。情况二:出现强影响观测值o进入20世纪80年代后期,人们开始关注单个或几个样本点对多重共线性的影响。研究表明,存在两类这样的数据点或点群:(1)导致或加剧多重共线性(2)掩盖存在着的多重共线性。(a)中因异常观测值的出现而掩盖了共线性,(b)中因异常观测值的出现而产生了共线性。这样的异常观测值称为多元共线性强影响观测值。显然这种观测值会对设计矩
4、阵的性态产生很大影响,从而影响参数估计。情况三:时序变量o若建模所用的自变量是时序变量,并且是高阶单整时序变量,这种时序变量之间高度相关,必然导致多重共线性。二、多元共线性的影响o 以多元线性回归分析为例,讨论多元共线性问题对参数估计的影响。o 采用最小二乘法(the Least Squares Method)对多元线性回归模型的偏回归系数进行估计。经整理得一个关于0,1、m的线性方程组,称为正规方程组。若记方程组的系数矩阵为A,则A恰为 。的最小二乘估计可表示为:YXXXT1TXXTo 如果自变量存在完全多元共线性,设计矩阵不是列满秩的,,,即 的逆阵不存在,该矩阵为奇异矩阵。因此无法利用最
5、小二乘法估计偏回归系数。o 如果自变量之间存在近似共线性,接近奇异,此时如果仍然采用最小二乘法,会使偏回归系数的估计值不稳定、不合理,严重影响回归模型拟合的效果。1mXr0|XX|TXXT0|XX|TXXT多元共线性的表现o 上述效应在实际应用中主要表现为:n(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;n(2)偏回归系数估计值的方差很大;n(3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化;n(4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释。出现以上表现,提示存在多元共线
6、性问题,应进行多元共线性诊断。三、多元共线性的诊断o 常用的共线性诊断指标有以下几个:n(1)方差膨胀因子(variance inflation factors,)其中 为 与其余(m-1)个自变量线性回归的决定系数。值越大,多元共线程度越严重。jVIF)1(12jjRVIFmj,2,12jRjXo(2)特征根系统(system of eigenvalues)主要包括条件指数和方差比。条件指数是最大特征根与每个特征根之比的平方根。当 且对应的方差比大于0.5时,可认为多元共线性严重存在。10jho 此外,还有几种方法可以进行共线性诊断:n 1、自变量的相关系数诊断法自变量的相关系数诊断法n 2
7、、多元决定系数值诊断法多元决定系数值诊断法n 3、行列式判别法行列式判别法n 4、回归系数方差分解法(、回归系数方差分解法(RCVDRCVD法)法)1、自变量的相关系数诊断法自变量的相关系数诊断法o自变量的两两相关分析,如果自变量间的二元相关系数值很大(如大于0.9),则可认为存在多元共线性。但无确定的标准判断相关系数的大小与共线性的关系。有时,相关系数值不大,也不能排除多重共线性的可能。2、多元决定系数值诊断法多元决定系数值诊断法o假定多元回归模型p个自变量,其多元决定系数为 。分别构成不含其中某个自变量(Xi,i=1,2,p)的p个回归模型,并应用最小二乘法准则分别拟合回归方程,求出它们各
8、自的决定系数 (i=1,2,p)。2yRp,x,xx212iRo 如果其中最大的一个 与 很接近,假设不含 的回归模型,其决定系数与 很接近,说明将 从模型中去掉,对回归模型的决定系数影响不大。因此,可认为该变量对Y总变异的解释能力可由其他自变量代替。它很有可能是其他自变量的线性组合。该自变量进入模型后就有可能引起多重共线性问题。o 该方法也存在临界值和主观判断问题。2kR2yR2yR1X1X3、行列式判别法行列式判别法o令 ,为 的特征根,于是令 D=|=det(),为H的行列式。o当 为奇异矩阵时,其最小特征根很小,接近于0。而D=det()=j,这样D就接近于0。XXHTXXTp,1,2
展开阅读全文