多元线性回归多重共线性课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《多元线性回归多重共线性课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 线性 回归 多重 课件
- 资源描述:
-
1、1多重共线性多重共线性2引子:引子:发展农业和建筑业会减少财政收入吗?发展农业和建筑业会减少财政收入吗?为了分析各主要因素对财政收入的影响,建立财政收为了分析各主要因素对财政收入的影响,建立财政收入模型入模型:其中其中:CS:CS财政收入财政收入(亿元亿元););NZ NZ农业增加值农业增加值(亿元亿元);GZ);GZ工业增加值工业增加值(亿元亿元););JZZ JZZ建筑业增加值建筑业增加值(亿元亿元);TPOP);TPOP总人口总人口(万人万人););CUM CUM最终消费最终消费(亿元亿元);SZM);SZM受灾面积受灾面积(万公顷万公顷)数据样本时期数据样本时期19781978年年-2
2、003-2003年年(资料来源(资料来源:中国统计年鉴中国统计年鉴20042004,中国统计出版社中国统计出版社20042004年)年)采用普通最小二乘法得到以下估计结果采用普通最小二乘法得到以下估计结果iiiiiiiiuSZMCUMTPOPJZZGZNZCS65432103 VariableCoefficientStd.Errort-StatisticProb.农业增加值农业增加值NZ-1.5350900.129778-11.828610.0000工业增加值工业增加值GZ0.8987880.2454663.6615580.0017建筑业增加值建筑业增加值JZZ-1.5270891.20624
3、2-1.2659890.2208总人口总人口TPOP0.1511600.0337594.4776460.0003最终消费最终消费CUM0.1015140.1053290.9637830.3473受灾面积受灾面积SZM-0.0368360.018460-1.9953820.0605截距项截距项-11793.343191.096-3.6957040.0015R-squared0.995015 Mean dependent var5897.824Adjusted R-squared0.993441 S.D.dependent var5945.854S.E.of regression481.5380
4、Akaike info criterion15.41665Sum squared resid4405699.Schwarz criterion15.75537Log likelihood-193.4165 F-statistic632.0999Durbin-Watson stat1.873809 Prob(F-statistic)0.000000财政收入模型的结果财政收入模型的结果4 可决系数为可决系数为0.9950.995,校正的可决系数为,校正的可决系数为0.9930.993,模型,模型拟合很好。模型对财政收入的解释程度高达拟合很好。模型对财政收入的解释程度高达99.5%99.5%。F F
5、统计量为统计量为632.10632.10,说明,说明0.050.05水平下回归方程整体水平下回归方程整体上显著。上显著。t t 检验结果表明,除了工业增加值和总人口以外,检验结果表明,除了工业增加值和总人口以外,其他因素对财政收入的影响均不显著。其他因素对财政收入的影响均不显著。农业增加值和建筑业增加值的回归系数是负数。农业增加值和建筑业增加值的回归系数是负数。农业和建筑业的发展反而会使财政收入减少吗?农业和建筑业的发展反而会使财政收入减少吗?!这样的异常结果显然与理论分析和实践经验不相符。这样的异常结果显然与理论分析和实践经验不相符。若模型设定和数据真实性没问题,问题出在哪里呢?若模型设定和
6、数据真实性没问题,问题出在哪里呢?模型估计与检验结果分析模型估计与检验结果分析5多重共线性多重共线性讨论四个问题:讨论四个问题:什么是多重共线性什么是多重共线性 多重共线性产生的后果多重共线性产生的后果 多重共线性的检验多重共线性的检验 多重共线性的补救措施多重共线性的补救措施6一、一、什么是多重共线性什么是多重共线性基本内容基本内容:多重共线性的含义多重共线性的含义 产生多重共线性的背景产生多重共线性的背景 71、多重共线性的含义、多重共线性的含义对于模型 i=1,2,n其基本假设之一是解释变量是互相独立的。n如果某两个或多个解释变量之间出现了相如果某两个或多个解释变量之间出现了相关性,则称
7、为关性,则称为多重共线性多重共线性n包括完全多重共线性和不完全多重共线性包括完全多重共线性和不完全多重共线性12233.iiikk iiYXXXu8完全的多重共线性完全的多重共线性:在计量经济学中所谓的多重共线性在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括完全的多重共线性,不仅包括完全的多重共线性,还包括不完全的多重共线性。还包括不完全的多重共线性。对于解释变量对于解释变量 ,如果存在不全为,如果存在不全为0的的 数数 ,使得,使得 则称解释变量则称解释变量 之间存在着之间存在着完全的多重完全的多重 共线性。共线性。23,kX XX12k,.12233.01
8、,2,.,iikkiXXXin 23,kXXX9当当 时,表明在数据矩阵时,表明在数据矩阵 中,中,至少有一个列向量可以用其余的列向量线至少有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。性表示,则说明存在完全的多重共线性。矩阵表示为矩阵表示为不存在即10XXXX()RankkX10不完全的多重共线性不完全的多重共线性 实际中,常见的情形是解释变量之间存在实际中,常见的情形是解释变量之间存在不完全的多重共线性。不完全的多重共线性。对于解释变量对于解释变量,存在不全为存在不全为0的数的数,使得使得 为随机变量。这表明解释变量为随机变量。这表明解释变量只是一种只是一种近似的线性
9、关系近似的线性关系。其中其中,23,kXXX12,k12233.01,2,.,iikkiiXXXuin23,kXXXiu11无多重共线性无多重共线性n如果解释变量之间不存在上述关系,则称解释变量之间无多重共线性此时:n注意:个解释变量不存在多重共线性(线性相关)并不能说明它们之间无关,不存在非线性关系()RankkX()RankKX X存在即10XXXX12 ,解释变量间毫无线性关系,变量间相互正交。这时已不需要作多元回归,每个参数j都可以通过Y 对 Xj 的一元回归来估计。回归模型中解释变量的关系回归模型中解释变量的关系 可能表现为三种情形:可能表现为三种情形:(1),解释变量间完全共线性。
10、此时模型参数将无法确定。,解释变量间存在一定程度的线性关系。实际中常遇到的情形。(2)(3)0ijx xr1ijx xr01ijx xr13 2、产生多重共线性的原因、产生多重共线性的原因 1)经济变量之间往往存在同方向的变化趋势。当他们被引入同一经济变量之间往往存在同方向的变化趋势。当他们被引入同一个模型成为解释变量时,会出现多重共线性个模型成为解释变量时,会出现多重共线性2)模型中包含滞后变量,变量各期值之间有可能高度相关。模型中包含滞后变量,变量各期值之间有可能高度相关。3)利用截面数据建立模型也可能出现多重共线性。利用截面数据建立模型也可能出现多重共线性。4)经济变量之间往往存在着密切
11、的内在关联度,要素之间互相制经济变量之间往往存在着密切的内在关联度,要素之间互相制约,互相依存。约,互相依存。5)样本数据自身的原因,数据收集的范围过窄,造成某些解释变样本数据自身的原因,数据收集的范围过窄,造成某些解释变量之间似乎有相同或相反变化趋势的假象。量之间似乎有相同或相反变化趋势的假象。6)在建模过程中由于解释变量选择不当,引起变量之间的多重共在建模过程中由于解释变量选择不当,引起变量之间的多重共线性线性注:解释变量之间的多重共线性不可避免,只可能使多重共线性注:解释变量之间的多重共线性不可避免,只可能使多重共线性的程度尽可能地减弱的程度尽可能地减弱14二、二、多重共线性产生的后果多
12、重共线性产生的后果 基本内容基本内容:完全多重共线性产生的后果完全多重共线性产生的后果 不完全多重共线性产生的后果不完全多重共线性产生的后果151、完全多重共线性产生的后果、完全多重共线性产生的后果无法估计导致)(而不存在即011YXXXXXXX161)参数的估计值不确定)参数的估计值不确定当解释变量当解释变量完全线性相关完全线性相关时时 OLS 估计式不确定估计式不确定 从偏回归系数意义看:在从偏回归系数意义看:在 和和 完全共线性时,无法保完全共线性时,无法保持持 不变,去单独考虑不变,去单独考虑 对对 的影响(的影响(和和 的影响的影响不可区分)不可区分)从从OLS估计式看:可以证明此时
13、估计式看:可以证明此时2)参数估计值的方差无限大)参数估计值的方差无限大OLS估计式的方差成为无穷大:估计式的方差成为无穷大:2X3X3X200=2X2X3X2Var()Y172 2、不完全多重共线性产生的后果、不完全多重共线性产生的后果估计值方差将很大。共线变量的参数,。中对角线元素值将很大)()(,而最小方差性。仍满足线性,无偏性和)(则OLSXXCovVarXXYXXXXX1210018 如果模型中存在不完全的多重共线性,可以得到参数的估计如果模型中存在不完全的多重共线性,可以得到参数的估计值,但是对计量经济分析可能会产生一系列的影响。值,但是对计量经济分析可能会产生一系列的影响。1)参
14、数估计值的方差增大参数估计值的方差增大为对其他解释变量做辅助回归模型的决定系数为对其他解释变量做辅助回归模型的决定系数其中:其中:称为方差膨胀因子称为方差膨胀因子当与其他解释变量存在严重的多重共线性时:当与其他解释变量存在严重的多重共线性时:22211.)(iiiRxVar2iR2iX211iiRVIF2iX)(,12iiiVarVIFR192)对参数区间估计时,对参数区间估计时,置信区间趋于变大区间估计失去可靠性;预测区间变大,置信区间趋于变大区间估计失去可靠性;预测区间变大,降低预测精度降低预测精度3)假设检验容易作出错误的判断,检验的可靠性降低,假设检验容易作出错误的判断,检验的可靠性降
15、低,可能导致在假设检验中舍去重要的解释变量可能导致在假设检验中舍去重要的解释变量因为:回归参数显著性检验因为:回归参数显著性检验变大。12)()(XXCovVar发生弃真错误。而变小增大,增大,2/)()()()(tttESVarkntEStiiii204)可能造成可决系数较高,但对各个参数单独的可能造成可决系数较高,但对各个参数单独的 t 检验检验却可能不显著,甚至可能使估计的回归系数符号相反,却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。得出完全错误的结论。无法正确反映每个解释变无法正确反映每个解释变量对被解释变量的单独影响。量对被解释变量的单独影响。5)回归模型缺乏
16、稳定性回归模型缺乏稳定性当样本观测数据发生微小变化时,模型参数的估计值会当样本观测数据发生微小变化时,模型参数的估计值会有很大的变化(氏检验)有很大的变化(氏检验)21三、三、多重共线性的检验多重共线性的检验基本内容:基本内容:简单相关系数检验法简单相关系数检验法 方差扩大(膨胀)因子法方差扩大(膨胀)因子法 直观判断法直观判断法 逐步回归法逐步回归法221、简单相关系数检验法、简单相关系数检验法 含义:含义:简单相关系数检验法是利用解释变量之间的简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一线性相关程度去判断是否存在严重多重共线性的一种简便方法。种简便方法
17、。判断规则:判断规则:一般而言,如果每两个解释变量的简单一般而言,如果每两个解释变量的简单相关系数相关系数(零阶相关系数零阶相关系数)比较高,例如大于比较高,例如大于0.8,则,则可认为存在着较严重的多重共线性。可认为存在着较严重的多重共线性。23Klein判别公式:22)()()(jjiijjiiijjiXXXXXXXXrXX之间的相关系数与为对称矩阵相关系数矩阵jiijrr 之间的共线性较为严重与则两变量若jiijXXRr,2224 注意:注意:1)较高的简单相关系数只是多重共线性存在的充分条件,而)较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。不是必要条件。2)只适用于
18、两个解释变量之间存在线性相关检验)只适用于两个解释变量之间存在线性相关检验,对于三个对于三个或更多的解释变量之间存在的线性相关关系不适用或更多的解释变量之间存在的线性相关关系不适用 3)相关系数很大则必存在多重共线性)相关系数很大则必存在多重共线性,而相关系数很小却未而相关系数很小却未必没有多重共线性必没有多重共线性.特别是在多于两个解释变量的回归模型中,特别是在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。因此并不有时较低的简单相关系数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共线性的准确判断。能简单地依据相关系数进行多重共线性的准确判断。252、
19、辅助回归检验法、辅助回归检验法kkkkkkiFRXXXfXFRXXXfXFRXXXfXKX和和和个回归方程进行回归。得对其他的解释变量将每个解释变量2121222312121321),(),(),(变量存在多重共线性。与其余解释显著的大于临界值,则,越接近重共线性与其余解释变量存在多则显著的大于临界值,接近其中的iiikiiiiXFRRRRRMaxRXFR222222122),()21)126 3 3、方差扩大(膨胀)因子法、方差扩大(膨胀)因子法 统计上可以证明,解释变量统计上可以证明,解释变量的参数估计式的参数估计式的方差可表示为的方差可表示为 其中的其中的是变量是变量(Variance
20、Inflation Factor),即,即的方差扩大因子的方差扩大因子其中其中 是多个解释变量辅助回归的可决系数是多个解释变量辅助回归的可决系数 21VIF=1-jjR222221Var()=VIF1-jjjjjxRxVIFjjXjXj2jR27经验规则经验规则方差膨胀因子越大,表明解释变量之间的多重共性方差膨胀因子越大,表明解释变量之间的多重共性越严重。反过来,越严重。反过来,方差膨胀因子越接近于方差膨胀因子越接近于1,多重,多重共线性越弱。共线性越弱。经验表明,经验表明,方差膨胀因子方差膨胀因子10时,说明解释变量与时,说明解释变量与其余解释变量之间有严重的多重共线性其余解释变量之间有严重
展开阅读全文