欢迎来到163文库! | 帮助中心 精品课件PPT、教案、教学设计、试题试卷、教学素材分享与下载!
163文库
全部分类
  • 办公、行业>
  • 幼教>
  • 小学>
  • 初中>
  • 高中>
  • 中职>
  • 大学>
  • 各类题库>
  • ImageVerifierCode 换一换
    首页 163文库 > 资源分类 > PPT文档下载
    分享到微信 分享到微博 分享到QQ空间

    5自变量选择与逐步回归-课件.ppt

    • 文档编号:7313236       资源大小:287.50KB        全文页数:44页
    • 资源格式: PPT        下载积分:22文币     交易提醒:下载本文档,22文币将自动转入上传用户(ziliao2023)的账号。
    微信登录下载
    快捷注册下载 游客一键下载
    账号登录下载
    二维码
    微信扫一扫登录
    下载资源需要22文币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    优惠套餐(点此详情)
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、试题类文档,标题没说有答案的,则无答案。带答案试题资料的主观题可能无答案。PPT文档的音视频可能无法播放。请谨慎下单,否则不予退换。
    3、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者搜狗浏览器、谷歌浏览器下载即可。。

    5自变量选择与逐步回归-课件.ppt

    1、1第第5章章 自变量选择与逐步回归自变量选择与逐步回归信计学院统计系信计学院统计系 沈菊红沈菊红2第第5章章 自变量选择与逐步回归自变量选择与逐步回归自变量选择对估计和预测的影响自变量选择对估计和预测的影响自变量选择的准则自变量选择的准则逐步回归逐步回归 前进法前进法 后退法后退法 逐步回归法逐步回归法3说说 明明我们在建立回归模型时,首要问题是如何确定回归自我们在建立回归模型时,首要问题是如何确定回归自变量。如果遗漏了某些重要的变量,回归方程的效果变量。如果遗漏了某些重要的变量,回归方程的效果肯定不会好;如果考虑过多的自变量,在这些变量中,肯定不会好;如果考虑过多的自变量,在这些变量中,某些

    2、变量可能和其他变量有很大程度的重叠。这样的某些变量可能和其他变量有很大程度的重叠。这样的话,会增大计算量,回归方程稳定性也很差,并且直话,会增大计算量,回归方程稳定性也很差,并且直接影响回归方程的应用。接影响回归方程的应用。4一一 自变量选择对估计和预测的影响自变量选择对估计和预测的影响w全模型和选模型全模型和选模型w设对因变量有影响的因素共有设对因变量有影响的因素共有m个,由因变个,由因变量量yw和和m个自变量个自变量 构成的回归模型为构成的回归模型为12,mx xx01 122mmyxxx(5.1)称模型称模型(5.1)为全模型。为全模型。如果从所有可供选择的如果从所有可供选择的m个变量中

    3、挑选出个变量中挑选出p个,记个,记为为 ,由所选的,由所选的p个自变量组成的回归模个自变量组成的回归模型为型为12,px xx01122pppppppyxxx(5.2)5相对全模型而言,称相对全模型而言,称(5.2)式为选模型式为选模型 自变量的选择问题可以看成是对一个实际问题自变量的选择问题可以看成是对一个实际问题是用是用(5.1)式全模型还是用式全模型还是用(5.2)式选模型去描述。式选模型去描述。模型选择不当会给参数估计和预测带来不良影模型选择不当会给参数估计和预测带来不良影响。为了方便,把模型响。为了方便,把模型(5.1)式的参数向量式的参数向量 和和 记为记为2mmmm-1=(X X

    4、)X y211mmSSEnm6把模型把模型(5.2)式的参数向量式的参数向量 和和 记为记为2pppp-1=(X X)X y211ppSSEnp72 自变量选择对预测的影响自变量选择对预测的影响全模型与选模型全模型与选模型全模型正确,误用选模型全模型正确,误用选模型选模型正确,误用全模型选模型正确,误用全模型xxxymm22110pppppppxxxy221108全模型正确,误用选模型的情况全模型正确,误用选模型的情况选模型回归系数的选模型回归系数的OLS是全模型相应参是全模型相应参数的有偏估计数的有偏估计选模型的预测有偏选模型的预测有偏jjpjpE)(0)(00 yyEp9全模型正确,误用选

    5、模型的情况全模型正确,误用选模型的情况选模型的参数估计方差较小选模型的参数估计方差较小选模型的预测残差方差较小选模型的预测残差方差较小)()(jmjpDD)()(00mpeDeD10全模型正确,误用选模型的情况全模型正确,误用选模型的情况在在 条件下,条件下,选模型预测的均方误差比全模型预测的方差小选模型预测的均方误差比全模型预测的方差小pmpmpmD)(20020020)()()()()(mmpppeEeDeEeDeE1(,)m ppm112 自变量选择对预测的影响自变量选择对预测的影响全模型正确而误用选模型的情况全模型正确而误用选模型的情况 当全模型正确时,而我们舍去了当全模型正确时,而我

    6、们舍去了m-p个自变量,个自变量,用剩下的用剩下的p个自变量去建立选模型,参数估计值是个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其作预测,预测值全模型相应参数的有偏估计,用其作预测,预测值也是有偏的;也是有偏的;用选模型作预测,残差的方差比用全模型去作预用选模型作预测,残差的方差比用全模型去作预测的方差小;测的方差小;即使全模型正确,但如果其中有一些自变量对因即使全模型正确,但如果其中有一些自变量对因变量影响较小或回归系数方差过大,我们丢掉这些变量影响较小或回归系数方差过大,我们丢掉这些变量后,用选模型去预测,可以提高预测的精度。变量后,用选模型去预测,可以提高预测的精度。

    7、12选模型正确,误用全模型的情况选模型正确,误用全模型的情况全模型的预测值是有偏估计全模型的预测值是有偏估计从预测方差的角度看,选模型的预测方从预测方差的角度看,选模型的预测方差小于全模型的预测方差差小于全模型的预测方差0)(00 yyEm)()(00mpyDyD13w 从均方预测误差的角度看,选模型的均方从均方预测误差的角度看,选模型的均方w 预测误差小于全模型的均方预测误差预测误差小于全模型的均方预测误差2000200)()()()(yEyEyDyyEmmm)()(0200ppyDyyE00()()pmD yD y220000()()pmE yyE yy2()()MSEtrCovE142

    8、自变量选择对预测的影响自变量选择对预测的影响选模型正确而误用全模型的情况选模型正确而误用全模型的情况 如果选模型正确,从无偏性的角度看,选模型的如果选模型正确,从无偏性的角度看,选模型的 预测值预测值 是因变量新值是因变量新值 的无偏估计,而全模型的无偏估计,而全模型的预测值的预测值 是是 的有偏估计;的有偏估计;从预测方差的角度看,选模型的预测方差小于全从预测方差的角度看,选模型的预测方差小于全模型的预测方差;模型的预测方差;从均方预测误差的角度看,全模型的预测误差大从均方预测误差的角度看,全模型的预测误差大于选模型的预测误差。于选模型的预测误差。0py0y0my0y15选择自变量的基本指导

    9、思想是:少而精选择自变量的基本指导思想是:少而精剔除可有可无的自变量。剔除可有可无的自变量。以估计量的有以估计量的有偏性为代价,用选模型估计的保留变量偏性为代价,用选模型估计的保留变量的回归系数的方差小,对于所预测的因的回归系数的方差小,对于所预测的因变量的方差也小。变量的方差也小。16二二 所有子集回归所有子集回归选模型的个数选模型的个数残差平方和最小残差平方和最小?复决定系数最大复决定系数最大?xxxymm2211021m17选择回归子集的准则选择回归子集的准则自由度调整复决定系数达到最大;自由度调整复决定系数达到最大;回归误差项方差估计(残差均方)最小:回归误差项方差估计(残差均方)最小

    10、:2211SSTnR)1(11122RpnnR12pnSSE18什么是自由度什么是自由度模型中样本值可以自由变动的个数,称模型中样本值可以自由变动的个数,称为自由度为自由度自由度自由度=样本个数样本个数 样本数据受约束样本数据受约束条件条件(方程方程)的个数的个数例如,样本数据个数为例如,样本数据个数为n,它们受,它们受k个方个方程的约束(系数矩阵秩为程的约束(系数矩阵秩为k),那么,自),那么,自由度由度df=n-k19举例举例:SST、SSR、SSE的自由度的自由度222121222121(),1.()(),0,022,(1)(2)1iiTiiiiiiiERSSTYYYYndfnSSEYY

    11、YXeenYdfnSSRSSTSSEdfnn受一个方程的约束所以而由方程求出,共有 个方程对个 约束所以,再由:知20 对应于平方和分解的自由度的分解对应于平方和分解的自由度的分解SST =SSR +SSE n-1 1 n-2总自由度总自由度dfT 回归自由度回归自由度dfR 残差自由度残差自由度dfE 自由度分解:自由度分解:dfT=dfE+dfR21选择回归子集的准则选择回归子集的准则赤池信息量赤池信息量AIC最小:根据最小:根据极大似然估计原理极大似然估计原理正态经典回归模型的选择正态经典回归模型的选择pxLAICL2),(ln2pSSEnAIC2)ln(反映回归方程的拟合精度反映回归方

    12、程的拟合精度模型复杂度模型复杂度12(,)ny yy y22选择回归子集的准则选择回归子集的准则CP统计量最小统计量最小(mallows,1964)从预测角度提出:预测误差最小从预测角度提出:预测误差最小pnSSESSEmnCmPP2)1(pnSSECPP22211mSSEn m23三三 逐步回归逐步回归在多元线性回归分析中,并不是所有自变量对因在多元线性回归分析中,并不是所有自变量对因变量有显著的影响。变量有显著的影响。问题:如何挑选出对因变量有显著影响的自变量?问题:如何挑选出对因变量有显著影响的自变量?变量的所有可能子集构成变量的所有可能子集构成 个回归方程,当自个回归方程,当自变量个数

    13、较多时,要求出所有可能的回归方程是变量个数较多时,要求出所有可能的回归方程是非常困难的。非常困难的。21m24三、三、逐步回归逐步回归前进法前进法:少到多少到多后退法后退法:多到少多到少逐步回归逐步回归2jjjjjFtc11)()(pnSSESSRSSRFjjjx25前进法前进法:少到多少到多1.建立建立m个一元线性回归方程,取最大的个一元线性回归方程,取最大的112111,maxmjFFFF)2,1(1nFFj1jF26前进法前进法:少到多少到多2.建立建立m-1个二元线性回归方程,取最大的个二元线性回归方程,取最大的直到所有未引入方程的自变量直到所有未引入方程的自变量F值均小于值均小于 2

    14、23222,maxmjFFFF)3,1(2nFFj)1,1(pnF2jF为止。为止。27例题分析例题分析输出结果输出结果5.3Model Sum of SquaresdfMean SquareFSig.Regression7,329,802.20617,329,802.20635.2610.000Residual6,028,236.50429207,870.224Total13,358,038.71030Regression9,305,460.27224,652,730.13632.1470.000Residual4,052,578.43828144,734.944Total13,358,03

    15、8.71030Regression9,871,760.15433,290,586.71825.4840.000Residual3,486,278.55627129,121.428Total13,358,038.71030Regression10,456,819.79542,614,204.94923.4280.000Residual2,901,218.91526111,585.343Total13,358,038.71030Regression11,004,290.49952,200,858.10023.3760.000Residual2,353,748.2112594,149.928Tota

    16、l13,358,038.71030ANOVA(f)1234528Standardized CoefficientsBStd.ErrorBeta1 (Constant)-209.535124.469-1.6830.103 X76.9071.1630.7415.9380.0002 (Constant)-96.142108.300-0.8880.382X713.7912.1011.4796.5640.000X4-2.5200.682-0.832-3.6950.0013 (Constant)-174.886108.984-1.6050.120X711.1522.3511.1964.7440.000X4

    17、-2.0340.685-0.672-2.9700.006X1010.7615.1390.2602.0940.0464 (Constant)-228.815104.015-2.2000.037X78.7862.4170.9423.6350.001X4-3.2610.832-1.077-3.9190.001X1013.8644.9650.3352.7920.010X32.8491.2440.6472.2900.0305 (Constant)-140.625102.304-1.3750.181X73.9103.0030.4191.3020.205X4-1.9970.927-0.660-2.1540.

    18、041X1018.4314.9390.4463.7320.001X35.0901.4731.1573.4550.002X11-7.4423.086-0.551-2.4110.024Coefficients(a)ModelUnstandardized CoefficientstSig.29ModelRR Square Adjusted R SquareStd.Error of the Estimate10.7410.5490.533455.92820.8350.6970.675380.44030.8600.7390.710359.33540.8850.7830.749334.04450.9080

    19、.8240.789306.839Model Summary从输出结果中看到,前进法依次引入了变从输出结果中看到,前进法依次引入了变量量 ,最优回归模型为,最优回归模型为7410311,x x xx x3471011140.6255.0901.9973.91018.4317.442yxxxxx 30ModelRR Square Adjusted R SquareStd.Error of the Estimate10.9350.8750.792304.680这是全模型的复决定系数表,比较它和选模型的复这是全模型的复决定系数表,比较它和选模型的复决定系数。决定系数。31后退法后退法(与前进法相反与前

    20、进法相反):多到少:多到少1.用全部用全部m个变量建立一个回归方程,对个变量建立一个回归方程,对m个个回归系数进行回归系数进行F检验,取最小的检验,取最小的12min,mmmmjmFFFF(1,1)mjFFnmmjF32后退法:多到少后退法:多到少2.对剩下的对剩下的m-1个自变量建立回归方程,取最小的个自变量建立回归方程,取最小的直到方程中所剩余的自变量直到方程中所剩余的自变量F值均大于值均大于 111123min,mmmmjmFFFF1(1,(1)1)mjFFnm)1,1(pnF1mjF为止。为止。33例题分析例题分析输出结果输出结果5.4【例【例5.4】对例对例3.1国际旅游外汇收入国际

    21、旅游外汇收入y关于第三产业关于第三产业的的12个变量作回归的数据,用后退法做变量选择,取个变量作回归的数据,用后退法做变量选择,取0.1出ModelRR SquareAdjusted R SquareStd.Error of the Estimate10.9350.8750.792304.68020.9350.8750.802296.58930.9350.8750.812289.22040.9350.8740.820282.72250.9330.8700.823280.92860.9310.8670.827277.49370.9300.8640.830275.13080.9230.8520.8

    22、22281.682Model Summary34ModelSum of SquaresdfMean SquareFSig.Regression11,687,102.91812973,925.24310.4920.000Residual1,670,935.7921892,829.766Total13,358,038.71030Regression11,686,706.860111,062,427.89612.0780.000Residual1,671,331.8501987,964.834Total13,358,038.71030Regression11,685,072.282101,168,5

    23、07.22813.9690.000Residual1,672,966.4282083,648.321Total13,358,038.71030Regression11,679,474.92691,297,719.43616.2350.000Residual1,678,563.7832179,931.609Total13,358,038.71030Regression11,621,791.31981,452,723.91518.4070.000Residual1,736,247.3902278,920.336Total13,358,038.71030Regression11,586,979.58

    24、371,655,282.79821.4960.000Residual1,771,059.1272377,002.571Total13,358,038.71030Regression11,541,317.19861,923,552.86625.4110.000Residual1,816,721.5122475,696.730Total13,358,038.71030Regression11,374,414.53152,274,882.90628.6710.000Residual1,983,624.1792579,344.967Total13,358,038.71030ANOVA(i)123456

    25、7835Standardized CoefficientsStandardized CoefficientsB BStd.ErrorStd.ErrorBetaBeta(Constant)(Constant)-184.69-184.6998.35798.357-1.9-1.90.0720.0728 8X34.3254.3250.8730.8730.98250.98254.964.960 0X8-20.188-20.1887.0897.089-0.6813-0.6813-2.8-2.80.0090.009X917.33417.3347.1027.1021.03771.03772.442.440.0

    26、220.022X1011.64411.6446.456.450.28150.28151.811.810.0830.083X11-12.998-12.9983.5583.558-0.9625-0.9625-3.7-3.70.0120.012ModelModelUnstandardized CoefficientsUnstandardized Coefficientst tSig.Sig.Coefficients36由输出结果看到:模型由输出结果看到:模型1是全模型,从模型是全模型,从模型2至模型至模型8依次剔除变量依次剔除变量 ,最优回归子集,最优回归子集模型模型8的回归方程为的回归方程为121

    27、24765,x x xx x x x389911184.694.32520.18817.33411.64412.998yxxxxx 复决定系数复决定系数 ,而全模型的复决,而全模型的复决定系数定系数 220.852,0.822aRR220.875,0.792aRR37逐步回归:有进有出逐步回归:有进有出前进法和后退法的不足(前进法和后退法的不足(自变量间相关时自变量间相关时):):n前者:只考虑引进,不考虑剔除前者:只考虑引进,不考虑剔除n后者:一旦剔除一棍子打死后者:一旦剔除一棍子打死引入一个自变量后,对已选入的自变量逐个检引入一个自变量后,对已选入的自变量逐个检查,保证每次引入前方程只包含

    28、显著变量查,保证每次引入前方程只包含显著变量引入自变量的显著性水平低于剔除自变量的显引入自变量的显著性水平低于剔除自变量的显著性水平著性水平 :避免死循环:避免死循环进出38逐步回归法逐步回归法逐步回归的基本思想是有进有出。逐步回归的基本思想是有进有出。具体做法是将变量一个一个引入,当每引入一个具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程著时,要将其剔除。引入一个变量或从回归方程中剔除一个

    29、变量,为逐步回归的一步,每一步都中剔除一个变量,为逐步回归的一步,每一步都要进行要进行F检验,以确保每次引入新的变量之前回归检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。方程中只包含显著的变量。39此过程反复进行,直到即无显著的自变量选入此过程反复进行,直到即无显著的自变量选入回归方程,也无不显著自变量从方程中剔除为回归方程,也无不显著自变量从方程中剔除为止。止。逐步回归法避免了前进法和后退法各自的缺陷,逐步回归法避免了前进法和后退法各自的缺陷,保证了最后所得的回归子集是最优回归子集。保证了最后所得的回归子集是最优回归子集。40例题分析例题分析【续例【续例5.4】用逐步回归法作变

    30、量选择,取】用逐步回归法作变量选择,取0.05,0.1进出Model SummaryModelRR SquareAdjusted R SquareStd.Error of the Estimate10.7410.5490.533455.92820.8350.6970.675380.44030.8600.7390.710359.33540.8850.7830.749334.04450.9080.8240.789306.83960.9010.8120.783310.91070.8890.7910.768321.507输出结果输出结果5.541ANOVAModel Sum of SquaresdfM

    31、ean SquareFSig.1Regression7,329,802.217,329,802.235.2610.000Residual6,028,236.529207,870.22Total13,358,039302Regression9,305,460.224,652,730.132.1470.000Residual4,052,578.428144,734.94Total13,358,039303Regression9,871,760.233,290,586.725.4840.000Residual3,486,278.627129,121.43Total13,358,039304Regre

    32、ssion10,456,82042,614,204.923.4280.000Residual2,901,218.926111,585.34Total13,358,039305Regression11,004,290.52,200,858.123.3760.000Residual2,353,748.22594,149.928Total13,358,039306Regression10,844,74542,711,186.328.0470.000Residual2,513,293.42696,665.129Total13,358,039307Regression10,567,12833,522,3

    33、76.134.0760.000Residual2,790,910.527103,367.06Total13,358,0393042Model Unstandardized CoefficientsStandardized CoefficientstSig.BStd.ErrorBeta1 (Constant)-209.535124.469-1.6830.103X76.9071.1630.7415.9380.0002 (Constant)-96.142108.300-0.8880.382X713.7912.1011.4796.5640.000X4-2.5200.682-0.832-3.6950.0

    34、013 (Constant)-174.886108.984-1.6050.120X711.1522.3511.1964.7440.000X4-2.0340.685-0.672-2.9700.006X1010.7615.1390.2602.0940.0464 (Constant)-228.815104.015-2.2000.037X78.7862.4170.9423.6350.001X4-3.2610.832-1.077-3.9190.001X1013.8644.9650.3352.7920.010X32.8491.2440.6472.2900.0305 (Constant)-140.62510

    35、2.304-1.3750.181X73.9103.0030.4191.3020.205X4-1.9970.927-0.660-2.1540.041X1018.4314.9390.4463.7320.001X35.0901.4731.1573.4550.002X11-7.4423.086-0.551-2.4110.024Coefficients43续前表续前表(Constant)-127.159103.130-1.2330.229X4-1.2890.761-0.426-1.6950.102x1022.6503.7760.5485.9980.000 x36.3751.1081.4485.7530.

    36、000 x11-10.1482.312-0.751-4.3980.000(Constant)-117.497106.482-1.1030.280 x1021.4793.8390.5195.5950.000 x34.9750.7641.1306.5160.000 x11-11.2642.292-0.834-4.9160.000从本例逐步回归的选元过程可以看出逐步回归方法的有进有出从本例逐步回归的选元过程可以看出逐步回归方法的有进有出的思想,在第一步引入的的思想,在第一步引入的 在第六步又被剔除了;同样,在第在第六步又被剔除了;同样,在第二步引入的二步引入的 在第七步被剔除了。该结果说明自变量间具有在第七步被剔除了。该结果说明自变量间具有相相关性关性;自变量之间的;自变量之间的相关性程度严重相关性程度严重时称为时称为多重共线性多重共线性。7x4x谢谢


    注意事项

    本文(5自变量选择与逐步回归-课件.ppt)为本站会员(ziliao2023)主动上传,其收益全归该用户,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!




    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库