1、逐步回归逐步回归1ppt课件多重线性回归中自变量的确定多重线性回归中自变量的确定:根据理论知识根据理论知识根据经验根据经验部分自变量的作用不确认,借助统计分析来实现部分自变量的作用不确认,借助统计分析来实现 剔除:剔除:对问题的研究可能不重要对问题的研究可能不重要 可能实际上与其他变量重叠可能实际上与其他变量重叠 较大测量误差较大测量误差 逐步回归逐步回归2ppt课件为何要剔除一部分自变量?为何要剔除一部分自变量?自变量太多,信息成本高,模型复杂,不易分析理解自变量太多,信息成本高,模型复杂,不易分析理解高度相关的自变量并不增强模型的预测能力,反而加高度相关的自变量并不增强模型的预测能力,反而
2、加大回归系数的样本变差,削弱模型的描述能力大回归系数的样本变差,削弱模型的描述能力 少而精少而精3ppt课件逐步回归逐步回归逐步回归逐步回归-从从m个自变量中选择(个自变量中选择(m)个)个自变量,拟合最优或较理想的多元线性回归方程。自变量,拟合最优或较理想的多元线性回归方程。选出的自变量数应:选出的自变量数应:足够少:足够少:对应变量无重要作用的自变量不能多,对应变量无重要作用的自变量不能多,剔除在方程外剔除在方程外充分多:充分多:对应变量有重要作用的自变量不能少,对应变量有重要作用的自变量不能少,保留在方程中保留在方程中4ppt课件自变量选择准则自变量选择准则残差平方和(SS残)与确定系数
3、(R2)残差均方(MS残)与调整确定系数(Adj R2)AIC信息统计量统计量5ppt课件残差平方和(残差平方和(SSSS残残)以某一自变量以某一自变量j被引入模型中导致残差平方和的改被引入模型中导致残差平方和的改变量评价在此模型条件下变量评价在此模型条件下j对应变量影响程度;对应变量影响程度;引入引入j,SS残残减少量多,则减少量多,则j对的作用大,可对的作用大,可被引入被引入剔除剔除j,SS残残增加量多,则增加量多,则j对的作用大,对的作用大,不应剔除不应剔除6ppt课件确定系数(确定系数(R R2 2)R2=1-SS残/SS总 R2与SS残完全相关,作为选择自变量的准则时完全与SS残等价
4、。7ppt课件SS残与R2 如具有p个自变量的某一种组合可使:SS残P与含全部(m个)自变量SS残m接近;R2P与 R2m接近 则含这p个自变量的方程为“最优”方程 但“接近”的标准凭主观确定8ppt课件SS残与R2 SS残、R2值的大小与引入自变量个数有关,随自变量个数的增加SS残减少9ppt课件SS残与R2 SS残值小,R2大缺点:按SS残值小,R2大的原则选择自变量,全部自变量均引入时的模型为较“优”模型,未起到选择自变量作用;SS残变化量准则适用于比较具有相同自变量个数模型优劣的判据,而不适合对变量个数不同的模型的比较。10ppt课件残差均方残差均方(MS残残)模型从无自变量开始,按自
5、变量对模型从无自变量开始,按自变量对Y作用大小逐作用大小逐渐引入,当对渐引入,当对Y作用大的自变量引入时,作用大的自变量引入时,SS残残减减少幅度大于(少幅度大于(n-p-1)减少幅度,减少幅度,MS残残降低降低;当模型中自变量增加到一定程度,对当模型中自变量增加到一定程度,对Y作用大的作用大的自变量已基本引入,再增加自变量,自变量已基本引入,再增加自变量,SS残残减少幅减少幅度小于(度小于(n-p-1)减少幅度,减少幅度,MS残残增加增加。11ppt课件调整确定系数(调整确定系数(Adj R2)作为选择自变量的准则,作为选择自变量的准则,Adj R2与与MS残残等价。等价。缺点:缺点:n很大
6、,很大,Adj R2 R2,评判效果不佳,评判效果不佳1)1(1.222pnRpRMSMSRAdjPP总残12ppt课件AIC信息统计量 由日本统计学家由日本统计学家Akaike(1974)提出并修正以适合于回)提出并修正以适合于回归模型选择的准则归模型选择的准则-Akaike 信息量准则(信息量准则(Akaike information criterion),简记,简记AIC。最小二乘法下最小二乘法下 AIC=n.Ln(SS残残)SS残残:含:含P个自变量时的残差平方和。个自变量时的残差平方和。AIC达到最小为准则达到最小为准则13ppt课件统计量统计量Mallows,C.L(1966)提出
7、。:含有P个 自变量的残差平方和;:含有全部 自变量(m个)的残差平方和PSS残mSS残)1(2)1()1(2)1pnMSpnMSpnSSmnSSCmPmPP残残残残(14ppt课件统计量统计量 统计量从预测出发,基于残差平方和的一个准则。统计量从预测出发,基于残差平方和的一个准则。若含有若含有P个个 自变量的模型合适,自变量的模型合适,具有较小的具有较小的值,且值,且接近于接近于P+1的模型为的模型为“最优最优”模型。模型。n大时,大时,准则效果好准则效果好)()(mPMSEMSE残残 1)(pCEP15ppt课件自变量选择方法自变量选择方法“目的”决定自变量选择方法选择对应变量作最好预报的
8、一组自变量选择对应变量作最好预报的一组自变量-着眼点着眼点是拟合回归方程的一组自变量整体,用该组自变是拟合回归方程的一组自变量整体,用该组自变量应使回归方程拟合得最好;量应使回归方程拟合得最好;选择对应变量作最好解释的主要自变量选择对应变量作最好解释的主要自变量-着眼点着眼点是引入回归方程的一组自变量的每个自变量是引入回归方程的一组自变量的每个自变量16ppt课件自变量选择方法自变量选择方法最优子集法最优子集法向前法向前法向后法向后法逐步法逐步法17ppt课件最优子集法最优子集法m个自变量,可建立个自变量,可建立m-1个不同自变量组合方个不同自变量组合方程,按某一自变量选择准则,从程,按某一自
9、变量选择准则,从m-1个方程个方程中选择一个或几个最优的方程。中选择一个或几个最优的方程。常用自变量选择准则:常用自变量选择准则:SS残残准则、准则、R2准则、准则、Adj R2准则、准则、准则准则 建议选择:建议选择:Adj R2准则、准则、准则准则18ppt课件最优子集法最优子集法优点:优点:MSMS残残最小,最小,F F最大,回归方程最优;最大,回归方程最优;缺点:缺点:计算量大,如计算量大,如m15,则必须拟合,则必须拟合15-1=32767个个子集回归方程来挑选最优,因此该法主要适用于子集回归方程来挑选最优,因此该法主要适用于m较小情况较小情况 当样本含量当样本含量n小时,结果的重复
10、性差;小时,结果的重复性差;不能保证:引入回归方程的各自变量都有统计学不能保证:引入回归方程的各自变量都有统计学意义、回归方程外的各自变量都无统计学意义意义、回归方程外的各自变量都无统计学意义 19ppt课件最优子集法实例输出结果解读最优子集法实例输出结果解读(M=3)20ppt课件向前法(向前法(forward selection)基本思想基本思想步步:方程中无自变量,方程中无自变量,SS回回=0,SS残残=SS总;总;步:分别建立自变量为步:分别建立自变量为X1、X2Xm的的m个回归个回归方程,对贡献最大者,即方程,对贡献最大者,即F最大者(假如为最大者(假如为X1)作)作偏回归平方和检验
11、,如无统计学意义,则终止,偏回归平方和检验,如无统计学意义,则终止,如有统计学意义,则引入如有统计学意义,则引入X1,完成第步;,完成第步;21ppt课件向前法向前法步:在方程中已有步:在方程中已有1情况下,分别引入情况下,分别引入个其余自变量,(个其余自变量,(X1,X2),(),(X1,X3)(X1,Xm)建立方程,引入偏)建立方程,引入偏F最大者最大者(假设为(假设为X2)作检验,如无统计学意义,则)作检验,如无统计学意义,则终止,如有统计学意义,则引入终止,如有统计学意义,则引入X2,完成第,完成第2步;步;反复上述过程,直到剩余变量不能再引入。整反复上述过程,直到剩余变量不能再引入。
12、整个过程结束。个过程结束。22ppt课件向前法向前法优点:计算量小优点:计算量小缺点:引入自变量在当时有统计学意义,但随缺点:引入自变量在当时有统计学意义,但随着其他自变量引入,可能引入的自变量与前期着其他自变量引入,可能引入的自变量与前期引入自变量间存在共线性,导致前期引入自变引入自变量间存在共线性,导致前期引入自变量作用无统计学意义,因此,最终方程中可能量作用无统计学意义,因此,最终方程中可能存在无统计学意义的自变量。存在无统计学意义的自变量。23ppt课件向后法向后法(backward selection)0步:建立步:建立1个包含全部自变量的方程,作个包含全部自变量的方程,作F检验,如
13、无检验,如无统计学意义,全部过程结束,否则进行第统计学意义,全部过程结束,否则进行第1步;步;1步:建立剔除步:建立剔除1个自变量的方程(共个自变量的方程(共m个方程),计个方程),计算剔除变量后所致残差平方和增量的偏算剔除变量后所致残差平方和增量的偏F值,取最小者值,取最小者与与F界值比较,如无统计学意义,则将对应的自变量剔界值比较,如无统计学意义,则将对应的自变量剔除;除;重复上述过程,每次循环剔除重复上述过程,每次循环剔除1个对模型贡献最小个对模型贡献最小的且无统计学意义的自变量,直到方程中变量都不能的且无统计学意义的自变量,直到方程中变量都不能再剔除为止。再剔除为止。24ppt课件向后
14、法向后法优点:可行性强,若自变量较少时,不太多的步优点:可行性强,若自变量较少时,不太多的步骤可以获得回归方程;骤可以获得回归方程;缺点:缺点:第步计算含全部自变量的回归方程,如自变量第步计算含全部自变量的回归方程,如自变量数多,则计算量大;数多,则计算量大;每次剔除个贡献最小且无统计学意义的自变量,每次剔除个贡献最小且无统计学意义的自变量,若无统计学意义的自变量多,则计算量大。若无统计学意义的自变量多,则计算量大。25ppt课件逐步法(逐步法(stepwise selection)向前法与向后法相结合,基本思想:向前法与向后法相结合,基本思想:1 1步:在全部自变量中,引入一个对步:在全部自
15、变量中,引入一个对Y Y贡献最大的自变贡献最大的自变量,建立只含量,建立只含1 1个自变量的回归方程;个自变量的回归方程;2 2步:在上步基础上考虑引入第步:在上步基础上考虑引入第2 2个变量,建立只含个变量,建立只含2 2个个自变量的回归方程;自变量的回归方程;3 3步:步:2 2个自变量的回归方程中是否有变量剔除;个自变量的回归方程中是否有变量剔除;.每引入每引入1 1个与剔除个与剔除1 1个自变量均作假设检验个自变量均作假设检验,以保证以保证引入新自变量前与引入新变量后引入新自变量前与引入新变量后,方程中均只含有具有方程中均只含有具有统计学意义的自变量,直到无法剔除方程中的自变量,统计学
16、意义的自变量,直到无法剔除方程中的自变量,也无法引入方程外的自变量。也无法引入方程外的自变量。26ppt课件回归系数反常及其原因回归系数反常及其原因反常现象反常现象与专业上能接受的值相差很大。甚至符号相反与专业上能接受的值相差很大。甚至符号相反方程有统计学意义,但每个变量均无统计学意义方程有统计学意义,但每个变量均无统计学意义专业上认为很重要,但未选入方程专业上认为很重要,但未选入方程反常可能原因反常可能原因离群值或异常数据离群值或异常数据自变量观察范围太窄或方差太小自变量观察范围太窄或方差太小样本量不足或自变量太多样本量不足或自变量太多共线性共线性27ppt课件实例研究一氧化氮(NO)浓度与汽车流量、气温、气湿、风速的关系28ppt课件数据29ppt课件