自变量的选择与逐步回归分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《自变量的选择与逐步回归分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自变量 选择 逐步回归 分析 课件
- 资源描述:
-
1、2022-6-91第五章第五章 自变量的选择与逐步回归自变量的选择与逐步回归 5.1 自变量选择对估计和预测的影响5.2 所有子集回归5.3 逐步回归5.4 本章小结与评注 2022-6-92第第5章章 自变量选择与逐步回归自变量选择与逐步回归 从20世纪60年代开始,关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则,并提出了许多行之有效的选元方法。 本章从回归选元对回归参数估计和预测的影响开始,介绍自变量选择常用的几个准则;扼要介绍所有子集回归选元的几个方法;详细讨论逐步回归方法及其应用。2022-6-935.1 自变量选择对估计和预测的影响自变量选择对估计
2、和预测的影响 一、全模型和选模型一、全模型和选模型 设研究某一实际问题涉及到对因变量有影响的因素共有m个,回归模型为:y=0+1x1+2x2+mxm+ (5.1)称为全回归模型。 如果我们从所有可供选择的m个变量中挑选出p个,记为x1,x2,,xp,构成的回归模型为:y=0p+1px1+2px2+ppxp+p (5.2) 称模型(5.2)式为选模型。2022-6-945.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 一、全模型和选模型一、全模型和选模型 模型选择不当会给参数估计和预测带来什么影响?下面我们将分别给予讨论。 为了方便,我们把模型(5.1)式的参数估计向量 和2的估
3、计记为:y yX XX XX Xm-1mmm)(mmSSEmn112把模型(5.2)式的参数估计向量记为y yX XX XX Xp-1ppp)(ppSSEpn1122022-6-955.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 二、自变量选择对预测的影响二、自变量选择对预测的影响 关于自变量选择对预测的影响可以分成两种情况:第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而误用了全模型式。 2022-6-965.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况(一)全模型正确而误用选模型的情况2022-6-975.
4、1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况(一)全模型正确而误用选模型的情况2022-6-985.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况(一)全模型正确而误用选模型的情况2022-6-995.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况(一)全模型正确而误用选模型的情况2022-6-9105.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况(一)全模型正确而误用选模型的情况2022-6
5、-9115.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况(二)选模型正确而误用全模型的情况2022-6-9125.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况(二)选模型正确而误用全模型的情况2022-6-9135.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况(二)选模型正确而误用全模型的情况 上述结论告诉我们,一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本指导思想是“少而精”。哪怕我们丢掉了一些对因变量y
6、还有些影响的自变量,由选模型估计的保留变量的回归系数的方差,要比由全模型所估计的相应变量的回归系数的方差小。而且,对于所预测的因变量的方差来说也是如此。丢掉了一些对因变量y有影响的自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计量是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。2022-6-9145.2 所有子集回归所有子集回归 一、所有子集的数目一、所有子集的数目mmmmmCCC210 有m个可供选择的变量x1,x2,,xm,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量
7、的所有可能的回归方程就有2m-1个。 从另一个角度看 2022-6-9155.2 所有子集回归所有子集回归 二、关于自变量选择的几个准则二、关于自变量选择的几个准则 从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的。还曾用复相关系数R来衡量回归拟合的好坏。然而这两种方法都有明显的不足,这是因为: 2022-6-9165.2 所有子集回归所有子集回归 准则准则1 自由度调整复相关系数达到最大自由度调整复相关系数达到最大 )1 (11122RpnnRa2022-6-9175.2 所有子集回归所有子集回归 准则准则1 自由度调整复相关系数达到最大自由度调整复相关系数达
8、到最大 从另外一个角度考虑回归的拟合效果,回归误差项方差2的无偏估计为:SSEpn112此无偏估计式中也加入了惩罚因子n-p-12022-6-9185.2 所有子集回归所有子集回归 准则准则1 自由度调整复相关系数达到最大自由度调整复相关系数达到最大2211SSTnRa2022-6-9195.2 所有子集回归所有子集回归 准则准则2 赤池信息量赤池信息量AIC达到最小达到最小 AIC准则是日本统计学家赤池(Akaike)1974年根据极大似然估计原理提出的一种较为一般的模型选择准则,人们称它为Akaike信息量准则 (Akaike Information Criterion,简记为AIC)。A
9、IC准则既可用来作回归方程自变量的选择,又可用于时间序列分析中自回归模型的定阶上。由于该方法的广泛应用,使得赤池乃至日本统计学家在世界的声誉大增。2022-6-9205.2 所有子集回归所有子集回归 准则准则2 赤池信息量赤池信息量AIC达到最小达到最小 设回归模型的似然函数为L(,x), 的维数为p,x为样本,在回归分析中样本为y=(y1,y2,yn),则AIC定义为:2022-6-9215.2 所有子集回归所有子集回归 准则准则2 赤池信息量赤池信息量AIC达到最小达到最小 假定回归模型的随机误差项遵从正态分布,即 N(0,2)对数似然函数为SSEnnLLL22max21)ln(2)2ln
10、(2ln2)ln(2)2ln(2lnmaxnnSSEnnL2022-6-9225.2 所有子集回归所有子集回归 准则准则2 赤池信息量赤池信息量AIC达到最小达到最小 带入公式中 这里似然函数中的未知参数个数为p+2,略去与p无关的常数,得回归模型的AIC公式为AIC=nln(SSE)+2p 对每一个回归子集计算AIC,其中AIC最小者所对应的模型是“最优”回归模型2022-6-9235.2 所有子集回归所有子集回归 准则准则3 Cp统计量达到最小统计量达到最小 1964年马勒斯 (Mallows)从预测的角度提出一个可以用来选择自变量的统计量Cp统计量。根据性质5,即使全模型正确,但仍有可能
11、选模型有更小的预测误差。Cp正是根据这一原理提出来的。2022-6-9245.2 所有子集回归所有子集回归 准则准则3 Cp统计量达到最小统计量达到最小 考虑在n个样本点上,用选模型(5.2)式作回报预测时,预测值与期望值的相对偏差平方和为:niimmiipppippniiippxxxxyEyJ121101102122)(1 )(12022-6-9255.2 所有子集回归所有子集回归 准则准则3 Cp统计量达到最小统计量达到最小 可以证明,Jp的期望值是) 1(2)()(2pnSSEEJEpp略去无关的常数2,据此构造出Cp统计量为pnSSESSEmnpnSSECmppp2) 1( 22202
12、2-6-9265.2 所有子集回归所有子集回归 准则准则3 Cp统计量达到最小 2022-6-9275.2 所有子集回归所有子集回归 例例5.1 y表示某种消费品的销售额,x1表示居民可支配收入,x2表示该类消费品的价格指数,x3表示其他消费品平均价格指数。表5.1给出了某地区18年某种消费品销售情况资料,试建立该地区该消费品销售额预测方程。2022-6-9285.2 所有子集回归所有子集回归 序号序号x1(元)(元)x2(%)x3(%)(百万元)(百万元)181.285.087.07.8282.992.094.08.4383.291.595.08.7485.992.995.59.0588.0
13、93.096.09.6699.996.097.010.37102.095.097.510.68105.395.697.010.99117.798.998.011.310126.4101.5101.212.311131.2102.0102.513.512148.0105.0104.014.213153.0106.0105.914.914161.0109.0109.515.915170.0112.0111.018.516174.0112.5112.019.517185.0113.0112.319.918189.0114.0113.020.5表表5.12022-6-9295.2 所有子集回归所有子集
14、回归 这个例子中,n=18,m=3,所有的自变量子集有2m-1=7个,即有7个回归子集。2aR自变量子集R2AICCpx10.97280.971140.064.134x20.95660.953948.4816.151x30.95080.947750.7420.452x1,x20.97470.971440.764.734x1,x30.97840.975537.932.005x2,x30.95760.951950.0917.461x1,x2,x30.98110.977137.522.000表5.22022-6-9305.2 所有子集回归所有子集回归 由表5.2的3项指标均可看到x1,x2,x3是“
15、最优”子集,x1,x3是“次优”子集。回归方程分别为2022-6-9315.2 所有子集回归所有子集回归 三、用三、用SAS软件寻找最优子集软件寻找最优子集 SAS软件共有三个基本窗口,分别为:(1)程序编辑窗(PROGRAM EDITOR),用来编辑程序。(2)日志窗(LOG),显示已执行的语句和系统信息,包括错误信息。(3)输出窗(OUTPUT)显示程序运行结果。 用主菜单的Window命令可以实现在三个窗口间的转换。 2022-6-9325.2 所有子集回归所有子集回归 data data1;input x1-x12 y;cards;1.94 4.5 154.45 207.33 246.
16、87 277.64 135.79 30.58 110.67 80.83 51.83 14.09 23840.33 6.49 133.16 127.29 120.17 114.88 81.21 14.05 35.7 16 27.1 2.93 202;proc reg;model y=x1-x12/selection=adjrsq;run;2022-6-9335.2 所有子集回归所有子集回归 以下是部分输出结果: Adjusted R-square Variables in ModelAdjusted R-square Variables in Model R-square In R-square
17、 In 0.82985517 0.86388414 6 X3 X5 X8 X9 X10 X11 0.82985517 0.86388414 6 X3 X5 X8 X9 X10 X11 0.82692850 0.86731185 7 X3 X5 X6 X8 X9 X10 X11 0.82692850 0.86731185 7 X3 X5 X6 X8 X9 X10 X11 0.82487399 0.85989919 6 X3 X6 X8 X9 X10 X11 0.82487399 0.85989919 6 X3 X6 X8 X9 X10 X11 0.82366778 0.86481197 7 X3
18、 X4 X5 X8 X9 X10 X11 0.82366778 0.86481197 7 X3 X4 X5 X8 X9 X10 X11 0.82343275 0.86463178 7 X3 X5 X8 X9 X10 X11 X12 0.82343275 0.86463178 7 X3 X5 X8 X9 X10 X11 X12 0.82311828 0.86439068 7 X3 X5 X7 X8 X9 X10 X11 0.82311828 0.86439068 7 X3 X5 X7 X8 X9 X10 X112022-6-9345.3 逐步回归逐步回归 一、问题的提出及逐步回归的思想一、问题的
19、提出及逐步回归的思想 自变量的所有可能子集构成2m-1个回归方程,当可供选择的自变量不太多时,用前边的方法可以求出一切可能的回归方程,然后用几个选元准则去挑出“最好”的方程,但是当自变量的个数较多时,要求出所有可能的回归方程是非常困难的。为此,人们提出了一些较为简便、实用、快速的选择“最优”方程的方法。人们所给出的方法各有优缺点,至今还没有绝对最优的方法,目前常用的方法有“前进法”、“后退法”、“逐步回归法”,而逐步回归法最受推崇。2022-6-9355.3 逐步回归逐步回归 一、问题的提出及逐步回归的思想一、问题的提出及逐步回归的思想 在后边的讨论中,无论我们从回归方程中剔除某个自变量,还是
20、给回归方程增加某个自变量都要利用(3.42)式的偏F检验,这个偏F检验与(3.40)式的t检验是等价的,F检验的定义式的统计意义更为明了,并且容易推广到对多个自变量的显著性检验,因而采用F检验。jjjjct ) 1/(1/)(pnSSESSRFjj2022-6-9365.3 逐步回归逐步回归 一、前进法一、前进法 2022-6-9375.3 逐步回归逐步回归 一、问题的提出及逐步回归的思想一、问题的提出及逐步回归的思想2022-6-9385.3 逐步回归逐步回归 一、问题的提出及逐步回归的思想一、问题的提出及逐步回归的思想 依上述方法接着做下去。直至所有未被引入方程的自变量的F值均小于F(1,
21、n-p-1)时为止。这时,得到的回归方程就是最终确定的方程。 每步检验中的临界值F(1,n-p-1)与自变量数目p有关,在用软件计算时,我们实际使用的是显著性P值(或记为sig)做检验。2022-6-9395.3 逐步回归逐步回归 一、问题的提出及逐步回归的思想一、问题的提出及逐步回归的思想 例例5.4 5.4 对例3.1国际旅游外汇收入y对第三产业的12个变量做回归的数据,用前进法做变量选择,取显著性水平进=0.05。 首先进入线性回归对话框,将y与x1至x12分别选入各自的变量框,然后在Method对话框中点选前进法Forward,点选Options选项看到默认的显著性水平进正是0.05。
展开阅读全文