1、43(5)方法三:逐步引入法(1)基本步骤:先逐个比较 xl,xp 对 y 的回归方程那些是显著的,从显著的方程中挑选 F 值最大的,相应的自变量 x 就被“引入”方程。无妨设 x 就是x1再逐个比较(x1,x2)、(x1,x3)、(x1,xp)对y的回归方程,看有没有F值显著的,此时的F就是考虑添加xi之后,xi的回归系数是否显著地不为0,将显著的F中最大的F所相应的变量“引入”方程。无妨设第二次“引入”的自变量是x2再考察以x1、x2为基础,逐个添加x3、x4、xp之后的回归方程,是否较x1、x2的方程有显著的改进,有就再“引入”新的自变量,这样下去,终于到某一步就没有可以再“引入”的自变
2、量了。这时就获得了最后的回归方程43(6)方法四:逐步回归分析方法 按照自变量对因变量所起作用的显著程度,从大到小逐个地引入回归方程 当每一变量引入以后,若先前已经引入的变量由于后来变量的引入而使其作用变得不显著时,就及时从回归方程中剔除出去,直到作用显著的变量都引入到回归方程,而作用不显者的变量都剔出回归方程,得到一个最佳的变量组合为止(2)“逐步引入“法的缺点:不能反映后来变化的状况,设想x1、x2、x3引入后,又引入了x6,也许x3、x6引入后,x1的作用就不重要了,应该予以剔除,而“逐步引入”法不能达到这个要求43(7)逐步回归分析的几个问题一、建立标准正规方程组二、变量的引入、剔除与
3、消去法的关系43(8)一、建立标准正规方程组 为了分辨 p个自变量对因变量 Y 所起影响(或作用)的大小,一个自然的想法是比较各自变量回归系数 (j1,2,p)的绝对值的大小。根据回归系数的含义,Xj 的回归系数 是在其余p1个自变量保持不变的条件下,Xj 改变一个单位所引起 Y 平均变化的大小。因而回归系数绝对值的大小反映了它所代表的因素的重要程度 由于回归系数和自变量所取的单位(或数量级)有关,而各个自变量取不同的量纲的情况是常见的,因而不能将回归系数直接进行比较jj43(9)建立标准正规方程组 为了消除这个影响,对自变量和因变量都要加以标准化 标准化的方法 经过标准化的变量,其均值为 0
4、,标准离差Lxjxj为 1pjLXXxjjjjj,2,12()11,2,jjjjx xjjXXLjpL事实上,43(10)*11112211*21122222*1122 ppyppyppppppyrrrrrrrrrrrr标准正规方程组 由标准化数据建立的正规方程组的系数矩阵即为变量间的相关系数矩阵相关系数矩阵,称为标准化正规方程组 标准化正规方程组为:43(11)标准正规方程组 标准化正规方程组的解 称为标准回归系标准回归系数数,其常数项 为0 由于因变量也进行了标准化,其总离差平方和 Lyy=1 求解标准化正规方程组还需要解决以下两个问题 引入变量和剔除变量的标准;引入变量与剔除变量的方法。
5、*j*043(12)二、变量的引入、剔除与消去法的关系 假定已有 l 个自变量引入到回归方程,即*1122llyxxx相应的平方和分解公式是yyLUQ为了表明 U 和 Q 与引入的自变量是有关的,分别用符号U(x1,xl)和 Q(x1,xl)表示43(13)当增加一个自变量 xi (i=l+1,p)后,有了新的回归方程,相应的平方和分解公式是11(,)(,)yyliliLU xx xQ xx x原来的分解公式是11(,)(,)yyllLU xxQ xx注意到上两式左端 Lyy 是一样的,当xi 引入后,回回归平方和归平方和从 U(x1,xl)增加到U(x1,xl,xi),而残差残差平方和平方和
6、从 Q(x1,xl)降到 Q(x1,xl,xi)43(14)因此,有1111(,)(,)(,)(,)lillliU xx xU xxQ xxQ xx x记11(,)(,)ililuU xx xU xx ui就是回归方程中引入 xi 后对回归平方和的贡献,即,且有2iiiiuc43(15)21(1,2)(1)1)iiuuFFnlQ nl 经F 检验,当 xi 作用显著时,可将其引入。同理同理,如果 xi 原来已经在回归方程中,若检验后其作用不显著,可及时从回归方程中剔除出去。2iuFF剔除引入利用统计量因此,取剔除和引入变量 xi的标准相同,即43(16)在逐步回归中引入一个变量与剔除一个变量都
7、涉及变换,变换公式相同,采用求解求逆紧凑格式求解求逆紧凑格式在第在第s 次对次对第第k 列列消去的变换公式是:消去的变换公式是:二、变量的引入、剔除与消去法的关系(1)(1)(1)(1)(1)(1)()(1)(1)(1)(,)(,)(,)1 (,)ssssijikkjkksskjkksijssikkkskkrrrrikjkrrikjkrrrikjkrikjk43(17)由相关矩阵构成的系数矩阵中,第 i 个变量的偏回归平方和ui(s)为:2(1)()(1)siysisiirur由 可推倒出来2iiiiucui(s)为下一步引进变量的指标,每一步引入都是从未出现在回归方程的剩余变量中挑选ui(s
8、)的最大者进行上述变换后,回归分析中的剩余平方和剩余平方和Q的值即为系数矩阵中ryy位置所得的结果。即有,(0)(0)()()()()1,1ssssyyyyyyQrQrUr(证明)43(18)()()()1(1)1ssiisuFQnl式中,l 为先前已经引入到回归方程中的变量个数,Fi 服从F(1,n-l-2)分布。如果已引进的变量中有不显著的,则选其最不显著者作剔除变换,然后再检验。在未引入的变量中检验有无回归显著的变量,若有,则挑选最显著的作引入的消去变换,然后再检验。反复进行,直到没有变量可以引进,也没有变量可以从方程中剔除为止。构造检验统计量43(19)n用消去法求解正规方程组的过程二
9、、变量的引入、剔除与消去法的关系 当消去正规方程组系数矩阵的第一列时,常数项列的第一个数就是只有只有x1这一个自变量情况下这一个自变量情况下所建立的回归方程的回归系数 这是因为:当回归方程只有一个自变量时,表明其他自变量在多元回归方程中的回归系数为0。因此,正规方程的常数项部分就是该变量的解,即回归系数。143(20)二、变量的引入、剔除与消去法的关系 第二次消去了正规方程组系数矩阵的第一、二两列时,常数项列中的第一、二两个数即为只只有有x1,x2两个自变量情况下两个自变量情况下所建立回归方程的回归系数 和 依次类推,得到引入的各个自变量的回归系数1243(21)由相关系数矩阵得到的回归系数是
10、标准回归系数 ,如果要把它化为一般回归系数 两者关系为:*ii*YYiiiiLL其中 Lii 和LYY为变量 Xi 和 Y 的方差。01122()llYXXX二、变量的引入、剔除与消去法的关系推导43(22)三、例题分析【例】某种水泥在凝固时,放出的热量Y(卡克)与水泥中下列4种成分有关:X1:铝酸三钙 X2:硅酸三钙 X3:铁铝硅四钙 X4:硅酸二钙 通过试验,取得数据资料如右所示:编号编号X1X2X3X4Y123456789101112137111117113122111110262956315255713154474066686158869172218423986052204733226
11、44222634121278.574.3104.287.695.9109.2102.772.593.1115.983.8113.3109.443(23)说明:按第一种方法选最优,全部可能的回归方程有C41+C42+C43+C44=15个计算各要素之间的相关系数,得到相关系数矩阵R(0)(0)(0)(0)11141(0)(0)(0)(0)41444(0)(0)(0)14yyyyyyrrrrrrrrrR 准备工作:43(24)根据本例资料,算出(0)10.22860.82410.24540.73070.228610.13920.97300.81630.82410.139210.02950.5347
12、0.24540.97300.029510.82130.73070.81630.53470.82131 R 从矩阵R(0)中可以看出:x1与x2 两因子不相关,x2与x4、x1与x3之间关系密切,x3与y关系不太密切,x4与y最相关 43(25)0.05(2,10)4.10F逐步回归步骤:逐步回归步骤:(1)2()(1)1,2,3,4tiytitiiruirt变换步数第一步(t=1)选择第一个变量进入回归方程选择第一个变量进入回归方程 对所有4个变量,按下面公式计算偏回归平方和当变量引入回归方程后43(26)(0)21(1)21(0)110.73070.5339yrur(0)22(1)22(0)
13、220.81630.6663yrur(1)30.2859u(1)40.6745u 计算结果为:比较4个ui(1),可知第4个因子的偏回归值最大,即x4对y的回归贡献最大,于是优先考虑选入x443(27)()()()1(1)ttiituFQnl 剩引入因素的显著性检验引入因素的显著性检验()()()()()()()1111lltttttttiiiiQQuQQQu 回回总剩总其中,分子的自由度是1,l 为方程中的变量个数n 求解回归方程时,若对资料进行标准化处理,可以证明:统计量43(28)()()ttiQQu回偏回()()1ttiQu 剩当引入第一个因子时,l1故()()()1(1)(2)tti
14、itiuFun则统计量(1)(1)44(1)40.674522.80(1)/(2)0.3255/11uFun于是由于F4(1)F0.05(1,11)=4.84,表明引入的因子x4对回归方程的贡献是显著的,应将x4引入方程。43(29)矩阵矩阵R(0)的高斯亚当变换(紧凑变换方式)的高斯亚当变换(紧凑变换方式)以x4为主元进行矩阵变换(x4刚刚引入方程),变换公式如下()(1)()()(),tttttijijikkjkkrrr rri jk kk第 个因子刚刚入选a.非主元所在行、列(1)()()tttkjkjkkrrrjkb.主元所在行(除主元)(1)()()tttikikkkrrrik c.
15、主元所在列(除主元)(1)()1ttkkkkrrd.主元n 变换过程要求按a d 顺序进行。43(30)记变换后的矩阵为R(1),(t=1)(1)0.93980.01020.81690.24540.52910.01020.05340.11050.97300.01720.81690.11050.99910.82130.02950.51040.24540.97300.029510.52910.01720.510.3040.82255 RQ剩 解*(1)443(31)x4引入回归方程后的结果引入回归方程后的结果*(1)(1)440.8213yr 标准回归系数(利用标准化数据求得的回归系数)为:(1)
16、(1)0.3255yyQr剩剩余平方和40.8213yx 回归方程的标准形式标准形式为:(1)(1)(1)(1)(1)(1)(1)(1)(1)(1)/(10.3255)/122.80/(1)0.3255/(13 1 1)yyyyQlQfFQfQnlrlrnl 剩回回剩剩剩其中l1,表明方程只引入一个变量43(32)回归方程的一般形式一般形式为:4117.570.7382YX一般回归系数为:(1)*(1)44442715.760.82133362.000.7382YYLL 常数项为(1)(1)04495.42(0.7380)30117.67YX 43(33)第二步(t=2)计算偏回归平方和 ui
17、(2)(i=1,2,3)(利用R(1)对不在回归方程中的每个变量做计算)(1)221(2)1(1)11(2)(2)230.52910.29800.93980.00550.2601yruruu其中以u1(2)=0.2980最大,故最优先考虑 x1 引入回归方程(能否引入方程要做检验)。7A43(34)(2)(2)11(2)1(1)uFQnl 剩偏回归系数检验偏回归系数检验(2)Q剩式中,分母表示x1引入回归方程后,剩余平方和 等于只包含x4一个变量时的剩余平方和 减去x1引入回归方程而使回归平方和增大的部分 。(1)Q剩(2)1un由于F1(2)F0.05(1,10)=4.96,因此x1应引入回
18、归方程中。将x1引入,方程中有两个因子,即l=20.2980/1108.22(0.32550.2980)/10(2)1(1)(2)411(1)(1)uuunl 43(35)矩阵矩阵R(1)的高斯亚当变换的高斯亚当变换 记变换后的矩阵为记变换后的矩阵为R(2)(2)1.0641-0.0109-0.86930.26120.01090.0532-0.11940.97560.02290.8693-0.11940.28910.180.5631-0.683138-0.05050.2612-0.9756-0.18381.0641-0.563010.0229-0.05050.6831.0275R Q剩(2)2
19、24(2)4(2)440.68310.43851.0641yrur()(2)(2)44(2)(1)(132 1)0.4385159.460.0275yynluFr 因为因为F4(2)F0.05(1,10),因此因此 x4 不应从方程中不应从方程中剔除。剔除。*(2)解1 *(2)解2即以即以x1的回归方程引入的回归方程引入x4后的偏后的偏回归显著性检验,其中,回归显著性检验,其中,x1的回的回归贡献为归贡献为0.5339,而,而x4的偏回归的偏回归贡献为贡献为0.4385的,合计为的,合计为0.972443(36)*(2)(2)440.6831yr*(2)(2)110.5631yr标准回归系数
20、:标准回归系数:14103.10 1.44010.6140YXX(2)(2)0.0275yyQr剩回归方程的一般形式:回归方程的一般形式:剩余平方和:剩余平方和:43(37)第三步(t=3)计算偏回归平方和ui(3)(i=2,3)(利用R(2)对不在回归方程中的每个变量做计算)(2)222(3)(3)23(1)220.02290.00990.00880.0532yruurn其中 u2(3)u3(3),变量x2的偏回归平方和最大,选择x2(3)(3)22(1)(2)(3)412/10.0099(1)/(1)(0.02750.0099)/(133 1)uFuuunl 5.0343(38)矩阵矩阵R
21、(2)的高斯亚当变换的高斯亚当变换 引入引入x2,以以r22(2)为主元为主元进行,记变换后的矩阵为进行,记变换后的矩阵为R(3)(3)221(3)1(3)110.56770.30231.0663yrur(3)24(3)4(3)440.0037yrur引入引入x2后,对原有因子后,对原有因子x1、x4重新检验重新检验(l=3)剔剔除检验除检验(3)1.06630.2044-0.89370.46060.56770.204418.7804-2.242318.32260.43040.89372.24230.02132.37140.00090.460618.3226-2.371418.9401-0.2
22、632-0.5677-0.43040.00090.26320.0177R Q剩 *(3)解1 *(3)解2 *(3)解4上式表示,以上式表示,以x2为自变量的方程,再引入为自变量的方程,再引入x1、x4后,产生的偏回归贡献后,产生的偏回归贡献43(39)(3)(3)44(3)/10.00371.87/(1)0.0177/(133 1)yyuFrnl 其中u4(3)较小,计算(3)4FF由于 ,因此,应把 x4 从回归方程中剔除。n说明:由于因子x2的引入,造成变量x4的显著性大大降低,回归方程中变量x4的存在是多余的,予以剔除。43(40)矩阵矩阵 R(3)以以 r44(3)为主元做高斯亚当变
23、换,记变为主元做高斯亚当变换,记变换后的矩阵为换后的矩阵为R(4)*(4)*1.0551-0.2412-0.8360-0.02430.5741-0.24121.05510.0518-0.96740.68500.8360-0.05180.3183-0.12520.03390.02430.9674-0.12520.0528-0.0139-0.5741-0.68500.0339-0.01390.0213R Q剩 *(4)解1 *(4)解243(41)剔除剔除x4后,再检验后,再检验x1、x2(4)2(4)(4)111(4)11(4)(4)(1)(1)10 0.3124146.520.0213yyyy
24、ynlrrnluFrr (4)(4)22(4)(1)10 0.4447208.580.0213yynluFr 因(4)(4)12,FF由于 均大于F=4.10,所以x1、x2均不剔除。43(42)(4)t 第四步引入新变量引入新变量(5)(3,4)iui 计算偏回归平方和(4)2(4)2234(5)(5)34(4)(4)33440.03390.00360.00370.3183yyrruurr(5)(5)43uun因为 ,且x4是刚刚在上一步中被剔除的变量,故不需要再作F检验就知道它不显著 再没有变量可引入回归方程,逐步回归选因子结束43(43)*(4)*(4)120.5741,0.6850引入
25、变量x1、x2后,由R(4)得到标准回归系数:()*()ttYYiiiiLL原方程的回归系数221122()2713.9969()415.25082905.6928YYiiiiLYYLxxLL其中(4)(4)121.46820.6622(4)(4)(4)0112252.58YXX因而43(44)1252.58 1.46820.6622YXX*(4)(4)57.8628yyyyyyyyQQLQLrL剩剩剩剩余平方和:57.86282.4055()132 1QSSf 剩剩估计标准误差:210.98930.9787yyQRRL剩复相关系数:229.5QfFQf回回剩剩方程方程F检验:检验:43(45
26、)END43(46)n 证明如下:在第0步,还没有因子引入回归方程,剩余方差Q(0)达到最大,即(0)(0)yyyyyyQSrS在第一步,引入因子 ,k1是1,2,m中的任一个数,1kx1(0)(1)k RR剩余方差为111 1111 1(0)2(1)(0)(0)(0)(0)(0)(0)(0)(1)(0)()k ykyyyyk kk yykyyyyyyyyk krQQQrSrrrrSr Sr43(47)222 2(1)2(2)(1)(1)(1)(2)(1)()=k ykyyyyyyyyk krQQQrSrSr第二步,继续引入因子 ,k2也是1,2,m 中一个数。这时,2kx21kk2(1)(2
27、)k RR如此下去,我们讨论第 l 步第 l 步,继续引入因子 ,kl 也是1,2,m中一个数。这时 ,lkx12lkkk(1)()lkll RR(1)2()(1)(1)(1)()(1)()=lll llk ylllllkyyyyyyyylk krQQQrSr Sr证毕43(48)求解求逆紧凑变换法设方程组为11 112211,121 122222,11 122,1nnnnnnnnnnnn na xa xa xaa xa xa xaa xa xa xa 43(49)*1122kkyxxx回归方程的标准形式标准形式*yyiiiiLL也可以写成*1122121122kkkyykkXXXXXXYYLLLL因此,一般形式一般形式回归方程的回归系数为