1、1第第6章章 逐步回归分析逐步回归分析 多元逐步回归方法的根本思路:自动地从大量的可供选择的变量中选取最重要的变量,据以建立回归分析的预测或者解释模型。变量选取的根据是自变量对因变量作用程度的大小:保存作用程度大的变量,剔除作用小的变量。是否选取一个变量,定量判据之一就是相关系数。假定有m 个自变量,1 个因变量用y 表示,那么全部变量包括自变量和因变量之间的相关系数矩阵可以表作6.1 根本原理根本原理根据相关系数定义一个自变量的“奉献系数按照奉献系数的大小决定一个自变量的去留。式中Pj表示第j 个自变量对因变量的奉献系数,Rjy 表示第j 个自变量与因变量的相关系数,Rjj 表示相关系数矩阵
2、对角线上第j 行第j 列元素(j=1,2,m)。第l 步计算的奉献系数表示为 在逐步回归分析过程中,我们不仅要引入奉献最大的自变量,同时要考虑剔除奉献最小的因变量。因此,变量的存留与否又涉及到另一个统计判据F 检验。设定一个显著性水平,查F 检验表,找到F 检验的临界值F。在第l步计算中,假设第v个自变量的奉献系数最大,数值为根据F 检验来判断该自变量是否应该被引入模型。式中h 为尚且没有被引入模型的变量序号,v 为选出的变量对应的原始变量序号v=1,2,m。计算变量引入的F 值判断公式如下式中n 为样品个数,l 为计算步骤数,为第v 个变量第l 步的奉献系数,Ryy 为因变量的自相关系数。如
3、果FinF,那么在这个显著性水平下,该变量可以被引入模型,否那么不要引入。在第l 步计算中,如果第v 个自变量的奉献系数为那么可以根据F 检验来判断该自变量包括已经引入的变量是否应该被剔除。计算变量剔除的F 值判断公式如下 如果Fout F,那么在这个显著性水平下,该变量应该被剔除,否那么就要保存。在整个逐步回归计算过程中,变量的引入和剔除在两端同时进展。像这样循环往复地计算,直到所有该引入的变量都被引入,该剔除的变量均被剔除为止。数据准备6.2 计算方法计算方法 借助一个简单的实例说明逐步回归分析的方法。问题是山东省淄博市旅游业的开展分析,我们想搞清楚哪些因素影响淄博市的旅游总收入表6-2-
4、1。所能考虑的因素包括:国内游客数量、海外游客数量、第三产业的开展和人均GDP 数量m=4。从1995 年到2004年一共10 个年份的数据n=10。这些因素都与旅游业总收入具有明确的关系。而且,作为自变量,它们彼此之间也有很强的关系。如果将这四个变量全部引入模型,就会导致多重共线性的问题。为了得到简约、可靠的模型,需要借助逐步回归分析逐步回归分析技术。为了更为有效地说明问题,我们对表6-2-1 的变量排列顺序稍作调整表6-2-2 利用表6-2-2 的数据,容易计算相关系数,得到矩阵如下表6-2-3。逐步回归计算就是从这种相关系数矩阵出发的。将这个矩阵记为 首先设定F 统计量的临界值。取显著性
5、水平=0.05,我们有m=4个自变量,n=10个观测值。不妨取回归自由度为4、剩余自由度为n-m-1=10-4-1=5的临界值为我们引入变量的F 值下限,即取Fc(in)=5.192。另一方面,假定一个变量被淘汰,那么有m=3。我们取显著性水平=0.05、回归自由度为3、剩余自由度为n-m-1=10-3-1=6的F 临界值为剔除一个变量的上限,即取Fc(out)=4.757。这一步的计算可以分解为如下几个步骤。第一轮计算第一轮计算1计算自变量的奉献系数计算自变量的奉献系数2找出最大和最小奉献系数及其对应的变量序号找出最大和最小奉献系数及其对应的变量序号显然,等于0.98246最大,对应的变量序
6、号v=1。因此,首先考虑引入的变量是国内游客数量x1;等于0.92574最小,对应的变量序号v=4。故这一步可以考虑将人均GDP即变量x4剔除。国内游客数量这个变量是否能被引入模型,还要进展一次F 检验。对于我们的问题,n=10,现在计算第l=1步。3计算变量引入和剔除的计算变量引入和剔除的F 统计量统计量根据 这个数值远远大于我们设定的临界值Fc(in)=5.192,因此变量x1可以被引入模型。接下来考虑排除奉献系数最小的变量。但是否排除,要视Fout值而定。根据上述计算结果,0.92574最小,由式下面公式这个数值高于剔除变量的F临界值4.757,因此第一步不能剔除。作为比照,可以计算出所
7、有变量的F 变化值。例如,对于第二个变量“第三产业产值,变量引入和剔除的F 值分别为4相关系数矩阵变换,将相关系数矩阵变换,将 化为化为 假定第v个变量在第l步被引入,那么相关系数矩阵的第v个元素称为主元。矩阵变换是围绕主元进展的。相关系数矩阵的变换公式如下 式中j、k分别为相关系数矩阵的行列编号。根据这个公式,第一步应该改变非主元所在的行、列的元素 j v,k v,第二步改变主元所在的行的元素 j=v,k v,第三步改变主元所在的列的元素 j v,k=v,第四步改变主元本身 j=v,k=v。首先变换非主元所在的行和列的元素。首先变换非主元所在的行和列的元素。我们的主元在第j=1行、第k=1列
8、,故非主元所在的元素为1行、1列以外的元素。例如其余计算依此类推。其次改变主元所在行的元素。其次改变主元所在行的元素。我们的主元在第j=1行,故改变第1行的元素。例如再次改变主元所在列的元素。再次改变主元所在列的元素。我们的主元在第k=1列,故改变第1列的元素。例如最后改变主元所在的元素。最后改变主元所在的元素。对于本轮计算,主元实际不变:这样,我们得到矩阵 在这个矩阵中,第1行最后一列的元素可以用于建立一元线性回归模型。如果我们只打算引入一个关系最密切的变量,那么在数据标准化的情况下,可以建立如下模型第二轮计算1计算自变量的奉献系数计算自变量的奉献系数2找出最大和最小奉献系数及其对应的变量序
9、号找出最大和最小奉献系数及其对应的变量序号从上面的计算结果可以看出,不考虑已经被引入模型的第一个变量,在剩余变量中0.01305为最大,对应的变量序号v=3。因此,第二次可能引入的变量是海外游客数量x3。同时,0.00043为最小,对应的变量序号v=4,可以考虑将其剔除。3计算变量引入和剔除的计算变量引入和剔除的F统计量统计量 海外游客数量能否被引入模型,依然需要借助F检验判决。现在计算第l=2步,因此应有 这个数值大于我们设定的临界值Fc(in)=5.192,因此变量x3可以被引入模型。当我们引入x1的时候,F 值为448.035;现在引入x3,F 值在原来的根底上增加了20.359。在没有
10、被引入也没有被排除的变量中,找到最小奉献系数,考虑剔除相应的变量。但是是否剔除,依然要视F out值而定。根据上面的计算结果,第四个变量“人均GDP的奉献系数0.00043最小,其F out值为因此,这个变量可以被剔除,不再考虑它的引入。作为比照,不妨计算所有变量的F值,例如对于第二个变量“第三产业产值,我们有 为方便比较,给出全部的F 变化值,以供判断之用。全部计算结果列表如下表6-2-6。可以看出,已经引入的x1的F out值很高,当然不能剔除。4相关系数矩阵变换,将相关系数矩阵变换,将 化为化为 首先变换非主元所在的行和列的元素。首先变换非主元所在的行和列的元素。我们的主元在第j=3行、
11、第k=3列,故非主元所在的元素为3行、3列以外的元素。例如其次改变主元所在行的元素。其次改变主元所在行的元素。我们的主元现在在第j=3行,故改变第3行的元素。例如再次改变主元所在列的元素。再次改变主元所在列的元素。我们的主元在第k=3列,故改变第1列的元素。例如最后改变主元所在的元素最后改变主元所在的元素这样,我们得到相关矩阵第三轮计算 基于第二个相关系数矩阵的变换结果 计算各个自变量对因变量的奉献系数,方法与前面两轮完全一样。不同的是,每一步计算都是针对新的相关系数矩阵变换结果进展的。计算的奉献系数如表6-2-8所示,这一次第二个变量“第三产业产值的奉献系数0.00126为最大。但是,Fin
12、值2.33927没有到达被引入的标准,而Fout值1.94939那么到达被剔除的标准。如果我们继续引入新的变量,F值的变化将会很小,或者说F值的增加量很不显著。因此,可以考虑中止引入变量的计算,不再在模型中添加其他变量。至于已经引入的变量x1和x3,其Fout值都高于临界值,无需剔除。至此,整个变量引入剔除的过程可以完毕。到此为止,根据我们的选择标准,变量的引入和剔除计算过程可以完毕。整个变量引入和剔除的过程可以用框图表示如下参数估计和模型建立 计算模型的回归系数,建立回归分析模型。前面的第一个相关系数变换矩阵最后一列给出了引入一个变量时的标准化回归系数:0.99119,这个数值就是第一个自变
13、量与因变量的相关系数。第二个相关系数变换矩阵给出了引入两个变量时的标准化回归系数:0.63341 和0.37558,二者之和接近于1。如果我们需要的仅仅是解释模型而非预测模型,那么我们的建模工作可以到此为止,得到模型 如果我们需要预测模型,那么需要开展计算工作,将标准化回归参数转换为非标准化的回归系数。计算过程如下。第一步,计算原始数据的协方差。第一步,计算原始数据的协方差。第二步,计算非标准化回归系数。第二步,计算非标准化回归系数。有了协方差矩阵,结合前面的相关系数矩阵第二步变换结果 ,就可以计算非标准化回归系数。注意我们的计算是从 开场的,引入一个变量时,相关系数矩阵变换为 ;引入两个变量
14、时,相关系数矩阵变换为 。此后不再引入变量。因此,计算回归系数需要用到l=2时的相关系数矩阵变换结果 表6-2-7。非标准化回归系数计算公式为非标准化回归系数计算公式为 这里b0为截距,bj为第j个回归系数,l为计算步骤的编号数我们引入两个变量,l=2,为相关系数矩阵第l=2步变换结果的最后一列的第j个元素对应于第j个被引入的变量,cyy为协方差矩阵对角线上的最后一个元素右下角,cjj为协方差矩阵对角线上对应于第j个被引入变量的元素,。至于未被引入的变量,回归系数以0计算。对于上述问题,我们引进了两个变量x1=国内游客数,x3=海外游客数。可见,j=1对应于国内游客数,j=3对应于海外游客数。
15、于是可得6.3 利用消元法进展相关矩阵变换利用消元法进展相关矩阵变换利用利用Gauss消元法对增广矩阵进展消元变换。消元法对增广矩阵进展消元变换。在相关系数矩阵 旁边增加一个并排的(m+1)(m+1)=55单位矩阵主元在第1行第1列,且主元为1,用第1行的元素对其他行进展消元。6.4 回归结果检验回归结果检验根本结论:第一,通过逐步回归分析过程可知,在根本结论:第一,通过逐步回归分析过程可知,在影响淄博市旅游收入的各种变量中,最直接的因素影响淄博市旅游收入的各种变量中,最直接的因素就是国内游客数和海外游客数。其他的如第三产业就是国内游客数和海外游客数。其他的如第三产业产值、人均产值、人均GDP 等都是间接因素。第二,从标准化等都是间接因素。第二,从标准化回归分析模型可以看出,国内游客对旅游总收入的回归分析模型可以看出,国内游客对旅游总收入的影响高于海外游客对旅游总收入的影响。第三,利影响高于海外游客对旅游总收入的影响。第三,利用非标准化的回归分析模型,我们可以对未来旅游用非标准化的回归分析模型,我们可以对未来旅游收入作一些预测。比方说,如果我们能够预测收入作一些预测。比方说,如果我们能够预测2005 年的国内游客和海外游客数,就可以估计当年的国内游客和海外游客数,就可以估计当年的旅游总收入是多少。年的旅游总收入是多少。