书签 分享 收藏 举报 版权申诉 / 53
上传文档赚钱

类型21-多重线性回归-PPT课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:2820840
  • 上传时间:2022-05-29
  • 格式:PPT
  • 页数:53
  • 大小:1.78MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《21-多重线性回归-PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    21 多重 线性 回归 PPT 课件
    资源描述:

    1、多重线性回归分析多重线性回归分析一、方法简介一、方法简介1.2 概念概念 用回归方程用回归方程定量地刻画一个因变量与多个自定量地刻画一个因变量与多个自变量之间的线性依存关系变量之间的线性依存关系,称为多重线性回归分,称为多重线性回归分析(析(multiple linear regression analysis)。)。 自变量是相互独立的连续型变量或分类变量。自变量是相互独立的连续型变量或分类变量。 2一、方法简介一、方法简介1.3 数据结构数据结构 表表1 进行多重线性回归分析资料的数据结构进行多重线性回归分析资料的数据结构3编号编号X1X2XkY1X11X12X1kY12X21X22X2k

    2、Y2:nXn1Xn2XnkYn二、基本原理二、基本原理 2.1 原理简介原理简介 多重线性回归模型:多重线性回归模型: Y=b b0+ +b b1X1+ +b b2X2+ + +b bkXk+ +e e 其中,其中,b bj (j=0, 1 , 2 , k)为未知参数,为未知参数,e e为随机为随机误差项。误差项。45二、基本原理二、基本原理2.1 原理简介原理简介 多重线性回归模型中包含多个自变量,它们多重线性回归模型中包含多个自变量,它们同时对因变量同时对因变量Y 发生作用。发生作用。 若要考察一个自变量对若要考察一个自变量对Y 的影响,就必须假的影响,就必须假设其他自变量保持不变。设其他

    3、自变量保持不变。6二、基本原理二、基本原理 2.1 原理简介原理简介 因此,多重线性回归模型中的回归系数为因此,多重线性回归模型中的回归系数为偏偏回归系数回归系数。 它反映的是当模型中的它反映的是当模型中的其他自变量不变时其他自变量不变时,其中其中一个自变量对因变量一个自变量对因变量Y 的均值的影响的均值的影响。7二、基本原理二、基本原理 2.2 前提条件前提条件 多重线性回归分析要求资料满足线性多重线性回归分析要求资料满足线性(Linear)、独立性、独立性(Independence)、正态性、正态性(Normality)和方差齐性和方差齐性(Equal variance) 。 除此之外,还

    4、要求多个自变量之间相关性不除此之外,还要求多个自变量之间相关性不要太强。要太强。 8二、基本原理二、基本原理 2.2 前提条件前提条件线性线性指自变量与因变量之间的关系是线性的指自变量与因变量之间的关系是线性的独立性独立性指各观测值之间是相互独立的指各观测值之间是相互独立的正态性正态性指自变量取不同值时,因变量服从正指自变量取不同值时,因变量服从正 态分布态分布方差齐性方差齐性指自变量取不同值时,因变量的方指自变量取不同值时,因变量的方 差相等差相等 三、分析步骤三、分析步骤1. 基本任务基本任务 求出模型中参数的估计值,对模型和参数进求出模型中参数的估计值,对模型和参数进行假设检验;行假设检

    5、验; 对自变量进行共线性诊断,对观测值进行异对自变量进行共线性诊断,对观测值进行异常点诊断;常点诊断; 结合统计学知识和专业知识,对回归方程进结合统计学知识和专业知识,对回归方程进行合理的解释,并加以应用。行合理的解释,并加以应用。 9三、分析步骤三、分析步骤2. 具体步骤具体步骤2.1 回归参数估计回归参数估计 多重线性回归分析的参数估计,常采用最小多重线性回归分析的参数估计,常采用最小二乘法二乘法(OLS)进行。该方法使残差平方和达到最进行。该方法使残差平方和达到最小,从而得出模型参数估计值小,从而得出模型参数估计值 表示表示Y的估计值的估计值 10kkXbXbXbbY+22110Y三、分

    6、析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验 根据方差分析的思想,将总的离均差平方和根据方差分析的思想,将总的离均差平方和SS总总分解为回归平方和分解为回归平方和SS回回和残差平方和和残差平方和SS残残两部两部分。分。 SS总总的自由度为的自由度为n-1, SS回回的自由度为的自由度为k,SS残残的自由度为的自由度为n-k-1。11三、分析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验 12222SSyySSyySSyy总回残三、分析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验 模型的显著性检验步骤为:模型的显著性检验步骤为:第一步,建立检

    7、验假设。第一步,建立检验假设。H0:b b1=b b2= =b bk=0H1: b b1, b b2, , b bk不同时为不同时为013三、分析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验 第二步,计算统计量第二步,计算统计量F的值。的值。14,1/1k n kSSkFFSSnk 回残三、分析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验 第三步,确定第三步,确定P值,下统计学结论。值,下统计学结论。 根据检验统计量根据检验统计量F的值和自由度,确定其对的值和自由度,确定其对应的应的P值。若值。若Pa a,则接受,则接受H0,认为回归模型的系,认为回归模型的

    8、系数全部为数全部为0;若;若P ta a/2(n-k-1)或或t - ta a/2(n-k-1),则,则Pa a。此。此时,拒绝时,拒绝H0,接受,接受H1,认为该回归系数不等于,认为该回归系数不等于0。反之,则接受反之,则接受H0,认为该回归系数为,认为该回归系数为0。21三、分析步骤三、分析步骤2. 具体步骤具体步骤2.4 变量筛选变量筛选 由例由例1的分析结果可知,不是所有的自变量对的分析结果可知,不是所有的自变量对因变量的作用都有统计学意义。因变量的作用都有统计学意义。 故需要找到一个较好的回归方程,使之满足:故需要找到一个较好的回归方程,使之满足:方程内的自变量对回归都有统计学意义,

    9、方程外方程内的自变量对回归都有统计学意义,方程外的自变量对回归都无统计学意义。的自变量对回归都无统计学意义。22三、分析步骤三、分析步骤2. 具体步骤具体步骤2.4 变量筛选变量筛选 这就是自变量的选择问题,或称为变量筛选。这就是自变量的选择问题,或称为变量筛选。选择时,选择时, 一要尽可能地一要尽可能地不漏掉不漏掉重要的自变量;重要的自变量; 二要二要尽可能地减少尽可能地减少自变量的个数,保持模型自变量的个数,保持模型的精简。的精简。23三、分析步骤三、分析步骤2. 具体步骤具体步骤2.4 变量筛选变量筛选 常用的变量筛选方法有以下常用的变量筛选方法有以下8种:种: 前进法前进法 后退法后退

    10、法 逐步回归法逐步回归法 最大最大R2增量法增量法 最小最小R2增量法增量法 R2选择法选择法 修正修正R2选择法选择法 Mallows Cp选择法选择法 24三、分析步骤三、分析步骤2.4.1 前进法前进法(FORWARD) 回归方程中变量回归方程中变量从无到有从无到有依次选择一个自变依次选择一个自变量进入回归方程,并计算该变量对应的量进入回归方程,并计算该变量对应的F统计量统计量及及P值。值。 当当P小于小于纳入标准纳入标准(规定的选变量进入方程的规定的选变量进入方程的临界水平临界水平),则该变量入选,否则不能入选。则该变量入选,否则不能入选。 25三、分析步骤三、分析步骤2.4.1 前进

    11、法前进法 当回归方程中变量少时某变量不符合入选标当回归方程中变量少时某变量不符合入选标准,但随着回归方程中变量逐次增多时准,但随着回归方程中变量逐次增多时,该变量就该变量就可能符合入选标准;这样直到没有变量可入选为可能符合入选标准;这样直到没有变量可入选为止。止。 具体而言,是从仅含常数项具体而言,是从仅含常数项(即截距项即截距项)的最的最简单模型开始,逐步在模型中添加自变量。简单模型开始,逐步在模型中添加自变量。 26三、分析步骤三、分析步骤2.4.1 前进法前进法 局限性:局限性: 纳入标准取值小时,可能没有一个变量能入纳入标准取值小时,可能没有一个变量能入选;选; 纳入标准取值大时,开始

    12、选入的变量后来在纳入标准取值大时,开始选入的变量后来在新条件下不再进行检验,因而不能剔除后来变得新条件下不再进行检验,因而不能剔除后来变得无统计学意义的变量。无统计学意义的变量。 27三、分析步骤三、分析步骤2.4.2 后退法后退法(BACKWARD) 从模型中包含全部自变量开始,计算留在回从模型中包含全部自变量开始,计算留在回归方程中的各个自变量所产生的归方程中的各个自变量所产生的F统计量和统计量和P值,值,当当P值小于值小于排除标准排除标准(规定的从方程中剔除变量的规定的从方程中剔除变量的临界水准临界水准)则将此变量保留在方程中。则将此变量保留在方程中。 28三、分析步骤三、分析步骤2.4

    13、.2 后退法后退法 否则,从最大的否则,从最大的P值所对应的自变量开始逐值所对应的自变量开始逐一剔除,直到回归方程中没有变量可以被剔除时一剔除,直到回归方程中没有变量可以被剔除时为止。为止。 29三、分析步骤三、分析步骤2.4.2 后退法后退法 局限性:局限性: 排除标准大时,任何一个自变量都不能被剔排除标准大时,任何一个自变量都不能被剔除;除; 排除标准小时,开始被剔除的自变量后来在排除标准小时,开始被剔除的自变量后来在新条件下即使变得对因变量有较大的贡献了,也新条件下即使变得对因变量有较大的贡献了,也不能再次被选入回归方程并参与检验。不能再次被选入回归方程并参与检验。 30三、分析步骤三、

    14、分析步骤2.4.3 逐步回归法逐步回归法(STEPWISE) 此法是前进法和后退法的结合。此法是前进法和后退法的结合。 回归方程中的变量从无到有像前进法那样,回归方程中的变量从无到有像前进法那样,根据根据F统计量和统计量和P值大小按纳入标准水平决定该自值大小按纳入标准水平决定该自变量是否入选。变量是否入选。 31三、分析步骤三、分析步骤2.4.3 逐步回归法逐步回归法(STEPWISE) 当回归方程选入自变量后,又像后退法那样,当回归方程选入自变量后,又像后退法那样,根据根据F统计量和统计量和P值按排除标准水平剔除无统计学值按排除标准水平剔除无统计学意义的各自变量,依次类推。意义的各自变量,依

    15、次类推。 这样直到没有自变量可入选,也没有自变量这样直到没有自变量可入选,也没有自变量可被剔除时,则停止逐步筛选过程。可被剔除时,则停止逐步筛选过程。 32三、分析步骤三、分析步骤2.4.3 逐步回归法逐步回归法 33逐步回归法逐步回归法有无符合纳入有无符合纳入标准的新变量标准的新变量纳入新变量纳入新变量有无符合排除有无符合排除标准的变量标准的变量剔除剔除完成完成无无有有无无有有三、分析步骤三、分析步骤2.4.3 逐步回归法逐步回归法 逐步回归法比前进法和后退法都能更好地选逐步回归法比前进法和后退法都能更好地选出变量构造模型,但它也有局限性:出变量构造模型,但它也有局限性: 其一,当有其一,当

    16、有m个变量入选后,选第个变量入选后,选第m1个变个变量时,对它来说,前量时,对它来说,前m个变量不一定是最佳组合;个变量不一定是最佳组合; 其二,选入或剔除自变量仅以其二,选入或剔除自变量仅以F值和值和P值作标值作标准,完全没考虑其它标准。准,完全没考虑其它标准。 34三、分析步骤三、分析步骤2.4.5 变量筛选方法的选择变量筛选方法的选择 究竟哪一种筛选变量的方法最好?这个问题究竟哪一种筛选变量的方法最好?这个问题没有绝对的定论。没有绝对的定论。 一般来说,逐步回归法和最优回归子集法较一般来说,逐步回归法和最优回归子集法较好。对于一个给定的资料,可好。对于一个给定的资料,可试用多种变量筛选试

    17、用多种变量筛选的方法的方法,结合以下几条判断原则,从中选择最佳,结合以下几条判断原则,从中选择最佳者。者。35三、分析步骤三、分析步骤2.4.5 变量筛选方法的选择变量筛选方法的选择 其一,拟合的回归方程在整体上有统计学意其一,拟合的回归方程在整体上有统计学意义;义; 其二,回归方程中各回归参数的估计值的假其二,回归方程中各回归参数的估计值的假设检验结果都有统计学意义;设检验结果都有统计学意义; 其三,回归方程中各回归参数的估计值的正其三,回归方程中各回归参数的估计值的正负号与其后的变量在专业上的含义相吻合;负号与其后的变量在专业上的含义相吻合;36三、分析步骤三、分析步骤2.4.5 变量筛选

    18、方法的选择变量筛选方法的选择 其四,根据回归方程计算出因变量的所有其四,根据回归方程计算出因变量的所有预测值在专业上都有意义。预测值在专业上都有意义。 其五,若有多个较好的多重线性回归方程其五,若有多个较好的多重线性回归方程时,残差平方和较小且多重线性回归方程中所时,残差平方和较小且多重线性回归方程中所含的自变量的个数又较少者为最佳。含的自变量的个数又较少者为最佳。 37三、分析步骤三、分析步骤2.5 模型拟合效果评价模型拟合效果评价2.5.1 决定系数决定系数(R2) 即复相关系数的平方,其值等于因变量观测即复相关系数的平方,其值等于因变量观测值与预测值之间简单相关系数的平方。计算公式值与预

    19、测值之间简单相关系数的平方。计算公式为:为: 38总残总回SSSSSSSSR12三、分析步骤三、分析步骤2.5 模型拟合效果评价模型拟合效果评价2.5.1 决定系数决定系数(R2) R2取值介于取值介于0到到1之间,其含义为自变量能够之间,其含义为自变量能够解释因变量解释因变量y变异的百分比。变异的百分比。 R2越接近于越接近于1,说明线性回归对实际数据的,说明线性回归对实际数据的拟合程度越好。拟合程度越好。 39三、分析步骤三、分析步骤2.5 模型拟合效果评价模型拟合效果评价2.5.2 校正决定系数校正决定系数(Rc2) 随着模型中自变量个数的增加,决定系数随着模型中自变量个数的增加,决定系

    20、数R2将不断增大,这不符合回归模型中自变量个数尽将不断增大,这不符合回归模型中自变量个数尽可能少的原则。可能少的原则。 40三、分析步骤三、分析步骤2.5 模型拟合效果评价模型拟合效果评价2.5.2 校正决定系数校正决定系数(Rc2) 故在评价两个包含不同个数自变量的回归模故在评价两个包含不同个数自变量的回归模型的拟合效果时,不能简单地用决定系数作为评型的拟合效果时,不能简单地用决定系数作为评价标准。价标准。 此时,必须考虑回归模型中自变量个数的影此时,必须考虑回归模型中自变量个数的影响。响。 41三、分析步骤三、分析步骤2.5 模型拟合效果评价模型拟合效果评价2.5.2 校正决定系数校正决定

    21、系数(Rc2) 构造校正决定系数,其公式为:构造校正决定系数,其公式为: 其中,其中,n为样本含量,为样本含量,p为模型中自变量个数。为模型中自变量个数。决定系数相同时,自变量个数越多,决定系数相同时,自变量个数越多, Rc2越小。越小。 42221=1-111CMSnRRMSnp 误差总43三、分析步骤三、分析步骤2.5 模型拟合效果评价模型拟合效果评价2.5.3 剩余标准差剩余标准差s 即残差之标准差,计算公式为:即残差之标准差,计算公式为: 剩余标准差越小,说明回归模型的拟合效果越好。剩余标准差越小,说明回归模型的拟合效果越好。 1knSSs残三、分析步骤三、分析步骤2.5 模型拟合效果

    22、评价模型拟合效果评价2.5.4 AIC信息准则信息准则 该准则由日本学者赤池于该准则由日本学者赤池于1973年提出,广泛年提出,广泛应用于时间序列分析中自回归阶数的确定,多重应用于时间序列分析中自回归阶数的确定,多重回归、广义线性回归中自变量的筛选以及非线性回归、广义线性回归中自变量的筛选以及非线性回归模型的比较和选优。该统计量取值越小,反回归模型的比较和选优。该统计量取值越小,反映模型拟合效果越好。映模型拟合效果越好。 44三、分析步骤三、分析步骤2.6 共线性诊断共线性诊断 多重线性回归分析中,可能会出现以下问题:多重线性回归分析中,可能会出现以下问题:(1)回归方程的检验有统计学意义,而

    23、各偏回归系数回归方程的检验有统计学意义,而各偏回归系数的检验均无统计学意义。的检验均无统计学意义。(2)偏回归系数的估计值大小或其符号与实际情况和偏回归系数的估计值大小或其符号与实际情况和专业知识相违背,难以解释。专业知识相违背,难以解释。45三、分析步骤三、分析步骤2.6 共线性诊断共线性诊断 多重线性回归分析中,可能会出现以下问题:多重线性回归分析中,可能会出现以下问题:(3) 某个(些)与因变量关系密切的自变量,因为参某个(些)与因变量关系密切的自变量,因为参数标准误的估计值较大,相应数标准误的估计值较大,相应t值就会变得较小,值就会变得较小,造成其偏回归系数无统计学意义。造成其偏回归系

    24、数无统计学意义。 46三、分析步骤三、分析步骤2.6 共线性诊断共线性诊断 导致这些问题的原因可能有:导致这些问题的原因可能有:(1)研究设计不够合理;研究设计不够合理; (2)资料收集存在问题;资料收集存在问题;(3)自变量间近似线性;自变量间近似线性; (4)数据中存在异常点;数据中存在异常点;(5)样本少而自变量多。样本少而自变量多。 47三、分析步骤三、分析步骤2.6 共线性诊断共线性诊断 何谓多重共线性?何谓多重共线性? 自变量间的近似线性关系,即是多重共线性。自变量间的近似线性关系,即是多重共线性。 由于数据自身的特征,回归模型中的自变量由于数据自身的特征,回归模型中的自变量之间或

    25、多或少地存在一些相关性,这违反了自变之间或多或少地存在一些相关性,这违反了自变量间相互独立的假设条件,称为多重共线性。量间相互独立的假设条件,称为多重共线性。 48三、分析步骤三、分析步骤2.6 共线性诊断共线性诊断 多重共线性的分类:多重共线性的分类:(1)严重的多重共线性严重的多重共线性 此时,自变量之间存在着较高甚至完全的线此时,自变量之间存在着较高甚至完全的线性相关关系,虽然最小二乘法仍可应用,但由于性相关关系,虽然最小二乘法仍可应用,但由于观测误差的稳定性变差,所得的估计值可能面目观测误差的稳定性变差,所得的估计值可能面目全非。这类情况较为少见。全非。这类情况较为少见。49三、分析步

    26、骤三、分析步骤2.6 共线性诊断共线性诊断 多重共线性的分类:多重共线性的分类:(2)某种程度的多重共线性某种程度的多重共线性 此时,最小二乘法仍可获得参数的无偏估计值,此时,最小二乘法仍可获得参数的无偏估计值,但参数的方差估计值将变得很大,导致估计精度下降,但参数的方差估计值将变得很大,导致估计精度下降,且无法判断自变量对因变量的影响程度。且无法判断自变量对因变量的影响程度。 50三、分析步骤三、分析步骤2.7 异常点诊断异常点诊断 2.7.1 异常点异常点 对因变量的预测值影响特别大,甚至容易导致对因变量的预测值影响特别大,甚至容易导致相反结论的观测点,称为异常点。相反结论的观测点,称为异

    27、常点。 异常点的诊断,可采用学生化残差统计量、异常点的诊断,可采用学生化残差统计量、Cooks D统计量。统计量。 51三、分析步骤三、分析步骤2.8 自变量作用大小评价自变量作用大小评价 由于自变量由于自变量量纲不同量纲不同,不能直接根据原始数,不能直接根据原始数据计算得来的偏回归系数来评价各自变量对因变据计算得来的偏回归系数来评价各自变量对因变量的影响大小。量的影响大小。 也不能依据也不能依据P 值来判断自变量对因变量的影值来判断自变量对因变量的影响大小。因为响大小。因为P 值的大小,不表示自变量的影响值的大小,不表示自变量的影响强弱,仅表示认为它有影响的可能性有多大。强弱,仅表示认为它有影响的可能性有多大。52三、分析步骤三、分析步骤2.8 自变量作用大小评价自变量作用大小评价 先对原始数据进行标准化变换,然后再计算先对原始数据进行标准化变换,然后再计算偏回归系数,此时的偏回归系数称为标准化偏回偏回归系数,此时的偏回归系数称为标准化偏回归系数。归系数。 标准化偏回归系数绝对值越大,说明该自变标准化偏回归系数绝对值越大,说明该自变量对因变量的影响越大量对因变量的影响越大。 53)(YjjYYjjjjSSbllbb自变量的标准差自变量的标准差因变量的标准差因变量的标准差

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:21-多重线性回归-PPT课件.ppt
    链接地址:https://www.163wenku.com/p-2820840.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库