21-多重线性回归-PPT课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《21-多重线性回归-PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 21 多重 线性 回归 PPT 课件
- 资源描述:
-
1、多重线性回归分析多重线性回归分析一、方法简介一、方法简介1.2 概念概念 用回归方程用回归方程定量地刻画一个因变量与多个自定量地刻画一个因变量与多个自变量之间的线性依存关系变量之间的线性依存关系,称为多重线性回归分,称为多重线性回归分析(析(multiple linear regression analysis)。)。 自变量是相互独立的连续型变量或分类变量。自变量是相互独立的连续型变量或分类变量。 2一、方法简介一、方法简介1.3 数据结构数据结构 表表1 进行多重线性回归分析资料的数据结构进行多重线性回归分析资料的数据结构3编号编号X1X2XkY1X11X12X1kY12X21X22X2k
2、Y2:nXn1Xn2XnkYn二、基本原理二、基本原理 2.1 原理简介原理简介 多重线性回归模型:多重线性回归模型: Y=b b0+ +b b1X1+ +b b2X2+ + +b bkXk+ +e e 其中,其中,b bj (j=0, 1 , 2 , k)为未知参数,为未知参数,e e为随机为随机误差项。误差项。45二、基本原理二、基本原理2.1 原理简介原理简介 多重线性回归模型中包含多个自变量,它们多重线性回归模型中包含多个自变量,它们同时对因变量同时对因变量Y 发生作用。发生作用。 若要考察一个自变量对若要考察一个自变量对Y 的影响,就必须假的影响,就必须假设其他自变量保持不变。设其他
3、自变量保持不变。6二、基本原理二、基本原理 2.1 原理简介原理简介 因此,多重线性回归模型中的回归系数为因此,多重线性回归模型中的回归系数为偏偏回归系数回归系数。 它反映的是当模型中的它反映的是当模型中的其他自变量不变时其他自变量不变时,其中其中一个自变量对因变量一个自变量对因变量Y 的均值的影响的均值的影响。7二、基本原理二、基本原理 2.2 前提条件前提条件 多重线性回归分析要求资料满足线性多重线性回归分析要求资料满足线性(Linear)、独立性、独立性(Independence)、正态性、正态性(Normality)和方差齐性和方差齐性(Equal variance) 。 除此之外,还
4、要求多个自变量之间相关性不除此之外,还要求多个自变量之间相关性不要太强。要太强。 8二、基本原理二、基本原理 2.2 前提条件前提条件线性线性指自变量与因变量之间的关系是线性的指自变量与因变量之间的关系是线性的独立性独立性指各观测值之间是相互独立的指各观测值之间是相互独立的正态性正态性指自变量取不同值时,因变量服从正指自变量取不同值时,因变量服从正 态分布态分布方差齐性方差齐性指自变量取不同值时,因变量的方指自变量取不同值时,因变量的方 差相等差相等 三、分析步骤三、分析步骤1. 基本任务基本任务 求出模型中参数的估计值,对模型和参数进求出模型中参数的估计值,对模型和参数进行假设检验;行假设检
5、验; 对自变量进行共线性诊断,对观测值进行异对自变量进行共线性诊断,对观测值进行异常点诊断;常点诊断; 结合统计学知识和专业知识,对回归方程进结合统计学知识和专业知识,对回归方程进行合理的解释,并加以应用。行合理的解释,并加以应用。 9三、分析步骤三、分析步骤2. 具体步骤具体步骤2.1 回归参数估计回归参数估计 多重线性回归分析的参数估计,常采用最小多重线性回归分析的参数估计,常采用最小二乘法二乘法(OLS)进行。该方法使残差平方和达到最进行。该方法使残差平方和达到最小,从而得出模型参数估计值小,从而得出模型参数估计值 表示表示Y的估计值的估计值 10kkXbXbXbbY+22110Y三、分
6、析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验 根据方差分析的思想,将总的离均差平方和根据方差分析的思想,将总的离均差平方和SS总总分解为回归平方和分解为回归平方和SS回回和残差平方和和残差平方和SS残残两部两部分。分。 SS总总的自由度为的自由度为n-1, SS回回的自由度为的自由度为k,SS残残的自由度为的自由度为n-k-1。11三、分析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验 12222SSyySSyySSyy总回残三、分析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验 模型的显著性检验步骤为:模型的显著性检验步骤为:第一步,建立检
7、验假设。第一步,建立检验假设。H0:b b1=b b2= =b bk=0H1: b b1, b b2, , b bk不同时为不同时为013三、分析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验 第二步,计算统计量第二步,计算统计量F的值。的值。14,1/1k n kSSkFFSSnk 回残三、分析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验 第三步,确定第三步,确定P值,下统计学结论。值,下统计学结论。 根据检验统计量根据检验统计量F的值和自由度,确定其对的值和自由度,确定其对应的应的P值。若值。若Pa a,则接受,则接受H0,认为回归模型的系,认为回归模型的
8、系数全部为数全部为0;若;若P ta a/2(n-k-1)或或t - ta a/2(n-k-1),则,则Pa a。此。此时,拒绝时,拒绝H0,接受,接受H1,认为该回归系数不等于,认为该回归系数不等于0。反之,则接受反之,则接受H0,认为该回归系数为,认为该回归系数为0。21三、分析步骤三、分析步骤2. 具体步骤具体步骤2.4 变量筛选变量筛选 由例由例1的分析结果可知,不是所有的自变量对的分析结果可知,不是所有的自变量对因变量的作用都有统计学意义。因变量的作用都有统计学意义。 故需要找到一个较好的回归方程,使之满足:故需要找到一个较好的回归方程,使之满足:方程内的自变量对回归都有统计学意义,
9、方程外方程内的自变量对回归都有统计学意义,方程外的自变量对回归都无统计学意义。的自变量对回归都无统计学意义。22三、分析步骤三、分析步骤2. 具体步骤具体步骤2.4 变量筛选变量筛选 这就是自变量的选择问题,或称为变量筛选。这就是自变量的选择问题,或称为变量筛选。选择时,选择时, 一要尽可能地一要尽可能地不漏掉不漏掉重要的自变量;重要的自变量; 二要二要尽可能地减少尽可能地减少自变量的个数,保持模型自变量的个数,保持模型的精简。的精简。23三、分析步骤三、分析步骤2. 具体步骤具体步骤2.4 变量筛选变量筛选 常用的变量筛选方法有以下常用的变量筛选方法有以下8种:种: 前进法前进法 后退法后退
10、法 逐步回归法逐步回归法 最大最大R2增量法增量法 最小最小R2增量法增量法 R2选择法选择法 修正修正R2选择法选择法 Mallows Cp选择法选择法 24三、分析步骤三、分析步骤2.4.1 前进法前进法(FORWARD) 回归方程中变量回归方程中变量从无到有从无到有依次选择一个自变依次选择一个自变量进入回归方程,并计算该变量对应的量进入回归方程,并计算该变量对应的F统计量统计量及及P值。值。 当当P小于小于纳入标准纳入标准(规定的选变量进入方程的规定的选变量进入方程的临界水平临界水平),则该变量入选,否则不能入选。则该变量入选,否则不能入选。 25三、分析步骤三、分析步骤2.4.1 前进
11、法前进法 当回归方程中变量少时某变量不符合入选标当回归方程中变量少时某变量不符合入选标准,但随着回归方程中变量逐次增多时准,但随着回归方程中变量逐次增多时,该变量就该变量就可能符合入选标准;这样直到没有变量可入选为可能符合入选标准;这样直到没有变量可入选为止。止。 具体而言,是从仅含常数项具体而言,是从仅含常数项(即截距项即截距项)的最的最简单模型开始,逐步在模型中添加自变量。简单模型开始,逐步在模型中添加自变量。 26三、分析步骤三、分析步骤2.4.1 前进法前进法 局限性:局限性: 纳入标准取值小时,可能没有一个变量能入纳入标准取值小时,可能没有一个变量能入选;选; 纳入标准取值大时,开始
12、选入的变量后来在纳入标准取值大时,开始选入的变量后来在新条件下不再进行检验,因而不能剔除后来变得新条件下不再进行检验,因而不能剔除后来变得无统计学意义的变量。无统计学意义的变量。 27三、分析步骤三、分析步骤2.4.2 后退法后退法(BACKWARD) 从模型中包含全部自变量开始,计算留在回从模型中包含全部自变量开始,计算留在回归方程中的各个自变量所产生的归方程中的各个自变量所产生的F统计量和统计量和P值,值,当当P值小于值小于排除标准排除标准(规定的从方程中剔除变量的规定的从方程中剔除变量的临界水准临界水准)则将此变量保留在方程中。则将此变量保留在方程中。 28三、分析步骤三、分析步骤2.4
13、.2 后退法后退法 否则,从最大的否则,从最大的P值所对应的自变量开始逐值所对应的自变量开始逐一剔除,直到回归方程中没有变量可以被剔除时一剔除,直到回归方程中没有变量可以被剔除时为止。为止。 29三、分析步骤三、分析步骤2.4.2 后退法后退法 局限性:局限性: 排除标准大时,任何一个自变量都不能被剔排除标准大时,任何一个自变量都不能被剔除;除; 排除标准小时,开始被剔除的自变量后来在排除标准小时,开始被剔除的自变量后来在新条件下即使变得对因变量有较大的贡献了,也新条件下即使变得对因变量有较大的贡献了,也不能再次被选入回归方程并参与检验。不能再次被选入回归方程并参与检验。 30三、分析步骤三、
展开阅读全文