线性回归精品课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《线性回归精品课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 精品 课件
- 资源描述:
-
1、线性回归分析线性回归分析第一节第一节 一元线性回归模型一元线性回归模型第二节第二节 多元线性回归模型多元线性回归模型第三节第三节 回归方程统计检验回归方程统计检验第四节第四节 多重共线性问题多重共线性问题第五节第五节 虚拟变量的应用虚拟变量的应用 第六节第六节 统计软件在线性回归分析中的应用统计软件在线性回归分析中的应用 第一节第一节 一元线性回归模型一元线性回归模型一元线性回归模型的由来一元线性回归模型的由来:l假设在总体中满足假设在总体中满足Y=A+BX+,Y为随机变量,为随机变量,X为确为确定变量定变量;l将随机样本的观测数据代入方程中,则有:将随机样本的观测数据代入方程中,则有:yi=
2、a+bxi+ei,ei为样本随机误差项。为样本随机误差项。l y=a+bx。参数。参数a、b用最小平方法用最小平方法(Ordinary Least Squares)求得,即所有观测值与估计值之间的误差平方求得,即所有观测值与估计值之间的误差平方和最小。和最小。一元线性回归模型一元线性回归模型y=a+bx的的作用:作用:l简化简化x、y之间的关系,以直线作为简化方式;之间的关系,以直线作为简化方式;l用用x来预测来预测y的变化,以直线作为预测的准则;的变化,以直线作为预测的准则;l研究研究x在多大程度上解释在多大程度上解释y的变化。的变化。一元线性回归系数一元线性回归系数一元回归系数的含义:一元
3、回归系数的含义:la是直线在是直线在y轴上的截距,代表轴上的截距,代表y的基础水平;的基础水平;lb是直线的斜率,代表是直线的斜率,代表x变化一个单位时,变化一个单位时,y的的平均变化平均变化;变量变换:变量变换:l由于直线关系是最简单的(叠加)关系,所以,由于直线关系是最简单的(叠加)关系,所以,尽量用直线作为预测或估计的准则;尽量用直线作为预测或估计的准则;l当因变量当因变量y与自变量与自变量x是非线性关系时,可以通是非线性关系时,可以通过变量变换使经过变换的新变量对于参数是线过变量变换使经过变换的新变量对于参数是线性的。性的。关于最小平方法关于最小平方法一元线性回归模型的估计方法:最小平
4、方法;一元线性回归模型的估计方法:最小平方法;最小平方法的统计性质:最小平方法的统计性质:l回归方程的拟合误差总和等于回归方程的拟合误差总和等于0,即,即ei 0;l误差平方和最小,即在所有拟合散点的直线中,根据最小误差平方和最小,即在所有拟合散点的直线中,根据最小平方法原则得到的回归直线使平方法原则得到的回归直线使n个散点(个散点(yi,xi)沿)沿y轴方轴方向到直线的距离平方和最小;向到直线的距离平方和最小;ly的平均值等于的平均值等于y的平均值;的平均值;lx与与e相互独立,即相互独立,即x与与e的协方差等于的协方差等于0,Cov(x,e)=(xi-x)(ei)/n=0;ly与与e相互独
5、立,即相互独立,即y与与e的协方差等于的协方差等于0;l直线通过直线通过n个散点的重心点,即个散点的重心点,即x与与y的均值确定的点的均值确定的点 一元线性回归模型的假设一元线性回归模型的假设模型的假设条件(模型的假设条件(assumption)。)。l统计理论已经证明,在满足一定的假设条件下,样统计理论已经证明,在满足一定的假设条件下,样本数据的最小平方估计是总体参数的最佳线性无偏本数据的最小平方估计是总体参数的最佳线性无偏估计。估计。l在推断总体参数或进行统计检验时,必须考虑总体在推断总体参数或进行统计检验时,必须考虑总体回归模型中的随机误差项回归模型中的随机误差项的分布特征的分布特征。l
6、对总体随机误差对总体随机误差的假设:的假设:l高斯假设:零均值性;等方差性;误差之间独立;误差高斯假设:零均值性;等方差性;误差之间独立;误差项与自变量相互独立;项与自变量相互独立;l误差的正态分布性;误差的正态分布性;l违反假设可能产生的影响。违反假设可能产生的影响。第二节第二节 多元线性回归模型多元线性回归模型含义和作用含义和作用l分析一个随机变量与多个变量之间线性关系的分析一个随机变量与多个变量之间线性关系的最常用的统计方法。最常用的统计方法。l它用变量的观察数据拟合所关注的变量,并以它用变量的观察数据拟合所关注的变量,并以线性关系式表达所关注的变量,并且回答这种线性关系式表达所关注的变
7、量,并且回答这种表达的解释程度有多高;表达的解释程度有多高;l检验影响变量的显著程度和比较它们的作用大检验影响变量的显著程度和比较它们的作用大小,进而用两个或多个变量的变化解释和预测小,进而用两个或多个变量的变化解释和预测另一个变量的变化。另一个变量的变化。l因变量因变量(dependent variable)和自变量和自变量(independent variable)的确定是建立回归模型的主要任务。的确定是建立回归模型的主要任务。多元线性回归方程多元线性回归方程多元线性回归方程的由来:多元线性回归方程的由来:lY=B0+B1X1+B2X2+BkXk+,其中Y为可观察的随机变量,X1、X2,X
8、k 为可观察的一般变量,B0,B1,B2,Bk为待定模型参数,其中B0 为截距,为不可观测的随机误差;l由n组独立观察的样本数据(yi,xi1,xi2,,xik)得到方程:yi=b0+b1xi1+b2xi2+bkxik+ei。其中,i1,2,n。由于n个随机变量ei相互独立且服从同一正态分布Nor(0,2)l根据最小平方法原则,求B0,B1,B2,Bk 的估计值b0,b1,b2,bk,使上式的误差平方和最小,即(ei)2=yi-(b0+b1xi1+b2xi2+bkxik)2 的最小值。于是,得到回归方程:y=b0+b1xi+b2xi+bkxi(1)线性回归的几何意义线性回归的几何意义回归平面回
9、归平面:l回归方程(回归方程(1)称为回归平面。)称为回归平面。l它拟合(它拟合(y,x1,x2,,xk)形成)形成k+1维空间的散维空间的散点(点(yi,xi1,xi2,,xik)i1,2,n,使观察值,使观察值沿沿y轴的方向到平面距离(即轴的方向到平面距离(即yi与拟合值与拟合值yi之差)之差)的平方和最小,使误差之和等于的平方和最小,使误差之和等于0,并通过平均,并通过平均值(值(y,x1,x2,,xk)点和()点和(b0,0,00)点)点。回归方程的系数回归方程的系数回归系数的意义回归系数的意义:lb0,b1,b2,bk 称为回归平面的系数。称为回归平面的系数。lbj,j1,2,k表示
10、其他变量表示其他变量xi在在i1,2,k固定时,固定时,xj 每变化一个单位,每变化一个单位,y的平的平均变化。均变化。l无论其他变量在什么水平上,只要其他变量固无论其他变量在什么水平上,只要其他变量固定,那么,定,那么,xj 的变化对的变化对y的影响都是相等的;的影响都是相等的;l至于至于y的取值,则与各个变量的当前水平有关的取值,则与各个变量的当前水平有关。标准化回归系数标准化回归系数定义:定义:l若先将所有的自变量和因变量进行标准化处理若先将所有的自变量和因变量进行标准化处理(均值为均值为0,标准差为,标准差为1),然后进行回归得到标准化),然后进行回归得到标准化回归方程,该方程的系数称
11、为标准化回归系数。回归方程,该方程的系数称为标准化回归系数。作用作用l每一个标准化系数都表示,当其他变量不变时,每一个标准化系数都表示,当其他变量不变时,xj变化一个标准差单位,变化一个标准差单位,y的标准差的平均变化。的标准差的平均变化。l表示的是方程内变量之间的相对重要性;表示的是方程内变量之间的相对重要性;l通过绝对值的比较,可回答在诸多解释变量中,通过绝对值的比较,可回答在诸多解释变量中,哪个变量更重要的问题哪个变量更重要的问题。方程的解释能力及其测量方程的解释能力及其测量方程的确定能力:方程的确定能力:l所得回归方程在多大程度上解释了因变量的变所得回归方程在多大程度上解释了因变量的变
12、化,或者说方程对观察值的拟合程度如何;化,或者说方程对观察值的拟合程度如何;确定系数确定系数(coefficient of determination)R2:lR2(y-y均值均值)2/(y-y均值均值)2,其值越接近,其值越接近1,表,表明方程中的变量对明方程中的变量对y的解释能力越强。的解释能力越强。l 它是方程拟合优度的度量,它是方程拟合优度的度量,R2越大说明回归方越大说明回归方程拟合优度越好,自变量与因变量线性关系越强,程拟合优度越好,自变量与因变量线性关系越强,即回归方程中的自变量对即回归方程中的自变量对y的解释能力越强。的解释能力越强。lR2越小说明自变量与因变量的线性关系越弱,
13、越小说明自变量与因变量的线性关系越弱,它们之间的独立性越强,或者说对它们之间的独立性越强,或者说对x的了解无助于的了解无助于对对y的预测。的预测。方程解释能力的其他测量方程解释能力的其他测量调整的确定系数:调整的确定系数:lR2adj1(n-1)(1-R2)/(n-k-1):lR2是受自变量个数与样本规模之比(是受自变量个数与样本规模之比(k:n)影响的系数,一般常规是影响的系数,一般常规是1:10以上为好。当这以上为好。当这个比值小于个比值小于1:5时,时,R2倾向于高估实际的拟合优倾向于高估实际的拟合优度,为了避免这种情况,采用度,为了避免这种情况,采用R2adj代替代替R2。多元相关系数
14、多元相关系数R(multiple correlation):):l对对R2开方就得到开方就得到R,R越接近越接近1,表明,表明y与所有与所有x之间的线性关系越密切;之间的线性关系越密切;l实际上,实际上,R是是y观测值与观测值与y预测值之间的简单相预测值之间的简单相关系数。关系数。方程解释能力的其他测量方程解释能力的其他测量净确定系数净确定系数(partial coefficient of determination):):l表示方程中的每一个变量表示方程中的每一个变量xi对减少余差平方和对减少余差平方和的边际贡献,表示的边际贡献,表示xi对对y的边际解释能力。的边际解释能力。l如,如,y对两
15、个自变量进行回归,在控制对两个自变量进行回归,在控制x1的条件的条件下,下,x2对对y的解释能力为:的解释能力为:R2y2.1 RSS(1,2)RSS(1)/ESS(1)R2y.12R2y.1/(1R2y.1).lR2y2.1的值域为的值域为0,1,它度量了,它度量了x2对对y的边际影的边际影响,度量的手段是比较两步回归之间发生的变响,度量的手段是比较两步回归之间发生的变化,并用于判断自变量的重要性。化,并用于判断自变量的重要性。净相关系数:净确定系数的开平方。净相关系数:净确定系数的开平方。第三节第三节 回归方程的统计检验回归方程的统计检验回归方程的显著性检验:回归方程的显著性检验:l即检验
16、样本即检验样本y与与x,x的线性关系是否显著,即判的线性关系是否显著,即判断能否肯定总体回归系数中至少有一个不等于断能否肯定总体回归系数中至少有一个不等于0。l方差分析的主要目的就是进行回归方程的检验方差分析的主要目的就是进行回归方程的检验;回归系数的显著性检验:回归系数的显著性检验:l当回归方程检验显著时,便可以认为回归方程中至少有当回归方程检验显著时,便可以认为回归方程中至少有一个回归系数是显著的;一个回归系数是显著的;l希望在方程中保留最重要的变量,删除不显著的变量,希望在方程中保留最重要的变量,删除不显著的变量,即对自变量进行取舍。即对自变量进行取舍。l回归系数采用回归系数采用t检验的
17、方法。检验的方法。l常数项一般不是研究的重点,即使不显著也保留。常数项一般不是研究的重点,即使不显著也保留。回归系数的推断统计回归系数的推断统计回归系数的置信区间:回归系数的置信区间:l根据用户需要,根据用户需要,SPSS可提供可提供95%的置信区间;的置信区间;STATA可根据命令提供其他可信度的置信区间。可根据命令提供其他可信度的置信区间。回归系数不显著的原因:回归系数不显著的原因:lt(bjBj)/sj,sj为为bj的标准误。的标准误。l样本量太小,或者变量个数较多,使样本量太小,或者变量个数较多,使n-k变小,从而使变小,从而使sj增大,增大,t值变小;值变小;lxj的变化范围太小,即
18、的变化范围太小,即xj的标准差过小;的标准差过小;lxj与方程中的其他变量线性相关,当变量间的相关系与方程中的其他变量线性相关,当变量间的相关系数增大时,也使数增大时,也使sj变大;变大;ly与与xj有关联,但却是非线性的;有关联,但却是非线性的;ly与与xj确实不存在显著的关系确实不存在显著的关系;第四节第四节 多重共线性多重共线性多重共线性的含义及其影响:多重共线性的含义及其影响:l多元线性回归模型参数多元线性回归模型参数b的求解过程中,要求自的求解过程中,要求自变量间线性无关,从而最小平方法求出唯一一套变量间线性无关,从而最小平方法求出唯一一套b估估计值。计值。l当自变量之间高度相关时,
展开阅读全文