书签 分享 收藏 举报 版权申诉 / 50
上传文档赚钱

类型[工程科技]现代统计分析方法与应用第4章:一元线性回归课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:3713254
  • 上传时间:2022-10-06
  • 格式:PPT
  • 页数:50
  • 大小:653.82KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《[工程科技]现代统计分析方法与应用第4章:一元线性回归课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    工程科技 工程 科技 现代 统计分析 方法 应用 一元 线性 回归 课件
    资源描述:

    1、第第4 4章章 一元线性回归一元线性回归一元线性回归模型一元线性回归模型 回归参回归参0 0、1 1的估计的估计 最小二乘估计的性质最小二乘估计的性质回归方程的显著性检验回归方程的显著性检验残差分析残差分析预测和控制预测和控制建模总结和应注意的问题建模总结和应注意的问题第一节第一节 一元线性回归模型一元线性回归模型 上述均是研究两个变量之间的关系,而且他们的一个共同特点是:两个上述均是研究两个变量之间的关系,而且他们的一个共同特点是:两个变量之间有密切的关系,但他们之间密切的程度并不能由一个变量唯一确定变量之间有密切的关系,但他们之间密切的程度并不能由一个变量唯一确定另一个变量。另一个变量。一

    2、、一元线性回归模型的实际背景一、一元线性回归模型的实际背景 在实际问题的研究中,经常需要研究某一现象与影响它的某一最主要因素在实际问题的研究中,经常需要研究某一现象与影响它的某一最主要因素的影响。如:研究粮食产量与施肥量之间的关系;研究国民收入与消费额之的影响。如:研究粮食产量与施肥量之间的关系;研究国民收入与消费额之间的关系;研究火灾损失与火灾发生地距最近消防站的距离之间的关系。间的关系;研究火灾损失与火灾发生地距最近消防站的距离之间的关系。为直观地发现为直观地发现n n组样本数据组样本数据(x(xi i,y,yi i)的分布规律,通常把的分布规律,通常把(x(xi i,y,yi i)看成是

    3、平面看成是平面直角坐标系中的点,画出直角坐标系中的点,画出n n个样本的散点图。个样本的散点图。例例4.14.1 现有现有2020组粮食产量与化肥施用量的数据如下表:组粮食产量与化肥施用量的数据如下表:表示成散点图如下:表示成散点图如下:例例4.24.2 我国我国1986-20051986-2005年全国人均消费额与人均国民收入数据如下表:年全国人均消费额与人均国民收入数据如下表:表示成散点图如下:表示成散点图如下:二、一元线性回模型的数学形式二、一元线性回模型的数学形式 考虑两个变量间的关系,描述上述考虑两个变量间的关系,描述上述x与与y间线性关系的数学结构通常用下式间线性关系的数学结构通常

    4、用下式表示:表示:上式(上式(*)中)中y y为因变量为因变量(被解释变量被解释变量),x x为自变量为自变量(解释变量解释变量),0 0和和1 1是是未知参数。未知参数。xy10(*)表示其他随机因素的影响。它是一个随机变量,通常假定表示其他随机因素的影响。它是一个随机变量,通常假定满足:满足:对对(*)式两端求期望,得:式两端求期望,得:xyE10(*)式式(*)称为回归方程。称为回归方程。在回归函数中引入随机项,主要有以下几方面的原因:在回归函数中引入随机项,主要有以下几方面的原因:1 1)在自变量中被忽略的因素的影响;)在自变量中被忽略的因素的影响;2 2)变量观测值的观测误差的影响;

    5、)变量观测值的观测误差的影响;3 3)模型关系的设定误差的影响;)模型关系的设定误差的影响;4 4)其它随机因素的影响。)其它随机因素的影响。一般情况下,对我们所研究的某个实际问题,获得的一般情况下,对我们所研究的某个实际问题,获得的n n组样本观测值组样本观测值(x(x1 1,y y1 1),(x(x2 2,y y2 2),(x(xn n,y yn n)来说,如果它们符合模型来说,如果它们符合模型(*),则:,则:iiixy10i=1,2,n 2var0E(*)由式由式(*)有:有:回归分析的主要任务就是通过回归分析的主要任务就是通过n n组样本观测值组样本观测值(x(xi i,y,yj j

    6、)对对0 0和和1 1进行估计。进行估计。一般用一般用 和和 分别表示分别表示0 0和和1 1的估计值。则称的估计值。则称01 2var0iiExy0称为称为y y关于关于x x的一元线性经验回归方程。的一元线性经验回归方程。在实际问题的研究中,为了方便地对参数作区间估计和假设检验,假定在实际问题的研究中,为了方便地对参数作区间估计和假设检验,假定模型中的误差项模型中的误差项遵从正态分布,即:遵从正态分布,即:2,0N三、线性回归模型的基本假设三、线性回归模型的基本假设 假设假设1 1、自变量自变量x x是确定性变量,不是随机变量;是确定性变量,不是随机变量;假设假设2 2、随机误差项随机误差

    7、项具有零均值、同方差和不序列相关性:具有零均值、同方差和不序列相关性:E(E(i i)=0 i=1,2,)=0 i=1,2,n,n Var(Var(i i)=)=2 2 i=1,2,i=1,2,n,n Cov(Cov(i,i,j j)=0 ij i,j=1,2,)=0 ij i,j=1,2,n ,n 假设假设3 3、随机误差项随机误差项与自变量与自变量x x之间不相关:之间不相关:Cov(x Cov(xi i,i i)=0 i=1,2,)=0 i=1,2,n,n 假设假设4 4、服从零均值、同方差、零协方差的正态分布服从零均值、同方差、零协方差的正态分布 i iN(0,N(0,2 2)i=1,

    8、2,)i=1,2,n,n注意:注意:1 1、如果假设如果假设1 1、2 2满足,则假设满足,则假设3 3也满足也满足;2 2、如果假设如果假设4 4满足,则假设满足,则假设2 2也满足。也满足。以上假设也称为线性回归模型的以上假设也称为线性回归模型的经典假设经典假设或或高斯(高斯(GaussGauss)假设)假设,满足该,满足该假设的线性回归模型,也称为假设的线性回归模型,也称为经典线性回归模型经典线性回归模型(Classical Linear Classical Linear Regression Model,CLRMRegression Model,CLRM)。)。另外另外,在进行模型回归

    9、时,还有两个暗含的假设:,在进行模型回归时,还有两个暗含的假设:假设假设5 5:随着样本容量的无限增加,解释变量随着样本容量的无限增加,解释变量X X的样本方差趋于一有限常的样本方差趋于一有限常数。即数。即:假设假设6 6:回归模型是正确设定的。回归模型是正确设定的。假设假设5 5旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因为这类数据不仅使大样本统计推断变得无效,而且往往产生所谓的为这类数据不仅使大样本统计推断变得无效,而且往往产生所谓的伪回归问题伪回归问题(spurious regression problemspu

    10、rious regression problem)。)。假设假设6 6也被称为模型没有也被称为模型没有设定偏误设定偏误(specification errorspecification error)nQnxx2第二节第二节 回归参数回归参数0 0、1 1的估计的估计 对每一个样本观测值对每一个样本观测值(x(xi i,y,yi i),最小二乘法,最小二乘法(ordinary least square(ordinary least square estimation,OLSE)estimation,OLSE)考虑观测值考虑观测值y yi i与其回归值与其回归值 的离差越小越好,的离差越小越好,综

    11、合地考虑综合地考虑n n个离差值,定义离差平方和为:个离差值,定义离差平方和为:iixy10niiiniixyyyQ12101210,niiixyQ121010,所谓最小二乘法,就是寻找参数所谓最小二乘法,就是寻找参数0 0,1 1的估计值的估计值 使上式定义的离使上式定义的离差平方和达到最小,即:差平方和达到最小,即:10,niiixy1210,10min根据上式求出的根据上式求出的 就称为参数就称为参数0 0,1 1的最小二乘估计,称:的最小二乘估计,称:10,iixy10为为y yi i的回归拟合值。称:的回归拟合值。称:iiiyye为为y yi i的残差。残差平方和可表示为:的残差。残

    12、差平方和可表示为:niiinixyei121012 根据微分中求极值的原理,待定参数应满足下列方程组:根据微分中求极值的原理,待定参数应满足下列方程组:020121011001100iiiiixxyQxyQ 求解以上正规方程组得求解以上正规方程组得0 0、1 1的最小二乘估计的最小二乘估计(OLSE)(OLSE)为:为:niiniiixxyyxxxy121110niixnx11niiyny11其中:其中:niiniixxxnxxxL12212niiiniiixyyxnyxyyxxL11xxxyLLxy110记记则待定参数估计值的公式可以简写为:则待定参数估计值的公式可以简写为:xy10由由 可

    13、知:可知:xy10将例将例4.14.1化肥施用量与粮食产量资料计算如下表:化肥施用量与粮食产量资料计算如下表:6825.429602065.85921311niiyny916.30232032.6047811niixnx913.30208916.3023217.46825.42960 xy10217.42275540985.959589281xxxyLLxy217.4913.30208 于是回归方程为:于是回归方程为:iiiyye由由 可以得到残差的一个有用的性质:可以得到残差的一个有用的性质:niiiniiexe1100即残差的均值为即残差的均值为0 0,残差以自变量,残差以自变量x x的加

    14、权平均值为的加权平均值为0 0。单击单击StatisticsStatistics,出现以下界面:,出现以下界面:SPSSSPSS作一元回归的步骤:作一元回归的步骤:按按AnalyzeRegressionLinearAnalyzeRegressionLinear顺序逐一单击鼠标,系统出现如下对顺序逐一单击鼠标,系统出现如下对话框:话框:单击单击OKOK,系统输出分析结果:,系统输出分析结果:第三节第三节 最小二乘估计的性质最小二乘估计的性质一、线性性一、线性性 所谓线性性就是估计量所谓线性性就是估计量 为随机变量为随机变量y yi i的线性组合,即:的线性组合,即:10,niiniiiiinii

    15、niiixxyxxyxxxxyyxx1211211niininiiiiniiniiiixxyxxyxxxxyxxyxx1211121ininiiiniininiiiiiyxxxxxxxxyyxx1121211常数常数二、无偏性二、无偏性 ininiiiininiiixxxxxyExxxxE101121121111211120niiniiininiiixxxxxxxxx iininiiiininiiixxxxxyxxxx10211221121varvarvar三、三、的方差的方差10,ininiiiyxxxx1121由由 得:得:xxniininiiininiiiLxxxxxxxxxx21221

    16、2122122121 222122011xxniiLxnxxxnE 22001,xxLxnN由前面的由前面的 得:得:10,xxLN211,另外,还可以得到另外,还可以得到 的协方差:的协方差:10,210,covxxLx第四节第四节 回归方程的显著性检验回归方程的显著性检验一、一、t t检验检验 回归分析中,回归分析中,t t检验用于检验回归系数的显著性。检验用于检验回归系数的显著性。对立的假设是:对立的假设是:H H1 1:00 回归系数的显著性检验就是要检验自变量回归系数的显著性检验就是要检验自变量x x对因变量对因变量y y的影响是否显著。的影响是否显著。如果不显著,则因变量如果不显著

    17、,则因变量y y与自变量与自变量x x之间并没有真正的线性关系,即自变量之间并没有真正的线性关系,即自变量x x的变化对因变量的变化对因变量y y并没有影响。并没有影响。H H0 0:=0=0检验的原假设是:检验的原假设是:(一一)提出假设提出假设(二二)构造统计量构造统计量221211ntLLtxxxxniiiniiyynen121222121其中其中:(三三)根据给定的显著水平根据给定的显著水平,查临界值,并进行决策。,查临界值,并进行决策。tttt/2/2,则拒绝,则拒绝H H0 0,否则,接受,否则,接受H H0 0。二、二、F F检验检验 F F检验是根据平方和分解式,直接从回归效果

    18、检验回归方程的显著性。平检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。平方和分解式是:方和分解式是:niiiniiniiyyyyyy121212niiyy12是总平方和,简记为是总平方和,简记为SSTSST或或S S总总;niiyy12是回归平方和,简记为是回归平方和,简记为SSRSSR或或S S回回;niiiyy12是残差平方和,简记为是残差平方和,简记为SSESSE或或S S残残。F F检验统计量是:检验统计量是:2,121nFnSSESSRF 在正态假设下,当原假设在正态假设下,当原假设H H0 0:1 1=0=0成立时,成立时,F F遵从自由度为遵从自由度为(1,n-1)

    19、(1,n-1)的分的分分布。当分布。当F F值大于临界值值大于临界值F F时,拒绝时,拒绝H H0 0。三、相关系数三、相关系数(一一)斯皮尔曼等级相关斯皮尔曼等级相关(Spearmans rank order correlation)(Spearmans rank order correlation)斯皮尔曼相关系数是根据数据的秩而不是根据实际值计算的。也就是说,斯皮尔曼相关系数是根据数据的秩而不是根据实际值计算的。也就是说,先对原始数据排秩,根据各秩使用先对原始数据排秩,根据各秩使用SpearmanSpearman相关系数公式计算。相关系数公式计算。其计算公式为:其计算公式为:161212

    20、nnyxrniii 例例4.34.3 为研究考试中学生交卷的名次是否与成绩有关,进行了以下二为研究考试中学生交卷的名次是否与成绩有关,进行了以下二十名学生的抽样调查。十名学生的抽样调查。由于交卷名次是顺序数据,因此考试成绩也应转换为顺序数据,以求其由于交卷名次是顺序数据,因此考试成绩也应转换为顺序数据,以求其等级相关系数。为此按考试成绩进行名词排序如下:等级相关系数。为此按考试成绩进行名词排序如下:1364.0166247611612212nnyxrniii则该问题的等级相关系数为:则该问题的等级相关系数为:相关系数的直观意义:相关系数的直观意义:yyxxxyniiniiniiiLLLyyxx

    21、yyxxr12121(二二)皮尔逊相关系数皮尔逊相关系数(Pearson correlation)(Pearson correlation)及其显著性检验及其显著性检验SPSSSPSS计算相关系数的步骤:计算相关系数的步骤:按按AnalyzeCorrelateBivariateAnalyzeCorrelateBivariate顺序逐一单击鼠标,系统出现如下顺序逐一单击鼠标,系统出现如下对话框:对话框:单击单击OKOK,系统输出分析结果:,系统输出分析结果:CorrelationsCorrelations1.989*.0002020.989*1.0002020Pearson Correlatio

    22、nSig.(2-tailed)NPearson CorrelationSig.(2-tailed)N化肥施用量粮食产量化肥施用量粮食产量Correlation is significant at the 0.01 level(2-tailed).*.四、样本决定系数四、样本决定系数yyxxyyxxxyLLLLLr1yyxxxyniiniiLLLyyyySSTSSRr212122相关系数与回归系数的关系可以表达为:相关系数与回归系数的关系可以表达为:第五节第五节 残差分析残差分析一、残差概念和残差图一、残差概念和残差图 一个线性方程通过了一个线性方程通过了t t检验和检验和F F检验,只是表明了

    23、变量检验,只是表明了变量x x与与y y之间存在的线之间存在的线性关系是显著的,但不能保证数据拟合得很好,也不能排除由于以外原因而性关系是显著的,但不能保证数据拟合得很好,也不能排除由于以外原因而导致的数据不完全可靠。只有当与模型中的残差项有关的假定满足时,才能导致的数据不完全可靠。只有当与模型中的残差项有关的假定满足时,才能放心地运用回归模型。放心地运用回归模型。残差残差是实际观测值是实际观测值y y与通过回归方程给出的回归值之差,即:与通过回归方程给出的回归值之差,即:iiixy10它是误差项它是误差项 的估计值。的估计值。iiiiixyyye10 以自变量以自变量x x为横轴,以残差做纵

    24、轴,将相应的残差点画在直角坐标系上,为横轴,以残差做纵轴,将相应的残差点画在直角坐标系上,就可以得到就可以得到残差图残差图。残差图可以帮助我们对数据的质量做一些分析。残差图可以帮助我们对数据的质量做一些分析。一般认为,如果一个回归模型满足所给出的基本假定,所有残差应是在一般认为,如果一个回归模型满足所给出的基本假定,所有残差应是在e=0e=0附近随机变化,并在变化幅度不大的一条带子内。附近随机变化,并在变化幅度不大的一条带子内。对例对例5.15.1的粮食产量与化肥施用量的数据作残差分析,首先计算残差。的粮食产量与化肥施用量的数据作残差分析,首先计算残差。残差残差e ei i可以用软件在做回归时

    25、直接计算出来,在可以用软件在做回归时直接计算出来,在SPSSSPSS软件的线性回归对软件的线性回归对话框中,点选下面的话框中,点选下面的SaveSave框条进入框条进入SaveSave对话框,即可保留所需的中间变量,对话框,即可保留所需的中间变量,在在SaveSave对话框中,点选对话框中,点选ResidualsResiduals下的下的UnstandardizedUnstandardized选项,再点右面的选项,再点右面的ContinueContinue回到线性回归对话框,继续做回归。回归完成后,在原始数据表格回到线性回归对话框,继续做回归。回归完成后,在原始数据表格中即可看到新增加了一列变

    26、量中即可看到新增加了一列变量res_1res_1,此即残差,此即残差e ei i。下表列出了粮食产量与。下表列出了粮食产量与肥施用量数据的残差。肥施用量数据的残差。利用利用x x和残差作散点图:和残差作散点图:从残差图上看出,残差是围绕从残差图上看出,残差是围绕e=0.0000e=0.0000随机波动,从而模型的基本假定随机波动,从而模型的基本假定是满足的。是满足的。按按GraphsScatters/DotGraphsScatters/Dot顺序逐一单击鼠标,选择顺序逐一单击鼠标,选择“残差、化肥施用量残差、化肥施用量”后,点击后,点击OkOk系统出现如下图形:系统出现如下图形:二、有关残差的

    27、性质二、有关残差的性质性质性质1 1:性质性质2 2:222111variixxiihLxxne 0ieExxiiiLxxnh21三、残差的改进三、残差的改进标准化残差:标准化残差:iieZRE 学生化残差:学生化残差:iiiiheSRE1其中:其中:标准化残差使残差具有可比性,标准化残差使残差具有可比性,|ZRE|ZREi i|3|3的相应观测值即判定为异常值,的相应观测值即判定为异常值,这简化了判定工作,但是没有解决方差不等的问题。学生化残差则进一步解这简化了判定工作,但是没有解决方差不等的问题。学生化残差则进一步解决了方差不等的问题,因而在寻找异常值时,用学生化残差优于用普通残差,决了方

    28、差不等的问题,因而在寻找异常值时,用学生化残差优于用普通残差,认为认为|SRE|SREi i|3|3的相应观测值为异常值。的相应观测值为异常值。在在SPSSSPSS中:中:*ZPREDZPRED标准化预测值;标准化预测值;*ZRSIDZRSID标准化残差;标准化残差;*DRESIDDRESID剔除残差;剔除残差;*ADJPREDADJPRED修正后预测值;修正后预测值;*SRSIDSRSID学生化残差;学生化残差;*SDRESIDSDRESID学生化剔除残差。学生化剔除残差。第六节第六节 预测预测 一、单值预测一、单值预测 单值预测就是用单个值作为因变量新值的预测值。单值预测就是用单个值作为因

    29、变量新值的预测值。二、区间预测二、区间预测 区间预测也就是对于给定的显著性水平区间预测也就是对于给定的显著性水平,找一个区间,找一个区间(T(T1 1,T,T2 2),使对应,使对应于某特定的于某特定的x x0 0的实际值的实际值y y0 0以以1-1-的概率被区间的概率被区间(T(T1 1,T,T2 2)所包含,用式子表示,所包含,用式子表示,就是:就是:1201TyTP0100 xyE 对因变量的区间预测又分为两种情况,一种是对因变量新值的区间预测;对因变量的区间预测又分为两种情况,一种是对因变量新值的区间预测;另一种是对因变量新值的平均值的区间预测。另一种是对因变量新值的平均值的区间预测

    30、。1 1、因变量新值的区间预测、因变量新值的区间预测0100 xy 在正态假定下在正态假定下 遵从正态分布,其期望值为:遵从正态分布,其期望值为:为了给出新值为了给出新值y y0 0的置信区间,需要首先求出其估计值的置信区间,需要首先求出其估计值 的的分布。分布。0100 xy 由于由于 与与 都是都是y y1 1、y y2 2、y yn n的线性组合,因而的线性组合,因而 也是也是y y1 1、y y2 2、y yn n的线性组合,的线性组合,010100 xy 因而有:因而有:niixxiyLxxxxny1200var1var2201xxLxxnxxLxxnh20001 从而得:从而得:2

    31、2001001,xxLxxnxNy记:记:0110100 xxyxyniixxiyLxxxxn101以下计算方差:以下计算方差:2000100,hxNy则上式简写为:则上式简写为:是用先前独立观测到的随机变量是用先前独立观测到的随机变量y y1 1,y y2 2,y yn n的线性组合,现在小麦的线性组合,现在小麦产量的新值产量的新值y y0 0与先前的观测值是独立的,所以与先前的观测值是独立的,所以y y0 0与与 是独立的。因而是独立的。因而:0 y0 y0000varvarvaryyyy000 yyE再由再由 ,于是:,于是:200001,0hNyy210000nthyyt进而可知统计量

    32、:进而可知统计量:12120000nthyyP可得:可得:120020hnty由此可以得到由此可以得到y0y0的置信概率为的置信概率为1-1-的置信区间为:的置信区间为:xx 0当样本容量当样本容量n n较大,较大,较小时,较小时,h h0000接近零,接近零,y0y0的的95%95%的置信区间为:的置信区间为:20y2 2、因变量新值的平均值的区间估计、因变量新值的平均值的区间估计 上面给出的是因变量单个新值的置信区间,现在关心的是因变量新值的上面给出的是因变量单个新值的置信区间,现在关心的是因变量新值的平均值的区间估计,对于前面提出的小麦产量问题,如果该地区的一大片麦平均值的区间估计,对于

    33、前面提出的小麦产量问题,如果该地区的一大片麦地每亩施肥量同为地每亩施肥量同为x0 x0,那么这一大片地小麦的平均亩产如何估计呢,那么这一大片地小麦的平均亩产如何估计呢?这个问题就是要估计的平均值这个问题就是要估计的平均值E(yE(y0 0)的置信区间,根据前面的公式可知:的置信区间,根据前面的公式可知:220001,0 xxLxxnNyEy20020hnty由此可以得到由此可以得到y y0 0的置信概率为的置信概率为1-1-的置信区间为:的置信区间为:第七节第七节 建模总结和应注意的问题建模总结和应注意的问题一、一元线性回归模型从建模到应用的全过程一、一元线性回归模型从建模到应用的全过程 第一

    34、步:提出因变量与自变量。这里以例第一步:提出因变量与自变量。这里以例4.24.2的数据为例,本例因变量的数据为例,本例因变量y y为全国人均消费金额(元),自变量为全国人均消费金额(元),自变量x x为人均国民收入为人均国民收入GNPGNP(元),采用年份(元),采用年份数据。数据。第二步:搜集数据。从中国统计年鉴得表第二步:搜集数据。从中国统计年鉴得表5.25.2。第三步:根据表第三步:根据表5.25.2的数据画散点图。的数据画散点图。42 第四步:设定理论模型。由散点图可以看到第四步:设定理论模型。由散点图可以看到,随着人均国民收入的增加随着人均国民收入的增加,居民人均消费额增大居民人均消

    35、费额增大,而且而且2020个样本点大致分布在一条直线的周围。因此个样本点大致分布在一条直线的周围。因此,我我们用直线回归模型去描述它们是合适的。故可以采用一元线性回归理论模型。们用直线回归模型去描述它们是合适的。故可以采用一元线性回归理论模型。第五步:用软件计算,输出计算结果。第五步:用软件计算,输出计算结果。4.7 建模总结和应注意的问题建模总结和应注意的问题 第六步,回归诊断,分析输出结果。第六步,回归诊断,分析输出结果。从从Descriptive StatisticsDescriptive Statistics中看到,中看到,=5595.65 =5595.65,=2485.20=2485

    36、.20,有效样,有效样本容量本容量n=20n=20。y y的标准差的标准差 =1591.218 =1591.218。xyyS 从从CorrelationsCorrelations相关中看到,相关系数相关中看到,相关系数r=0.994r=0.994,单侧检验显著性,单侧检验显著性sig0.0000sig0.0000,说明,说明x x与与y y有显著的线性相关,这与散点图的直观分析是一致有显著的线性相关,这与散点图的直观分析是一致的。的。从从Model SummaryModel Summary表中看到,决定系数表中看到,决定系数r r2 2=0.988=0.988,从相对水平上看,回,从相对水平上

    37、看,回归方程能够减少因变量归方程能够减少因变量y y的的98.7%98.7%的方差波动。回归标准差的方差波动。回归标准差 =180.284 =180.284,从绝,从绝对水平上看,对水平上看,y y的标准差从回归前的的标准差从回归前的1591.2181591.218减少到回归后的减少到回归后的180.284180.284。从从ANOVAANOVA方差分析表中看到,方差分析表中看到,F=1462.1321F=1462.1321,显著性,显著性sig0.0000sig0.0000,说明,说明y y对对x x的线性回归高度相关,这与相关系数的检验结果是一致的。的线性回归高度相关,这与相关系数的检验结

    38、果是一致的。从从CoefficientsCoefficients系数表中得到回归方程为系数表中得到回归方程为 ,回,回归系数归系数1 1检验的检验的t t值值=38.238=38.238,显著性,显著性SigSig0.00000.0000,与,与F F检验和相关系数检验和相关系数r r的的检验结果一致。常数项检验结果一致。常数项0 0的置信度的置信度95%95%的区间估计为的区间估计为(110.111(110.111,407.671)407.671),回归系数回归系数1 1的置信度的置信度95%95%的区间估计为的区间估计为(0.376(0.376,0.420)0.420)。xy398.089

    39、1.258 残差分析。仿照例残差分析。仿照例5.15.1的残差分析,计算出残差的残差分析,计算出残差e ei i,标准残差,标准残差ZREZREi i,学,学生化残差生化残差SRESREi i,再以自变量,再以自变量x x为横轴,学生化残差为横轴,学生化残差SRESREi i为纵轴做残差图。由为纵轴做残差图。由分析认为,本例的样本数据基本正常,理论模型的基本假定是合适的。分析认为,本例的样本数据基本正常,理论模型的基本假定是合适的。第七步第七步,模型的应用。当所建模型通过所有检验之后模型的应用。当所建模型通过所有检验之后,就可结合实际经济就可结合实际经济问题进行应用。最常见的应用之一就是因素分

    40、析。我们由回归方程可知问题进行应用。最常见的应用之一就是因素分析。我们由回归方程可知,当当国民收入平均增长国民收入平均增长1 1元时元时,大约平均有大约平均有0.40.4元用于消费元用于消费,人均国民收入的增长与人均国民收入的增长与人均消费金额的增长成正相关关系。这大致符合现阶段的实际情况。这个结人均消费金额的增长成正相关关系。这大致符合现阶段的实际情况。这个结果可为现阶段制定宏观调控政策提供量化依据。果可为现阶段制定宏观调控政策提供量化依据。回归分析方法的应用要特别注意定性分析与定量分析相结合。当现阶段回归分析方法的应用要特别注意定性分析与定量分析相结合。当现阶段的实际情况与建模时所用数据资

    41、料的背景发生较大变化时的实际情况与建模时所用数据资料的背景发生较大变化时,不能仍机械地死不能仍机械地死套公式套公式,这时就应对模型进行修改。修改包括重新收集数据这时就应对模型进行修改。修改包括重新收集数据,尽可能用近期数尽可能用近期数据据;还包括是否要增加新的自变量还包括是否要增加新的自变量,因为影响某种经济现象的因素可能发生了因为影响某种经济现象的因素可能发生了变化变化,可能还有一些重要的因素需要考虑等。可能还有一些重要的因素需要考虑等。二、有关回归假设检验问题二、有关回归假设检验问题 对于一元线性回归方程显著性的检验,前面介绍的方法是对于一元线性回归方程显著性的检验,前面介绍的方法是F F

    42、检验,即检验,即H H0 0:1 1=0=0,H H1 1:1 10 0。那么,当接受。那么,当接受H H0 0或拒绝或拒绝H H0 0意味着什么?意味着什么?前面在作前面在作F F检验时,曾假定检验时,曾假定x x与与y y有线性相关关系,如果拒绝有线性相关关系,如果拒绝H H0 0就说明就说明x x与与y y之间有显著的线性关系,回归方程刻画了之间有显著的线性关系,回归方程刻画了x x与与y y的这种线性关系。的这种线性关系。然而,对于一个实际问题,变量然而,对于一个实际问题,变量x x与与y y之间到底是一个什么样的关系?我之间到底是一个什么样的关系?我们并不清楚。样本数据是否存在异常值

    43、,是否存在周期性,我们往往从数们并不清楚。样本数据是否存在异常值,是否存在周期性,我们往往从数据的表面并不能明显看出。据的表面并不能明显看出。运用普通最小二乘运用普通最小二乘OLSOLS法估计模型的参数是在模型满足一些基本假定时才法估计模型的参数是在模型满足一些基本假定时才有效有效,如果模型的基本假定显著地出错如果模型的基本假定显著地出错,可能导致模型结论严重歪曲。可能导致模型结论严重歪曲。一般情况下,当一般情况下,当H H0 0:1 10 0被接受时,表明被接受时,表明y y的取值倾向不随的取值倾向不随x x的值按线的值按线性关系变化。这种状况可能是由于变量性关系变化。这种状况可能是由于变量

    44、y y与与x x之间的相关关系不显著,也可之间的相关关系不显著,也可能虽然变量能虽然变量y y与与x x之间的相关关系显著,但是这种相关关系不是线性的而是之间的相关关系显著,但是这种相关关系不是线性的而是非线性的。非线性的。当当H H0 0:1 1=0=0被拒绝时,如果没有其他信息,仅凭拒绝被拒绝时,如果没有其他信息,仅凭拒绝H H0 0,只能认为因变量,只能认为因变量y y对自变量对自变量x x的线性回归是有效的,但是还没有说明回归的有效程度,不能断的线性回归是有效的,但是还没有说明回归的有效程度,不能断言言y y与与x x之间就一定是线性相关关系,而不是曲线关系或其他的关系。这些问之间就一

    45、定是线性相关关系,而不是曲线关系或其他的关系。这些问题还需要借助决定系数、散点图、残差图等工具进一步分析。题还需要借助决定系数、散点图、残差图等工具进一步分析。为了说明上述问题,为了说明上述问题,19731973年年AnscombeAnscombe构造了四组数据,见下表。构造了四组数据,见下表。用这四组数据得到的经验回归方程是相同的,都是用这四组数据得到的经验回归方程是相同的,都是y y3.00+0.500 x3.00+0.500 x,决,决定系数都是定系数都是r r2 20.6670.667,相关系数,相关系数r r0.8160.816。这四组数据所建的回归方程是。这四组数据所建的回归方程是

    46、相同的,决定系数相同的,决定系数rr,F F统计量也都相同,且均通过显著性检验。说明这四统计量也都相同,且均通过显著性检验。说明这四组数据组数据y y与与x x之间都有显著的线性相关关系。然而,变量之间都有显著的线性相关关系。然而,变量y y与与x x之间是否就有相之间是否就有相同的线性相关关系呢同的线性相关关系呢?由上述四组数据的散点图由上述四组数据的散点图(见下图可以看到,变量见下图可以看到,变量y y与与x x之间的关系是很不相同的。之间的关系是很不相同的。由上图由上图(a)(a)可知可知,由直线作为由直线作为y y与与x x间关系的拟合是合适的间关系的拟合是合适的,回归方程刻画出回归方

    47、程刻画出了变量了变量y y与与x x间的线性相关关系。间的线性相关关系。由上图由上图(b)(b)可知,变量可知,变量y y与与x x之间的相关关系应当是曲线关系,尽管回归方之间的相关关系应当是曲线关系,尽管回归方程也通过了显著性检验,但由直线方程去揭示它们的相关关系很不合适。如程也通过了显著性检验,但由直线方程去揭示它们的相关关系很不合适。如果用一果用一y y对对x x做曲线回归,必可以很大地提高判定系数做曲线回归,必可以很大地提高判定系数r r2 2,如果进一步作残差,如果进一步作残差分析会发现残差点的分布不具有随机性原则。分析会发现残差点的分布不具有随机性原则。由图的由图的(c)(c)可知

    48、,变量可知,变量y y与与x x之间存在着线性关系,但用直线之间存在着线性关系,但用直线y=3.00+0.500 xy=3.00+0.500 x去拟合这种关系不太理想。因为第三组数据中第去拟合这种关系不太理想。因为第三组数据中第1010对数据对数据(13(13,12.73)12.73)远离回归直线,可以认为是异常值。如果将它剔除,用其余远离回归直线,可以认为是异常值。如果将它剔除,用其余1010对数据对数据重新计算得经验回归方程为重新计算得经验回归方程为y y4.00+0.346x4.00+0.346x,拟合效果非常好,决定系数接,拟合效果非常好,决定系数接近于近于1 1,回归标准误差接近于零

    49、。,回归标准误差接近于零。由上图的由上图的(d)(d)可知可知,回归直线的斜率完全取决于回归直线的斜率完全取决于(19,12.50)(19,12.50)这一个点这一个点,这种这种情况所得到的经验回归方程是很不可信的。实际上,自变量情况所得到的经验回归方程是很不可信的。实际上,自变量x x只取了只取了8 8和和1919这这两个不同的值,因而不能断言两个不同的值,因而不能断言y y与与x x之间是何种关系。对这种情况,我们说数之间是何种关系。对这种情况,我们说数据收集的不好,应该对自变量据收集的不好,应该对自变量x x在(在(8 8,1919)这个区间上再收集一些不同的数)这个区间上再收集一些不同

    50、的数据。据。这个例子告诉我们,当拒绝原假设这个例子告诉我们,当拒绝原假设H0H0:0 0时,我们说时,我们说y y与与x x之间存在线之间存在线性相关关系,但是并不能肯定地说线性相关关系就是性相关关系,但是并不能肯定地说线性相关关系就是y y与与x x间关系的最好描述,间关系的最好描述,有可能有可能y y与与x x之间更准确的关系应该是曲线相关关系,或者是存在异常值等原之间更准确的关系应该是曲线相关关系,或者是存在异常值等原因造成的因造成的y y与与x x之间的虚假的线性相关关系。在实际应用中,不应局限于一种之间的虚假的线性相关关系。在实际应用中,不应局限于一种方法去分析判断。要得到确实可信的

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:[工程科技]现代统计分析方法与应用第4章:一元线性回归课件.ppt
    链接地址:https://www.163wenku.com/p-3713254.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库