[工程科技]现代统计分析方法与应用第4章:一元线性回归课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《[工程科技]现代统计分析方法与应用第4章:一元线性回归课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工程科技 工程 科技 现代 统计分析 方法 应用 一元 线性 回归 课件
- 资源描述:
-
1、第第4 4章章 一元线性回归一元线性回归一元线性回归模型一元线性回归模型 回归参回归参0 0、1 1的估计的估计 最小二乘估计的性质最小二乘估计的性质回归方程的显著性检验回归方程的显著性检验残差分析残差分析预测和控制预测和控制建模总结和应注意的问题建模总结和应注意的问题第一节第一节 一元线性回归模型一元线性回归模型 上述均是研究两个变量之间的关系,而且他们的一个共同特点是:两个上述均是研究两个变量之间的关系,而且他们的一个共同特点是:两个变量之间有密切的关系,但他们之间密切的程度并不能由一个变量唯一确定变量之间有密切的关系,但他们之间密切的程度并不能由一个变量唯一确定另一个变量。另一个变量。一
2、、一元线性回归模型的实际背景一、一元线性回归模型的实际背景 在实际问题的研究中,经常需要研究某一现象与影响它的某一最主要因素在实际问题的研究中,经常需要研究某一现象与影响它的某一最主要因素的影响。如:研究粮食产量与施肥量之间的关系;研究国民收入与消费额之的影响。如:研究粮食产量与施肥量之间的关系;研究国民收入与消费额之间的关系;研究火灾损失与火灾发生地距最近消防站的距离之间的关系。间的关系;研究火灾损失与火灾发生地距最近消防站的距离之间的关系。为直观地发现为直观地发现n n组样本数据组样本数据(x(xi i,y,yi i)的分布规律,通常把的分布规律,通常把(x(xi i,y,yi i)看成是
3、平面看成是平面直角坐标系中的点,画出直角坐标系中的点,画出n n个样本的散点图。个样本的散点图。例例4.14.1 现有现有2020组粮食产量与化肥施用量的数据如下表:组粮食产量与化肥施用量的数据如下表:表示成散点图如下:表示成散点图如下:例例4.24.2 我国我国1986-20051986-2005年全国人均消费额与人均国民收入数据如下表:年全国人均消费额与人均国民收入数据如下表:表示成散点图如下:表示成散点图如下:二、一元线性回模型的数学形式二、一元线性回模型的数学形式 考虑两个变量间的关系,描述上述考虑两个变量间的关系,描述上述x与与y间线性关系的数学结构通常用下式间线性关系的数学结构通常
4、用下式表示:表示:上式(上式(*)中)中y y为因变量为因变量(被解释变量被解释变量),x x为自变量为自变量(解释变量解释变量),0 0和和1 1是是未知参数。未知参数。xy10(*)表示其他随机因素的影响。它是一个随机变量,通常假定表示其他随机因素的影响。它是一个随机变量,通常假定满足:满足:对对(*)式两端求期望,得:式两端求期望,得:xyE10(*)式式(*)称为回归方程。称为回归方程。在回归函数中引入随机项,主要有以下几方面的原因:在回归函数中引入随机项,主要有以下几方面的原因:1 1)在自变量中被忽略的因素的影响;)在自变量中被忽略的因素的影响;2 2)变量观测值的观测误差的影响;
5、)变量观测值的观测误差的影响;3 3)模型关系的设定误差的影响;)模型关系的设定误差的影响;4 4)其它随机因素的影响。)其它随机因素的影响。一般情况下,对我们所研究的某个实际问题,获得的一般情况下,对我们所研究的某个实际问题,获得的n n组样本观测值组样本观测值(x(x1 1,y y1 1),(x(x2 2,y y2 2),(x(xn n,y yn n)来说,如果它们符合模型来说,如果它们符合模型(*),则:,则:iiixy10i=1,2,n 2var0E(*)由式由式(*)有:有:回归分析的主要任务就是通过回归分析的主要任务就是通过n n组样本观测值组样本观测值(x(xi i,y,yj j
6、)对对0 0和和1 1进行估计。进行估计。一般用一般用 和和 分别表示分别表示0 0和和1 1的估计值。则称的估计值。则称01 2var0iiExy0称为称为y y关于关于x x的一元线性经验回归方程。的一元线性经验回归方程。在实际问题的研究中,为了方便地对参数作区间估计和假设检验,假定在实际问题的研究中,为了方便地对参数作区间估计和假设检验,假定模型中的误差项模型中的误差项遵从正态分布,即:遵从正态分布,即:2,0N三、线性回归模型的基本假设三、线性回归模型的基本假设 假设假设1 1、自变量自变量x x是确定性变量,不是随机变量;是确定性变量,不是随机变量;假设假设2 2、随机误差项随机误差
7、项具有零均值、同方差和不序列相关性:具有零均值、同方差和不序列相关性:E(E(i i)=0 i=1,2,)=0 i=1,2,n,n Var(Var(i i)=)=2 2 i=1,2,i=1,2,n,n Cov(Cov(i,i,j j)=0 ij i,j=1,2,)=0 ij i,j=1,2,n ,n 假设假设3 3、随机误差项随机误差项与自变量与自变量x x之间不相关:之间不相关:Cov(x Cov(xi i,i i)=0 i=1,2,)=0 i=1,2,n,n 假设假设4 4、服从零均值、同方差、零协方差的正态分布服从零均值、同方差、零协方差的正态分布 i iN(0,N(0,2 2)i=1,
8、2,)i=1,2,n,n注意:注意:1 1、如果假设如果假设1 1、2 2满足,则假设满足,则假设3 3也满足也满足;2 2、如果假设如果假设4 4满足,则假设满足,则假设2 2也满足。也满足。以上假设也称为线性回归模型的以上假设也称为线性回归模型的经典假设经典假设或或高斯(高斯(GaussGauss)假设)假设,满足该,满足该假设的线性回归模型,也称为假设的线性回归模型,也称为经典线性回归模型经典线性回归模型(Classical Linear Classical Linear Regression Model,CLRMRegression Model,CLRM)。)。另外另外,在进行模型回归
9、时,还有两个暗含的假设:,在进行模型回归时,还有两个暗含的假设:假设假设5 5:随着样本容量的无限增加,解释变量随着样本容量的无限增加,解释变量X X的样本方差趋于一有限常的样本方差趋于一有限常数。即数。即:假设假设6 6:回归模型是正确设定的。回归模型是正确设定的。假设假设5 5旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因为这类数据不仅使大样本统计推断变得无效,而且往往产生所谓的为这类数据不仅使大样本统计推断变得无效,而且往往产生所谓的伪回归问题伪回归问题(spurious regression problemspu
10、rious regression problem)。)。假设假设6 6也被称为模型没有也被称为模型没有设定偏误设定偏误(specification errorspecification error)nQnxx2第二节第二节 回归参数回归参数0 0、1 1的估计的估计 对每一个样本观测值对每一个样本观测值(x(xi i,y,yi i),最小二乘法,最小二乘法(ordinary least square(ordinary least square estimation,OLSE)estimation,OLSE)考虑观测值考虑观测值y yi i与其回归值与其回归值 的离差越小越好,的离差越小越好,综
11、合地考虑综合地考虑n n个离差值,定义离差平方和为:个离差值,定义离差平方和为:iixy10niiiniixyyyQ12101210,niiixyQ121010,所谓最小二乘法,就是寻找参数所谓最小二乘法,就是寻找参数0 0,1 1的估计值的估计值 使上式定义的离使上式定义的离差平方和达到最小,即:差平方和达到最小,即:10,niiixy1210,10min根据上式求出的根据上式求出的 就称为参数就称为参数0 0,1 1的最小二乘估计,称:的最小二乘估计,称:10,iixy10为为y yi i的回归拟合值。称:的回归拟合值。称:iiiyye为为y yi i的残差。残差平方和可表示为:的残差。残
12、差平方和可表示为:niiinixyei121012 根据微分中求极值的原理,待定参数应满足下列方程组:根据微分中求极值的原理,待定参数应满足下列方程组:020121011001100iiiiixxyQxyQ 求解以上正规方程组得求解以上正规方程组得0 0、1 1的最小二乘估计的最小二乘估计(OLSE)(OLSE)为:为:niiniiixxyyxxxy121110niixnx11niiyny11其中:其中:niiniixxxnxxxL12212niiiniiixyyxnyxyyxxL11xxxyLLxy110记记则待定参数估计值的公式可以简写为:则待定参数估计值的公式可以简写为:xy10由由 可
13、知:可知:xy10将例将例4.14.1化肥施用量与粮食产量资料计算如下表:化肥施用量与粮食产量资料计算如下表:6825.429602065.85921311niiyny916.30232032.6047811niixnx913.30208916.3023217.46825.42960 xy10217.42275540985.959589281xxxyLLxy217.4913.30208 于是回归方程为:于是回归方程为:iiiyye由由 可以得到残差的一个有用的性质:可以得到残差的一个有用的性质:niiiniiexe1100即残差的均值为即残差的均值为0 0,残差以自变量,残差以自变量x x的加
14、权平均值为的加权平均值为0 0。单击单击StatisticsStatistics,出现以下界面:,出现以下界面:SPSSSPSS作一元回归的步骤:作一元回归的步骤:按按AnalyzeRegressionLinearAnalyzeRegressionLinear顺序逐一单击鼠标,系统出现如下对顺序逐一单击鼠标,系统出现如下对话框:话框:单击单击OKOK,系统输出分析结果:,系统输出分析结果:第三节第三节 最小二乘估计的性质最小二乘估计的性质一、线性性一、线性性 所谓线性性就是估计量所谓线性性就是估计量 为随机变量为随机变量y yi i的线性组合,即:的线性组合,即:10,niiniiiiinii
15、niiixxyxxyxxxxyyxx1211211niininiiiiniiniiiixxyxxyxxxxyxxyxx1211121ininiiiniininiiiiiyxxxxxxxxyyxx1121211常数常数二、无偏性二、无偏性 ininiiiininiiixxxxxyExxxxE101121121111211120niiniiininiiixxxxxxxxx iininiiiininiiixxxxxyxxxx10211221121varvarvar三、三、的方差的方差10,ininiiiyxxxx1121由由 得:得:xxniininiiininiiiLxxxxxxxxxx21221
16、2122122121 222122011xxniiLxnxxxnE 22001,xxLxnN由前面的由前面的 得:得:10,xxLN211,另外,还可以得到另外,还可以得到 的协方差:的协方差:10,210,covxxLx第四节第四节 回归方程的显著性检验回归方程的显著性检验一、一、t t检验检验 回归分析中,回归分析中,t t检验用于检验回归系数的显著性。检验用于检验回归系数的显著性。对立的假设是:对立的假设是:H H1 1:00 回归系数的显著性检验就是要检验自变量回归系数的显著性检验就是要检验自变量x x对因变量对因变量y y的影响是否显著。的影响是否显著。如果不显著,则因变量如果不显著
17、,则因变量y y与自变量与自变量x x之间并没有真正的线性关系,即自变量之间并没有真正的线性关系,即自变量x x的变化对因变量的变化对因变量y y并没有影响。并没有影响。H H0 0:=0=0检验的原假设是:检验的原假设是:(一一)提出假设提出假设(二二)构造统计量构造统计量221211ntLLtxxxxniiiniiyynen121222121其中其中:(三三)根据给定的显著水平根据给定的显著水平,查临界值,并进行决策。,查临界值,并进行决策。tttt/2/2,则拒绝,则拒绝H H0 0,否则,接受,否则,接受H H0 0。二、二、F F检验检验 F F检验是根据平方和分解式,直接从回归效果
18、检验回归方程的显著性。平检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。平方和分解式是:方和分解式是:niiiniiniiyyyyyy121212niiyy12是总平方和,简记为是总平方和,简记为SSTSST或或S S总总;niiyy12是回归平方和,简记为是回归平方和,简记为SSRSSR或或S S回回;niiiyy12是残差平方和,简记为是残差平方和,简记为SSESSE或或S S残残。F F检验统计量是:检验统计量是:2,121nFnSSESSRF 在正态假设下,当原假设在正态假设下,当原假设H H0 0:1 1=0=0成立时,成立时,F F遵从自由度为遵从自由度为(1,n-1)
19、(1,n-1)的分的分分布。当分布。当F F值大于临界值值大于临界值F F时,拒绝时,拒绝H H0 0。三、相关系数三、相关系数(一一)斯皮尔曼等级相关斯皮尔曼等级相关(Spearmans rank order correlation)(Spearmans rank order correlation)斯皮尔曼相关系数是根据数据的秩而不是根据实际值计算的。也就是说,斯皮尔曼相关系数是根据数据的秩而不是根据实际值计算的。也就是说,先对原始数据排秩,根据各秩使用先对原始数据排秩,根据各秩使用SpearmanSpearman相关系数公式计算。相关系数公式计算。其计算公式为:其计算公式为:161212
20、nnyxrniii 例例4.34.3 为研究考试中学生交卷的名次是否与成绩有关,进行了以下二为研究考试中学生交卷的名次是否与成绩有关,进行了以下二十名学生的抽样调查。十名学生的抽样调查。由于交卷名次是顺序数据,因此考试成绩也应转换为顺序数据,以求其由于交卷名次是顺序数据,因此考试成绩也应转换为顺序数据,以求其等级相关系数。为此按考试成绩进行名词排序如下:等级相关系数。为此按考试成绩进行名词排序如下:1364.0166247611612212nnyxrniii则该问题的等级相关系数为:则该问题的等级相关系数为:相关系数的直观意义:相关系数的直观意义:yyxxxyniiniiniiiLLLyyxx
21、yyxxr12121(二二)皮尔逊相关系数皮尔逊相关系数(Pearson correlation)(Pearson correlation)及其显著性检验及其显著性检验SPSSSPSS计算相关系数的步骤:计算相关系数的步骤:按按AnalyzeCorrelateBivariateAnalyzeCorrelateBivariate顺序逐一单击鼠标,系统出现如下顺序逐一单击鼠标,系统出现如下对话框:对话框:单击单击OKOK,系统输出分析结果:,系统输出分析结果:CorrelationsCorrelations1.989*.0002020.989*1.0002020Pearson Correlatio
22、nSig.(2-tailed)NPearson CorrelationSig.(2-tailed)N化肥施用量粮食产量化肥施用量粮食产量Correlation is significant at the 0.01 level(2-tailed).*.四、样本决定系数四、样本决定系数yyxxyyxxxyLLLLLr1yyxxxyniiniiLLLyyyySSTSSRr212122相关系数与回归系数的关系可以表达为:相关系数与回归系数的关系可以表达为:第五节第五节 残差分析残差分析一、残差概念和残差图一、残差概念和残差图 一个线性方程通过了一个线性方程通过了t t检验和检验和F F检验,只是表明了
23、变量检验,只是表明了变量x x与与y y之间存在的线之间存在的线性关系是显著的,但不能保证数据拟合得很好,也不能排除由于以外原因而性关系是显著的,但不能保证数据拟合得很好,也不能排除由于以外原因而导致的数据不完全可靠。只有当与模型中的残差项有关的假定满足时,才能导致的数据不完全可靠。只有当与模型中的残差项有关的假定满足时,才能放心地运用回归模型。放心地运用回归模型。残差残差是实际观测值是实际观测值y y与通过回归方程给出的回归值之差,即:与通过回归方程给出的回归值之差,即:iiixy10它是误差项它是误差项 的估计值。的估计值。iiiiixyyye10 以自变量以自变量x x为横轴,以残差做纵
24、轴,将相应的残差点画在直角坐标系上,为横轴,以残差做纵轴,将相应的残差点画在直角坐标系上,就可以得到就可以得到残差图残差图。残差图可以帮助我们对数据的质量做一些分析。残差图可以帮助我们对数据的质量做一些分析。一般认为,如果一个回归模型满足所给出的基本假定,所有残差应是在一般认为,如果一个回归模型满足所给出的基本假定,所有残差应是在e=0e=0附近随机变化,并在变化幅度不大的一条带子内。附近随机变化,并在变化幅度不大的一条带子内。对例对例5.15.1的粮食产量与化肥施用量的数据作残差分析,首先计算残差。的粮食产量与化肥施用量的数据作残差分析,首先计算残差。残差残差e ei i可以用软件在做回归时
25、直接计算出来,在可以用软件在做回归时直接计算出来,在SPSSSPSS软件的线性回归对软件的线性回归对话框中,点选下面的话框中,点选下面的SaveSave框条进入框条进入SaveSave对话框,即可保留所需的中间变量,对话框,即可保留所需的中间变量,在在SaveSave对话框中,点选对话框中,点选ResidualsResiduals下的下的UnstandardizedUnstandardized选项,再点右面的选项,再点右面的ContinueContinue回到线性回归对话框,继续做回归。回归完成后,在原始数据表格回到线性回归对话框,继续做回归。回归完成后,在原始数据表格中即可看到新增加了一列变
展开阅读全文