线性回归分析教程-分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《线性回归分析教程-分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 分析 教程 课件
- 资源描述:
-
1、1本章教学目标:本章教学目标:l了解回归分析在经济与管理中的广泛应用;l掌握回归分析的基本概念、基本原理及其分析应用的基本步骤;l熟练掌握使用软件求解回归方程及其运行输出结果的分析与使用;l能应用回归分析方法解决实际问题(分析各种变量间的关系,进行预测和控制)第第8章章 回归分析回归分析2 本章主要内容:本章主要内容:8.1 回归分析概述8.2 一元线性回归8.3 曲线回归8.4 多元线性回归本章内容重点:本章内容重点:最小二乘法的原理;回归方程和回归系数的显著性检验;多元线性回归及其预测和控制;软件的求解分析。3在经济管理和其他领域中,人们经常需要研究两个或多个变量(现象)之间的相互(因果)
2、关系,并使用数学模型来加以描述和解释。如:商品销售量与价格间的关系;产品的某些质量指标与某些控制因素之间的关系;家庭消费支出与家庭收入间的关系等等。回归分析就是对变量间存在的不确定关系进行分析的统计方法。回归分析是使用得最为广泛的统计学分支,在质量管理、市场营销、宏观经济管理等领域都有非常广泛的应用。本章介绍回归分析中最基本的内容。8.1 回归分析概述回归分析概述4某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm2)和延伸率(%)。该合金钢的质量标准要求:抗拉强度应大于32kg/mm2;延伸率应大于33%。根据冶金学的专业知识和实践经验,该合金钢的含碳量是影响抗拉强度和延伸率的
3、主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降低。为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到99%以上。质量控制应用案例质量控制应用案例5为达到以上质量控制要求,就需要制定该合金钢冶炼中含碳量的工艺控制标准,也即要确定在冶炼中应将含碳量控制在什么范围内,可以有99%的把握使抗拉强度和延伸率这两项指标都达到要求。这是一个典型的产品质量控制问题,可以使用回归分析方法求解。如何制订含碳量的控制标准?如何制订含碳量的控制标准?61.确定性关系确定性关系也即函数关系,即 Y=(X);Y=(X1,X2,Xp)或 F
4、(X,Y)=0;F(X1,X2,Xp,Y)=0例:例:价格不变时商品销售收入与销售量的关系。Y=cXX销售收入Y销售量OY 与 X 间的确定性关系 一一.变量间的两类关系变量间的两类关系7家庭收入非确定性关系O家庭消费支出=b0+b1X2.非确定性关系非确定性关系 指变量间虽存在着相互影响和相互制约关系,但由于许多无法预计和控制的因素的影响,使变量间的关系呈现不确定性。即不能由一个或若干变量的值精确地确定另一变量的值。但通过大量观察,可以发现非确定性关系的变量间存在着某种统计规律性称为相关关系相关关系或回归关系回归关系。8以三口之家为单位,某种食品在某年各月的家庭平均月消费量 Y(kg)与其价
5、格 X(元/kg)间的调查数据如下,试分析该食品家庭平均月消费量与价格间的关系。价格 xi 4.0 4.0 4.8 5.4 6.0 6.0 7.0 7.2 7.6 8.0 9.0 10 消费量 yi 3.0 3.8 2.6 2.8 2.0 2.9 1.9 2.2 1.9 1.2 1.5 1.6 0123450123456789101112=0+1Xyx【案例案例1】商品价格与消费量的关系商品价格与消费量的关系9 由图可知,该食品家庭月平均消费量 Y 与价格 X 间基本呈线性关系。这些点与直线 Y=0+1X间的偏差是由其他一些无法控制的因素和观察误差引起的。因此可以建立 Y 与 X 之间关系的如
6、下线性回归模型 Y=0+1X+(8.1-1)其中 X 解释变量(自变量)Y 被解释变量(因变量)0,1 模型中的未知参数未知参数 随机误差项 二二.线性回归模型线性回归模型10随机误差项产生的原因随机误差项产生的原因(1)模型中忽略的其他因素对 Y 的影响;(2)模型不准确所产生的偏差;(3)模型中包含了对 Y 无显著影响的变量;(4)对变量的观察误差;(5)其他随机因素的影响。11线性回归模型的数据结构线性回归模型的数据结构 yi=0+1xi+i;i=1,2,N (8.1-2)其中 i 是其他因素和试验误差对 yi 影响的总和。当 X 取不完全相同的值 x1,x2,xN 时,得到 Y 的一组
7、相应的观察值 y1,y2,yN。显然,每一对观察值(xi,yi)都应满足(5.1-1)式。因此一元线性回归模型有如下的数据结构:12例例 解释截距和斜率一名统计学教授打算运用学生为准备期末考试而学习统计学的小时数(X)预测其期末考试成绩(Y)。依据上学期上课班级中收集的数据建立的回归模型如下:如何解释截距和斜率?解解 截距=35.0表示当学生不为期末考试做准备的话,期末考试平均成绩是35.0。斜率=3表示每增加1小时学习时间,期末考试平均成绩就变化+3.0。换句话说,每增加1小时学习时间,期末成绩就增加3.0。131.各 i N(0,2),且相互独立;2.解释变量是可以精确观察的普通变量(非随
8、机变量);3.解释变量与随机误差项是各自独立对被解释变量产生影响的。称满足以上条件的回归模型为经典回归模型经典回归模型。本章仅讨论经典回归模型。但在经济领域中,经济变量间的关系通常是不会完全满足上述条件的。例如家庭消费支出 Y 与家庭收入 X 间的回归模型就不会是同方差的。三三.回归模型的经典假设条件回归模型的经典假设条件141.根据问题的实际背景、专业知识或通过对样本数据的分析,建立描述变量间相关关系的回归模型;2.利用样本数据估计模型中的未知参数,得到回归方程;3.对模型进行检验;4.利用通过检验的回归方程对被解释变量进行预测或控制。四四.回归分析的主要内容和分析步骤回归分析的主要内容和分
9、析步骤158.2 一元线性回归一元线性回归一一.一元线性回归模型一元线性回归模型 设被解释变量 Y 与 解释变量 X 间存在线形相关关系,则 Y=0+1X+;N(0,2)其中 X 是普通变量。则 Y N(0+1X,2)称 Y 的条件期望 E(Y|X)=0+1X (8.2-1)为 Y 对 X 的回归。16分别是参数 0 和 1 的点估计,二二.回归方程回归方程 1 0 ,10XYYiixy10对每一 xi 值,由回归方程可以确定一个回归值回归系数回归系数。称(5.2-2)式为回归方回归方程。记为 Y 的条件期望 E(Y|X)的点估计,则由(8.2-1)式,有(8.2-2)并称 1 0 ,为回归方
10、程的并记 17),Q(10210)()(iiyy,Q。1iy 就可求出,0;00Q,01Q三三.回归模型的参数估计回归模型的参数估计回归模型中的参数估计,采用的是“最小二乘法”,其原理如下:Y 的各观察值 yi 与回归值 之差iiyy反映了 yi 与回归直线之间的偏离程度,从而全部观察值与回归值的残差平方和210)(iixy反映了全部观察值与回归直线间总的偏离程度。显然,Q 的值越小,就说明回归直线对所有样本数据的拟和程度越好。所谓最小二乘法,就是要使为最小。只要令 18。xy0。yi要找一条直线,使min)(2iiyyiy xi最小二乘法原理示意图最小二乘法原理示意图 19分别是参数 0 和
11、 1 的最小方差无偏估计。可以证明,,)(1)(2220 xxxNDi221)()(xxDi10 和 以上两式说明,的方差分别为:2.2.10 和10 和 四四.最小二乘估计的性质最小二乘估计的性质在满足经典假设的条件下1 1回归系数的估计精度不仅与 2 及样本容量 N 有关,而且与各 xi 取值的分散程度有关。在给定样本容量下,xi 的取值越分散,的取值越分散,则估则估计的方差就越小计的方差就越小,即对参数 0 和 1 的估计就越精确;反之估计的精确就差。了解这一点,对指导试验或抽样调查是非常重要的。20通过参数估计得到回归方程后,还需要对回归方程进行检验,以确定变量间是否存在显著的线性关系
12、。对一元线性回归模型,如果变量 Y 与 X 之间并不存在线性相关关系,则模型中的一次项系数 1 应为 0;反之,则 10。故对一元线性回归模型,要检验的原假设为 H0:1=0以上检验称为对回归方程的显著性检验,使用的仍然是方差分析方法。Y 的观察值 y1,y2,yN 之间的差异是由两方面的原因引起的:(1)解释变量 X 的取值 xi 不同;(2)其他因素和试验误差的影响。五五.回归方程的显著性检验回归方程的显著性检验21 为检验以上两方面中哪一个对 Y 取值的影响是主要的,就需要将它们各自对 Y 取值的影响,从 yi 总的差异中分解出来。与方差分析类似地,可以用总的偏差平方和2)(yySiT2
13、2)()(yyyySiiiT来表示全部观察值 yi 间总的差异量。1.偏差平方和的分解偏差平方和的分解RESS 将 ST 作如下分解:称 SR 为回归平方和回归平方和,它主要是由于变量 X 的取值不同引起的,其大小反映了 X 的对 Y 影响的重要程度。称 SE 为剩余平方和剩余平方和或残差平方和残差平方和,它主要是由随机误差和其他因素的影响所引起的。22可以证明,2)(N/SSFER因此,在给定显著性水平 下,若 F F(1,N-2)F(1,N-2)2.检验检验 H0 的统计量的统计量当 H0 为真时,统计量就拒绝 H0,并称回归方程是显著的,可以用回归方程对被解释变量进行预测或控制分析;反之
14、,则称回归方程无显著意义。若不能拒绝 H0,则可能有以下原因:(1)Y 和 X 之间不是线性关系;(2)模型中忽略了对 Y 有重要影响的其他因素;(3)Y 和 X 基本无关;(4)数据误差过大。23回归方程的显著性检验过程同样可以列成如下方差分析表:方差分析表来源 平方和 自由度 均方和 F 比 显著性 回归 SR 1 SR 剩余 SE N-2 SE/(N-2)总和 ST N-1 )(2N/SSER3.3.方差分析表方差分析表 24【案例案例1】商品价格与消费量的关系商品价格与消费量的关系0123450123456789101112=0+1Xyx以三口之家为单位,某种食品在某年各月的家庭平均月
15、消费量 Y(kg)与其价格 X(元/kg)间的调查数据如下,试分析该食品家庭平均月消费量与价格间的关系。价格 xi 4.0 4.0 4.8 5.4 6.0 6.0 7.0 7.2 7.6 8.0 9.0 10 消费量 yi 3.0 3.8 2.6 2.8 2.0 2.9 1.9 2.2 1.9 1.2 1.5 1.6 25可用 Excel【工具】“数据分析”“回归”求解线性回归问题。本案例可解得,5240.3401.X.Y3405245240.来源 平方和 自由度 均方和 F 比 Significance F 回归 4.589 1 4.589 剩余 1.608 10 0.1608 28.54
16、0.00032 总和 6.197 11 “Significance F”为达到的显著性水平,含义与 P-value 相同。Significance F=0.00032 0.001 故回归方程是极高度显著的。方差分析表故所求回归方程为:案例案例 1 求解分析求解分析说明该食品价格每上涨一元,家庭月平均消费量将下降0.34kg,kg 为该食品的最大月平均消费量。26运用回归分析,可能存在如下一些错误:不注意最小二乘回归的假设条件不知道如何评估最小二乘回归的假设条件不知道在违背某一假设条件的情况下运用除最小二乘回归外的其它方法在对主要问题不了解的情况下运用回归模型在相关范围外进行外推根据某研究中的因
17、果关系得出存在显著关系的结论27 案例案例 1 需要继续研究的问题需要继续研究的问题 1.以 90%的可信度预测当价格为5.6元/kg时,该食品的家庭平均月消费量。2.该食品的生产商和供应商希望该食品的家庭月平均消费量能以 90%的把握达到 2.5kg 以上,应将价格控制在什么水平之下?28)2()()(11 )2(2202N/SxxxxNNtdEi/)(00dyd,y可以证明,0100 xy五五.预测和控制预测和控制1.预测预测就是对解释变量 X 的某一给定值 x0,求被解释变量 Y 的取值 y0 的类似于区间估计问题。对任一给定的 x0,由回归方程可得 y0 的回归值(点估计):y0 的置
18、信度为 1-的预测区间为置信度为 1-的预测区间,29关于预测的精度关于预测的精度xx)(00 xdy)(00 xdy 01xy00 xx0oy允许误差 d 的公式说明,预测区间的大小(预测精度)不仅与、样本容量 N 及各 xi 取值的分散程度有关,而且和 x0 有关。当 x0 靠近时,d 就较小,反之,x0 离越远,d 就越大。d 是 x0 的函数 d=d(x0)。30预测区间的近似计算预测区间的近似计算 当样本容量 N 足够大时,)()()(11)(222202N/SxxxxNNtdEi/222)()(N/SNE/td 22)(N/SZE/d或中方括号内的部分就近似于 1。因此 d 可以使
展开阅读全文