回归分析概述-课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《回归分析概述-课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 分析 概述 课件
- 资源描述:
-
1、第第1章章 回归分析概述回归分析概述.1、两个变量的关系、两个变量的关系不相关不相关相关相关关系关系函数关系函数关系因果关系因果关系共变关系共变关系问题:现实生活中两个变量间的关系有哪些呢?问题:现实生活中两个变量间的关系有哪些呢?相关关系:相关关系:对于两个变量,当自变量取值一定时,因对于两个变量,当自变量取值一定时,因变量的取值变量的取值带有一定随机性带有一定随机性的两个变量之间的关系。的两个变量之间的关系。互为因果关系互为因果关系.1 .1 变量间的函数关系与统计关系函数关系:确定性依存关系函数关系:确定性依存关系商品的销售额与销售量之间的关系y = px圆的面积与半径之间的关系S= R
2、2 原材料消耗额与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系y = x1 x2 x3 .1 .1-2 变量间的函数关系与统计关系.1 .1-3 变量间的函数关系与统计关系相关关系:不确定(随机性)依存关系相关关系:不确定(随机性)依存关系子女身高 (y)与父亲身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系.1 .1-4 变量间的函数关系与统计关系.1 .1-5 变量间的函数关系与统计关系 确
3、定性的函数关系函数关系 Y=f (X) 不确定性的统计关系相关关系相关关系 Y= f(X)+ (为随机变量) 没有关系 变量间关系的图形描述: 坐标图(散点图) .1 .1-6 相关关系的类型 从涉及的变量数量变量数量看 简单相关 多重相关(复相关) 从变量相关关系的表现形式表现形式看 线性线性相关散布图接近一条直线(左图) 非线性非线性相关散布图接近一条曲线(右图). 从变量相关关系变化的方向方向看正相关正相关变量同方向变化 A 同增同减 (A)(A)负相关负相关变量反方向变化 一增一减 (B) B 从变量相关的程度看 完全相关 (B) 不完全相关 (A) C 不相关 (C) 1 .1-7
4、相关关系的类型.1.2 相关分析与回归分析回归的古典意义古典意义: 高尔顿遗传学的回归概念高尔顿遗传学的回归概念 父母身高与子女身高的关系父母身高与子女身高的关系: : 无论高个子或低个子的子女无论高个子或低个子的子女 都有向人的平均身高回归的都有向人的平均身高回归的 趋势趋势.1.2-2 回归的现代意义一个因变量对若干解释变量依存关系的研究回归的目的目的(实质)(实质): 由固定的自变量去估计因变量的平均值由固定的自变量去估计因变量的平均值估计因变量估计因变量平均值平均值. 1.2-3 相关分析与回归分析的联系共同的研究对象:都是对变量间相关关系的分析只有当变量间存在相关关系时,用回归分析去
5、寻求相关的具体数学形式才有实际意义相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析 相关分析中相关系数的确定建立在回归分析的基础上.1.2-4 相关分析与回归分析的区别 描述的方式不同 变量的地位不同 描述的内容不同.1 .3 回归分析的主要内容及其一般模型况因变量是定性变量的情况自变量含定性变量的情含有定性变量的回归多元非线性回归分段回归一元非线性回归非线性回归偏最小二乘法主成分回归岭回归参数估计方法的改进逐步回归分析方法自变量选择的准则回归变量的选择选择回归函数的形式果判定回归方程拟合的效何对数据进行修正当基本假设不成立时如性归模型基本假设的合理讨论如
6、何从数据推断回回归诊断量的回归多个因变量与多个自变多元线性回归一元线性回归线性回归回归分析一元线性回归多元线性回归一元非线性回归多元非线性回归最常见,应用最广泛的回归模型很多情况下可转化为线性回归问题.1.3-1 一元线性回归涉及一个自变量(X)的回归因变量y与自变量x之间为线性关系因变量与自变量之间的关系用一条线性方程来表示.描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型回归模型一元线性回归模型可表示为 y = 0 + 1 x + y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关
7、系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数1.3-2 一元线性回归模型. 例:例: 全国每年的技术贸易额与很多因素有关,但经过分析,它主要受全国GDP这一因素的影响和制约,于是,我们来寻求二者之间的统计规律,并进行预测。 以x表示自变量-全国GDP数量,以y表示因变量-全国技术贸易额。根据国家统计局公布的数字,将15年的数据列于下表1 .4 建立实际问题回归模型.1.4-2 全国GDP数量和全国技术贸易额数据 .1.4-3 全国GDP数量(x)和全国技术贸易额 (y)对应散点图 根据列表数据,我们可以在直角坐标系中绘出散点图:.1
8、.4-4 设定回归方程 从散点图中,我们假定y与x之间大致呈线性关系,则可用直线方程 y=a+bx 近似地描述散点的分布情况。这条直线称为y对x的回归直线,上式称为回归方程,a、b称为回归系数。.1.4-5 确定回归系数 回归系数a、b的确定可以采用最小二乘法。 最小二乘法是测量工作和科学实验中最常用的一种数据处理方法,其基本原理是,根据实验观测得到的自变量x和因变量y之间的一组对应关系,找出一个给定类型的函数y=f(x),使得它所取的 与观测值 在某种尺度下最接近,即在各点处的偏差的平方和达到最小。)(),.,(),(21nxfxfxfnyyy,.,21.最小二乘估计最小niiiniiixy
9、yy121012)()(使因变量的观察值与估计值之间的离差平方和达使因变量的观察值与估计值之间的离差平方和达到最小来求得到最小来求得 和和 的方法。即的方法。即用最小二乘法拟合的直线来代表用最小二乘法拟合的直线来代表x与与y之间之间的关系的关系与实际数据的误差比其他任何直线都小与实际数据的误差比其他任何直线都小01.xy10.1.4-5 确定回归系数 在此例子中,基于已有数据,应用最小二乘法的相关公式即可求得回归系数a,b。 得到回归直线的方程为:xy0073.08587.69.1.4-6 相关性检验 对于若干组具体数据 都可算出回归系数a,b,从而得到回归方程。至于y与x之间是否真有如回归模
10、型所描述的关系,或者说用所得的回归模型去拟合实际数据是否有足够好的近似,并没有得到判明。因此,必须对回归模型描述实际数据的近似程度,也即对所得的回归模型的可信程度进行检验,称为相关性检验。),(iiyx.1.4-6 相关性检验 我们可用回归平方和占总偏差平方和的比重的大小来检验回归模型与实际变量之间的近似程度。据此,相关系数可表示为: 当r越接近于1时,表示y与x的关系越接近于线性;当r=1时,回归直线通过每一个数据点,这种情况称为完全线性相关;r越接近于0,y与x的关系与线性关系相差就越远,甚至根本不能用所得到的回归方程来描述,当r=0时,称完全无线性相关。22)()(1yyyyriii.1
11、.4-6 相关性检验 在前例中,用上述公式得到 r=0.9471 现f=n-2=13; 若取 ,查表可得相应的相关系数临界值 ,显然有 ,相关性检验通过。所以,可用前面求得的直线回归方程 来描述技术贸易额与全国GDP之间的关系,其置信度为95%。05. 05139. 0rrr xy0073.08587.69. 除了前面所述的相关性检验,在我们接受某一模型之前,还需对它进行回归方程的显著性检验,回归系数的显著性检验,随机误差项的序列相关检验,异方差性检验,解释变量的多重共线性检验等一系列统计检验。 我们将下以后的课程中一一详述,在此略过。1.4-7 模型的其他检验.1.4-8 预测及其置信区间
12、对应于本例,若按照现有的增长速度7%(2002年全国GDP为102398亿元),到2010年时我国的GDP将达到175938.8284亿元,则据此可以预测2010年全国技术贸易额将为:亿元)(4947.12148284.1759380073. 08587.690y.1.4-8 预测及其置信区间 在置信度为在置信度为95%的情况下的情况下2010年全国技术贸易年全国技术贸易额的预测区间为(额的预测区间为(983.6105,1445.3789)亿元)亿元 由于回归方程是由数理统计得出的,它反映的是实际数据的统计规律,所以,根据回归方程所得的预测值 y0 只是对应于 x0 的单点预测估计值,预测值应
13、该有一个置信区间。.教学情境设计教学情境设计问题一:问题一:结合例结合例1得出线性回归模型及随机误差。并且得出线性回归模型及随机误差。并且区分函数区分函数 模型和回归模型。模型和回归模型。问题二:问题二:在线性回归模型中,在线性回归模型中,e是用是用bx+a预报真实值预报真实值y的随机误差,的随机误差, 它是一个不可观测的量,那么应如何研究随机误差呢?它是一个不可观测的量,那么应如何研究随机误差呢?问题三:问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?如何发现数据中的错误?如何衡量随机模型的拟合效果?问题四:问题四:结合例结合例1思考:用回归方程预报体重时应注意什么?思考:用回归方
14、程预报体重时应注意什么?问题五:问题五:归纳建立回归模型的基本步骤。归纳建立回归模型的基本步骤。问题六:问题六:若两个变量呈现非线性关系,如何解决?(分析例若两个变量呈现非线性关系,如何解决?(分析例2).例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重数据如表名女大学生,其身高和体重数据如表1-1所示。所示。5943616454505748体重/kg170155165175170157165165身高/cm87654321编号求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学
15、生的体重。的女大学生的体重。问题一:结合例问题一:结合例1得出线性回归模型及随机误差。并且得出线性回归模型及随机误差。并且区区分函数模型和回归模型。分函数模型和回归模型。解:解:1、选取身高为自变量、选取身高为自变量x,体重为因变量,体重为因变量y,作散点图:,作散点图:.2.回归方程:回归方程:172.85849. 0 xy学学身身 高高 1 17 72 2c cm m女女 大大生生 体体 重重y y = = 0 0. .8 84 49 91 17 72 2 - - 8 85 5. .7 71 12 2 = = 6 60 0. .3 31 16 6( (k kg g) )探究:身高为172c
16、m的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?答:用这个回归方程不能给出每个身高为答:用这个回归方程不能给出每个身高为172cm的女大学生的体重的预测值,的女大学生的体重的预测值,只能给出她们平均体重的估计值。只能给出她们平均体重的估计值。.由于所有的样本点不共线,而只是散布在某一直线的附近,所由于所有的样本点不共线,而只是散布在某一直线的附近,所以身高和体重的关系可以用以身高和体重的关系可以用线性回归模型线性回归模型来表示:来表示:其中其中a和和b为模型的未知参数,为模型的未知参数,e称为随机误差称为随机误差.eabxy.函数模型与函数模型与“回归模型回归模型”的
17、关系的关系函数模型:因变量函数模型:因变量y完全由自变量完全由自变量x确定确定回归模型:回归模型: 预报变量预报变量y完全由解释变量完全由解释变量x和随机误差和随机误差e确定确定.注:注:e 产生的主要原因:产生的主要原因: (1)所用确定性函数不恰当;所用确定性函数不恰当; (2)忽略了某些因素的影响;忽略了某些因素的影响; (3)观测误差。观测误差。思考思考:产生随机误差项产生随机误差项e的原因的原因是什么?是什么?.问题二:问题二:在线性回归模型中,在线性回归模型中,e是用是用bx+a预报真实值预报真实值y的随机误差,的随机误差, 它是一个不可观测的量,那么应如何研究随机误差呢?它是一个
18、不可观测的量,那么应如何研究随机误差呢?,1,2,. ,1,2,.iiiiiiiiybxa ineyyybxa ine1122nniii残差:一般的对于样本点(x ,y),(x ,y ),.,(x ,y ),它们的随机误差为e其估计值为称为相应于点(x ,y )的残差。 结合例结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所包取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所包含的随机误差,这对我们查找样本数据中的错误和模
19、型的评价极为有用,因此在此含的随机误差,这对我们查找样本数据中的错误和模型的评价极为有用,因此在此我们引入残差概念。我们引入残差概念。e=y-(bx+a).eyy 随机误差随机误差eyy e的估计量的估计量样本点:样本点:1122(,),(,), . ,(,)nnxyxyxy相应的随机误差为:相应的随机误差为:,1,2,.,iiiiieyyybxa in 随机误差的估计值为:随机误差的估计值为:,1,2,.,iiiiieyyybxa in ie称为相应于点称为相应于点 的的残差残差.(,)iixy22111( , )(2)22niieQ a bnnn 的估计量的估计量2 为为( , )Q a
20、b称为称为残差平方和残差平方和.问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?问题三:如何发现数据中的错误?如何衡量随机模型的拟合效果?(1)我们可以通过分析发现原始数据中的可疑数据,判断建立模型的拟合效果。我们可以通过分析发现原始数据中的可疑数据,判断建立模型的拟合效果。iiieybxa(1)计算(i=1,2,.n)残差分析(2)画残差图(1)查找异常样本数据(3)分析残差图(2)残差点分布在以O为中心的水平带状区域,并沿水平方向散点的分布规律相同。.残差图的制作和作用:残差图的制作和作用:制作:坐标纵轴为残差变量,横轴可以有不同的选择制作:坐标纵轴为残差变量,横轴可以有不同的选
展开阅读全文