回归分析PPT课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《回归分析PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 分析 PPT 课件
- 资源描述:
-
1、.1数学建模培训数学建模培训插值与拟合插值与拟合王惠群王惠群2015年年9月月2日日 线性回归线性回归 非线性回归非线性回归 回归分析的回归分析的Matlab函数函数主要内容:主要内容:主要掌握:主要掌握: 回归分析回归分析的的基本基本理论理论 用数学软件求解用数学软件求解回归分析问题回归分析问题.3理学院在实际生活中,某种现象的发生与某种结果的得出往往与在实际生活中,某种现象的发生与某种结果的得出往往与其他某个或某些因素有关,但这种关系又不是确定的,只其他某个或某些因素有关,但这种关系又不是确定的,只是从数据上可以看出有是从数据上可以看出有“有关有关”的趋势。的趋势。回归分析就是用来研究具有
2、这种特征的变量之间的相关关回归分析就是用来研究具有这种特征的变量之间的相关关系的。系的。血压和体血压和体重指数间重指数间的关系的关系.41 1)从一组样本数据出发,确定变量之间的数学关系式)从一组样本数据出发,确定变量之间的数学关系式2 2)对这些关系式的可信程度进行各种统计检验,并从影响某)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著些不显著3 3)利用所求的关系式,根据一个或几个变量的取值来预测或)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这
3、种预测或控制的控制另一个特定变量的取值,并给出这种预测或控制的精确程度精确程度什么是回归分析什么是回归分析?.5理学院涉及的自变量的多少涉及的自变量的多少分为回归和多重回归分析分为回归和多重回归分析;因变量的多少因变量的多少分为一元回归分析和多元回归分析分为一元回归分析和多元回归分析;自变量和因变量之间的关系类型自变量和因变量之间的关系类型分为线性回归分析和非线性回归分析分为线性回归分析和非线性回归分析一元线性回归一元线性回归最简单的情形是最简单的情形是只包括只包括一个自一个自变量和一个因变量,且它们大体上有线性关系,变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为这叫一元
4、线性回归,即模型为Y=a+bX+,这里,这里X是自变量,是自变量,Y是因变量,是因变量,是随机误差。是随机误差。正态线性模型正态线性模型若进一步假定随机误差遵从正若进一步假定随机误差遵从正态分布,就叫做正态线性模型。态分布,就叫做正态线性模型。回归分析的分类回归分析的分类.6理学院一般的情形,有一般的情形,有多多个自变量和一个因变量个自变量和一个因变量(多元回归)(多元回归),因变量的值,因变量的值可以分解为两部分:一部分是由自变量的影响,即表示为自变量的函可以分解为两部分:一部分是由自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未数,其中函数形式已
5、知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。被考虑的因素和随机性的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型当函数形式为未知参数的非线性函数时,称为非线性回归分析模型;当当回归分析中包括两个或两个以上的自变量,且因变量和自变量之间回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,是线性关系,称为多重线性回归分析模型。称为多重线性回归分析模型。.7理学院从一组数据出发确定某些变量之间的定量关系式,即
6、建立数学模型从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。并估计其中的未知参数。估计参数的常用方法是最小二乘法。对这些关系式的可信程度进行检验。对这些关系式的可信程度进行检验。在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归
7、、向前回归和向后回归等方法。向前回归和向后回归等方法。利用所求的关系式对某一生产过程进行预测或控制。回归分析的应利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。用是非常广泛的,统计软件包使各种回归方法计算十分方便。回归分析的主要内容回归分析的主要内容.8理学院在回归分析中,把变量分为两类。一类是因变量,它们通常是实际在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的表示;而影响因变量取值的的另一变量成为自变量,用另一变量成为自变量,用X
8、来表示。来表示。回归分析研究的主要问题是:回归分析研究的主要问题是:(1)确定)确定Y与与X间的定量关系表达式。这种表达式成为回归方程;间的定量关系表达式。这种表达式成为回归方程;(2)对求得的回归方程的可信度进行检验;)对求得的回归方程的可信度进行检验;(3)判断自变量)判断自变量X对对Y有无影响;有无影响;(4)利用所求得的回归方程进行预测和控制。)利用所求得的回归方程进行预测和控制。.9理学院1)根据预测目标,确定自变量和因变量根据预测目标,确定自变量和因变量 明确预测的具体目标,也就确定了因变量。如预测具体目标是下明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,
9、那么销售量一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。主要的影响因素。2)建立回归预测模型建立回归预测模型 依据自变量和因变量的历史统计资料进行计算,在此基础上建立依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。回归分析方程,即回归分析预测模型。回归分析的步骤回归分析的步骤.10理学院3)进行相关分析进行相关分析 回归分析是对具有因果关系的影响因素(自变量)和预测对象回归分析是对具有
10、因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数解决的问题。进行相关分析,一般要求出相关关系,以相关系数的
11、大小来判断自变量和因变量的相关的程度。的大小来判断自变量和因变量的相关的程度。.11理学院4)检验回归预测模型,计算预测误差检验回归预测模型,计算预测误差 回归预测模型是否可用于实际预测,取决于对回归预测模型的回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。测误差较小,才能将回归方程作为预测模型进行预测。5)计算并确定预测值计算并确定预测值 利用回归预测模型计算预测值,并对预测值进行综合分析,确利用回归预测模型计算预测值,并对预测值进
12、行综合分析,确定最后的预测值。定最后的预测值。.12对于回归模型,我们假设:对于回归模型,我们假设:2(0,),1,2,()0,iijNinEij 可得到:可得到:),bxa(Ny2ii y 称为称为因变量因变量,x 称为称为自变量自变量, 称为称为随机随机误差误差,a, b 称为待估计的称为待估计的回回归参数归参数,下标,下标 i 表示第表示第 i 个观测值。个观测值。若两个变量若两个变量x, y之间有线性相关关系,其之间有线性相关关系,其回归模型回归模型为为: 一元线性回归分析一元线性回归分析1回归模型回归模型理学院iiibxay.13例例 测测16名成年女子的身高与腿长所得数据如下:名成
13、年女子的身高与腿长所得数据如下:身高143145146147149150153154155156157158159160162164腿长8885889192939395969897969899100102以身高以身高x为横坐标,以腿长为横坐标,以腿长y为纵坐标将这些数据点(为纵坐标将这些数据点(xI,yi)在平面直角)在平面直角坐标系上标出坐标系上标出.1401451501551601658486889092949698100102散点图iiibxay腿长腿长Y随身高随身高X的增加而增的增加而增大且呈直线趋势,但并非大且呈直线趋势,但并非每个点都恰好在一条直线每个点都恰好在一条直线上,这与两变
14、量间严格的上,这与两变量间严格的直线函数关系不同。直线函数关系不同。.14如果给出如果给出a 和和b 的估计量分别为的估计量分别为 ,则则经验回归方程经验回归方程为:为:iixba y 一般地,一般地,iiieyy称为称为残差,残差,残差残差 可视为可视为误差误差 的的“估计量估计量”。 iei去掉回归模型中的扰动项,得去掉回归模型中的扰动项,得理论回归方程理论回归方程为:为:iiyabx2回归方程回归方程理学院.15理学院(xi , yi)(xn , yn)(x1 , y1)(x2 , y2)ei = yi-yiyabx3一元线性回归图示一元线性回归图示.16二元函数二元函数 的最小值点的最
15、小值点 称为称为a, b的最小二乘估计的最小二乘估计( , )Q a b ( , )a bniiiniibxaybaQ1212)(),(记记4回归系数的最小二乘估计回归系数的最小二乘估计xxxyllbxbyan1i2ixx)xx(ln1iiixy)yy()xx(lxbay最小二乘法就是选择最小二乘法就是选择a和和b的估计值的估计值 使得二元函数使得二元函数Q 能够最接近能够最接近 ,即,等于,即,等于 的最小值。的最小值。 ( , )a b( , )Q a b理学院( , )Q a b.17 上面讨论了如何根据实验数据求得线性回归方程,然而,实际上,上面讨论了如何根据实验数据求得线性回归方程,
16、然而,实际上,对于变量对于变量 和和 的任意对观测值,只要不全相等,则无论变量的任意对观测值,只要不全相等,则无论变量 和和 之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回归方程。显然,这样写出的线性方程当且仅当变量归方程。显然,这样写出的线性方程当且仅当变量 和和 之间存在线之间存在线性相关关系时才是有意义的;若不存在线性相关关系,则这样写出的线性相关关系时才是有意义的;若不存在线性相关关系,则这样写出的线性方程就毫无意义了。为了使求得的线性回归方程真正有意义性方程就毫无意义了。为了使求得的线性回归方程真正有意义,
17、就需要就需要进行回归方程的显著性检验。进行回归方程的显著性检验。xyxy5回归方程的显著性检验回归方程的显著性检验 理学院xy.18(1 1)因变量)因变量y y的取值是不同的的取值是不同的,y y取值的这种波动称为变差。变差来源于取值的这种波动称为变差。变差来源于两个方面由于自变量两个方面由于自变量x x的取值不同造成的除的取值不同造成的除x x以外的其他因素以外的其他因素( (如如x x对对 y y的非线性影响、测量误差等的非线性影响、测量误差等) )的影响的影响(2 2)对一个具体的观测值来说,)对一个具体的观测值来说,变差的大小可以通过该实际变差的大小可以通过该实际观测值与其均值之差观
18、测值与其均值之差 来表示来表示yy离差平方和分解离差平方和分解 理学院xyyabxyy yyyy ),(iiyx离差分解图离差分解图xy.19两两边边平方后求和有平方后求和有 yyyyyy从图上看有从图上看有 SST = SSR + SSE 自由度自由度( df ) n-1 = 1 + n-2niiniiniiyyyyyy121212总变差平方和总变差平方和(SST)回归平方和回归平方和(SSR)残差平方和残差平方和(SSE)三个平方和的关系三个平方和的关系理学院.20(1) 总平方和总平方和(SST) 反映因变量的反映因变量的n n个观察值与其均值的总离差个观察值与其均值的总离差(2) 回归
19、平方和回归平方和(SSR) 反映自变量反映自变量x x的变化对因变量的变化对因变量y y取值变化的影响,或者说,是由于取值变化的影响,或者说,是由于 x x与与y y之间的线性关系引起的之间的线性关系引起的y y的取值变化,也称为可解释的平方和的取值变化,也称为可解释的平方和(3) 残差平方和残差平方和(SSE)反映除反映除x x以外的其他因素对以外的其他因素对y y取值的影响,也称为不可解释的取值的影响,也称为不可解释的 平方和或剩余平方和平方和或剩余平方和三个平方和的意义三个平方和的意义理学院.21回归方程的显著性检验回归方程的显著性检验理学院对回归方程对回归方程 的显著性进行检验,归结为
20、对假的显著性进行检验,归结为对假设设: H0:b=0 H1:b0 的检验。的检验。假设假设 H0:b=0被拒绝,则回归显著,认为被拒绝,则回归显著,认为y与与x存在线性关系,存在线性关系,所求的线性回归方程有意义;否则回归不显著,所求的线性回归方程有意义;否则回归不显著,y与与x的关系不的关系不能用一元线性回归模型来描述,所得的回归方程也无意义。能用一元线性回归模型来描述,所得的回归方程也无意义。iiyabx.22线性关系的检验(线性关系的检验(F 检验)检验)(1) (1) 提出假设提出假设2102111(1,2), 22niiniiyySSRFFnHSSE nyyn成立时(2) 计算检验统
21、计量计算检验统计量F(3) 确定显著性水平确定显著性水平 ,并根据分子自由度,并根据分子自由度1和分母自由度和分母自由度n-2找出临界值找出临界值F (1, n-2) 检验的步骤检验的步骤 H0:b=0 H1:b 0 (4) 作出决策:若作出决策:若F F ,拒绝拒绝H0;若若Ft,拒绝,拒绝H0 若若t t,拒绝,拒绝H0 若若t t,拒绝,拒绝H0; t t,接受,接受H00 (2), /(2)xxbtlt nHSSE n成立时 回归系数的显著性检验回归系数的显著性检验 (步骤)(步骤)(2) 计算检验的统计量计算检验的统计量理学院.27(1)根据自变量)根据自变量 x 的取值估计或预测因
22、变量的取值估计或预测因变量 y 的取值的取值(2)估计或预测的类型)估计或预测的类型 点估计点估计y 的平均值的点估计的平均值的点估计y 的个别值的点估计的个别值的点估计 区间估计区间估计y 的平均值的置信区间估计的平均值的置信区间估计y 的个别值的预测区间估计的个别值的预测区间估计6利用回归方程进行估计和预测利用回归方程进行估计和预测理学院.28理学院点估计:点估计:.29理学院.30理学院.31理学院.32理学院2002211(2)1niixxytnnxx.33理学院.34理学院多元线性回归分析多元线性回归分析.35理学院y1 = b b b b1 1 x11 b b x12 b bpx1
展开阅读全文