第五章回归分析-统计计算及方法课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第五章回归分析-统计计算及方法课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 章回 分析 统计 计算 方法 课件
- 资源描述:
-
1、 第五章第五章 回归分析回归分析n回归分析回归分析n一元线性回归一元线性回归n多元线性回归多元线性回归n非线性回归非线性回归25.0 5.0 引言引言回归名称的由来回归名称的由来回归分析是研究变量之间相互依赖回归分析是研究变量之间相互依赖关系的一种统计方法,是数理统计关系的一种统计方法,是数理统计学中应用最广泛的分支之一学中应用最广泛的分支之一. . 3 回归分析的基本思想以及回归分析的基本思想以及 “ “回归回归”名称的由来最初是由名称的由来最初是由英国生物学家兼英国生物学家兼统计学家高尔顿统计学家高尔顿提出来的提出来的. . 他从一千多对父母身高与其子女身高他从一千多对父母身高与其子女身高
2、的数据分析中得出:当父亲身高很高的数据分析中得出:当父亲身高很高时,儿子的身高并不像期待的那样高,时,儿子的身高并不像期待的那样高,而要稍矮一些,有向同龄人平均身高而要稍矮一些,有向同龄人平均身高靠拢的现象;而当父亲身高很矮时,靠拢的现象;而当父亲身高很矮时,儿子的身高要比预期的高,也有向同儿子的身高要比预期的高,也有向同龄人平均身高靠拢的现象龄人平均身高靠拢的现象. . 4 正是因为儿子的身高有回到同龄人正是因为儿子的身高有回到同龄人平均身高的这种趋势,才使人类的身平均身高的这种趋势,才使人类的身高在一定时间内相对稳定,没有出现高在一定时间内相对稳定,没有出现父辈个子高其子女更高,父辈个子矮
3、父辈个子高其子女更高,父辈个子矮其子女更矮的两极分化现象,说明后其子女更矮的两极分化现象,说明后代的平均身高向中心靠拢了,这种现代的平均身高向中心靠拢了,这种现象叫象叫回归回归,这就是,这就是“回归回归”一词的最一词的最初含义初含义. 现在的意思是:凡是利用一个现在的意思是:凡是利用一个变量或一组变量的变异来估计或预测变量或一组变量的变异来估计或预测另一个变量的变异情况都称之为回归。另一个变量的变异情况都称之为回归。 在现实问题中处于同一个过程中的一些在现实问题中处于同一个过程中的一些变量往往是相互依赖和相互制约的,它们之变量往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:间的相
4、互关系大致可分为两种:(1)确定性关系确定性关系 -函数关系函数关系(2)非确定性关系非确定性关系 - - 相关关系相关关系:变量之间有:变量之间有一定的依赖关系,但这种关系并不完全确定。一定的依赖关系,但这种关系并不完全确定。可控变量:可以在某范围内随意地取指定数值可控变量:可以在某范围内随意地取指定数值- - 自变量自变量不可控变量不可控变量: :可以观测但不可控制可以观测但不可控制( (随机变量随机变量)- )- 因变量因变量 6 例例2 2 人的血压人的血压y与年龄与年龄x之间的关之间的关 系,不可能由一个人的年龄完全确定系,不可能由一个人的年龄完全确定 他的血压他的血压. . 一般说
5、人的年龄越大血压一般说人的年龄越大血压 越高,但年龄相同者,血压未必相同越高,但年龄相同者,血压未必相同. . 例例1 1 人的体重人的体重y与身高与身高x之间的关系之间的关系一一般来说,身高高一些,体重也要重般来说,身高高一些,体重也要重一些,但身高不能严格地确定体重,即一些,但身高不能严格地确定体重,即同样身高的人,体重可能不同同样身高的人,体重可能不同. .7 这几个例子中的两个变量之间都有这几个例子中的两个变量之间都有一定的关系,且是一种一定的关系,且是一种非确定性非确定性的关系,的关系,称这类关系为称这类关系为相关关系相关关系. . 例例3 3 水稻亩产量水稻亩产量y与其施肥量与其施
6、肥量x1 1、播种、播种量量x2 2、种子、种子x3 3有关系,但有关系,但 x1 1、x2 2、x3 3 取相同的一组数值时,亩产量取相同的一组数值时,亩产量y可取不可取不同数值同数值. .8 上述例子中身高上述例子中身高x,年龄年龄x,施肥量施肥量 x1、播种量播种量x2 、种子种子 x3 都是可以在一定范都是可以在一定范围内随意的取指定数值围内随意的取指定数值,是可控变量称是可控变量称之为之为自变量自变量,而体重而体重 y, 血压血压 y,亩产亩产量量 y 都是不可控变量称为都是不可控变量称为因变量因变量. . 研究一个变量与一个研究一个变量与一个( (或几个或几个) )可控变量可控变量
7、之间之间 相关关系相关关系的统计分析方法称为的统计分析方法称为回归回归分析分析. .回归分析:回归分析:研究一个随机变量与一个(或几个)研究一个随机变量与一个(或几个)可控变量之间相关关系地统计方法。可控变量之间相关关系地统计方法。只有一个自变量的回归分析叫做只有一个自变量的回归分析叫做一元回归分析一元回归分析;多于一个自变量的回归分析叫做多于一个自变量的回归分析叫做多元回归分析多元回归分析。 回归分析主要内容回归分析主要内容: :(1)(1)提供建立有相关关系的变量之间的数学关系式提供建立有相关关系的变量之间的数学关系式( (经验公式经验公式) )的一般方法的一般方法; ;(2)判别所建立的
8、经验公式是否有效判别所建立的经验公式是否有效; ;(3)利用所得到的经验公式进行预测和控制利用所得到的经验公式进行预测和控制. .5.1 5.1 一元线性回归一元线性回归( (一一) ) 一元线性回归模型一元线性回归模型 ),(20 NbxaY设设 与与 有相关关系有相关关系, ,当自变量当自变量 时时, , 因因变量变量 并不取固定的值与其对应并不取固定的值与其对应. . 如果要用函数关如果要用函数关系近似系近似 与与 的相关关系的相关关系, ,很自然想到很自然想到, ,应该以应该以 作为作为 与与 相对应的数值相对应的数值. .xY0 xx YxY0EYY0 xx (51)其中其中 为常数
9、,则称为常数,则称 与与 之间存在线性之间存在线性相关关系,称(相关关系,称(5 51 1)为一元正态线性回归模型,)为一元正态线性回归模型,简称一元线性模型,其回归函数记为简称一元线性模型,其回归函数记为2 ,baYxbxaEYY 称为称为 对对 的线性回归,的线性回归, 称为回归常数,称为回归常数, 称为回归系数。称为回归系数。 Yxab 由(由(5 51 1)得)得),(2 bxaNY ,可知可知 取取不同数值时,便得到不同的正态变量。不同数值时,便得到不同的正态变量。x ),(,2212221110 NbxaYbxaYbxaYnnnn相互独立,均服从相互独立,均服从其中其中2 ,ba为
10、未知的常数。为未知的常数。由由n ,21独立知道独立知道nYYY,21也相互独立,且也相互独立,且),(2 iibxaNY ni,21 。而而样样本本(简简称称独独立立样样本本)的的一一个个独独立立随随机机的的容容量量为为称称为为来来自自nYYYYn,21),( ,),(),nnyxyxyx2211(称为独立样本称为独立样本nYYY,21的一个(或一组)样本观测的一个(或一组)样本观测值,其中值,其中niyi,21 为x取固定值取固定值ixx 时,对时,对iY进行一次试验所得到的观测值。进行一次试验所得到的观测值。利用独立样本及其样本值可得利用独立样本及其样本值可得2 ,ba的估计量及的估计量
11、及估计值估计值ba, 和和,2从而得到回归函数从而得到回归函数bxaY 的估计的估计xbaY称为称为 对对 的经验回归方程或经验公式。的经验回归方程或经验公式。注:确定变量间相关关系数学关系式的三种方法注:确定变量间相关关系数学关系式的三种方法1.1.经验公式。经验公式。2.2.假设检验。假设检验。3.3.散点图法。散点图法。Yx把样本值把样本值),( ,),(),nnyxyxyx2211(作为平面直角坐标系的作为平面直角坐标系的 个点描出来,构成实验的个点描出来,构成实验的散点图。散点图。n根据散点图,适当地选择一个函数根据散点图,适当地选择一个函数),( xy 使得使得),(),(),(n
12、nyxyxyx2211),(),(),(nnyxyxyx2211在一定意义下最好地吻合在一定意义下最好地吻合于观测结果于观测结果常用的是最小常用的是最小二乘法,即二乘法,即 niiiniiixyyy1212min)( )( xyo. .二、未知参数的估计二、未知参数的估计1. 1. 正规方程组、回归系数的点估计正规方程组、回归系数的点估计根据最小二乘法求线性回归函数根据最小二乘法求线性回归函数bxay 的估计的估计xbay 就是求使得就是求使得 niiibxaybaQ12)(),(取得最小值的取得最小值的, ba即即 niiibababxaybaQbaQ12)(min),(min), (,根据
13、微分学中的二元函数极值的充分条件根据微分学中的二元函数极值的充分条件, ,将将),(baQ分别对分别对ba,求一阶偏导数并令其为零求一阶偏导数并令其为零 niiiiniiixbxaybQbxayaQ110202)()(经过整理后得到线性方程组经过整理后得到线性方程组 niniiiiyxbxaxnynbxnna112)(其中其中 niiniiynyxnx1111正规方程组正规方程组解此方程组即得使解此方程组即得使),(baQ取得最小值的取得最小值的ba, 222)()()()()(xxyxxxxyyxxxxyxnyxbxbyaiiiiiiiii分别称为分别称为ba,的最小二乘估计值的最小二乘估计
14、值. .于是于是, , 得到得到Y对对x的经验回归方程的经验回归方程)(xxbyxbay 注注: :用最小二乘法得到的经验回归直线通过已知用最小二乘法得到的经验回归直线通过已知n个数据点个数据点),(iiyxni, 21 的几何重心的几何重心),(yx把估计值中的把估计值中的yyi,分别用分别用YYi,来代替来代替, ,就得到了参数就得到了参数ba,的估计量的估计量. .为了方便为了方便, , 我们引进几个常用的记号我们引进几个常用的记号iiiYYiiiiiixYiiiixxYYYYYlYxxYxnYxYYxxlxxxxnxxxl)()()()()()(2222则则 xxxYllbxbYa)(
15、xxbYxbaY 参数估计量参数估计量回归方程回归方程定理定理1:1: 在一元线性回归模型中在一元线性回归模型中, , Y和和b相互相互独立独立.证明证明: xxiiilYxxYnbY)(,cov),cov(1 ninjjxxjiYlxxYn111,cov niixxiDYnlxx1)(012 niixxxxnl)( 即即Y与与b不相关不相关. . 但但Y与与b都是独立正态变量都是独立正态变量nYYY,21的线性组合的线性组合, ,因此因此, Y与与b的联合分布为正的联合分布为正态分布态分布. . 对于正态随机向量来说不相关和相互独立是对于正态随机向量来说不相关和相互独立是等价的等价的. .
16、证毕证毕定理定理2:2: 在一元线性回归模型中在一元线性回归模型中, , 的最小二的最小二 乘估计量乘估计量 的数学期望和方差为的数学期望和方差为ba,ba, 21 xxlbDbbE 221 xxlxnaDaaE证明证明: : xxiilYxxEbE)(xxiilEYxx )(lxxbxaxxii )(xxiixxilxxxblxxa )()(b xxiilYxxDbD)(22xxiilDYxx )(22xxxxll xxl2 )(xbYEaE bExYE bExEYni 1 bxbxani)(1a)(xbYDaD bDxYD2 222 xxlxn 221 xxlxn证毕证毕. .由定理由定理
17、2 2可看出可看出, , 当当 时时, , 取最小值取最小值 ; ; 与与 成反比成反比. .所以所以, ,为了提高为了提高 和和 的估计精度的估计精度, , 最最好选择好选择 使使 , ,并且并且 应比较分散应比较分散. .0 xaDn2bDxxla bix0 xix注注: 的最小二乘估计量与极大似然估计量相等的最小二乘估计量与极大似然估计量相等. .ba,24实际上:实际上: 在在 ,0和和 1的最大似的最大似然估计为最小二乘估计然估计为最小二乘估计01,201(,)iiyNx12,ny yy的似然函数为22010121222012111,exp()2212exp()2niiinniiiL
18、yxyx 2. 2. 参数参数 的点估计的点估计2当当 的极大似然估计量的极大似然估计量 已得到后已得到后, , 的估计量可由似然方程的估计量可由似然方程ba, ba,2 niiixbaynL124220212)(ln 可得可得 的极大似然估计量为的极大似然估计量为2 niiiLxbaYn1221)( 记记 niniiiiieYYxbaYS1122)()(即即21LeSn是是 的极大似然估计量的极大似然估计量.2定理定理3: 在一元线性模型中在一元线性模型中2)2( nESe证明证明: : niiiexxbYYS12)( niiniiiniixxbYYxxbYY1221122)()()(xxx
19、xniilblbbYY2122)( xxniilbYY212)( 而而 niiniiniiYnEEYYnYEYYE12212212)( 212)()(YEYDnEYDYniii 221221)()(xbannbxanii 22122)()(xbanbxannii niixbabxan1221)()( xxlbn221 )(又又 )(22bEllbExxxx 2)(bEbDlxx 221bllxxxx 22blxx 于是有于是有 )()(xxielbEYYEES22 22 )( n证毕证毕. .由定理由定理3 3可得可得eSn212 * 是是 的无偏估计的无偏估计. .2 3. 3. 估计量估计
20、量 和和 的分布的分布ba, 2*定理定理4: 4: 在一元线性模型中在一元线性模型中(1) ),(xxlbNb2 (2)( ,(221 xxlxnaNa (3)(,(221 xxlxxnbxaNxbaY(4)()(*222222 nSne (5)2*, bY相互独立相互独立. .4. 4. 未知参数未知参数 和和 的区间估计的区间估计ba,2定理定理5.5. 在一元线性模型中在一元线性模型中)(*212 ntlxnaaxx )(*2 ntlbbxx 证明证明: :由定理由定理4,4,得得),(1012Nlxnaaxx ),(10Nlbbxx 由定理由定理4 4的的(5)(5)可知可知, ,
21、22*, 与与与与ba分别相互独立分别相互独立, ,再由再由t t分布的定义分布的定义, ,即得即得)()()(*212212222 ntlxnaannlxnaaxxxx )()(*222222 nnSe )(*2 ntlbbxx 证毕证毕由定理由定理5 5及及t t分布的分位数分布的分位数, ,得得 121212)(|*ntlxnaaPxx即得即得 的的 置信区间为置信区间为a1 xxlxnnta222112*)( 类似类似, , 的的 置信区间为置信区间为b1 xxlntb*)( 221由由),()(*22222 nn 易得易得 的的 置信区间为置信区间为21 )()(,)()(*2222
22、2222212nnnn 三、线性回归效果的显著性检验三、线性回归效果的显著性检验 我们在求我们在求 Y 对对 x 的线性回归之前,必须判断的线性回归之前,必须判断Y与与 x 的关系是否满足一元线性回归模型。理论上的关系是否满足一元线性回归模型。理论上讲,这要求检验讲,这要求检验(1) 对对x取任一固定值时,取任一固定值时,Y都服从正态分布,而且都服从正态分布,而且 方差相同;方差相同;(2) x在某一范围取值时,在某一范围取值时,EY是是x的线性函数;的线性函数;(3) 在在x取各个不同值时,相应的取各个不同值时,相应的Y是相互独立的。是相互独立的。但要检验这三条不仅需要大量的试验,还要进行大
23、但要检验这三条不仅需要大量的试验,还要进行大量的计算,实际上很难办到。量的计算,实际上很难办到。系系,转转化化为为检检验验之之间间不不存存在在线线性性相相关关关关与与认认为为时时,就就特特别别当当变变化化的的趋趋势势越越不不明明显显。随随越越小小,明明显显;当当的的变变化化而而变变化化的的趋趋势势越越随随越越大大,可可知知,当当,由由xYbxYbxYbNbxaY002 |),( 0010 bHsvbH:.:情情况况:种种无无意意义义,可可能能有有如如下下几几所所求求得得的的线线性性回回归归方方程程模模型型来来表表示示,的的关关系系不不是是用用一一元元线线性性与与则则认认为为,方方程程有有意意义
24、义;若若接接受受关关系系,所所求求的的线线性性回回归归之之间间存存在在线线性性与与,则则认认为为是是否否成成立立。若若拒拒绝绝xYHxYH00(1) x对对Y没有显著影响,应丢掉自变量没有显著影响,应丢掉自变量x;(2) x对对Y有显著影响,但不能用线性相关关系来有显著影响,但不能用线性相关关系来 表示;表示;(3) 除除x外还有其它不可忽略的变量对外还有其它不可忽略的变量对Y也有显著也有显著 影响,从而削弱了影响,从而削弱了x对对Y的影响,应考虑多元的影响,应考虑多元 线性回归。线性回归。1. F检验法检验法考虑考虑22)()()(yyyyyylSiiiiyyT 令令22)()(iieiRy
25、ySyyS 计算后可得一元线性模型中的平方和分解公式:计算后可得一元线性模型中的平方和分解公式:eRTSSS 总偏差平方和总偏差平方和回归平方和回归平方和残差平方和残差平方和 2)(yySiT:TS总偏差(离差)平方总偏差(离差)平方和和数值波动越大。数值波动越大。越大,则越大,则的平方和,的平方和,的偏差的偏差与其平均值与其平均值表示表示nTinyySyyyyy,)(,11 :RS回归平方和回归平方和因为因为,)(yxbxbyxbaxbanynii 11。的的平平均均值值也也是是所所以以,yyyn, 1的分散程度。的分散程度。平方和,描述了平方和,描述了的的的偏差的偏差与与是是niniRyy
展开阅读全文