第9章-相关与回归课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第9章-相关与回归课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 回归 课件
- 资源描述:
-
1、第第9章章 相关与回归相关与回归9.1 简单线性相关分析9.2 一元线性回归分析9.3 多元线性回归与复相关分析9.4 变量间非线性关系的回归9.1 简单线性相关分析简单线性相关分析一、变量之间的关系一、变量之间的关系 确定性关系、非确定性关系确定性关系、非确定性关系 1.确定性关系(函数关系):变量之间依一定的函数形确定性关系(函数关系):变量之间依一定的函数形成的一一对应关系,若两个变量分别记做成的一一对应关系,若两个变量分别记做Y与与X,则当,则当Y与与X之间存在函数关系时,之间存在函数关系时,X值一旦被指定,值一旦被指定,Y值就是唯值就是唯一确定的。一确定的。2.非确定性关系(非确定性
2、关系(相关关系相关关系):两个变量之间存在):两个变量之间存在某种关系,但变量某种关系,但变量Y并不是由变量并不是由变量X唯一确定的,它唯一确定的,它们之间没有严格的一一对应关系。们之间没有严格的一一对应关系。两个变量之间若存在线性关系称为两个变量之间若存在线性关系称为线性相关线性相关,存在,存在非线性关系称为非线性关系称为曲线相关曲线相关,通常通过适当的变量变,通常通过适当的变量变换,曲线相关可转换为线性相关。换,曲线相关可转换为线性相关。3、相关的种类、相关的种类(1 1)按相关的程度分为)按相关的程度分为完全相关、不完全相关完全相关、不完全相关和不相关。和不相关。两种依存关系的标志,其中
3、一个标志的数量变两种依存关系的标志,其中一个标志的数量变化由另一个标志的数量变化所确定,则称化由另一个标志的数量变化所确定,则称完全完全相关,也称函数关系。相关,也称函数关系。两个标志彼此互不影响,其数量变化各自独立,两个标志彼此互不影响,其数量变化各自独立,称为称为不相关不相关。两个现象之间的关系,介乎完全相关与不相关两个现象之间的关系,介乎完全相关与不相关之间称之间称不完全相关。不完全相关。(2 2)按相关的方向分为)按相关的方向分为正相关和负相关正相关和负相关 正正相关相关指相关关系表现为因素标志和结果标志的数指相关关系表现为因素标志和结果标志的数量变动方向一致。量变动方向一致。负相关负
4、相关指相关关系表现为因素标志和结果标志的数指相关关系表现为因素标志和结果标志的数量变动方向是相反的。量变动方向是相反的。(3 3)按相关的形式分为)按相关的形式分为线性相关和非线性相关线性相关和非线性相关 一种现象的一个数值和另一现象相应的数值在指教一种现象的一个数值和另一现象相应的数值在指教坐标系中确定为一个点,称为线性相关。坐标系中确定为一个点,称为线性相关。(4 4)按影响因素的多少分为)按影响因素的多少分为单相关和复相关单相关和复相关。如果研究的是如果研究的是一个一个结果标志同某一因素标志相关,结果标志同某一因素标志相关,就称单相关就称单相关。如果分析如果分析若干若干因素标志对结果标志
5、的影响,称为复因素标志对结果标志的影响,称为复相关或多元相关。相关或多元相关。二、总体相关系数二、总体相关系数()()XYXYXYXXYYEXE XYE YCov(X,Y)在统计上衡量两个随机变量X、Y取值间相互联系的程度和方向的量是协方差Cov(X,Y)和相关系数,有1XY证 明2()()D YXE YXE YX证:对于任意实数,有2()()EYE YXE X222()()2()()E YE YE XE XEYE YXE X22YYXXXY XYXX令,则有()2XYXYXYYYXXXYXXXXXXD YX2()22XYYYYYXX(1-)21YY由方差的性质知,(1-)0,所以三、样本相关
6、系数三、样本相关系数2211()()11nniiiiXXYYXXYYSSnn;rYX变量 和 之间线性相关的程度可以用样本相关系数 度量。rXYXXYYSSS公式为11()1nXYiiiSXXYYn()为样本协方差r样本相关系数 的另一个计算公式为:11122221111r()()nnniiiiiiinnnniiiiiiiinx yxynxxnyy r1r1 相关系数 的取值为:r1r1r0YXYXYXYX,变量 和 是完全正相关;,变量 和 是完全负相关;在这两种情况下,和 之间的关系是函数关系。时,只能说明 和 之间不存在线性统计关系,但可能存在非线性关系xy正正 相相 关关xy负负 相相
7、 关关xy曲线相关曲线相关xy不不 相相 关关使用年限使用年限x x维修费用(元)维修费用(元)y yxyxy2 25405404 4291600291600108010803 35205209 9270400270400156015604 46406401616409600409600256025604 47407401616547600547600296029605 56006002525360000360000300030005 58008002525640000640000400040006 67007003636490000490000420042006 67607603636577
8、600577600456045606 69009003636810000810000540054008 88408406464705600705600672067209 910801080818111640011640097209720合计合计5858812081203483486268800626880045760457602x2y294581205811145760lxy 42)58(111348l2xx 274764)8120(1116268800l2yy 870274764422945r 计算结果表明,机床使用年限与维修费用之间为计算结果表明,机床使用年限与维修费用之间为高度正相关。高
9、度正相关。四、相关系数的显著性检验四、相关系数的显著性检验01:0:0HH假设2r02tn21r ntr实际应用中是对 作变换,所以对总体系数 的假设检验,可令()r因为线性相关系数通常是根据样本数据计算出的,带有一定的随机性,因此要通过样本相关系数 对总体相关系数 作出推断。2ttr若,表明 在统计上是显著的,r可作为X和Y之间是否存在线性关系的证据。2ttr若,表明 在统计上是不显著的,r不能作为X和Y之间是否存在线性关系的证据。五、相关分析中应注意的问题五、相关分析中应注意的问题 相关系数不解释两个变量间的因果关系,相关系数不解释两个变量间的因果关系,它只是表明了两个变量间互相影响的程度
10、它只是表明了两个变量间互相影响的程度和方向。和方向。有时两变量之间不存在相关关系,但却可有时两变量之间不存在相关关系,但却可能出现较高的相关系数,要警惕虚假相关能出现较高的相关系数,要警惕虚假相关导致的错误结论。导致的错误结论。第二节第二节 一元线性回归分析一元线性回归分析 回归分析是通过一个或一些变量的变化来解释另一变量回归分析是通过一个或一些变量的变化来解释另一变量的变化。的变化。其其内容和步骤内容和步骤:1.根据理论和对问题的分析判断,区分自变量和因变量。根据理论和对问题的分析判断,区分自变量和因变量。2.设法找出合适的回归模型来描述变量间的关系。设法找出合适的回归模型来描述变量间的关系
11、。3.对回归模型进行统计检验。对回归模型进行统计检验。4.利用回归模型,根据解释变量去估计、预测因变量。利用回归模型,根据解释变量去估计、预测因变量。01,iYXu例如:分析家庭消费支出Y与可支配收入X两变量的关系二者之间有数学结构式:(9.3)019.3iu式中:、是总体回归参数;是随机项,表示除可支配收入以外其他影响家庭消费支出变化的因素。式(总体回)被称为归模型。一、一元线性回归的数学模型一、一元线性回归的数学模型iu2是相互独立,具有相同方差的随机变量。随机干扰项的随机干扰项的主要内容主要内容有:有:1.未具体列入模型但又共同影响变量的种种因素未具体列入模型但又共同影响变量的种种因素2
12、.变量的观测误差变量的观测误差3.随机误差随机误差4.模型的设定误差模型的设定误差二、线性回归模型的含义二、线性回归模型的含义 1.就变量而言,线性是指Y的条件期望是X的线性函数。如:2.就参数而言,线性是指Y的条件期望是参数i的线性函数。如:i01(|)iiE YXX是一元线性函数1201122(|,)iiiiiE YXXXX是二元线性函数1011201(|).(|)iiniinniiiiE YXXXXE YXX,.是多元线性函数是非线性函数201(|)iiiE YXX是一元线性回归函数01(|)iiiE YXX而就不是线性函数三、样本回归模型三、样本回归模型 事实上,总体事实上,总体Y是未
13、知的,我们所能取得的只能是与给定是未知的,我们所能取得的只能是与给定X值相对应的值相对应的Y的样本观测值,我们通过样本提供的信息来认的样本观测值,我们通过样本提供的信息来认识总体,找出总体回归模型的估计式。识总体,找出总体回归模型的估计式。可支配收入与消费支出的简单随机样本可支配收入与消费支出的简单随机样本x1x2x3x4x5x6x7x8x9x1080100120140160180200220240260样本170659095110115120140155120样本255889080118120145135145175对散点分别拟合直线,是总体回归线的估计线对散点分别拟合直线,是总体回归线的估
14、计线01iiiiiiYXeeY样本回归模型为:称为残差,是样本观测值 与估计值Y 之间的误差。根据散点图,我们可以用样本回归直线方程对总体回归直线方程进行推断和估计。01iiX样本回归方程为:Y四、回归直线的拟合四、回归直线的拟合1.iiiiiXuuXu假定以给定的为条件,服从条件期望为零的正态分布,即E()=0;简记为:E()=02.(,)()()0()ijiijjCov u uE uEuuEuij假定各个随机干扰项之间互不相关,即假定它们之间无序列相关或自相关3.iiiiXuYuu2i假定对于每个给定的,的方差是一个常数,即各个 总体具有相同方差,即D(|X)=D()=1.简单线性回归模型
15、的统计假定简单线性回归模型的统计假定4.()()()0iiiiiiiiuXCov u XE uEuXEX假定与不相关。即,满足以上满足以上4条假设的线性回归模型称为条假设的线性回归模型称为古典或普通线性回归模型古典或普通线性回归模型,其参数估计所采用的最小平方法称作普通最小平方法其参数估计所采用的最小平方法称作普通最小平方法2.简单线性回归模型的参数估计简单线性回归模型的参数估计-最小平方法最小平方法0101iiiiiYXYXe设样本线性回归模型为:iiiYe由上两式得 Y01iiiiiiiYYeYYYX就是 的拟合值,为拟合误差201111nnniiiiiiiieYYYX22即()()min
16、ie要使拟合的直线“最佳”,就要使 最小,2011niie分别对、的一阶偏导数等于零21011niiiiieYX Xi-2()=021010niiiieYXi-2()=001201iiiiiiiiiiiYnXY XXX整理后为;+1012()()()iiiiXX YYYXXX最后得到:3.最小平方估计线和估计量的性质最小平方估计线和估计量的性质20101.0002()0iiiiiiiiYXi性质剩余残参之和为零,即由公式:可得,即e2.iXY性质所拟合的直线通过均值点(,),即通过样本散点图的重心,因而预测值Y的均值等于观测值的均值。010111()iiiiiYYXeXnn01111iiiiX
17、YXXYXXY()+(-)111iiiiYXXYYnnY(-)于是:20112()0,0iiiiiiieYX Xeii由公式:可得X,3.iieX性质剩余项 与解释变量不相关)0iiiXXeiiiii又由于e 与解释变量的协方差为(e-e)(XX0011(),()EE014.性质、分别是总体回归参数的无偏估计量。012221100225.(,),(,)()()iiiiiiXNNXXXX性质、都是服从正态分布的随机变量,有:0101iY在随机误差项为正态分布的假设下,由于、都是 的线性组合,所以、的分布也表现为正态分布。2012222iien i在,的方差中都涉及到随机干扰项u的方差,令的估计量
18、iiyYY证:令0101iiiYXuYXu对于回归模型得到:01011iiiiiyYYXXx1()iixuui两式相减,得到:yE22证明:()iiiiieYYYYYY11()()iiiiyyuux21122112()()2()()iiiiiiiiiEeEx uxuEEuu取其期望得:22221111()()2()()iiiiiiiiineuuxx uu对 个样本观察值求剩余平方和,得:222()()()2()iiiiiiiEuuEuEuE uu等式右边第一项212()iiDx22222112()()iiiiiix Exx于是等式右边第二项有:12201122()()()()iiiiiiiii
19、iiiiiiiiiiiiiiXX YYX YYxXXxxXuxuxx等式右边第三项:112iiiiixux21122222222211222()2()()2()2()22()2()2()iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiixuxuEx uuExuuxExxxuxEExxxx22222()(1)2(2)iiEenn分别代入得到:22()2iieEn于是:22所以:是总体真实方差的无偏估计量五五.回归模型的检验回归模型的检验1.拟合优度拟合优度YXiYYiiYYiYY01iiYX222()()()iiiiiiiSSTYYSSRYYSSEYYSSTSSRSSE令为总离差平方
20、和为回归离差平方和为剩余平方和则有:2222()()()2()()()()iiiiiiiiiiiiiiiSSTYYYYYYYYYYYYYY证明:0101()()()()0iiiiiiiii iiiYYYYXY eYeX e因为222()()()iiiiiiiYYYYYY所以如果如果SSR占的比例越大,则回归线对观察点拟合得越好。占的比例越大,则回归线对观察点拟合得越好。221(01)SSRSSErrSSTSST 称作判定系数,可用于判断回归方程的拟合优度。称作判定系数,可用于判断回归方程的拟合优度。2222122()()iiiiiiiinXXrnYY判定系数的计算公式:判定系数与样本相关系数判
21、定系数与样本相关系数 判定系数的平方根就是相关系数。判定系数的平方根就是相关系数。1若由判定系数开平方来求相关系数,可以通过回归系数来判断相关系数的符号,回归系数与相关系数正负号相同。2.回归系数的显著性检验回归系数的显著性检验21121122(,)()(2)iiiiNXXtt nx已知:因此有检验统计量:3.回归系数的显著性检验步骤回归系数的显著性检验步骤01111.:0,:0HH建立原假设:2.计算检验统计量t22(2),(2),tnXYtnXY3.根据给定的显著水平,若t则拒绝原假设,即 作为 的解释变量作用是显著的。若t则不能拒绝原假设,即 作为 的解释变量作用是不明显。X与Y之间是否
展开阅读全文