新编-第10章线性回归分析-精品课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《新编-第10章线性回归分析-精品课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 新编 10 线性 回归 分析 精品 课件
- 资源描述:
-
1、例 设一个质点作匀速直线运动,其位移可以表示为S=+t。但在实验中由于受到环境等干扰因素的作用,在每一个时刻,人们观察到的不是准确的位移,而是具有误差S+,记这一观测值为Y,则所有观察数据满足tY注意到各误差实际无法确切地知道,因此要确定质点的运动规律,需要使用回归分析的方法。更一般地,回归分析在经济管理中常被用来分析变量之间的非确切对应的关系。例例 用来评价商业中心经营好坏的一个综合指标是用来评价商业中心经营好坏的一个综合指标是单位面积的营业额,它是单位时间内单位面积的营业额,它是单位时间内(通常为一年通常为一年)的营业额与经营面积的比值对单位面积营业额的营业额与经营面积的比值对单位面积营业
2、额的影响因素的指标有单位小时车流量、日人流量、的影响因素的指标有单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分这几个指标中及商品的丰富程度的满意度评分这几个指标中车流量和人流量是通过同时对几个商业中心进行车流量和人流量是通过同时对几个商业中心进行实地观测而得到的而居民年平均消费额、消费实地观测而得到的而居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意者对商场的环境、设施及商品的丰富程度的满意度评分是通过随机采访顾客而得到的平均值数度评分是通过随机采访顾客而得到的平均值数据据设各指标(变量
3、)的变量名分别为:单位面积营业额:y,每小时机动车流量:x1,日人流量:x2,居民年消费额:x3,对商场环境的满意度:x4,对商场设施的满意度:x5,为商场商品丰富程度满意度:x6问题:对单位面积营业额的影响因素确实是如下对单位面积营业额的影响因素确实是如下6 6个吗?个吗?单位小时车流量、日人流量、居民年平均消费额、消费者对单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分。商场的环境、设施及商品的丰富程度的满意度评分。yx1x2x3x4x5x6y1x10.3953951x20.7869030.73811x30.798802-0.13815 0.
4、2744081x40.361470.71967 0.634186-0.112921x50.437227 0.415426 0.260294 0.423137 0.0560231x60.691886 0.759951 0.982733 0.143417 0.692221 0.2214641在社会经济和管理中,变量之间的关系更经常地表现为不确定的函数关系。如销售量与人口数量销售量与广告费用收入与受教育水平。它们之间存在着明显的相互关系(称为相关关系),但这种关系又不像数学里常用到的确切的函数关系。回归分析是研究随机变量之间相关关系的一种统计方法,其用意是研究一个被解释变量(因变量)与一个或多个解释
5、变量(自变量)之间的统计关系。宝丽来公司是即时显影技术的开拓者,并保持着技术领先地位。自公司成立以来,就不断地在化学、光学和电子学方面进行试验和发展,以生产具有更高品质、更高可靠性和更为便利的摄影系统。在宝丽来的感光实验室中,科学家们把即时显像胶片置于一定的温度和湿度下,使之近似于消费者购买后的保存条件,然后再对其进行系统的抽样和分析。他们选择了专业彩色摄影胶卷,抽取了分别已保存113个月不等的胶卷以便研究它们保存时间和感光速率之间的联系。数据显示,感光速率随保存时间的延长而下降。它们之间的变动关系可用一条直线或线性关系近似表示出来。xy6.78.19y胶卷感光率的变动x胶卷保存时间(月)从这
6、一方程可以看出,胶卷的感光速率平均每月下降7.6个单位。通过此分析得到的信息,有助于公司把消费者的购买和使用结合起来考虑,调整生产,提供顾客需要的胶卷。运用回归分析,宝丽来公司建立了一个方程式,它能反映胶卷保存时间对感光速率的影响。人均收入X与人均食品消费支出Y之间的散点关系可以如下图表示出来人均收入与人均食品支出关系的散点图人均收入4000300020001000人均食品支出140012001000800600400根据散点图,我们有可能找到一条直线,从“平均”的角度来反映两个变量之间的关系。从经济意义上看,这里人均收入可以作为解释变量(解释人均食品支出的变化。这时,两个变量之间的不确定关系
7、,可以用下式表示:uXY21其中,人均食品消费支出Y是被解释变量,人均收入X是解释变量,1,2是两个待估计的参数,分别表示截距和斜率(反映了关于X的边际效益)。u是随机干扰项,通常假设它与X无关,它反映了Y被X解释的不确定性。如果随机干扰项u的均值为0,那么上式两边在X的条件下求均值,就有XXYE21)|(反映了从“平均”角度看的确定的函数关系(解释关系)。例例 一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出家庭消费支出Y与每月家庭可支配收入家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。收集了这100户家庭收入与消费支出的数据后,发现
8、可将该100户家庭组成的总体按可支配收入水平划分为10组,具体数据见下表。表表 2.1.1 某某社社区区家家庭庭每每月月收收入入与与消消费费支支出出统统计计表表 每月家庭可支配收入X(元)800 1100 1400 1700 2000 2300 2600 2900 3200 3500 561 638 869 1023 1254 1408 1650 1969 2090 2299 594 748 913 1100 1309 1452 1738 1991 2134 2321 627 814 924 1144 1364 1551 1749 2046 2178 2530 638 847 979 1155
9、 1397 1595 1804 2068 2266 2629 935 1012 1210 1408 1650 1848 2101 2354 2860 968 1045 1243 1474 1672 1881 2189 2486 2871 1078 1254 1496 1683 1925 2233 2552 1122 1298 1496 1716 1969 2244 2585 1155 1331 1562 1749 2013 2299 2640 1188 1364 1573 1771 2035 2310 1210 1408 1606 1804 2101 1430 1650 1870 2112 1
10、485 1716 1947 2200 每 月 家 庭 消 费 支 出 Y(元)2002 共计 2420 4950 11495 16445 19305 23870 25025 21450 21285 15510 05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)如 E(Y|X=800)=605人均收入与多孩率之间关系的散点图人均国民收入500040003000200010000多孩率%3020100不同地区的多孩率与人均国民收入之间的散点图为同样有可能找到一条曲线,从平均的角度来反映两个
11、变量之间的关系。这里仍然将人均国民收入作为解释变量。这时两个变量之间的不确定关系可以大致用如下包含对数的函数关系表示:uXYln21其中多孩率Y是被解释变量,人均国民收入X是解释变量,1,2是两个待估计的参数。但是2不再表示边际效益,而是表示当X增加百分之一时,Y的增加值。u是随机干扰项,仍假设它与X无关,从而与 ln X 无关。注意此时Y与X的关系并非线性关系,但经变换XZln就转化为线性关系:uZY21上面的这些例子中反映一个变量(被解释变量)的变动可以被另一变量(解释变量)来解释的变量之间的关系的表达式uXY21就是最普通的线性回归式。经济与管理中广泛利用线性回归式来研究变量之间的解释关
12、系。线性回归的任务,就是用恰当的方法,估计出参数1,2,并且使估计出来的参数具有良好的统计性质,由此可见,回归问题实际上是一种特殊的参数估计问题。变量X,Y之间成立的关系式对它们的每对对应的样本值都成立,因此对任一对样本值Xi,Yi,i=1,2,n,有iiiuXY21估计参数的目的就是求参数的估计值 ,使得直线(称为线性回归方程)21,XY21最好地拟合了这些样本数据点,并且参数估计值还具有较好的统计性质。对于线性回归模型niuXYiii,.,2,1,21高斯基本假设为:(1)ui为随机变量;(2)E(ui)=0,即所有的随机扰动项的期望值为零;(3),即所有的随机扰动项的方差等于一个常数;2
13、)(uiuVar(4);这等价于)(0)(jiuuEji)(0)(jiuuCovji即所有不同的随机扰动项的协方差等于零,也就是不同的随机扰动项是不相关的。(5)即随机扰动项都服从正态分布。),0(2uiNu(6)E(Xi uj)=0 对所有的i和j都成立。关于解释变量Xi的这一性质可以分为两种情况:Xi是随机变量但它与uj无关,因此(6)成立。Xi是确定型变量,它自然与uj无关,因此(6)成立。介绍了参数估计方法后,再具体说明这些假设的应用。对线性回归模型niuXYiii,.,2,1,21回归分析的任务就是要求参数的估计值 ,使得到的回归方程21,XY21最好地拟合了所有样本数据点。XiYi
14、iY这意味着对所有的样本点(Xi,Yi)|iiYY 都应尽可能小。为了使得回归直线 最好地拟合所有样本数据,就应该使所有残差 绝对值都尽可能小。XY21iiiYYe具体地做法是让残差的平方和达到最小,这就是所谓的最小二乘准则。最小二乘准则:niiiniiYYe1212)(min最小二乘法就是根据最小二乘准则来确定 1,2 的估计值 的方法。相应的估计量称为最小二乘估计量(OLS估计量)21,注意到iiXY21因此iiiiXYYY21为此,我们求参数的估计值 使残差平方和21,niniiiiiniiXYYYeQ11221212)()(达到最小。注意到上式可以看成 的二次函数,因此其最小值存在,取
15、最小值的条件就是21,0,021QQ由此得到关于 的线性方程组,解之得21,XYxyxniiniii211212,其中xi,yi分别为Xi,Yi的中心化数据(也称离差)XXxiiYYyii在高斯的基本假设下,按上式计算得到的参数估计值 是最优的线性无偏估计量(BLUE,Best Linear Unbiased Estimator)。即OLS估计量 是线性估计量并且是无偏的,在所有的无偏估计量中,的方差是最小的。21,21,具体来说模型是线性的 是线性的21,假设(2)、(6)是无偏的21,假设(3)、(4)具有最小方差21,注:对于 是BLUE来说,(5)是不必要的。但是如果(5)成立,则还能
16、保证 也服从正态分布。21,21,在实际问题中,常常需要研究一个被解释变量,多个解释变量的线性回归模型uXXYkk221例(详见商务与经济统计)位于南加州的巴特勒运输公司的管理人员为制定最佳的工作计划,希望估计他们的司机每天行驶的时间。起初,公司管理人员认为,司机每天行驶的时间与每天运送货物行驶的里程密切相关,通过观察散点图,管理人员假设,能利用一元线性回归模型uXY21来描述行驶的小时数(Y)与行驶的英里数(X)之间的关系。对公司的实际数据,采用普通最小二乘法估计出回归方程为XY0678.027.1通过对方程的分析,公司的管理人员发现,虽然这一结果不错,但方程只能解释每天行驶时间的变异性的6
17、6.4%。因此希望增加第二个解释变量去解释剩下的变异性。管理人员在研究其它影响行驶时间的因素时,觉得运送货物的次数也会影响行驶的时间。因此在增加了一个解释变量运送货物的次数,以及相应的数据后,再进行回归分析,得到的回归方程具有形式21923.00611.0869.0XXY管理人员现在发现,这一方程能解释行驶时间变异性的90.4%。这已是相当好的结果了。l多元线性回归模型的矩阵表示多元线性回归模型的矩阵表示多元线性回归模型uXXYkk221应该对所有的样本数据都成立,因此有niuXXYikikii,.,2,1,221这是n个表达式。回归分析的目的就是利用由样本数据产生的这n个表达式估计模型的参数
18、,得到模型的参数估计值 使得回归方程k,.,21最好地拟合了所有样本数据。XXYk221为便于讨论,对多元线性回归模型,常使用矩阵形式uXY其中nkknnkknuuuXXXXXXYYY2121222212121,111,uXY1nkn1k1n为为随随机机扰扰动动项项列列向向量量为为待待估估计计参参数数列列向向量量为为自自变变量量数数据据矩矩阵阵。为为因因变变量量观观测测值值列列向向量量uXY(1)u是随机向量;(2)E(u)=0;这里)()()()(2121nnuEuEuEuuuEEu所以这一假设就是要求所有的随机扰动项的期望值为零。即.,.,2,1,0)(niuEi(3);Iuuu2)()(
19、uTECov这里)(),(),(),()(),(),(),()()()()()()()()()()()()()()(21221212112212221212121nnnnnnnnnnTTuVaruuCovuuCovuuCovuVaruuCovuuCovuuCovuVaruEuuEuuEuuEuEuuEuuEuuEuEEEEECovuuuuuuu因此条件(3)意味着2222122121211000000)(),(),(),()(),(),(),()()(uuunnnnnuVaruuCovuuCovuuCovuVaruuCovuuCovuuCovuVarCovu这等价于 并且niuVarui,.,
20、1,)(2jiuuCovji,0),(也即所有扰动项方差相等,并且不存在序列相关。(4)),0(2nuNIu注意这一条件是用矩阵形式给出的。这相当于niNuui,.,2,1),0(2(5)要求所有变量Xji是非随机的;或变量Xji虽然是随机的,但与ui不相关。用数学表达式的形式,后者就是.,.,1;,.,1,0),()(kjniuXCovuXEijiiji(6)秩)(,)(nkkX这里实际上是两个判断,一个是 而另一个则是k n。k)(XknnkkXXXXXX2222121111X在(6)中的要求k n,实际上是要求样本数据的数量n大于解释变量的个数(或待估计的参数的个数)k。而注意到矩阵X为
21、因此意味着矩阵X的行数大于列数。而要求k)(X意味着矩阵X是满列秩的,即其所有列向量线性无关。并且这一条件蕴涵矩阵XTX正定(从而非奇异)。其他假设:(7)行列式|XTX|远离零。现在仍采用矩阵的记法,多元线性回归模型为uXY若得到了参数的估计量 则相应的回归方程为XY于是残差向量为TnnYYYYYY),(2211YYe普通最小二乘法就是要确定参数的估计值 使残差平方和)()(12YYYYeeTTniieQ达到最小。由于残差的平方和可以表示为XXXYYYXXYXXYYYXYXYXYXYYYYY2)()()()()(TTTTTTTTTTTTTTTQYXXXTT而XXYX22Q要使残差的平方和最小
22、就必须 ,即0Q这就是所谓的正规方程组,其解就是要求的估计量。由条件(6)可知矩阵 可逆。因此正规方程组的解为XXYXXX1)(这就是要求的普通最小二乘(OLS)估计量。高斯马尔柯夫定理:若关于多元线性回归模型的高斯假设中除了(4)外,其他假设都满足,则普通最小二乘估计量 是最优线性无偏估计量(BLUE)。若当 时,收敛于非奇异矩阵,则普通最小二乘估计量 还是一致估计量。nnT/)(XX由上述定理可知,在高斯假设下,多元线性回归模型的普通最小二乘估计量具有非常好的统计性质。具体来说模型是线性的OLS估计量是线性的假设(2)、(5)OLS估计量是无偏的假设(3)OLS估计量具有最小方差假设(6)
23、OLS估计量的存在性假设(4)OLS估计量服从正态分布为了计算 的方差,考虑 的方差-协方差矩阵i)()()()(EEEECov而uXXX)(1所以12112121111111)()()()()()()()()()()()()()(XXXXXXXXXXXIXXXXXXuuXXXXXXuuXXXuXXXuXXXnEEEECov假设(5)假设(3)12)()(XXTuCov即122122121211)()(),(),(),()(),(),(),()(XXTukkkkkVarCovCovCovVarCovCovCovVar从而有12)()(jjTujVarXX其中 是矩阵 对角线上的第j个元素,常常
24、将它记为cjj。于是有 或1)(jjTXX1)(XXTjjujcVar2)(jjucj可以证明:(1)服从正态分布j),(2jjujcN(2)服从 分布jjujjc22)()1(2在上面的讨论中可以看到我们要经常用到随机扰动项的方差 。然而随机扰动项的方差是观察不到的。不过可以证明2uknkneTniiuee122是 的无偏估计量2u设想有如下图所示的两个样本,要分别建立能拟合它们的线性回归方程。直观上容易看出,左边的图形显示的数据建立的回归方程对样本数据的拟合情况更好。这一观察表明:(1)使用不同的数据建立的线性回归方程对样本数据的拟合程度是有差别的。(2)线性回归方程对样本数据的拟合程度越
25、好,样本数据所代表的解释变量与被解释变量之间的线性关系就越显著,从而越适合用线性回归方程来描述解释变量与被解释变量的相关关系。YiYiYiX可以看出离差(此处称为总变差)可分解为YYyiiYYYYYYiiii其中iiYY残差YYi解释变差并且可以证明niiniiiniiYYYYYY121212)()()(即总变差的平方和=残差的平方和+解释变差的平方和明显地,线性回归方程对样本数据的拟合情况越好,残差平方和就越小,从而残差平方和在总变差平方和中占的比重就越小,于是解释变差平方和占的比重就越大。niiniiniiniiiYYYYYYYY12121212)()()()(1解释变差平方和占的比重我们
展开阅读全文