第二章简单线性回归课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第二章简单线性回归课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 简单 线性 回归 课件
- 资源描述:
-
1、第二章 简单线性回归模型本章主要介绍:n回归分析和回归方程n简单线性回归模型的最小二乘估计n回归系数的区间估计和假设检验n拟合优度的度量n回归预测 何谓简单线性回归模型n只有两个变量的线性回归模型,称为简单线性回归模型,也叫做双变量模型,或者一元线性回归模型。n模型形式为:12YXu12iiiYXu或者等价表示为:第一节 回归分析和回归方程本节主要介绍:1.1 经济变量之间的关系。1.2 相关关系:分类、度量。1.3 回归分析:概念、回归线、回归函数1.4 总体回归函数1.5 随机扰动项1.6 样本回归函数1.1 经济变量之间的关系n确定的函数关系:yf(x)n不确定性的统计关系相关关系 yf
2、(x)u (u为随机变量)n没有关系 变量间的函数关系和相关关系在一定条件下可以互相转化。1.2 相关关系1.2.1 分类:n 只有两个变量:简单相关;三个及三个以上:多重相关(复相关);n 线性相关、非线性相关;n 正相关、负相关、不相关正相关(我国人均消费函数)Y为我国人均消费X为我国人均国民收入相关系数:0.982004006008001000120005001000150020002500YX负相关Y与X的相关系数:-0.9220304050607080010203040YX不相关(不排除存在曲线相关)n相关系数为:n4.24E-18-60-40-200204060-60-40-200
3、204060YX1.2.2 线性相关程度的度量 线性相关系数n总体相关系数:n样本相关系数:)()(),(YVarXVarYXCovXY22)()()(YYXXYYXXriiiiXY使用相关系数要注意:n简单线性相关包含了其他变量的影响。nX,Y都是随机变量,相关系数只说明其线性相关程度,不说明其非线性关系,也不反映他们之间的因果关系;n样本相关系数是总体相关系数的样本估计量;n相关系数具有对称性,即 ;n相关系数取值区间-1,1。yxxy1.3 回归分析和相关分析1.3.1 回归分析n是对一个应变量对若干解释变量依存关系的研究;n其目的是:由固定的解释变量去估计和预测应变量的平均值等。1.3
4、.2 回归函数、回归线n应变量Y的条件期望 随着解释变量X的变化而有规律地变化。把这种变化关系用函数表示出来,就是回归函数:n回归函数在坐标系中用图形表示出来就是回归线。它表示了应变量和解释变量之间的平均关系。)E(Y/Xi)f(X)E(Y/Xii回归线图示YX概率密度函数f(Yi)PRFx1xiXk注意:n一般地,在重复抽样中解释变量被假定为固定的。所以回归分析中,解释变量一般当作非随机变量处理。由于变量间关系的随机性,回归分析回归分析关心的是关心的是根据解释变量的已知或给定值,考察被解释变量的总根据解释变量的已知或给定值,考察被解释变量的总体均值体均值,即当解释变量取某个确定值时,与之统计
5、相关的被解释变量所有可能出现的对应值的平均值。例例2.1:一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出家庭消费支出Y与每月家庭可支配收家庭可支配收入入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。1.4 总体回归函数总体回归函数 为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。表表 2.1.1 某某社社区区家家庭庭每每月月收收入入与与消消费费支支出出统统计计表表 每月家庭可支配收入X(元)800 1100 1400 1700 2000 2300 2600 2900 3200 3500 561 638 8
6、69 1023 1254 1408 1650 1969 2090 2299 594 748 913 1100 1309 1452 1738 1991 2134 2321 627 814 924 1144 1364 1551 1749 2046 2178 2530 638 847 979 1155 1397 1595 1804 2068 2266 2629 935 1012 1210 1408 1650 1848 2101 2354 2860 968 1045 1243 1474 1672 1881 2189 2486 2871 1078 1254 1496 1683 1925 2233 255
7、2 1122 1298 1496 1716 1969 2244 2585 1155 1331 1562 1749 2013 2299 2640 1188 1364 1573 1771 2035 2310 1210 1408 1606 1804 2101 1430 1650 1870 2112 1485 1716 1947 2200 每 月 家 庭 消 费 支 出 Y(元)2002 共计 2420 4950 11495 16445 19305 23870 25025 21450 21285 15510 (1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(2)但由于调查的
8、完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布条件分布(Conditional distribution)是已知的,如:P(Y=561|X=800)=1/4。因此,给定收入X的值Xi,可得消费支出Y的条件条件均值均值(conditional mean)或条件期望条件期望(conditional expectation):E(Y|X=Xi)该例中:E(Y|X=800)=561分析:分析:描出散点图发现:随着收入的增加,消费“平均地说平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线总体回归线。05001000150020002
9、500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)n概念概念:在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线总体回归线(population regression line),或更一般地称为总体回归曲线总体回归曲线(population regression curve)。)()|(iiXfXYE称为(双变量)总体回归函数总体回归函数(population regression function,PRF)。相应的函数:回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。n
10、含义:含义:函数形式:函数形式:可以是线性或非线性的。例2.1中,将居民消费支出看成是其可支配收入的线性函数时:iiXXYE10)|(为一线性函数。线性函数。其中,0,1是未知参数,称为回归系数回归系数(regression coefficients)。1.4.2 总体回归函数的表现形式n条件均值形式,如n随机设定形式。n 对于一定的 ,Y的各个个别值 分布在 的周围,其差令为 ,则:n 对上例,有n 也即:i21iX)E(Y/XiXiY)E(Y/XiiuiiiuXYEY)/(iiiuXY21)(21iiiXYu1.5 随机扰动项n1、引入随机扰动项的目的n2、随机扰动项代表模型中省略了的所有
11、次要因素的综合作用n3、根据中心极限定理随机扰动项服从正态分布n4、通常模型由随机方程组成n5、随机扰动项产生的原因iu为什么要引入随机扰动项n模型中引入反映不确定因素影响的随机扰动项的目的在于使模型更符合客观经济活动实际。n干扰项是从模型中省略下来而又集体地影响着Y地全部变量地替代物简单线性需求函数不可能包罗万象地引入全部影响变量n我们以最简单的线性需求函数为例进行分析。nQd=b0+b1X1n理论分析和实践经验表明,某种商品需求量不仅趋近于价格,而且趋近于替代商品的价格X2,消费者收入X3和消费者偏好X4等等。将所有对需求量有影响的个变量引入方程:nQd=b0+b1X1+b2X2+b3X3
12、+b4X4+bkXkn即使如此也还可能有其他次要因素影响需求量,譬如社会风尚,心理变化甚至天气等等。总之,不可能巨细无遗地全部都引入。次要因素的综合效应是不能忽视的n未引入的这些随机变量有的可以度量,有些不可以度量,在实际观测中,有时发生影响有时又不发生影响,记为随机变量Zi(i=1,2,m)。n从个别意义上,这些次要因素可能是不重要的,但所有这些的综合效应是不能忽视的。否则,模型将与实际不符。于是将它们也引入模型。mjjjniiidzrxbbQ110必须另外寻找解决问题的思路n全部变量引入显然是不必要的。计量经济学将这些或者次要,或者偶然的,或者不可测度的变量用一个随机扰动项来概括,需求函数
13、:n这是一个随机方程。是随机变量Zj的线性组合,也是一个随机变量。它代表所有未列入模型的那些次要因素的综合影响。niiidxbbQ10由中心极限定理服从正态分布n 进一步分析相当于诸随机变量Zj的均值n因此,由中心极限定理,无论因此,由中心极限定理,无论ZjZj原来的分布形式如何,只要它们原来的分布形式如何,只要它们相互独立,相互独立,m m足够大,就会有足够大,就会有趋于正态分布。趋于正态分布。n而且正态分布简单易用,且数理统计学中研究的成果很多,可以而且正态分布简单易用,且数理统计学中研究的成果很多,可以借鉴。借鉴。Zzrrjmjjmjj111则有不妨假设随机扰动项产生的原因(1)人类行为
14、和客观现象的随机性。引入的根本原因,乃是经济活动是人类参与的,而人类行为的内在随机性决定了不可能像科学实验那样精确。此外还有社会环境和自然环境的随机性。(2)模型省略了变量。被省略的变量包含在随机扰动项中。核心变量与周边变量(3)测量与归并误差。测量误差致使观察值不等于实际值,汇总也存在误差。(4)数学模型形式设定造成的误差。比如由于认识不足或者简化,将非线性设定成线性模型。(5)数据的欠缺(6)糟糕的替代变量(7)理论的含糊性随机扰动项产生的原因1.6 1.6 样本回归函数(样本回归函数(SRF)问题:问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?问:
15、能否从该样本估计总体回归函数PRF?回答:能 例例2.2:在例2.1的总体中有如下一个样本,表表 2.1.3 家家庭庭消消费费支支出出与与可可支支配配收收入入的的一一个个随随机机样样本本 Y 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 X 594 638 1122 1155 1408 1595 1969 2078 2585 2530 总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。核样本的散点图散点图(scatter diagram):样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该
16、线近似地代表总体回归线。该线称为样本回归线样本回归线(sample regression lines)。)。记样本回归线的函数形式为:iiiXXfY10)(称为样本回归函数样本回归函数(sample regression function,SRF)。这里将样本回归线样本回归线看成总体回归线总体回归线的近似替代则 注意:注意:样本回归函数的随机形式样本回归函数的随机形式/样本回归模型样本回归模型:同样地,样本回归函数也有如下的随机形式:iiiiieXYY10式中,ie称为(样样本本)残残差差(或剩剩余余)项项(residual),代表了其他影响iY的随机因素的集合,可看成是i的估计量i。由于方程
17、中引入了随机项,成为计量经济模型,因此也称为样本回归模型样本回归模型(sample regression model)。回归分析的主要目的回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。注意:注意:这里PRF可能永远无法知道。即,根据 iiiiieXeYY10估计iiiiiXXYEY10)|(1.6.2 对样本回归函数的说明n每次抽样都能够获得一个样本,就可以拟合一条样本回归线,所以样本回归线随抽样波动而变化,可以有多条。n样本回归线不是总体回归线,只是未知总体回归线的近似。SRF1SRF2XY1.6.3 残差n定义:那么有:n对上例,有:iiiYYeiiieYYiiiii
18、eXeYY21ie回归分析的思路 样本 样本回归函数的参数 一定方法得出总体回归函数的参数近似看成是SRF1:PRF2:iiieXY21iiiuXY21(观察参数的对应估计关系)第二节 简单线性回归模型的最小二乘估计(OLS)n本节主要介绍:2.1 简单线性回归模型的基本假定 2.2 普通最小二乘法(OLS)2.3 OLS回归线的性质 2.4 最小二乘估计的统计性质 2.1 简单线性回归的基本假定n2.1.1 为什么要做基本假定n参数估计量是随机变量,只有在一定的假设条件下,所作出的估计才具较好的统计性质。n只有对随机扰动项的分布作出假定,才能确定所估计参数的分布的性质,也才可能进行假设检验和
19、区间估计。2.1.2 假定的两个方面:(1)关于变量和模型的基本假定n 是非随机的,或者虽然 是随机的,但是与 是不相关的;n 无测量误差;n 变量和函数形式设定正确。iXiuiXiX假定的两个方面:(2)关于随机扰动项也称高斯假定、古典假定n假定1 零均值:n假定2 同方差:n假定3 无自相关:n假定4 随机扰动项 与 不相关。即:n假定5 服从正态分布,即:iu0)/(iiXuE2)/(iiXuVar,0),(jiuuCovji iuiX.0),(iiuXCov),0(2Nuiiu注意:n正态性假定(5)不影响对参数的点估计,所以可不列入基本假定,且根据中心极限定理,当样本容量无穷大时,的
20、分布趋近于正态分布。但此假定对确定所估计参数的分布性质是需要的,iu2.1.3 Y的分布性质n由于 ,所以 的分布性质就决定了 的分布性质。n对 的一些假定可以等价地表示为对 的假定:n零均值:n同方差:n无自相关:n正态性:iiiuXfY)(iuiYiuiY)()/(iiiXfXYE2)/(iiXYVar,0),(jiYYCovji),(2iiXfNY2.2 普通最小二乘法(OLS)n基本思想n数学过程n估计结果2.2.1 最小二乘法的基本思想n纵向距离是Y的实际值与拟合值之差,称为拟合误差或残差。差异大拟合不好,差异小拟合好。n残差可正可负,为克服加总时正负相消,将其平方后相加,得残差平方
21、和,“最好”直线就是使误差平方和最小的直线。n于是求最好拟合直线问题转换为求残差平方和最小,可以运用求极值的原理求解。三种距离iiiiiXYYYe21纵向距离YX纵向距离横向距离距离),(iiYXA),(iiYXBA为实际点,B为拟合直线上与之对应的点SRF返回YX0*7Y9Y*Y7Y9Min2)(iiYY数学形式2.2.2 最小二乘法的数学过程n详见课本2.2.3 OLS估计结果的离差形式n离差形式:nOLS估计结果的离差形式:n(样本回归函数的离差形式:)的离差形式。和分别称为令iiYX,iiiiiiyxYYyXXx2221 ,iiixyxXYiixy22.2.4 几个有用的结果n可以用到
22、以后计算、证明过程中:iiiiiiiiiiiiiiiiiicXndxxuducyxxYXeeyx1 ,c ,(3),0 ,0 (2)0 )1(21122其中:2.3 OLS 回归线的性质n1.回归线过样本均值点 n2残差和为零n3Y的真实值 和拟合值 有共同均值n4残差 与自变量 不相关n5残差 与拟合值 不相关ieie0ie),(YXiYiYiXiY2.3.1 回归线过样本均值n由 ,知:即样本均值点 满足回归线方程),(YXXY21XY21XY21SRFYX),(YX2.3.2 残差和为零n由 OLS数学过程直接可得。且易推出残差的平均数也等于零。000)1(0221211221iiiii
展开阅读全文