第二章简单线性回归课件.ppt

上传人（卖家）：三亚风情

文档编号：3524002

上传时间：2022-09-11

格式：PPT

页数：115

大小：671.06KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

29 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《第二章简单线性回归课件.ppt》由用户（三亚风情）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第二简单线性回归课件

资源描述：: 1、第二章简单线性回归模型本章主要介绍：n回归分析和回归方程n简单线性回归模型的最小二乘估计n回归系数的区间估计和假设检验n拟合优度的度量n回归预测何谓简单线性回归模型n只有两个变量的线性回归模型，称为简单线性回归模型，也叫做双变量模型，或者一元线性回归模型。n模型形式为：12YXu12iiiYXu或者等价表示为：第一节回归分析和回归方程本节主要介绍：1.1 经济变量之间的关系。1.2 相关关系：分类、度量。1.3 回归分析：概念、回归线、回归函数1.4 总体回归函数1.5 随机扰动项1.6 样本回归函数1.1 经济变量之间的关系n确定的函数关系：yf（x）n不确定性的统计关系相关关系 yf
2、（x）u （u为随机变量）n没有关系变量间的函数关系和相关关系在一定条件下可以互相转化。1.2 相关关系1.2.1 分类：n 只有两个变量：简单相关；三个及三个以上：多重相关（复相关）；n 线性相关、非线性相关；n 正相关、负相关、不相关正相关（我国人均消费函数）Y为我国人均消费X为我国人均国民收入相关系数：0.982004006008001000120005001000150020002500YX负相关Y与X的相关系数：-0.9220304050607080010203040YX不相关（不排除存在曲线相关）n相关系数为：n4.24E-18-60-40-200204060-60-40-200
3、204060YX1.2.2 线性相关程度的度量线性相关系数n总体相关系数：n样本相关系数：)()(),(YVarXVarYXCovXY22)()()(YYXXYYXXriiiiXY使用相关系数要注意：n简单线性相关包含了其他变量的影响。nX,Y都是随机变量，相关系数只说明其线性相关程度，不说明其非线性关系，也不反映他们之间的因果关系；n样本相关系数是总体相关系数的样本估计量；n相关系数具有对称性，即；n相关系数取值区间-1，1。yxxy1.3 回归分析和相关分析1.3.1 回归分析n是对一个应变量对若干解释变量依存关系的研究；n其目的是：由固定的解释变量去估计和预测应变量的平均值等。1.3
4、.2 回归函数、回归线n应变量Y的条件期望随着解释变量X的变化而有规律地变化。把这种变化关系用函数表示出来，就是回归函数：n回归函数在坐标系中用图形表示出来就是回归线。它表示了应变量和解释变量之间的平均关系。)E(Y/Xi)f(X)E(Y/Xii回归线图示YX概率密度函数f(Yi)PRFx1xiXk注意：n一般地，在重复抽样中解释变量被假定为固定的。所以回归分析中，解释变量一般当作非随机变量处理。由于变量间关系的随机性，回归分析回归分析关心的是关心的是根据解释变量的已知或给定值，考察被解释变量的总根据解释变量的已知或给定值，考察被解释变量的总体均值体均值，即当解释变量取某个确定值时，与之统计
5、相关的被解释变量所有可能出现的对应值的平均值。例例2.1：一个假想的社区有100户家庭组成，要研究该社区每月家庭消费支出家庭消费支出Y与每月家庭可支配收家庭可支配收入入X的关系。即如果知道了家庭的月收入，能否预测该社区家庭的平均月消费支出水平。1.4 总体回归函数总体回归函数为达到此目的，将该100户家庭划分为组内收入差不多的10组，以分析每一收入组的家庭消费支出。表表 2.1.1 某某社社区区家家庭庭每每月月收收入入与与消消费费支支出出统统计计表表每月家庭可支配收入X（元）800 1100 1400 1700 2000 2300 2600 2900 3200 3500 561 638 8
6、69 1023 1254 1408 1650 1969 2090 2299 594 748 913 1100 1309 1452 1738 1991 2134 2321 627 814 924 1144 1364 1551 1749 2046 2178 2530 638 847 979 1155 1397 1595 1804 2068 2266 2629 935 1012 1210 1408 1650 1848 2101 2354 2860 968 1045 1243 1474 1672 1881 2189 2486 2871 1078 1254 1496 1683 1925 2233 255
7、2 1122 1298 1496 1716 1969 2244 2585 1155 1331 1562 1749 2013 2299 2640 1188 1364 1573 1771 2035 2310 1210 1408 1606 1804 2101 1430 1650 1870 2112 1485 1716 1947 2200 每月家庭消费支出 Y（元）2002 共计 2420 4950 11495 16445 19305 23870 25025 21450 21285 15510 （1）由于不确定因素的影响，对同一收入水平X，不同家庭的消费支出不完全相同；（2）但由于调查的
8、完备性，给定收入水平X的消费支出Y的分布是确定的，即以X的给定值为条件的Y的条件分布条件分布（Conditional distribution）是已知的，如：P(Y=561|X=800）=1/4。因此，给定收入X的值Xi，可得消费支出Y的条件条件均值均值（conditional mean）或条件期望条件期望（conditional expectation）：E(Y|X=Xi)该例中：E(Y|X=800)=561分析：分析：描出散点图发现：随着收入的增加，消费“平均地说平均地说”也在增加，且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线总体回归线。05001000150020002
9、500300035005001000150020002500300035004000每月可支配收入X（元）每月消费支出Y（元）n概念概念：在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线总体回归线（population regression line），或更一般地称为总体回归曲线总体回归曲线（population regression curve）。)()|(iiXfXYE称为（双变量）总体回归函数总体回归函数（population regression function,PRF）。相应的函数：回归函数（PRF）说明被解释变量Y的平均状态（总体条件期望）随解释变量X变化的规律。n
10、含义：含义：函数形式：函数形式：可以是线性或非线性的。例2.1中，将居民消费支出看成是其可支配收入的线性函数时:iiXXYE10)|(为一线性函数。线性函数。其中，0，1是未知参数，称为回归系数回归系数（regression coefficients）。1.4.2 总体回归函数的表现形式n条件均值形式，如n随机设定形式。n 对于一定的，Y的各个个别值分布在的周围，其差令为，则：n 对上例，有n 也即：i21iX)E(Y/XiXiY)E(Y/XiiuiiiuXYEY)/(iiiuXY21)(21iiiXYu1.5 随机扰动项n1、引入随机扰动项的目的n2、随机扰动项代表模型中省略了的所有
11、次要因素的综合作用n3、根据中心极限定理随机扰动项服从正态分布n4、通常模型由随机方程组成n5、随机扰动项产生的原因iu为什么要引入随机扰动项n模型中引入反映不确定因素影响的随机扰动项的目的在于使模型更符合客观经济活动实际。n干扰项是从模型中省略下来而又集体地影响着Y地全部变量地替代物简单线性需求函数不可能包罗万象地引入全部影响变量n我们以最简单的线性需求函数为例进行分析。nQd=b0+b1X1n理论分析和实践经验表明，某种商品需求量不仅趋近于价格，而且趋近于替代商品的价格X2，消费者收入X3和消费者偏好X4等等。将所有对需求量有影响的个变量引入方程：nQd=b0+b1X1+b2X2+b3X3
12、+b4X4+bkXkn即使如此也还可能有其他次要因素影响需求量，譬如社会风尚，心理变化甚至天气等等。总之，不可能巨细无遗地全部都引入。次要因素的综合效应是不能忽视的n未引入的这些随机变量有的可以度量，有些不可以度量，在实际观测中，有时发生影响有时又不发生影响，记为随机变量Zi（i=1,2,m）。n从个别意义上，这些次要因素可能是不重要的，但所有这些的综合效应是不能忽视的。否则，模型将与实际不符。于是将它们也引入模型。mjjjniiidzrxbbQ110必须另外寻找解决问题的思路n全部变量引入显然是不必要的。计量经济学将这些或者次要，或者偶然的，或者不可测度的变量用一个随机扰动项来概括，需求函数
13、：n这是一个随机方程。是随机变量Zj的线性组合，也是一个随机变量。它代表所有未列入模型的那些次要因素的综合影响。niiidxbbQ10由中心极限定理服从正态分布n 进一步分析相当于诸随机变量Zj的均值n因此，由中心极限定理，无论因此，由中心极限定理，无论ZjZj原来的分布形式如何，只要它们原来的分布形式如何，只要它们相互独立，相互独立，m m足够大，就会有足够大，就会有趋于正态分布。趋于正态分布。n而且正态分布简单易用，且数理统计学中研究的成果很多，可以而且正态分布简单易用，且数理统计学中研究的成果很多，可以借鉴。借鉴。Zzrrjmjjmjj111则有不妨假设随机扰动项产生的原因（1）人类行为
14、和客观现象的随机性。引入的根本原因，乃是经济活动是人类参与的，而人类行为的内在随机性决定了不可能像科学实验那样精确。此外还有社会环境和自然环境的随机性。（2）模型省略了变量。被省略的变量包含在随机扰动项中。核心变量与周边变量（3）测量与归并误差。测量误差致使观察值不等于实际值，汇总也存在误差。（4）数学模型形式设定造成的误差。比如由于认识不足或者简化，将非线性设定成线性模型。（5）数据的欠缺（6）糟糕的替代变量（7）理论的含糊性随机扰动项产生的原因1.6 1.6 样本回归函数（样本回归函数（SRF）问题：问题：能从一次抽样中获得总体的近似的信息吗？如果可以，如何从抽样中获得总体的近似信息？问：
15、能否从该样本估计总体回归函数PRF？回答：能例例2.2：在例2.1的总体中有如下一个样本，表表 2.1.3 家家庭庭消消费费支支出出与与可可支支配配收收入入的的一一个个随随机机样样本本 Y 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 X 594 638 1122 1155 1408 1595 1969 2078 2585 2530 总体的信息往往无法掌握，现实的情况只能是在一次观测中得到总体的一个样本。核样本的散点图散点图（scatter diagram)：样本散点图近似于一条直线，画一条直线以尽好地拟合该散点图，由于样本取自总体，可以该
16、线近似地代表总体回归线。该线称为样本回归线样本回归线（sample regression lines）。）。记样本回归线的函数形式为：iiiXXfY10)(称为样本回归函数样本回归函数（sample regression function，SRF）。这里将样本回归线样本回归线看成总体回归线总体回归线的近似替代则注意：注意：样本回归函数的随机形式样本回归函数的随机形式/样本回归模型样本回归模型：同样地，样本回归函数也有如下的随机形式：iiiiieXYY10式中，ie称为（样样本本）残残差差（或剩剩余余）项项（residual），代表了其他影响iY的随机因素的集合，可看成是i的估计量i。由于方程
17、中引入了随机项，成为计量经济模型，因此也称为样本回归模型样本回归模型（sample regression model）。回归分析的主要目的回归分析的主要目的：根据样本回归函数SRF，估计总体回归函数PRF。注意：注意：这里PRF可能永远无法知道。即，根据 iiiiieXeYY10估计iiiiiXXYEY10)|(1.6.2 对样本回归函数的说明n每次抽样都能够获得一个样本，就可以拟合一条样本回归线，所以样本回归线随抽样波动而变化，可以有多条。n样本回归线不是总体回归线，只是未知总体回归线的近似。SRF1SRF2XY1.6.3 残差n定义：那么有：n对上例，有：iiiYYeiiieYYiiiii
18、eXeYY21ie回归分析的思路样本样本回归函数的参数一定方法得出总体回归函数的参数近似看成是SRF1：PRF2：iiieXY21iiiuXY21（观察参数的对应估计关系）第二节简单线性回归模型的最小二乘估计（OLS）n本节主要介绍：2.1 简单线性回归模型的基本假定 2.2 普通最小二乘法（OLS）2.3 OLS回归线的性质 2.4 最小二乘估计的统计性质 2.1 简单线性回归的基本假定n2.1.1 为什么要做基本假定n参数估计量是随机变量，只有在一定的假设条件下，所作出的估计才具较好的统计性质。n只有对随机扰动项的分布作出假定，才能确定所估计参数的分布的性质，也才可能进行假设检验和
19、区间估计。2.1.2 假定的两个方面：（1）关于变量和模型的基本假定n 是非随机的，或者虽然是随机的，但是与是不相关的；n 无测量误差；n 变量和函数形式设定正确。iXiuiXiX假定的两个方面：（2）关于随机扰动项也称高斯假定、古典假定n假定1 零均值：n假定2 同方差：n假定3 无自相关：n假定4 随机扰动项与不相关。即：n假定5 服从正态分布，即：iu0)/(iiXuE2)/(iiXuVar,0),(jiuuCovji iuiX.0),(iiuXCov),0(2Nuiiu注意：n正态性假定（5）不影响对参数的点估计，所以可不列入基本假定，且根据中心极限定理，当样本容量无穷大时，的
20、分布趋近于正态分布。但此假定对确定所估计参数的分布性质是需要的，iu2.1.3 Y的分布性质n由于，所以的分布性质就决定了的分布性质。n对的一些假定可以等价地表示为对的假定：n零均值：n同方差：n无自相关：n正态性：iiiuXfY)(iuiYiuiY)()/(iiiXfXYE2)/(iiXYVar,0),(jiYYCovji),(2iiXfNY2.2 普通最小二乘法（OLS）n基本思想n数学过程n估计结果2.2.1 最小二乘法的基本思想n纵向距离是Y的实际值与拟合值之差，称为拟合误差或残差。差异大拟合不好，差异小拟合好。n残差可正可负，为克服加总时正负相消，将其平方后相加，得残差平方
21、和，“最好”直线就是使误差平方和最小的直线。n于是求最好拟合直线问题转换为求残差平方和最小，可以运用求极值的原理求解。三种距离iiiiiXYYYe21纵向距离YX纵向距离横向距离距离),(iiYXA),(iiYXBA为实际点，B为拟合直线上与之对应的点SRF返回YX0*7Y9Y*Y7Y9Min2)(iiYY数学形式2.2.2 最小二乘法的数学过程n详见课本2.2.3 OLS估计结果的离差形式n离差形式：nOLS估计结果的离差形式：n（样本回归函数的离差形式：）的离差形式。和分别称为令iiYX,iiiiiiyxYYyXXx2221 ,iiixyxXYiixy22.2.4 几个有用的结果n可以用到
22、以后计算、证明过程中：iiiiiiiiiiiiiiiiiicXndxxuducyxxYXeeyx1 ,c ,(3),0 ,0 (2)0 )1(21122其中：2.3 OLS 回归线的性质n1.回归线过样本均值点 n2残差和为零n3Y的真实值和拟合值有共同均值n4残差与自变量不相关n5残差与拟合值不相关ieie0ie),(YXiYiYiXiY2.3.1 回归线过样本均值n由，知：即样本均值点满足回归线方程),(YXXY21XY21XY21SRFYX),(YX2.3.2 残差和为零n由 OLS数学过程直接可得。且易推出残差的平均数也等于零。000)1(0221211221iiiii
23、iiiiiiienXYXYXYYYeeee0ie2.3.3 Y的真实值和拟合值有共同的均值YY0 iiiiiiiiiYYeeYYeYY又由性质4、5n2.3.4 残差与自变量不相关（Residuals are unrelated with independent variable）n2.3.5 估计残差与拟合值不相关（Residuals are unrelated with fitted value of ）iY 残差和=0iiiiieXeYY21 均值相等拟合值与残差不相关自变量与残差不相关XY21过样本均值2.4最小二乘估计量的性质最小二乘估计量的性质当模型参数估计出后，需考虑参数估计值
24、的精度，即是否能代表总体参数的真值，或者说需考察参数估计量的统计性质。一个用于考察总体的估计量，可从如下几个方面考察其优劣性：（1）线性性）线性性，即它是否是另一随机变量的线性函数；（2）无偏性）无偏性，即它的均值或期望值是否等于总体的真实值；（3）有效性）有效性，即它是否在所有线性无偏估计量中具有最小方差。（4）渐近无偏性）渐近无偏性，即样本容量趋于无穷大时，是否它的均值序列趋于总体真值；（5）一致性）一致性，即样本容量趋于无穷大时，它是否依概率收敛于总体的真值；（6）渐近有效性）渐近有效性，即样本容量趋于无穷大时，是否它在所有的一致估计量中具有最小的渐近方差。这三个准则也称作估计量的小样本
25、性质。小样本性质。拥有这类性质的估计量称为最佳线性无偏估计最佳线性无偏估计量量（best liner unbiased estimator,BLUE）。当不满足小样本性质时，需进一步考察估计量的大样本大样本或或渐近性质渐近性质：2.4.1 线性：最小二乘估计量是关于Yi的线性函数iiiiiiiiiiiiiiiiiiYdYXcnXYcYnXYYcYYxxyxxxyx)1()(1 )(212222注意iidc ,同2.2.42.4.2 无偏性n由2.2.4，知：11221122)E(,)E(0)E(,易得：又iiiiiuuduc2.4.3 有效性n证明太繁杂，略。n以下只给出其方差：2221222
26、22)(1)(iiiixnXVarxcVar2.4.4 参数的分布、残差方差的估计n由上，知：n扰动项的方差通过样本估计为：其中，n为样本容量。),(),(222112222iiixnXNxNiu222nei),(),(222112222iiixnXNxN),(),(222112222iiixnXNxNnOLS参数估计量的有效性指的是：在一切线性、无偏估计量中，OLS参数估计量的方差最小。所有参数估计量线性参数估计量无偏参数估计量最小二乘参数估计量3 3、最大似然法、最大似然法n最大似然法最大似然法(Maximum Likelihood,ML)，也，也称称最大或然法最大或然法，是不同于最小二
27、乘法的另一种，是不同于最小二乘法的另一种参数估计方法，是从最大或然原理出发发展起参数估计方法，是从最大或然原理出发发展起来的其它估计方法的基础。来的其它估计方法的基础。n基本原理：基本原理：当从模型总体随机抽取当从模型总体随机抽取n组样本观组样本观测值后，最合理的参数估计量应该使得从模型测值后，最合理的参数估计量应该使得从模型中抽取该中抽取该n组样本观测值的概率最大。组样本观测值的概率最大。nML必须已知随机项的分布。必须已知随机项的分布。3.13.1、估计步骤、估计步骤),(210iiXNY2102)(2121)(iiXYieYP),(),(21210nYYYPL 21022)(21)2(1
28、iinXYneYi的分布Yi的概率函数 Y的所有样本观测值的联合概率似然函数 2102*)(21)2ln()ln(iiXYnLL0)(0)(21012100iiiiXYXY2212220)()(iiiiiiiiiiiiiXXnXYXYnXXnXYXYX对数似然函数对数似然函数极大化的一阶条件结构参数的ML估计量3.23.2、讨论、讨论n在满足一系列基本假设的情况下，模型结构参在满足一系列基本假设的情况下，模型结构参数的数的最大似然估计量最大似然估计量与与普通最小二乘估计量普通最小二乘估计量是是相同的。相同的。n但是，分布参数的估计结果不同。但是，分布参数的估计结果不同。neMLi22:2:2
29、2neOLSi第四节回归系数的区间估计和假设检验n本节主要介绍：n简单线性回归系数的分布及其标准化。n回归系数的区间估计n回归系数的假设检验n扰动项方差的区间估计。4.1 回归系数的标准化标准化。标准正态分布，即将其为任何一个正态分布，化根据以上定理，可以将。，那么令如果1,0 ,2NN4.2 回归系数的区间估计n区间估计n区间估计的概念、步骤n应用：1、已知扰动项方差，对进行区间估计 2、扰动项方差未知，对进行区间估计n大样本下/小样本下ii4.2.1 区间估计的概念n所谓区间估计就是以一定的可靠性给出被估计参数的一个可能的取值范围。n具体作法是找出两个统计量 1(x1,xn)与2(x
30、1,xn)，使 P(1 2)=1-n(1,2)称为置信区间，1-称为置信系数（置信度），称为冒险率（测不准的概率）或者显著水平，一般取5%或1%。对区间估计的形象比喻n我们经常说某甲的成绩“大概80分左右”，可以看成一个区间估计。（某甲的成绩为被估计的参数）P(1 2)=大概的准确程度（1-）如：P(75 85)=95%=1-5%“大概大概80分左右分左右”冒险率（也叫显著水平）下限上限置信系数1 4.2.2 区间估计的步骤：1)找一个含有该参数的统计量;要求该统计量：分布已知含待估参数除了待估参数外，其余为已知量。2)构造一个概率为的事件;3)通过该事件解出该参数的区间估计.14.2.
31、3 已知扰动项方差，对的区间估计22/222/222/2222/2222/2/222/,/-1/1/,1,1,0/,uxuxuxuxPuUPuNxUiiiiiii的置信区间为置信度为，得不等式第三步，求解事件。解即使确定查标准正态分布表给定的第二步，选取事件。有：标准化将第一步，选取统计量。4.2.4 未知扰动项方差，对的区间估计n（1）大样本下可以用代替，有所以仍按已知方差作区间估计，只不过把区间估计中的随机扰动的方差换成其估计值。2221,0/222NxUi22（2）小样本下2/222/2222/2222/2222/2/2222/,/-1/1/,1,2/,txtxtxtxPuT
32、PtntxTiiiii的置信区间为置信度为，得不等式第三步，求解事件。解即使确定查标准正态分布表给定的第二步，选取事件。有：标准化将第一步，选取统计量。区间估计，统计量选择小结)2(/)1,0(2.)1,0(/.1222222222ntxTNxUNxUiii小样本下，选择：大样本下，选择：方差未知，正态总体，选择：或者一般总体大样本）已知方差，正态总体（24.2.5 扰动项方差的区间估计n对扰动项的区间估计使用的统计量为：n其余步骤相同)2(/)2(2222nn4.3 回归系数的假设检验n基本概念：假设检验，原假设/备择假设置信水平n假设检验的步骤n应用：n 的假设检验（方差已知/方差未知）
33、n方差的假设检验)(2检验a24.3.1 假设检验的概念n定义：称对任何一个随机变量未知的分布类型或参数的假设为统计假设，简称假设。检验该假设是否正确称为假设检验。n在统计假设，如 H0:p=0.5 （称为原假设）H1:p 0.5 （称为备择假设）n 是假设检验中小概率事件发生的概率，也称为置信水平。4.3.2 假设检验的步骤：nStep1:分析问题，提出原假设和备择假设；nStep2:选择和计算统计量U：在原假设成立时，U的分布已知；含有要检验的参数；各个参数应该都是已知的、可求的。nStep3：构造小概率事件：nStep4：判断小概率事件是否发生：nStep5：下结论：若小概率事件发生，拒
34、绝原假设H0；选择备择假设H1。否则，原假设成立。)|(|2/uUP则，没发生。则小概率事件发生。否若,|2/uU 假设检验的具体操作步骤（已知方差，检验为例）n1、提出零假设 H0：H1：n3、确定显著水平，如=0.05，查表得相应的临界值/2n4、判断和下结论：若|U|/2 ，拒绝H0；若|U|/2,接受H0；（判断区域图示）n5、依据结论，作出经济学上的解释。)1,0(/,222NxaUi计算统计量，由样本2a2a2a24.3.3 假设检验中统计量的选择)2(/)2()1,0(/:,)1(22222222ntxaTNxaUii使用统计量：，代替时，用未知方差选用统计量时已知方差4.3
35、.4 回归系数假设检验及意义n回归系数的假设检验，往往是检验 n检验的意义：检验该系数是否显著，进而检验对应的解释变量是否对应变量有解释作用。0:H 0:10iiH第五节拟合优度的度量本节主要内容：n4.1 总变差（总平方和）的分解n4.2 可决系数n4.3 可决系数和相关系数的关系n4.4 自由度的分解问题的提出n由最小二乘法所得直线确实能够对这些点之间的关系加以反映吗？n对这些点之间的关系或趋势反映到了何种程度？n于是必须经过某种检验或者找出一个指标，在一定可靠程度下，根据指标值的大小，对拟合的优度进行评价。5.1 总离差n1、总平方和、回归平方和、残差平方和n2、总平方和的分解5.1.
36、1 总平方和（总变差）、回归平方和、残差平方和的定义nTSS度量Y自身的差异程度；ESS度量因变量Y的拟合值自身的差异程度，是总变差中由模型解释了的变差；RSS度量实际值与拟合值之间的差异程度，是总变差中没有得到解释的变差。222222)()()(iiiiiiieYYRSSyYYESSyYYTSS5.1.2 平方和分解：TSSESSRSS160165170175180185140150160170180190200YXyyYY yy Y正交分解正交分解YY YYYYYYYY平方和分解的意义nTSS=ESS+RSSn被解释变量Y总的变动（差异）=解释变量X引起的变动（差异）+除X以外的因素引起的
37、变动（差异）n如果X引起的变动在Y的总变动中占很大比例，那么X可以很好地解释了Y；否则，X不能很好地解释Y。5.2 可决系数（或称判定系数）n目的：企图构造一个不含单位，可以相互进行比较，而且能直观判断拟合优劣的指标。n可决系数的定义：n指标含义：可决系数越大，自变量对因变量的解释程度越高，自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。TSSRSSTSSESSTSSRSSTSSESSRSSESSTSSR112可决系数（续）n可决系数只是说明列入模型的所有解释变量对应变量的联合的影响程度，不说明模型中单个解释变量的影响程度。n可决系数取值范围：0,1n对时间序列数据，可决系数达
38、到0.9以上是很平常的；但是，对截面数据而言，能够有0.5就不错了。可决系数达到多少为宜？n没有一个统一的明确界限值；n若建模的目的是预测应变量值，一般需考虑有较高的可决系数。n若建模的目的是结构分析，就不能只追求高的可决系数，而是要得到总体回归系数的可信任的估计量。可决系数高并不一定每个回归系数都可信任；5.3 可决系数和相关系数的联系n数值上，可决系数等于应变量与解释变量之间简单相关系数的平方:2222222222222222()()()()()iiiiiiiiiiiiiyxx yxRyyxyx yrxy可决系数和相关系数的区别可决系数相关系数就模型而言就两个变量而言说明解释变量对应变量的
39、解释程度度量两个变量线性依存程度。度量不对称的因果关系度量不含因果关系的对称相关关系取值：0,1取值：1,15.4 自由度的分解（1）什么是自由度（2）对应于平方和分解的自由度的分解n自由度是指变量可以自由取值得个数，例如我们要测量学生的身高X，随机抽取10名学生，如果没有任何限制，则X可以自由取值10个值，自由度为10；但是如果我们限定10各同学的平均身高，那么随机抽取9名后，最后一名的身高则不能随意取值了，此时自由度减少一个，为10-1=9。这也是为什么我们在统计学里说修正的样本方差（除以n-1）为总体方差的无偏估计量。4.4.1 什么是自由度n模型中样本值可以自由变动的个数，称为自由度n
40、自由度=样本个数样本数据受约束条件（方程）的个数n例如，样本数据个数为n，它们受k个方程的约束（系数矩阵秩为k），那么，自由度df=n-kn在计量经济学中，对于一个包含k个解释变量的回归方程而言，待估计的参数个数为k+1（包括常数项），在我们根据最小残差平方和求偏导的过程中，会得到（k+1）个方程构成的方程组，这k+1个方程实际上构成了对残差的k+1个限制条件，所以凡是涉及到残差构成的统计量，自由度就会减少k+1个，例如显著性检验中的t检验和f检验的自由度等。例:TSS、RSS、ESS的自由度1)2()1(,220,0,)()(.1,1,)(22122122122nndfRSSTSSESSn
41、dfYneeXYYYRSSndfYnYYYTSSERiiiiiiTii知再由：约束所以，个个方程对方程求出，共有由而所以一个方程的约束受4.4.2 对应于平方和分解的自由度的分解n TSS =ESS +RSS n-1 1 n-2 总自由度dfT 回归自由度dfE 残差自由度dfRn自由度分解：dfT=dfE+dfR复习与提高Yi=a+bXi+uiYn Xn Y2 X2Y1 X1根据已知样本采用OLS得拟合直线拟合直线性质:过样本均值残差和=0残差与自变量无关拟合值与残差值无关R20TSS RSS ESS R2R21用直线反映总体GoodBadYY 第六节回归模型预测n本节主要介绍：n回归分
42、析结果的报告n应变量平均值的点预测、区间预测n应变量个别值的点预测、区间预测n对应变量预测结果的特点回顾：预测值、平均值、个别值的相互关系XYSRFPRF点预测值真实平均值E(YF/XF)个别值YF XF FYFeFu6.1 回归分析结果的报告n经过模型估计、检验，得到一系列的数据，一般用格式规范表示。例如：统计量统计量可决系数和自由度统计量标准误差DW F 2.3DW 202.87F 8df 9621.0R t (14.2605)(3.8128)tSE (0.0357)(6.4138)5566.04444.202iiXY6.2 应变量平均值的点预测、区间预测基本思想(1)计量经济预测是利用所
43、估计的样本回归模型，用解释变量的已知值或预测值，对预测期或样本以外的应变量作出定量的估计。(2)计量经济预测是一种条件预测：条件：a.所估计参数不变 b.模型设定关系不变 c.解释变量在预测期的取值已作出预测Y平均值的点预测：n将解释变量预测值直接代入估计的方程：n计算的是一个点估计值。FFXY21FYY平均值的区间预测预测值的区间估计）（代替，得到一个统计量用标准化的结果中是未知的，将因为一般）（可证服从正态分布。它本身也是随机变量，估计是有误差的，作为总体真实平均值2tt)2/()/(,)(21 ),/(N)/(222221222FnneYXXYExXXXYEYXYEYiFFFFiFF
44、FFFFY平均值的区间预测（续）)()2(t ),()2(t-)/(-1)()2(t)/()()2(t-P-1)2(t)()/()2(tP ),2(t)2()()/(2/2/2/2/2/2/2/FFFFFFFFFFFFFFFFFFFFFYsenYYsenYXYEYYsenYXYEYsenYnYseXYEYnnntYseXYEYt的区间估计：平均值于是得由此有：值，查表得这样，给定有：6.3 应变量个别值的点预测、区间预测n基本思想（1）既是Y平均值的点预测，也是对Y个别值YF的点预测。（2）由于存在随机扰动的影响，Y的平均值并不等于Y的个别值（3）为了对Y的个别值YF作区间预测，需要寻找
45、与预测值和个别值YF有关的统计量，并要明确其概率分布。iYiuFY应变量个别值区间预测)2()()()()(11 ,0(22222nteseYYeseeEetexXXnNeYYYYeFFFFFFFiFFFFFFF标准化，得：，对代替用都有关的变量，易得和是与已知剩余项应变量个别值区间预测（续）)()2(),()2(1 Y1)()2()()2(),2(2/2/F2/2/2/FFFFFFFFFesentYesentYesentYYesentYPnt的区间估计：的个别值的置信度为由此可得，则有：，查表得给定显著性水平6.4 应变量Y区间预测的特点nY平均值的预测值与真实平均值有误差，主要是受到抽样波动的影响；Y个别值的预测值与真实值的差异，不仅受到抽样波动的影响，还受到随机扰动项的影响。n平均值和个别值预测区间都是随机变量，是随着XF 的变化而变化的。n预测区间与样本容量有关，当样本容量无限增大时，个别值的预测误差只决定于随机扰动的方差。应变量Y区间预测的特点，图示如下Y的个别值的置信区间FXY均值的置信区间SRFXYX时，置信区间最小当XXFnEviews预测举例

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第二章简单线性回归课件.ppt
链接地址：https://www.163wenku.com/p-3524002.html

三亚风情

内容提供者

实名认证

联系作者