简单线性回归模型课件2.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《简单线性回归模型课件2.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 简单 线性 回归 模型 课件
- 资源描述:
-
1、第二章第二章 简单线性回归模型简单线性回归模型 定义 模型的假设 参数估计 OLS的代数性质 拟合优度 测量单位和函数形式 OLS的统计性质 其它第1页,共68页。说明说明 目前主要关注横截面数据的回归分析 截面数据是一个随机样本。每一个观察是一个新的个人、企业或者其他的个体,这些个体在某个同一时点上的信息被记录下来。如果样本不是随机的,那么就出现了样本选择性问题(sample-selection problem)第2页,共68页。obsnowageeducexperfemalemarried13.101121023.2412221133.001120046.008440155.3012701
2、52511.56165015263.5014510第3页,共68页。所谓横截面数据集,就是在给定时点对个人、家庭、企业、城市、州、国家或一系列其他单位采集的样本所构成的数据集。有时,所有单位的数据并非完全对应于同一时间段。例如,几个家庭可能在一年中的不同星期被调查。在一个纯粹的横截面分析中,我们应该忽略数据搜集中细小的时间差别。如果一系列家庭都是在同一年度的不同星期被调查的,那我们仍视之为横截面数据集。第4页,共68页。横截面数据的一个重要特征是,我们通常可以假定,它们是从样本背后的总体中通过随机抽样(random sampling)而得到的。例如,如果我们通过随机地从工人总体中抽取500人,
3、并得到其有关工资、受教育程度、工作经历和其他特征方面的信息,那我们就得到所有工人构成的总体的一个随机样本。随机抽样是初级统计学教程中所讲授的抽样方案,而且它使得对横截面数据的分析大为简化。第5页,共68页。有时,以随机抽样作为对横截面数据的一个假定并不适当。例如,假设我们对研究影响家庭财富积累的因素感兴趣,虽然我们可以调查家庭的一个随机样本,但有些家庭可能拒绝报告其财富。比方说,如果越是富裕的家庭就越不愿意暴露其财富,那么由此得到的财富样本,就不是由所有家庭构成的总体的一个随机样本。这是对样本选择问题的一个解释。第6页,共68页。简单回归模型的定义简单回归模型的定义 简单回归模型可以用来研究两
4、个变量之间的关系。出于某些原因,简单回归模型要作为经验性分析的一般工具,还存在着局限性。但是在某些情况下,把它当作经验工具来使用,还是非常适宜的。学会解释简单回归模型,对于我们接下来要学习的多元回归模型,无疑也是非常好的练习。第7页,共68页。应用计量经济学分析大多都是从如下假设前提开始的:y和x是代表某一个总体的两个变量,我们感兴趣的是用x来解释y,或者说是研究y如何随x而变化。一些例子:y是大豆的产出,x是化肥的用量;y是每小时的工资,x是受教育的年数;y是社区的犯罪率,x是警察的数量,等等。简单回归模型的定义简单回归模型的定义 第8页,共68页。简单回归模型的定义简单回归模型的定义 在写
5、出用x解释y的模型时,我们要面临三个问题。首先,既然两个变量之间没有一个确切的关系,那么我们应该如何考虑其他影响y的因素呢?第二,y和x的函数关系是怎样的呢?第三,我们怎样知道是否抓住了在其他条件不变的情况下y和x之间的关系(如果这是我们所追求的目标的话)呢?第9页,共68页。简单回归模型的定义简单回归模型的定义 我们可以通过写出关于y和x的一个方程来消除这些疑惑。一个简单的方程是:y=b0+b1x+u(2.1)且假定方程(2.1)在我们所关注的某个总体中成立,它定义了一个简单线性回归模型(simple linear regression model)。因为它把两个变量x和y联系起来,所以又把
6、它叫做两变量或者双变量线性回归模型。我们现在来讨论等式(2.1)中每个量的含义。第10页,共68页。在简单线性回归模型y=b0+b1x+u中,统称y为:因变量(Dependent Variable)或 响应变量(response variable)或 被解释变量(Explained Variable)或 被预测变量(predicted variable)或 回归子(regressand)几个术语几个术语第11页,共68页。几个术语几个术语 在y对x的简单线性回归中,通常称x为:自变量(Independent Variable)或 解释变量(Explanatory Variable)或 回归量(
7、元)(Regressor)或 协变量(Covariate)或 预测元(predictor variable)控制变量(Control Variables)第12页,共68页。说明:“自变”(independent)与统计学概念里面随机变量之间的独立(independency)有所不同。第13页,共68页。yx因变量自变量被解释变量解释变量响应变量控制变量被预测变量预测变量回归子回归元几个术语几个术语第14页,共68页。几个术语几个术语 在简单线性回归模型y=b0+b1x+u中,我们称u为误差项或随机扰动项。表示除x之外影响y的其他所有非观测因素。一个简单回归分析能够有效地处理除x之外其他所有影
8、响y的非观测因素。也可以把u看作是“观测不到的”因素。第15页,共68页。误差项或随机扰动项的来源:被忽略的因素 测量误差 随机误差 模型的设定误差第16页,共68页。等式y=b0+b1x+u同样表述了y和x之间的函数关系。如果u中的其他因素被看作是保持不变的,就意味着u的变化为零,即 ,那么x对y具有线性影响,其表述如下:如果 ,那么 (2.2)几个术语几个术语0u 0u xy1b第17页,共68页。(2.2)意味着y的变化量是 b1和x的变化量的简单乘积。这就是说,保持u中其他因素不变,b1就是y和x的关系式中的斜率参数(slope parameter),在应用经济学中,它是人们研究的主要
9、兴趣所在。截距参数(intercept parameter)b0 也有它的作用,但很少被当作分析研究的主要部分。第18页,共68页。例2.1 大豆产出和施肥量 假使大豆的产出由以下模型所决定:(2.3)y=产出而x=施肥量。农业研究者对其他因素不变时化肥用量如何影响大豆产出量感兴趣。影响的效果由b1 给出,误差项u包括了诸如土地质量、降雨量等因素。系数 b0度量了在其他条件不变的情况下施肥量对产出量的影响:01yieldfertilizerubb1yieldfertilizerb第19页,共68页。例2.2 一个简单的工资方程 以下模型表示一个人的工资水平与他的可测教育水平及其他非观测因素的关
10、系:(2.4)如果工资和教育分别以每小时美元数和受教育的年数来计量,那么b1度量了在其他条件不变的情况下每增加一年教育所获得的小时工资增长量。其他非观测因素则包括劳动力的经验、天生的素质、在现任雇主之下供职的时间、工作道德以及无数的其他因素。ueducwage10bb第20页,共68页。等式(2.1)的线性性显示:不管x的初始值为多少,它的任何一单位变化对y的影响都是相同的。这对许多经济学应用来说是非常不现实的。例如:在工资教育的例子中,我们或许还要考虑到递增的回报,就是说:后一年的教育比前一年的教育对工资的影响更大。后面我们会研究如何考虑这种可能性。第21页,共68页。最困难的问题最困难的问
11、题 模型(2.1)是否真的能让我们得到关于x如何在其他条件不变下影响y的结论?从等式(2.2)我们可以看到,保持u中的其他所有条件不变,b1确实能够度量x对y的影响。但我们对这个因果问题的讨论可以就此结束吗?非常不幸,还不行。一般地说,怎样能在保持其他因素固定的同时又忽略所有这些其他因素,以得到在其他条件不变下x对y的影响呢?第22页,共68页。只有当我们对非观测的u与解释变量x之间的关系加以约束时,才能从一些数据的随机样本中获得b0和b1的可靠估计量。没有这样一个约束,我们就不能估计出在其他条件不变下的影响b1。因为u和x都是随机变量,所以我们需要一个基于概率的概念。第23页,共68页。一个
12、简单的假设一个简单的假设 关于u的假定。只要截距被包括在等式之中,假设总体中u的平均值为0就不会失掉什么。用数学形式来表示就是:E(u)=0(2.5)。换言之,在y=b0+b1x+u中误差项u的平均值在总体中应为0。(2.5)并没有说出u和x的关系,只是简单地说明了总体中非观测变量的分布。因此其限制性并不是特别强。而且,容易证明总能够通过重新定义等式(2.1)中的截距b0把E(u)标准化为0。第24页,共68页。在例2.1中,我们把诸如土地质量这样的对大豆产出有影响而观测不到的因素进行标准化,使其在所有耕种的地区平均值为零,对结果不会有损失。例2.2中非观测因素的情形也与此相同。为不失一般性,
13、我们可以假定在所有的工作人员构成的样本中诸如平均能力这样的因素为零。第25页,共68页。例题:在简单线性回归模型y=b0+b1x+u中,假定E(u)0。令E(u)=0,证明:这个模型总可以改写为另一种形式,斜率与原来的相同,但是截距和误差有所不同,并且新的误差项有一个零期望值。证明:方程y=b0+b1x+u中,在方程右边同时加减 0,可得y=(0+b0)+b1x+(u0)。令新的误差项为e=u0,容易证明E(e)=0。新的截距为 0+b0,但斜率依然为b1。第26页,共68页。关于关于u和和x的关系的关键性假定的关系的关键性假定 测度两个随机变量的关系的非常自然的方法是相关系数。如果u和x不相
14、关,那么作为随机变量,他们就没有线性关系。为了界定方程(2.1)中的u和x没有关系而作出u和x不相关(或没有相关关系)的假定,虽然迈出了一大步,但还走得不够远。因为相关关系只是度量u和x之间的线性相依性。而相关关系有着与我们的直觉相违的性质,如:u与x不相关,但是却可能与x的函数比如说x2相关。对于大部分做回归的目的来说,这种可能性是不可接受的,因为它会在解释模型和推导统计学性质时出现问题。第27页,共68页。需要一个关键假设来约定u和x之间的关系。我们希望关于x的信息不会透露关于u的任何信息,也就是说,两者应该是完全无关的。关于关于u和和x的关系的关键性假定的关系的关键性假定第28页,共68
15、页。关于关于u和和x的关系的关键性假定的关系的关键性假定 因为u和x是随机变量,所以我们能够在任何给定的x值下得到u的条件分布。具体地说,对于任何一个x值,我们都能够在x的值所描述的总体剖面上求得u的期望(或平均)值。因此,一种好的方法是对给定x时u的期望值作出假定。故关键的假定是:u的平均值不依赖于x值。也即:E(u|x)=E(u)=0(2.6)也就意味着:E(y|x)=b0+b1x第29页,共68页。等式(2.6)中的第一个相等关系E(u|x)=E(u)是一个新的假定,叫做零条件均值假定(zero conditional mean assumption)。这就是说,对任何给定的x值,非观测
展开阅读全文