第9章-含定性变量的回归模型课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第9章-含定性变量的回归模型课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 定性 变量 回归 模型 课件
- 资源描述:
-
1、第九章第九章 含定性变量的回归模型含定性变量的回归模型 9.1 自变量中含有定性变量的回归模型9.2 自变量定性变量回归模型的应用9.3 因变量是定性变量的回归模型9.4 Logistic(逻辑斯蒂)回归9.5 多类别Logistic回归9.6 因变量是顺序变量的回归9.7 本章小结与评注 在实际问题研究中,常常遇见一些非数量型变量,如:性别,民族,正常年份,干旱年份,战争与和平,改革前,改革后等,在建立一个经济问题的回归方程时,常常考虑这些定性变量,如建立粮食产量预测方程就应考虑到正常年份与受灾年份的不同影响。本章主要介绍自变量含定性变量的回归模型和因变量是定性变量的回归 模型。9.1 自变
2、量中含有定性变量的回归模型一、简单情况一、简单情况 首先讨论定性变量只取两类可能值的情况,例如研究粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气候问题,分为正常年份和干旱年份两种情况,对这个问题的数量化方法是引入一个0-1型变量D,令:Di=1表示正常年份Di=0表示干旱年份 在回归分析中,对一些自变量是定性变量的情形先给予数量比处理,处理方法是引进0和1两个值的虚拟自变量将定性变量数量化。当某一属性出现时,虚拟变量值为1,否则取值为0。虚拟变量也称哑变量。粮食产量的回归模型为:yi=0+1xi+2Di+i其中干旱年份的粮食平均产量为:E(yi|Di=0)=0+1xi正常年份的粮食平均产
3、量为:E(yi|Di=1)=(0+2)+1xi 例例9.19.1 某经济学家想调查文化程度对家庭储蓄的影响,在一个中等收入的样本框中,随机调查了13户高学历家庭与14户中低学历的家庭,因变量y为上一年家庭储蓄增加额,自变量x1为上一年家庭总收入,自变量x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0,调查数据见表9.1:序号y(元)x1(万元)x212352.3023463.2133652.8044683.5156582.6068673.21710852.602389503.902498654.802598664.6026102354.8027101404.20表表9.1ANOVA29
4、0372875.9242145186437.96287.425.00039856639.705241660693.321330229515.63026RegressionResidualTotalModel1Sum of SquaresdfMean SquareFSig.建立y对x1、x2的线性回归Model Summary.938a.879.8691288.68Model1RR SquareAdjusted RSquareStd.Errorof theEstimatePredictors:(Constant),X2,X1a.Coefficients-7976.8091093.445-7.29
5、5.0003826.129304.591.92112.562.000-3700.330513.445-.529-7.207.000(Constant)X1X2BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.两个自变量x1与x2的系数都是显著的,判定系数R2=0.879,回归方程为:=-7976+3826x1-3700 x2y 这个结果表明,中等收入的家庭每增加1万元收入,平均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少于低学历的家庭,平均少3700元。如果不引入家庭学历定性变量x2,仅用y对家庭年
6、收入x1做一元线性回归,得判定系数R2=0.618,拟合效果不好。家庭年收入x1是连续型变量,它对回归的贡献也是不可缺少的。如果不考虑家庭年收入这个自变量,13户高学历家庭的平均年储蓄增加额为3009.31元,14户低学历家庭的平均年储蓄增加额为5059.36元,这样会认为高学历家庭每年的储蓄额比低学历的家庭平均少5059.36-3009.31=2050.05元,而用回归法算出的数值是3824元,两者并不相等。用回归法算出的高学历家庭每年的平均储蓄额比低学历的家庭平均少3824元,这是在假设两者的家庭年收入相等的基础上的储蓄差值,或者说是消除了家庭年收入的影响后的差值,因而反映了两者储蓄额的真
7、实差异。而直接由样本计算的差值2050.05元是包含有家庭年收入影响在内的差值,是虚假的差值。所调查的13户高学历家庭的平均年收入额为3.8385万元,14户低学历家庭的平均年收入额为3.4071万元,两者并不相等。二、复杂情况二、复杂情况某些场合定性自变量可能取多类值,例如某商厦策划营销方案,需要考虑销售额的季节性影响,季节因素分为春、夏、秋、冬4种情况。为了用定性自变量反应春、夏、秋、冬四季,我们初步设想引入如下4个0-1自变量:其它春季 ,0 ,111xx其它季 ,0 夏 ,122xx其它季 ,0 秋 ,133xx其它季 ,0 冬 ,144xx 可是这样做却产生了一个新的问题,即x1+x
8、2+x3+x4=1,构成完全多重共线性。解决这个问题的方法很简单,我们只需去掉一个0-1型变量,只保留3个0-1型自变量即可。例如去掉x4,只保留x1、x2、x3。对一般情况,一个定性变量有k类可能的取值时,需要引入k-1个0-1型自变量。当k=2时,只需要引入一个0-1型自变量即可。9.2 自变量定性变量回归模型的应用一、分段回归一、分段回归 在实际问题中,我们会碰到某些变量在不同的影响因素范围内变化趋势截然不同。对这种问题,有时用多种曲线拟合效果仍不能令人满意。如果做残差分析,会发现残差不是随机的,而具有一定的系统性,对这类问题,自然考虑用分段回归的方法做处理。例例9.2 表9.3给出某工
9、厂生产批量xi与单位成本yi(美元)的数据。试用分段回归建立回归模型。序号yX(=x1)x212.5765015024.4340034.52400041.3980030054.75300063.555707072.4972022083.774800 x(批 量)900800700600500400300200y(单 位 成 本)5.04.54.03.53.02.52.01.51.0图图9.1 单位成本对批量散点图单位成本对批量散点图 由图9.1可看出数据在生产批量xp=500时发生较大变化,即批量大于500时成本明显下降。我们考虑由两段构成的分段线性回归,这可以通过引入一个0-1型虚拟自变量实
10、现。假定回归直线的斜率在xp=500处改变,建立回归模型 yi=0+1xi+2(xi-500)Di+i来拟合,其中500 x 当 0,D500 x 当 ,1Diiii引入两个新的自变量 xi1=xi xi2=(xi-500)Di这样回归模型转化为标准形式的二元线性回归模型:yi=0+1xi1+2xi2+i (9.3)(9.3)式可以分解为两个线性回归方程:当x1500时,E(y)=0+1x1当x1500时,E(y)=(0-5002)+(1+2)x1 用普通最小二乘法拟合模型(9.3)式得回归方程为:=5.895-0.00395x1-0.00389x2 利用此模型可说明生产批量小于500时,每增
11、加1个单位批量,单位成本降低0.00395美元;当生产批量大于500时,每增加1个单位批量,估计单位成本降低0.00395+0.00389=0.00784(美元)。y 以上只是根据散点图从直观上判断本例数据应该用折线回归拟合,这一点还需要做统计的显著性检验,这只需对(9.2)式的回归系数2做显著性检验。对2的显著性检验的显著性概率Sig=0.153,2没有通过显著性检验,不能认为2非零。用y对x做一元线性回归,计算结果为:Coefficients6.795.32420.963.000-6.318E-03.001-.976-10.90.000(Constant)XBStd.ErrorUnstan
12、dardizedCoefficientsBetaStandardizedCoefficientstSig.二、回归系数相等的检验二、回归系数相等的检验 例例9.39.3 回到例9.1的问题,例9.1引入0-1型自变量的方法是假定储蓄增加额y对家庭收入的回归斜率1与家庭年收入无关,家庭年收入只影响回归常数项0,这个假设是否合理,还需要做统计检验。检验方法是引入如下含有交互效应的回归模型:yi=0+1xi1+2xi2+3xi1xi2+i(9.8)其中y为上一年家庭储蓄增加额,x1为上一年家庭总收入,x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0。回归模型(9.8)式可以分解为对高学历和对
13、低学历家庭的两个线性回归模型,分别为:高学历家庭x2=1,yi=0+1xi1+2+3xi1+i =(0+2)+(1+3)xi1+i低学历家庭x2=0,yi=0+1xi1+i 要检验两个回归方程的回归系数(斜率)相等,等价于检验H0:3=0,当拒绝H0时,认为30,这时高学历与低学历家庭的储蓄回归模型实际上被拆分为两个不同的回归模型。当接受H0时,认为3=0,这时高学历与低学历家庭的储蓄回归模型是如下形式的联合回归模型:yi=0+1xi1+2xi2+iCoefficients-8763.9361270.878-6.896.0004057.151359.284.97711.292.000-776.
14、9392514.459-.111-.309.760-787.564663.367-.443-1.187.247(Constant)X1X2X3BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.9.3 因变量是定性变量的回归模型 在许多社会经济问题中,所研究的因变量往往只有两个可能结果,这样的因变量也可用虚拟变量来表示,虚拟变量的取值可取0或1。一、定性因变量的回归方程的意义一、定性因变量的回归方程的意义 设因变量y是只取0,1两个值的定性变量,考虑简单线性回归模型yi=0+1xi+i(9.12)在这种y只取
15、0,1两个值的情况下,因变量均值E(yi)=0+1xi有着特殊的意义。由于yi是0-1型贝努利随机变量,则得如下概率分布:P(yi=1)=i P(yi=0)=1-i根据离散型随机变量期望值的定义,可得E(yi)=1(i)+0(1-i)=i (9.13)得到 E(yi)=i=0+1xi二、定性因变量回归的特殊问题二、定性因变量回归的特殊问题 1.离散非正态误差项。对一个取值为0和1的因变量,误差项i=yi-(0+1xi)只能取两个值:当yi=1时,i=1-0-1xi=1-i 当yi=0时,i=-0-1xi=-i 显然,误差项i是两点型离散分布,当然正态误差回归模型的假定就不适用了。2.零均值异方
展开阅读全文