书签 分享 收藏 举报 版权申诉 / 75
上传文档赚钱

类型第9章-含定性变量的回归模型课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4643103
  • 上传时间:2022-12-28
  • 格式:PPT
  • 页数:75
  • 大小:1.27MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第9章-含定性变量的回归模型课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    定性 变量 回归 模型 课件
    资源描述:

    1、第九章第九章 含定性变量的回归模型含定性变量的回归模型 9.1 自变量中含有定性变量的回归模型9.2 自变量定性变量回归模型的应用9.3 因变量是定性变量的回归模型9.4 Logistic(逻辑斯蒂)回归9.5 多类别Logistic回归9.6 因变量是顺序变量的回归9.7 本章小结与评注 在实际问题研究中,常常遇见一些非数量型变量,如:性别,民族,正常年份,干旱年份,战争与和平,改革前,改革后等,在建立一个经济问题的回归方程时,常常考虑这些定性变量,如建立粮食产量预测方程就应考虑到正常年份与受灾年份的不同影响。本章主要介绍自变量含定性变量的回归模型和因变量是定性变量的回归 模型。9.1 自变

    2、量中含有定性变量的回归模型一、简单情况一、简单情况 首先讨论定性变量只取两类可能值的情况,例如研究粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气候问题,分为正常年份和干旱年份两种情况,对这个问题的数量化方法是引入一个0-1型变量D,令:Di=1表示正常年份Di=0表示干旱年份 在回归分析中,对一些自变量是定性变量的情形先给予数量比处理,处理方法是引进0和1两个值的虚拟自变量将定性变量数量化。当某一属性出现时,虚拟变量值为1,否则取值为0。虚拟变量也称哑变量。粮食产量的回归模型为:yi=0+1xi+2Di+i其中干旱年份的粮食平均产量为:E(yi|Di=0)=0+1xi正常年份的粮食平均产

    3、量为:E(yi|Di=1)=(0+2)+1xi 例例9.19.1 某经济学家想调查文化程度对家庭储蓄的影响,在一个中等收入的样本框中,随机调查了13户高学历家庭与14户中低学历的家庭,因变量y为上一年家庭储蓄增加额,自变量x1为上一年家庭总收入,自变量x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0,调查数据见表9.1:序号y(元)x1(万元)x212352.3023463.2133652.8044683.5156582.6068673.21710852.602389503.902498654.802598664.6026102354.8027101404.20表表9.1ANOVA29

    4、0372875.9242145186437.96287.425.00039856639.705241660693.321330229515.63026RegressionResidualTotalModel1Sum of SquaresdfMean SquareFSig.建立y对x1、x2的线性回归Model Summary.938a.879.8691288.68Model1RR SquareAdjusted RSquareStd.Errorof theEstimatePredictors:(Constant),X2,X1a.Coefficients-7976.8091093.445-7.29

    5、5.0003826.129304.591.92112.562.000-3700.330513.445-.529-7.207.000(Constant)X1X2BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.两个自变量x1与x2的系数都是显著的,判定系数R2=0.879,回归方程为:=-7976+3826x1-3700 x2y 这个结果表明,中等收入的家庭每增加1万元收入,平均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少于低学历的家庭,平均少3700元。如果不引入家庭学历定性变量x2,仅用y对家庭年

    6、收入x1做一元线性回归,得判定系数R2=0.618,拟合效果不好。家庭年收入x1是连续型变量,它对回归的贡献也是不可缺少的。如果不考虑家庭年收入这个自变量,13户高学历家庭的平均年储蓄增加额为3009.31元,14户低学历家庭的平均年储蓄增加额为5059.36元,这样会认为高学历家庭每年的储蓄额比低学历的家庭平均少5059.36-3009.31=2050.05元,而用回归法算出的数值是3824元,两者并不相等。用回归法算出的高学历家庭每年的平均储蓄额比低学历的家庭平均少3824元,这是在假设两者的家庭年收入相等的基础上的储蓄差值,或者说是消除了家庭年收入的影响后的差值,因而反映了两者储蓄额的真

    7、实差异。而直接由样本计算的差值2050.05元是包含有家庭年收入影响在内的差值,是虚假的差值。所调查的13户高学历家庭的平均年收入额为3.8385万元,14户低学历家庭的平均年收入额为3.4071万元,两者并不相等。二、复杂情况二、复杂情况某些场合定性自变量可能取多类值,例如某商厦策划营销方案,需要考虑销售额的季节性影响,季节因素分为春、夏、秋、冬4种情况。为了用定性自变量反应春、夏、秋、冬四季,我们初步设想引入如下4个0-1自变量:其它春季 ,0 ,111xx其它季 ,0 夏 ,122xx其它季 ,0 秋 ,133xx其它季 ,0 冬 ,144xx 可是这样做却产生了一个新的问题,即x1+x

    8、2+x3+x4=1,构成完全多重共线性。解决这个问题的方法很简单,我们只需去掉一个0-1型变量,只保留3个0-1型自变量即可。例如去掉x4,只保留x1、x2、x3。对一般情况,一个定性变量有k类可能的取值时,需要引入k-1个0-1型自变量。当k=2时,只需要引入一个0-1型自变量即可。9.2 自变量定性变量回归模型的应用一、分段回归一、分段回归 在实际问题中,我们会碰到某些变量在不同的影响因素范围内变化趋势截然不同。对这种问题,有时用多种曲线拟合效果仍不能令人满意。如果做残差分析,会发现残差不是随机的,而具有一定的系统性,对这类问题,自然考虑用分段回归的方法做处理。例例9.2 表9.3给出某工

    9、厂生产批量xi与单位成本yi(美元)的数据。试用分段回归建立回归模型。序号yX(=x1)x212.5765015024.4340034.52400041.3980030054.75300063.555707072.4972022083.774800 x(批 量)900800700600500400300200y(单 位 成 本)5.04.54.03.53.02.52.01.51.0图图9.1 单位成本对批量散点图单位成本对批量散点图 由图9.1可看出数据在生产批量xp=500时发生较大变化,即批量大于500时成本明显下降。我们考虑由两段构成的分段线性回归,这可以通过引入一个0-1型虚拟自变量实

    10、现。假定回归直线的斜率在xp=500处改变,建立回归模型 yi=0+1xi+2(xi-500)Di+i来拟合,其中500 x 当 0,D500 x 当 ,1Diiii引入两个新的自变量 xi1=xi xi2=(xi-500)Di这样回归模型转化为标准形式的二元线性回归模型:yi=0+1xi1+2xi2+i (9.3)(9.3)式可以分解为两个线性回归方程:当x1500时,E(y)=0+1x1当x1500时,E(y)=(0-5002)+(1+2)x1 用普通最小二乘法拟合模型(9.3)式得回归方程为:=5.895-0.00395x1-0.00389x2 利用此模型可说明生产批量小于500时,每增

    11、加1个单位批量,单位成本降低0.00395美元;当生产批量大于500时,每增加1个单位批量,估计单位成本降低0.00395+0.00389=0.00784(美元)。y 以上只是根据散点图从直观上判断本例数据应该用折线回归拟合,这一点还需要做统计的显著性检验,这只需对(9.2)式的回归系数2做显著性检验。对2的显著性检验的显著性概率Sig=0.153,2没有通过显著性检验,不能认为2非零。用y对x做一元线性回归,计算结果为:Coefficients6.795.32420.963.000-6.318E-03.001-.976-10.90.000(Constant)XBStd.ErrorUnstan

    12、dardizedCoefficientsBetaStandardizedCoefficientstSig.二、回归系数相等的检验二、回归系数相等的检验 例例9.39.3 回到例9.1的问题,例9.1引入0-1型自变量的方法是假定储蓄增加额y对家庭收入的回归斜率1与家庭年收入无关,家庭年收入只影响回归常数项0,这个假设是否合理,还需要做统计检验。检验方法是引入如下含有交互效应的回归模型:yi=0+1xi1+2xi2+3xi1xi2+i(9.8)其中y为上一年家庭储蓄增加额,x1为上一年家庭总收入,x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0。回归模型(9.8)式可以分解为对高学历和对

    13、低学历家庭的两个线性回归模型,分别为:高学历家庭x2=1,yi=0+1xi1+2+3xi1+i =(0+2)+(1+3)xi1+i低学历家庭x2=0,yi=0+1xi1+i 要检验两个回归方程的回归系数(斜率)相等,等价于检验H0:3=0,当拒绝H0时,认为30,这时高学历与低学历家庭的储蓄回归模型实际上被拆分为两个不同的回归模型。当接受H0时,认为3=0,这时高学历与低学历家庭的储蓄回归模型是如下形式的联合回归模型:yi=0+1xi1+2xi2+iCoefficients-8763.9361270.878-6.896.0004057.151359.284.97711.292.000-776.

    14、9392514.459-.111-.309.760-787.564663.367-.443-1.187.247(Constant)X1X2X3BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.9.3 因变量是定性变量的回归模型 在许多社会经济问题中,所研究的因变量往往只有两个可能结果,这样的因变量也可用虚拟变量来表示,虚拟变量的取值可取0或1。一、定性因变量的回归方程的意义一、定性因变量的回归方程的意义 设因变量y是只取0,1两个值的定性变量,考虑简单线性回归模型yi=0+1xi+i(9.12)在这种y只取

    15、0,1两个值的情况下,因变量均值E(yi)=0+1xi有着特殊的意义。由于yi是0-1型贝努利随机变量,则得如下概率分布:P(yi=1)=i P(yi=0)=1-i根据离散型随机变量期望值的定义,可得E(yi)=1(i)+0(1-i)=i (9.13)得到 E(yi)=i=0+1xi二、定性因变量回归的特殊问题二、定性因变量回归的特殊问题 1.离散非正态误差项。对一个取值为0和1的因变量,误差项i=yi-(0+1xi)只能取两个值:当yi=1时,i=1-0-1xi=1-i 当yi=0时,i=-0-1xi=-i 显然,误差项i是两点型离散分布,当然正态误差回归模型的假定就不适用了。2.零均值异方

    16、差性。当因变量是定性变量时,误差项i仍然保持零均值,这时出现的另一个问题是误差项i的方差不相等。0-1型随机变量i的方差为 D(i)=D(yi)=i(1-i)=(0+1xi)(1-0-1xi)(9.14)i的方差依赖于xi,是异方差,不满足线性回归方程的基本假定。3.回归方程的限制 当因变量为0、1虚拟变量时,回归方程代表概率分布,所以因变量均值受到如下限制:E(yi)=i1 对一般的回归方程本身并不具有这种限制,线性回归方程yi=0+1xi将会超出这个限制范围。9.4 Logistic回归模型回归模型 一、分组数据的一、分组数据的Logistic回归模型回归模型 针对0-1型因变量产生的问题

    17、,我们对回归模型应该做两个方面的改进。第一,回归函数应该改用限制在0,1区间内的连续曲线,而不能再沿用直线回归方程。限制在0,1区间内的连续曲线有很多,例如所有连续型随机变量的分布函数都符合要求,我们常用的是Logistic函数与正态分布函数。Logistic函数的形式为 xxxeeexf111)(Logistic函数的中文名称是逻辑斯谛函数,或简称逻辑函数。第二,因变量yi本身只取0、1两个离散值,不适于直接作为回归模型中的因变量。由于回归函数E(yi)=i=0+1xi表示在自变量为xi的条件下yi的平均值,而yi是0-1型随机变量,因而E(yi)=i就是在自变量为xi的条件下yi等于1的比

    18、例。这提示我们可以用yi等于1的比例代替yi本身作为因变量。下面通过一个例子来说明Logistic回归模型的应用。例例9.4 在一次住房展销会上,与房地产商签定初步购房意向书的共有n=325名顾客中,在随后的3个月的时间内,只有一部分顾客确实购买了房屋。购买了房屋的顾客记为1,没有购买房屋的顾客记为0。以顾客的年家庭收入(万元)为自变量x,对如下的数据,建立Logistic回归模型 Logistic回归方程为 cixxpiii,2,1,)exp(1)exp(1010其中c为分组数据的组数,本例c=9。做线性化变换,令)1ln(iiippp上式的变换称为逻辑(Logit)变换,得 pi=0+1x

    19、i+i(9.16)(9.18)(9.17)计算出经验回归方程为-0.886+0.156x (9.19)判定系数r2=0.9243,显著性检验P值0,高度显著。还原为(9.16)式的Logistic回归方程为)156.0886.0exp(1)156.0886.0exp(xxpi p 利用(9.20)式可以对购房比例做预测,例如对x0=8,590.0436.11436.1)8156.0886.0exp(1)8156.0886.0exp(ip 我们用Logistic回归模型成功地拟合了因变量为定性变量的回归模型,但是仍然存在一个不足之处,就是异方差性并没有解决,(9.18)式的回归模型不是等方差的,

    20、应该对(9.18)式用加权最小二乘估计。当ni较大时,pi的近似方差为:)1(1)(iiiinpD其中i=E(yi),因而选取权数为:wi=nipi(1-pi)用加权最小二乘法得到的Logistic回归方程为)149.0849.0exp(1)149.0849.0exp(xxpi对x0=8时的购房比例做预测585.0409.11409.1)8149.0849.0exp(1)8149.0849.0exp(ip二、未分组数据的二、未分组数据的Logistic回归模型回归模型 设y是0-1型变量,x1,x2,xp是与y相关的确定性变量,n组观测数据为(xi1,xi2,xip;yi),i=1,2,n,y

    21、i与xi1,xi2,xip的关系为:E(yi)=i=f(0+1xi1+2xi2+pxip)其中函数f(x)是值域在0,1区间内的单调增函数。对于Logistic回归xxeexf1)(于是yi是均值为i=f(0+1xi1+2xi2+pxip)的0-1型分布,概率函数为:P(yi=1)=i P(yi=0)=1-i 可以把yi的概率函数合写为:iyyiiiiyP1)1()(i=1,2,n于是y1,y2,yn的似然函数为:niniiiiiiyyyPL111)1()(niiiiiiiniiiyyyL11)1ln()1(ln)1ln()1(lnln)exp(1)exp(110110ippiippiixxx

    22、x代入得)exp(1ln()(ln1101110ippiniippiixxxxyL对数似然函数Logistic回归极大似然估计就是选取0,1,2,p的估计值使上式达极大。例例9.5 9.5 在一次关于公共交通的社会调查中,一个调查项目是“是乘坐公共汽车上下班,还是骑自行车上下班。”因变量y=1表示主要乘坐公共汽车上下班,y=0表示主要骑自行车上下班。自变量x1是年龄,作为连续型变量;x2是月收入(元);x3是性别,x3=1表示男性,x3=0表示女性。调查对象为工薪族群体,数据见表9.9,试建立y与自变量间的Logistic回归。序号性别年龄 月收入y序号性别年龄 月收入y10188500151

    23、2010000202112000161251200030238501171271300040239501181281500050281200119130950160318500201321000070361500121133180008042100012213310000904695012313812000100481200024141150001105518001251451800112056210012614810000130581800127152150011411885002815618001以下是SPSS软件部分运行结果:22)(.jjDESBWaldX2(月收入)不显著,将其剔除。

    24、最终的回归方程为:)1023.02239.26285.2exp(1)1023.02239.26285.2exp(AGESEXAGESEXpi三、三、Probit回归模型回归模型 Probit回归称为单位概率回归,与Logistic回归相似,也是拟合0-1型因变量回归的方法,其回归函数是1011()iipipxx1011()iipipipxx【例例9.6】仍然使用例9.4购房数据得回归方程:1()0.5520.0970ipx 或等价地表示为:(0.5520.0970)ipx 对x0=80(0.5520.0970 8)(0.224)0.589p SPSS软件提供了对分组数据拟合Probit回归。1

    25、()0.531770.09354ipx 得 在SPSS软件的Probit回归对话框,可以看到一个Logit选项,用这个选项可以对分组数据做Logistic回归。对此例计算出的Logistic回归方程是0.851780.14982px 这也是使用数值计算的最大似然估计,与用最小二乘法所得到的Logistic回归方程)156.0886.0exp(1)156.0886.0exp(xxp很接近。)14982.085178.0exp(1)14982.085178.0exp(xxp9.5 多类别多类别Logistic回归回归 当定性因变量y取k个类别时,记为1,2,k。因变量y取值于每个类别的概率与一组自

    26、变量x1,x2,xp有关,对于样本数据(xi1,xi2,xip;yi),i=1,2,n,多类别Logistic回归模型第i组样本的因变量yi取第j个类别的概率为:011011111011exp()exp()exp()jjipjipijipipkkipkipxxxxxx1,2,;1,2,injk(9.34)上式中各回归系数不是惟一确定的,每个回归系数同时加减一个常数后的数值保持不变。为此,把分母的第一项中的系数都设为0,得到回归函数的表达式011021212011exp()1 exp()exp()jjipjipijipipkkipkipxxxxxx1,2,;1,2,injk(9.35)【例例9.

    27、7】本例数据选自SPSS软件自带的数据文件telco.sav.该文件在 SPSS tutorialsample_files文件夹内。一个电信商要分析顾客选择服务类别的影响因素,因变量是顾客类别(Customer category),变量名为custcat,共取4个类别:1=“Basic service”;2=“E-service”;3=“Plus service”;4=“Total service”数据的样本量n=1 000。可以用Edit菜单中的Options选项的General选项卡选择显示变量标签,可以在显示变量完整的名称。进入多类别Logistic回归对话框。把因变量Customer

    28、categorycustcat选入Dependent框条中,这里Customer category是变量标签,custcat是变量名称。把定性自变量 Marital status marital,Level of education ed,Retired retire和Gender gender 选入 factors框条中。把数值型自变量 Age in Years age,Years at current address address,Household income in thousands income,Years with current employer employ,和 Numbe

    29、r of people in household reside 选入covariates框条中。在因变量框条的下面有一个Reference category按钮,点击进入,选择以First category为参照类别,这也就是选择(9.35)式的回归方程。使用逐步回归 输出结果输出结果9.14 Parameter Estimates对每个样品计算出因变量y取第j个类别的 概率,因变量的预测值就是 最大的类别。jj 可以用Save按钮保存预测概率和预测值,表9.6是前20个样品的预测数值。9.6 因变量是顺序变量的回归因变量是顺序变量的回归 当定性因变量y取k个顺序类别时,记为1,2,k,这里的

    30、数字1,2,k仅表示顺序的大小。因变量y取值于每个类别的概率仍与一组自变量x1,x2,xp有关,对于样本数据(xi1,xi2,xip;yi),i=1,2,n,顺序类别回归模型有两种主要类型,一种是位置结构(Location component)模型,另一种是规模结构(Scale component)模型。位置结构模型:1122link()()ijjiipipxxx(9.36)规模结构模型:112211()link()exp()jiipipijimimxxxzz其中是x1,x2,xp的一个子集,作为规模结构解释变量,(9.37)还是使用SPSS软件自带的一个数据文件german_credit.s

    31、av说明此方法。【例例9.8】一个信贷员想评估信贷业务的风险,选取客户的帐户状态(account status)作为因变量,有5个有序类别值,分别是 1无债务历史,2目前无债务,3目前有正在偿还的债务,4曾拖欠债款,5危机的帐户。解释变量由多个财务和个人资料变量构成。进入有序数据回归对话框。把因变量account statuschist选入Dependent框条中。把定性自变量#of existing credits numcred,Other installment debts othnstal和Housing housng 选入 factors框条中。把数值型自变量 Age in Years age和Duration in months duration 选入covariates框条中。点击Options按钮选择Complementary Log-Log类型的联系函数,这是因为通过对因变量的频数分析发现类别3和5出现的频率很大,属于高层类别出现几率大的分布。应用回归分析应用回归分析The endThe end75 以上有不当之处,请大家给与批评指正,谢以上有不当之处,请大家给与批评指正,谢谢大家!谢大家!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第9章-含定性变量的回归模型课件.ppt
    链接地址:https://www.163wenku.com/p-4643103.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库