类别因变量回归Logit模型原理及应用课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《类别因变量回归Logit模型原理及应用课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 类别 因变量 回归 Logit 模型 原理 应用 课件
- 资源描述:
-
1、有限类别因变量回归分析有限类别因变量回归分析:Logit模型原理及应用模型原理及应用Regression analysis for limited and categorical dependent variables:Logit model and its application2022-12-111一个常被忽视的一个常被忽视的OLS基本假设基本假设v测量假设(测量假设(measurement assumption)所有自变量是定距(interval)、比率(ratio)或类别(categorical)变量,因变量是连续的、无限制的(unbounded)定距或比率变量,并且自变量不存在测量误
2、差类别是以男、女等性别类标进行分类比较的,但不是定距的;定距是大小已定,二者距离是可比较的;按照ols回归,类别不能作为因变量,例如价格对满意度的影响,满意度就是类别的,有限的。2022-12-112一个常被忽视的一个常被忽视的OLS基本假设基本假设v 如果模型因变量是有限的类别变量如果模型因变量是有限的类别变量 在实际分析中,因变量常常都是有限变量例如,个人的收入多数只存在于一个有限的值域范围内,个人的年龄都限制在一定得寿命范围内,个人所受教育亦是有限的 但这些变量取值可以近似于连续,其取值范围虽然有限,但通常范围较大,因此可以将其看成是连续无限的变量然而,有一些变量却明显不是连续的,属于类
3、别变量(无序和有序)例如,个人的性别、个人是否就学某一层级教育,个人对于纳税的意愿 如果以这些变量作为因变量进行OLS回归,就会严重违背OLS有关测量的基本假设(因变量是类别变量,不能ols回归)2022-12-113线性概率模型(线性概率模型(LPM,Linear Probability Model)v 一个案例一个案例 收入对于个人是否购买最新款Apple Ipad是否具有影响,自变量为个人收入,因变量为个人购买Ipad的决定,0表示不购买,1表示购买 如果使用OLS,能形成一个线性概率回归方程:因变量即为个人购买Ipad的条件概率,自变量的估计系数即表示当个人收入每增加一单位,个人购买I
4、pad的概率会上升多少 如此做,似乎也实现了我们的研究目的 是否存在问题呢?iiiiiiiiiiiixxyPxyPxyExexExyE)|1()|1()|()()|(2022-12-114线性概率模型存在的四个问题线性概率模型存在的四个问题v 异方差问题异方差问题若因变量只取值0和1值,那么线性概率模型的残值方差为:残值方差有赖于因变量的条件概率值,而该概率值又是以自变量取值为条件的,因此残值方差势必与自变量相关,为异方差 估计系数标准误非最优,t显著性检验无效v 预测值可能会超出因变量(预测值可能会超出因变量(0,1)的值域范围)的值域范围例如,运用线性概率模型OLS回归的结果如下:y=-0
5、.41+0.064*x,x的值域在(8,29)当x=8时,y=0.1,当x=29时,y=1.45(超出1)v 残值不符合正态分布残值不符合正态分布在小样本下,t显著性检验无效)|0()|1()(iiiiixyPxyPeVar2022-12-115线性概率模型存在的四个问题线性概率模型存在的四个问题v函数识别错误函数识别错误自变量与因变量概率之间的关系应当是非线性还是线性?因变量概率的值域在(0,1)之间,因此随自变量值无限增大或减少,因变量概率值应当会无限接近1或0 如下左图,对于两分类别因变量的分析应使用非线性函数 如下右图,自变量x与因变量y概率之间呈S状变化,曲线上下两端无限趋近于0和1
6、,此图形类似于一种随机变量的累积分布曲线2022-12-116Logistic Regression Model(LRM)v什么是什么是Logistic regression model 以Logistic分布来近似两分类别因变量概率的变化曲线(类别只有2种,买或不买;男或女)Logsitic分布的均值为0,方差等于 。将该分布应用于两分因变量回归的最大好处在于,它能使得累积分布函数最终取得一个简单的函数公式3/22022-12-117Logistic回归原理回归原理v假定有一个连续反应变量假定有一个连续反应变量g(latent variable)表示某一事件发生的可能性,其值域无限。表示某一
7、事件发生的可能性,其值域无限。y事件从事件从不发生(不发生(0)到发生()到发生(1)的变化需)的变化需g达到一个临界值(假设该临界值为达到一个临界值(假设该临界值为0)g为潜变量为潜变量当g0时,y=1;当g0时,y=0假定g与自变量x之间存在线性关系,有:回归模型回归模型式,亦称为,这就是)(进一步转换,可得代入上式,可得:将接近于,反之无穷小时,无限无限接近于趋近于无穷大时,当残值分布,于是有:为对称的),可以假设它分布具体是什么(应是此时我们需假设残值的,于是有:数为假定残值的累积分布函是有:的分布为对称分布,于假定因变量LogitLogisitcoddsln)1ln(,11)|1(0
8、1)|1()exp(11)|1(Logistic)()|1()()|1(y)()0()|1()(111111iiixiiiiiiiiiiiiiiiiiiiiiiiiiiixppexyPxexyPeexyPxeFxyPFxePxyPxePexPxyPexgi发生比2022-12-118Logistic回归的特点回归的特点v因变量是因变量事件发生与不发生概率之比的对数值因变量是因变量事件发生与不发生概率之比的对数值 两个概率之比称为odds,有多种翻译,包括发生比、概率比、几率等,而log(odds)被称为对数发生比该值越大,说明事件发生的可能性越高该概率比对数值的值域在(正负无穷之间)之间202
9、2-12-119Logistic回归的特点回归的特点v自变量估计系数可以按照参照自变量估计系数可以按照参照OLS回归的方法来回归的方法来解释解释 值得注意,由于因变量是对数概率比,这一数值本身没有太多现实含义,因此,我们一般不用“自变量每变化一单位,某一事件的对数概率比会变化多少”这一方法来解释估计结果,而是比较笼统地用“随自变量变大,某一事件发生的可可能性能性会随之增大或减少”2022-12-1110Logistic回归的特点回归的特点v对数概率比对于参数是线性的,但自变量对事件对数概率比对于参数是线性的,但自变量对事件发生的概率的影响是发生的概率的影响是非线性非线性的(只有非线性才会的(只
10、有非线性才会有边际的存在,线性下,影响是一样的)有边际的存在,线性下,影响是一样的)如果你想得到某一自变量对事件发生概率的影响,该影响必定是边际影响,即你可以测算出在其他自变量取一定数值的条件下,某一自变量由某一特定的值变化一单位,事件发生的概率会变化多少。这需要进行一定转换计算,我们可以利用Stata进行计算,并绘图,之后会有介绍2022-12-1111Logistic模型的估计模型的估计v 最大似然法最大似然法 对数似然函数(log-likelihood function)和迭代计算法 即通过对估计系数和不断的取值,使得对数似然函数值实现最大,具体统计推断参见参考书v 最大似然估计法对样本
11、容量的要求最大似然估计法对样本容量的要求“It is risky to use ML with samples samller than 100,while samples over 500 seem adequate.These values should be rasised depending on characteristics of the model and the data.First,if there are many parameters(参数),more observations are needed.A rule of at least 10 observations p
12、er parameters seems reasonable.This does not imply that a minimum of 100 is not needed if you have only two parameters.Second,if the data are ill-conditioned(e.g.,or if there is little variation in the dependent variable(e.g.,nearly all the outcoindependent variabless are highly collinear)mes are 1)
13、,a large sample is required.Third,some models seem to require more observations(such as the ordinal regression model or the zero-inflated count models)(Long,1997:54)有序类别回归2022-12-1112如何在如何在Stata中实现中实现Logistic回归分析回归分析v 两分类别变量的逻辑回归两分类别变量的逻辑回归-logit-两分类别变量有两种结果,Stata进行logit回归时默认以赋值小的那个结果作为参照结果(baseoutc
14、ome)例如,我们想探讨性别与受教育年限对农民外出从业可能性的影响,因变量是农民是否外出从业,0为在家从业,1为外出从业。此时逻辑回归的因变量即为:外出从业与在家从业的比率 logit emigrant gender edu)1/(ln()/ln(homemigrantemigranteemigrantpppp2022-12-1113如何在如何在Stata中实现中实现Logistic回归分析回归分析 _cons -2.179571 .1087227 -20.05 0.000 -2.392663 -1.966478 edu .1078544 .0110317 9.78 0.000 .086232
15、7 .129476 gender .4099229 .0800412 5.12 0.000 .2530451 .5668008 emigrant Coef.Std.Err.z P|z|95%Conf.Interval Log likelihood=-1981.9839 Pseudo R2 =0.0352 Prob chi2 =0.0000 LR chi2(2)=144.79Logistic regression Number of obs =3610Iteration 4:log likelihood=-1981.9839 Iteration 3:log likelihood=-1981.98
16、39 Iteration 2:log likelihood=-1981.9849 Iteration 1:log likelihood=-1983.1605 Iteration 0:log likelihood=-2054.3767 .logit emigrant gender edu2022-12-1114如何解释如何解释Logistic回归的估计结果回归的估计结果v用对数概率比进行解释用对数概率比进行解释 由于对数概率比没有实际意义,因此,推荐用趋势方法趋势方法来解释估计结果 如本例,根据逻辑回归估计结果,我们可以说男性外出从业的可能性显著高于女性,受教育程度越高的农民外出从业的可能性越高
17、,而不说,农民个人受教育年限每增加一年,农民外出从业的对数概率比会增加0.112022-12-1115如何解释如何解释Logistic回归的估计结果回归的估计结果v 用概率比进行解释用概率比进行解释 如果自变量是类别变量%100*01/)/(/)/(/20110/10101)ln()1ln()()(01)(1)(0)(之间的概率比会变化相对于取值为单位,因变量取值为表示随自变量每增加一量,那么、如果自变量是连续变倍之间的概率比会变化相对于取值为,因变量取值为变化为表示随自变量由时,当时,当,那么和量,取值分别为、如果自变量是虚拟变iiixiiixiixxxxxiiiiioddxoddexodd
18、xexoddeeeoddoddeoddxeoddxeoddxoddppiii男性外出从业是女性外出从业的男性外出从业是女性外出从业的e的的0.41倍倍自变量变化一单位,因变量概率比变化自变量变化一单位,因变量概率比变化 倍倍2022-12-1116如何解释如何解释Logistic回归的估计结果回归的估计结果v如本例,根据逻辑回归结果如本例,根据逻辑回归结果 男性外出从业相对于在家从业的概率比是女性的1.51倍 个人受教育年限每增加一年,农民外出从业相对于在家从业的概率比会显著增加10.8%在-logit-后面加上or选项,Stata会自动算出各回归系数的 值e2022-12-1117如何解释如
19、何解释Logistic回归的估计结果回归的估计结果v用概率进行解释用概率进行解释 虽然逻辑回归函数是线性函数,但只是有关概率比对数的线性函数,对于事件发生的概率来说,该函数是非线性函数)()(1)1(iixxeeYP2022-12-1118如何解释如何解释Logistic回归的估计结果回归的估计结果v 在在Logistic回归模型中,自变量对于事件发生概率的影响势必会随自回归模型中,自变量对于事件发生概率的影响势必会随自变量的变动而发生变动,也就是说,自变量对事件发生概率的边际影变量的变动而发生变动,也就是说,自变量对事件发生概率的边际影响是变动的。如果自变量是连续变量,那么在我们对估计结果进
20、行概响是变动的。如果自变量是连续变量,那么在我们对估计结果进行概率变动分析时率变动分析时 坚持以自变量对事件发生概率的影响进行文字解释,会面临巨大的计算量,并且作用不大 一个好的策略是借助Stata计算出在每一个自变量取值下因变量事件发生概率的预测值,并利用它绘制出一个随自变量变化,因变量事件发生概率的变动趋势图,这会给读者带来一些有价值的直观感受(next slide)2022-12-1119如何利用如何利用Stata作概率变化图作概率变化图v 利用利用-prgen-命令绘制概率变化图命令绘制概率变化图0.1.2.3.4.5.6.7.8.91pr of nonemigrant and emi
21、grant024681012141618education yearpr_nonemigrantpr_emigrant2022-12-1120Logistic回归模型的整体有效性检验回归模型的整体有效性检验v对模型整体是否有效的对模型整体是否有效的 检验检验先计算出一个只包括截距,所有自变量回归系数强迫其为零的模型的log likelihood(对数似然)值,记为:L(Mintercept)再计算出包括所有自变量的完全模型的log likelihood值,记为:L(Mfull)构造函数:LR=2L(Mfull)-2L(Mintercept)该函数符合 分布,自由度K等于full model中的
展开阅读全文