逻辑回归分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《逻辑回归分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 逻辑 回归 分析 课件
- 资源描述:
-
1、SPSS 16实用教程在前面学到的回归模型中,我们处理的因变量在前面学到的回归模型中,我们处理的因变量都是数值型区间变量,建立的模型描述的是因都是数值型区间变量,建立的模型描述的是因变量的期望与自变量之间的线性关系。变量的期望与自变量之间的线性关系。线性回归模型:线性回归模型:然而,在许多实际问题中,我们需要研究的响然而,在许多实际问题中,我们需要研究的响应变量不是区间变量而是顺序变量或名义变量应变量不是区间变量而是顺序变量或名义变量这样的属性变量。这样的属性变量。) 1.(.(Y)E22110kkXXX7.8.1 统计学上的定义和计算公式统计学上的定义和计算公式比如在致癌因素的研究中,我们收
2、集了若干比如在致癌因素的研究中,我们收集了若干人的健康记录,包括年龄、性别、抽烟史、人的健康记录,包括年龄、性别、抽烟史、日常饮食以及家庭病史等变量的数据。响应日常饮食以及家庭病史等变量的数据。响应变量在这里是一个两点(变量在这里是一个两点(0-1)分布变量,)分布变量,Y=1(一个人得了癌症),(一个人得了癌症),Y=0(没得癌症)。(没得癌症)。如果我们按照(如果我们按照(1)建立一般线性模型:)建立一般线性模型:) 1.(.(Y)E22110kkXXX因为因为Y只能取只能取0或或1,而,而 的取值是连续的。的取值是连续的。显然不能用显然不能用 来预测因变量来预测因变量 Y 。我们注意到,
3、对于我们注意到,对于0-1型变量,型变量, E(Y)=P(Y=1)=p因而,我们似乎可以用因而,我们似乎可以用 来预测来预测Y=1的概的概率,即:率,即:(Y)E(Y)E(Y)E)2.(.p22110kkXXX问题问题1. Y=1的概率与自变量之间的关系到底的概率与自变量之间的关系到底是不是线性的?(答案是否定的)是不是线性的?(答案是否定的)例如:我们分析一个人是否买车与其年收入例如:我们分析一个人是否买车与其年收入的关系。对于年薪的关系。对于年薪5000元、元、5万元、万元、50万元万元三个人,让他们的年薪分别增加三个人,让他们的年薪分别增加5000元对于元对于其买车的可能性影响是不一样的
4、。其买车的可能性影响是不一样的。概率与自变量之间的关系图形往往是一个概率与自变量之间的关系图形往往是一个S型型曲线曲线概率与自变量之间的关系曲线问题问题2. 概率的取值应该在概率的取值应该在01之间。但是(之间。但是(2)式的概率线性模型并不能满足这一点。式的概率线性模型并不能满足这一点。我们可以通过对我们可以通过对P进行一种变换(进行一种变换(logit变换)变换) logit(p)= ln(p/(1-p)使得使得logit(p)与自变量之间存在线性相关的关与自变量之间存在线性相关的关系。系。)3.()(logit1ln22110kkXXXppp)(exp11)exp(1)exp(11011
5、0110kkkkkkXXXXXXp模型的建立与解释模型的建立与解释同时,经过变换得到的模型也解决了(同时,经过变换得到的模型也解决了(2 2)中,)中,概率的预测值可能是概率的预测值可能是0,10,1之外的数的缺陷。之外的数的缺陷。(3 3)式建立的模型,我们称为)式建立的模型,我们称为logisticlogistic模型模型(逻辑回归逻辑回归模型)。模型)。我们在学习交叉列联表的相关知识的时候,提我们在学习交叉列联表的相关知识的时候,提到过到过优势或发生比优势或发生比(odds )和)和优势比或发生优势比或发生比率比率(odds ratio)的概念)的概念 是事件发生于不发生的概率之比是事件
6、发生于不发生的概率之比 那么逻辑模型就可以写成那么逻辑模型就可以写成 ppodds1kkXXXpodds22110)(logitln)(那么那么Xi增加一个单位增加一个单位ln(odds|xi+1)=ln(odds|xi)+i于是于是上式我们叫做优势比(上式我们叫做优势比(odds ratio)近似可看)近似可看成是在成是在Xi+1与与Xi两种情况下,事件发生的概两种情况下,事件发生的概率之比。率之比。则,则,PY=1|Xi+1PY=1|Xiexpiiexoddsxoddsii|1|最终,我们可能关心的是根据自变量的值来最终,我们可能关心的是根据自变量的值来对对Y的取值的取值0或或1进行预测。
7、而我们的逻辑回归进行预测。而我们的逻辑回归模型得到的只是关于模型得到的只是关于PY=1|x的预测。的预测。但是,我们可以根据模型给出的但是,我们可以根据模型给出的Y=1的概率的概率(可能性)的大小来判断预测(可能性)的大小来判断预测Y的取值。的取值。一般,以一般,以0.5为界限,预测为界限,预测p大于大于0.5时,我们时,我们判断此时判断此时Y更可能为更可能为1,否则认为,否则认为Y=0。对于逻辑模型对于逻辑模型模型系数的估计不能适用最小二乘估计模型系数的估计不能适用最小二乘估计(OLS)。)。这里,我可以运用最大似然估计(这里,我可以运用最大似然估计(MLE)的)的方法。方法。OLS通过使得
8、样本观测数据的残差平方和最通过使得样本观测数据的残差平方和最小来选择参数,而小来选择参数,而MLE通过最大化对数似然通过最大化对数似然值来估计参数。值来估计参数。kkXXXpp221101ln模型系数的确定模型系数的确定设设y是是0-1型变量,型变量, 是与是与y相关的自变量,相关的自变量,n组观测数据为组观测数据为 。于是。于是y1,y2,yn的似然函数为的似然函数为对数似然函数为对数似然函数为最大似然估计就是选取最大似然估计就是选取 的估计值的估计值 使得使得log似然函数最大化。似然函数最大化。kxxx, 21,ni, 2 , 1 iikiiyxxx;,21 niniyiyiiiiL11
9、1p1 )(pyPxxnixxxikkiiiikkiiexxxyL122110)1ln()(ln22110k,210k,210模型检验模型检验以下是关于模型拟合优度的度量以及模型参数检验的分析 与任何概率一样,似然的取值范围在与任何概率一样,似然的取值范围在0,10,1之间。之间。2LL2LL的计算公式为的计算公式为其报告值越小说明似然函数值越大从而模型拟其报告值越小说明似然函数值越大从而模型拟合程度越好合程度越好两个模型之间显著性两个模型之间显著性似然比检验统计量似然比检验统计量的形式的形式为为 -2log(L-2log(L0 0/L/L1 1)=-2LL)=-2LL0 0-(-2LL-(-
10、2LL1 1) )(自由度为参数(自由度为参数个数之差的卡方分布)个数之差的卡方分布)L L1 1是更大参数空间上的模型的似然函数。是更大参数空间上的模型的似然函数。1-2对数似然值(对数似然值(-2 log likelihood,-2LL)nixxikkiiikkiexxyL1110)1ln()(2ln2LL2110 Logistic Logistic回归的拟合优度统计量计算公回归的拟合优度统计量计算公式为式为Pearson Pearson 残差平方和残差平方和,在原假设(所建立的,在原假设(所建立的模型与饱和模型没有显著性差异)下也服从自模型与饱和模型没有显著性差异)下也服从自由度为两个模
11、型参数之差的卡方分布由度为两个模型参数之差的卡方分布 2拟合优度(拟合优度(Goodness of Fit)统计量)统计量Predicted(预测值)01Percent Correct (正确分类比例)Observed(观测值)0n00n01f01n10n11f1Overall(总计)ffClassification Table for YClassification Table for Y在实际问题中,通常采用如下在实际问题中,通常采用如下分类表分类表(Classification TableClassification Table)反映拟合效果。)反映拟合效果。3Cox和和Snell的的R
12、 2(Cox&Snells R-Square)4Nagelkerke的的R 2(Nagelkerkes R-Square)5伪伪R 2(Psedo-R-square) 伪伪R R2 2与线性回归模型的与线性回归模型的R R2 2相对应,其意义相对应,其意义相似,但它小于相似,但它小于1 1。6Hosmer和和Lemeshow的拟合优度检验的拟合优度检验统计量统计量 与一般拟合优度检验不同,与一般拟合优度检验不同,HosmerHosmer和和LemeshowLemeshow的拟合优度检验通常把样本数据根的拟合优度检验通常把样本数据根据预测概率分为据预测概率分为1010组,然后根据观测频数和期组,
13、然后根据观测频数和期望频数构造卡方统计量(即望频数构造卡方统计量(即HosmerHosmer和和LemeshowLemeshow的拟合优度检验统计量,简称的拟合优度检验统计量,简称H-LH-L拟拟合优度检验统计量),最后根据自由度为合优度检验统计量),最后根据自由度为8 8的的卡方分布计算其值并对卡方分布计算其值并对LogisticLogistic模型进行检模型进行检验。验。 如果该如果该p p值小于值小于给定的显著性水平(如给定的显著性水平(如=0.05=0.05),则拒绝因变量的观测值与模型预测),则拒绝因变量的观测值与模型预测值不存在差异的零假设,值不存在差异的零假设,表明模型的预测值与
14、表明模型的预测值与观测值存在显著差异观测值存在显著差异。如果值。如果值大于大于,我们没有,我们没有充分的理由拒绝零假设,充分的理由拒绝零假设,表明在可接受的水平表明在可接受的水平上模型的估计拟合了数据上模型的估计拟合了数据。 7Wald统计量统计量(回归系数的非零检(回归系数的非零检验)验) Wald Wald统计量用于判断一个变量是否应该统计量用于判断一个变量是否应该包含在模型中,其检验步骤如下。包含在模型中,其检验步骤如下。 (1 1)提出假设。)提出假设。 (2 2)构造)构造WaldWald统计量。统计量。 (3 3)作出统计判断。)作出统计判断。 研究问题研究问题 在一次关于某城镇居
展开阅读全文