第八课-SPSS-logistic回归分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第八课-SPSS-logistic回归分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 SPSS logistic 回归 分析 课件
- 资源描述:
-
1、 logistic回归分析回归分析logistic回归为概率型非线性回归为概率型非线性回归模型,是研究分类观察回归模型,是研究分类观察结果结果(y)与一些影响因素与一些影响因素(x)之间关系的一种多变量分析之间关系的一种多变量分析方法方法问题提出:问题提出: 医学研究中常研究某因素存在条件下某结果是否医学研究中常研究某因素存在条件下某结果是否发生?以及之间的关系如何?发生?以及之间的关系如何? 因素(因素(X) 疾病结果(疾病结果(Y) x1,x2,x3XK 发生发生 Y=1 不发生不发生 Y=0例:暴露因素例:暴露因素 冠心病结果冠心病结果高血压史高血压史(x1):有有 或无或无 有有 或或
2、 无无高血脂史高血脂史(x2): 有有 或或 无无吸烟吸烟(x3): 有或无有或无研究问题可否用多元线性回归方法?研究问题可否用多元线性回归方法?1.多元线性回归方法要求多元线性回归方法要求 Y 的取值为计量的取值为计量的连续性随机变量。的连续性随机变量。2.多元线性回归方程要求多元线性回归方程要求Y与与X间关系为线间关系为线性关系。性关系。3.多元线性回归结果多元线性回归结果 不能回答不能回答“发生发生与否与否”logistic回归方法补充多元线性回归的不回归方法补充多元线性回归的不足足Y1 12 2m mya bxb xb x Logistic回归方法该法研究是该法研究是 当当 y 取某值
3、(如取某值(如y=1)发生的概率(发生的概率(p)与与某暴露因素(某暴露因素(x)的关系。的关系。 P(概率)的取值波动概率)的取值波动01范围。范围。 基本原理基本原理:用一组观察数据拟合:用一组观察数据拟合Logistic模型,模型,揭示若干个揭示若干个x与一个因变量取值的关系,反映与一个因变量取值的关系,反映y 对对x的依存关系。的依存关系。(1/ )( ),( )p yxf xf x即p第一节logistic回归1.基本概念基本概念 logistic回归要求应变量(回归要求应变量(Y)取值为分类变量取值为分类变量(两分类或多个分类)(两分类或多个分类)自变量(自变量(Xi)称为危险因素
4、或暴露因素称为危险因素或暴露因素,可为连续变可为连续变量、等级变量、分类变量。量、等级变量、分类变量。 可有可有m个自变量个自变量X1, X2, Xm )未发病、无效、存活等出现阴性结果发病、有效、死亡等)出现阳性结果( 0( 1Y2. logistic回归模型方程回归模型方程一个自变量与一个自变量与Y关系的回归模型关系的回归模型如:如:y:发生发生=1,未发生未发生=0 x : 有有=1,无无=0,记为记为p(y=1/x)表示某暴露因素状态下,表示某暴露因素状态下,结果结果y=1的概率(的概率(P)模型。模型。)(exp11)/1(0 xxypxxeexyP001)/1(或或模型描述了应变量
5、模型描述了应变量p与与x的关系的关系P概率概率10.5Z值值0123-1-2-3图图16-1 Logistic回归函数的几何图形回归函数的几何图形)(exp11) 1(0 xypxz10为正值,为正值,x越越大,结果大,结果y=1发发生的可能性(生的可能性(p)越大。越大。几个几个logistic回归模型方程回归模型方程001(1/1)1xxepP yxe001(0/1)111xxeP yxpe 000(1/0)1epP yxe000(0/0)111eP yxpe logistic回归模型方程的线性表达回归模型方程的线性表达对对logistic回归模型的概率(回归模型的概率(p)做做logit
6、变变换,换,log ( )ln()1pit pp110)(logxpity截距(常数)截距(常数)回归系数回归系数Y(-至至+)线形线形关系关系在有多个危险因素(在有多个危险因素(Xi)时时多个变量多个变量的logistic回归模型方程的线性表达:回归模型方程的线性表达:mmXXXPP22110=1lnlogit(p)0112(.)1(1/,)1kkkkxxp yx xxe或或2.模型中参数的意义模型中参数的意义110=1lnXPP0(常数项)常数项):暴露因素:暴露因素Xi=0时,个体发病时,个体发病概率与不发病概率之比的自然对数比值。概率与不发病概率之比的自然对数比值。 0=)0/0(1)
7、0/1(lnxyPxyP 的含义:的含义:某危险因素,暴露水平变化时,即某危险因素,暴露水平变化时,即Xi=1与与Xi=0相比,发生某结果(如发病)优势相比,发生某结果(如发病)优势比的对数值。比的对数值。 11001001 1001 1/(1)lnln/(1)loglog()()PPORPPitPitPxxxiP1(y=1/x=1)的概率的概率P0(y=1/x=0)的概率的概率010011)1/()1/(oddsoddsPPPPOReOR 危险因素危险因素 Y x= 1 x= 0发病发病=1 30(a) 10( b) 不发病不发病=0 70(c) 90(d) a+c b+d危险因素危险因素
8、Y x= 1 x= 0发病发病=1 p1 p0 不发病不发病=0 1-p1 1-p01apac有暴露因素人群中发病的比例有暴露因素人群中发病的比例 反映了在其他变量固定后,反映了在其他变量固定后,X=1与与x=0相相比发生比发生Y事件的对数优势比。事件的对数优势比。 回归系数回归系数与与OR X与与Y的关联的关联 =0,OR=1, 无关无关 1,OR1 , 有关,危险因素有关,危险因素 1,OR1, 有关,保护因子有关,保护因子事件发生率很小,事件发生率很小,ORRR。多元回归模型的的概念iii011logit(p)ln=1mmPXXP二、logistic回归模型的参数估计1. 模型中的参数(
9、模型中的参数(i)估计估计通常用最大似然函数通常用最大似然函数 (maximum likelihood estimate, MLE)估计估计, 由统计软件包完成。由统计软件包完成。mmXXXPP22110=1ln, , 2. 优势比优势比(OR)及可信区间的估及可信区间的估计计如如X=1,0两分类,则两分类,则OR的的1-可信区间可信区间估计公式估计公式ORe/ 2()jbjbuSejbS为回归系数为回归系数的标准误的标准误例:例:一个研究吸烟、饮酒与食道癌关系的病例对一个研究吸烟、饮酒与食道癌关系的病例对照资料(照资料(886例),试作例),试作logistic回归分析。回归分析。变量的赋值
10、变量的赋值1 0 Y食管癌患者对照:非食管癌 0 11不吸烟吸烟X 0 12不饮酒饮酒X经logistic回归计算后得b0=-0.9099,b1=0.8856,b2=0.5261,OR)exp(4244. 2)8856. 0exp( OR6923. 1)5261. 0exp( OR方程表达方程表达:控制饮酒因素后,控制饮酒因素后,吸烟与不吸烟相比吸烟与不吸烟相比患食管癌的优势比患食管癌的优势比为为2.4倍倍 ln()0.90990.8856 1 0.5261 21pxxp OR的可信区间估计11/2exp()exp(0.8856 1.96 0.15)(1.81,3.25)bbuS吸烟与不吸烟患
11、食管癌吸烟与不吸烟患食管癌OR的的95%可信区间:可信区间:2/22exp()exp(0.5261 1.96 0.1572)(1.24,2.30)bbuS饮酒与不饮酒饮酒与不饮酒OR的的95%可信区可信区间:间:三、三、Logistic 回归模型的假设检验回归模型的假设检验1.检验一:对建立的整个模型做检验。检验一:对建立的整个模型做检验。 说明自变量对说明自变量对Y的作用是否有统计意义。的作用是否有统计意义。检验方法(检验方法(讲义讲义260-261页)页)1)似然比检验似然比检验 (likelihood ratio test)2)Wald检验检验3)计分检验计分检验(score test)
12、0:210mH1:12)0jHjm各 (, , 不全为mmXXXPP22110=1ln例表例表16-1吸烟、饮酒与食管癌资料吸烟、饮酒与食管癌资料(SAS软件计算)软件计算) 1.对建立的整个模型做检验。对建立的整个模型做检验。Testing Global Null Hypothesis: BETA=0Test Chi-Square DF Pr似然比似然比 68.5457 2 .0001计分检验计分检验 67.0712 2 .0001Wald检验检验 64.2784 2 .0001ln()0.90990.8856 1 0.5261 21pxxp 2.检验二:检验二:检验模型中某检验模型中某是否
13、对是否对Y有作用。有作用。检验假设:检验假设:检验统计量:主要为检验统计量:主要为Wald检验(检验(SAS软件)软件)例;例;在大样本时,三方法结果一致。在大样本时,三方法结果一致。0:0jH1:0jH22)(jbjSb220.8856()33.860.15=1的的2例表例表16-1资料,对各资料,对各x的的做检验(做检验(wald检验)检验)参数参数 估计值估计值 标准误标准误 Chi-Squa Pr常数常数-0.9099 0.1358 44.8699 .0001吸烟吸烟 0.8856 0.1500 34.8625 .0001饮酒饮酒 0.5261 0.1572 11.2069 .0008
14、 Odds Ratio Estimates Point 95% WaldEffect Estimate Confidence Limits 吸烟吸烟x1 2.424 1.807 3.253 饮酒饮酒x2 1.692 1.244 2.303似然比检验(讲义)对某个对某个做检验,检验统计量(做检验,检验统计量(G)102(lnln)GLL1ln L包括包括p个自变量的对个自变量的对数似然函数数似然函数0ln L包括包括 l 个自变量的个自变量的对数似然函数对数似然函数G服从自由度(服从自由度(d)=p-l的的2分布分布似然比检验对似然比检验对做检验做检验112ln(,)579.711L XX 01
15、ln()585.326L X 例:例:X1为吸烟,为吸烟,X2为饮酒,检验饮酒与食为饮酒,检验饮酒与食管癌关系,管癌关系,H0:2=0,H1:201212ln (,)ln ()2( 579.711 ( 585.326)11.23GL XXL X G 3.84,p0.05,说明调整吸烟因素说明调整吸烟因素后,饮酒与食管癌有关系。后,饮酒与食管癌有关系。01 122log ( )it pxx01 1log ( )it px四、变量筛选四、变量筛选目的;将回归系数有显著意义的自变量选入目的;将回归系数有显著意义的自变量选入模型中,作用不显著的自变量则排除在外。模型中,作用不显著的自变量则排除在外。变
16、量筛选算法有:前进法、后退法和变量筛选算法有:前进法、后退法和 逐步法(逐步法(stepwise)。)。例:讲义例例:讲义例16-2,用逐步法,用逐步法选入变量的显著水准为选入变量的显著水准为0.10,变量保留在方,变量保留在方程的水准为程的水准为0.15例:例:16-2讲义讲义261-263页页表表16-4 进入方程的自变量及参数估计进入方程的自变量及参数估计变量变量 Sb Wald2 P 标准标准 OR常数常数 -4.705 1.54 9.30 0.0023 年龄年龄 0.924 0.477 3.76 0.0525 0.401 2.52X5 1.496 0.744 4.04 0.0443
17、0.406 4.46X6 3.136 1.249 6.30 0.0121 0.703 23.06X8 1.947 0.847 5.29 0.0215 0.523 7.01标准回归系数(标准回归系数(b) 比较各自变量对比较各自变量对Y 的相对贡献的相对贡献/(/3)jjjbbs第二节条件Logistic回归概念:概念:用配对设计获得病例对照研究资料,计算的用配对设计获得病例对照研究资料,计算的Logistic回归模型为回归模型为条件条件Logistic回归回归。成组(未配对)设计的病例对照研究资料,计算的成组(未配对)设计的病例对照研究资料,计算的Logistic回归模型为回归模型为非条件非条
展开阅读全文