Logistic-回归模型-课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《Logistic-回归模型-课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Logistic 回归 模型 课件
- 资源描述:
-
1、ppt课件1Logistic 回归模型回归模型赵耐青赵耐青复旦大学公共卫生学院复旦大学公共卫生学院ppt课件2数据分析的背景数据分析的背景 计量资料单因素统计分析计量资料单因素统计分析对于两组计量资料的比较,一般采用对于两组计量资料的比较,一般采用t检检验或秩和检验。验或秩和检验。对于两个变量的相关分析采用对于两个变量的相关分析采用Pearson相关分析或相关分析或Spearman相关分析相关分析 考虑多因素的影响,对于应变量考虑多因素的影响,对于应变量(反应变反应变量量)为计量资料,一般可以考虑应用多重为计量资料,一般可以考虑应用多重线性回归模型进行多因素分析。线性回归模型进行多因素分析。p
2、pt课件3数据分析的背景数据分析的背景 单因素的分类资料统计分析,一般采用单因素的分类资料统计分析,一般采用Pearson 2进行统计检验,用进行统计检验,用Odds Ratio及其及其95%可信区间评价关联程度。可信区间评价关联程度。考虑多因素的影响,对于反应变量为分考虑多因素的影响,对于反应变量为分类变量时,用线性回归模型类变量时,用线性回归模型P=a+bx就不就不合适了,应选用合适了,应选用Logistic回归模型进行统回归模型进行统计分析。计分析。ppt课件4Logistic回归模型回归模型 按研究设计分类按研究设计分类非配对设计:非条件非配对设计:非条件Logistic回归模型回归模
3、型配对的病例对照:条件配对的病例对照:条件Logistic回归模型回归模型 按反应变量分类按反应变量分类二分类二分类Logistic回归模型回归模型(常用常用)多分类无序多分类无序Logistic回归模型回归模型多分类有序多分类有序Logistic回归模型回归模型ppt课件5基础知识基础知识 通过下例引入和复习相关概念通过下例引入和复习相关概念 例如:研究患某疾病与饮酒的关联性例如:研究患某疾病与饮酒的关联性 患病率患病率 P1=a/m1 P2=b/m2 饮饮酒酒(X=1)不不饮饮酒酒(X=0)合合计计 患患病病(y=1)a b n1 未未患患病病(y=0)c d n2 合合计计 m1 m2
4、N ppt课件6基础知识基础知识 Odds(优势)(优势)(1)111111PPOddsPPP 1POddsPP越大越大,则则Odds越大;越大;P越小越小,则则Odds越小越小 并且并且 0Odds+ppt课件7基础知识基础知识 P与与Odds一一对应一一对应 对于两个对于两个Odds的比较,一般用它们的的比较,一般用它们的Ratio,并称为并称为Odds Ratio(OR),其定义,其定义如下:如下:其样本估计统计量为其样本估计统计量为1OddsPOdds12OddsOROddsadORbcppt课件8基础知识基础知识 故比较两个率故比较两个率 比较比较OR=1?OR1?OR1?12121
5、PPOddsOddsOR12121PPOddsOddsORppt课件9(二分类二分类)Logistic回归模型回归模型 因为因为0Odds+所以所以 -ln(Odds)|z|x.4117232.1780719 2.31 0.021 _cons-7.962891.1162679-68.49 0.000 2.31()bzse bppt课件18Logistic模型的单个回归系数检验模型的单个回归系数检验 关键是如果关键是如果 0,意味自变量,意味自变量X与与Y无关联无关联性。性。由于由于 的估计存在抽样误差,即使的估计存在抽样误差,即使=0,其估计值其估计值b一般不为一般不为0,故,故需检验需检验
6、0?H0:0 H1:0 0.05 检验统计量检验统计量 可以证明:可以证明:H0:0 为真时,为真时,z近似服从标近似服从标准正态分布,即:准正态分布,即:|z|1.96,P0.05,拒绝拒绝H0()bzse bppt课件19实例实例1:用用Logistic模型进行统计分析模型进行统计分析 实例实例1的回归系数估计为的回归系数估计为 se(b)=0.1780719,z=b/se=2.31,P=0.021 则拒绝则拒绝H0。如果对模型中所有的自变量进行检验,如果对模型中所有的自变量进行检验,则称为模型检验。如实例则称为模型检验。如实例2,对两个自变,对两个自变量进行检验,故这是模型检验。量进行检
7、验,故这是模型检验。20.05,dfppt课件26实例实例2应用应用Logistic模型模型校正混杂作用校正混杂作用 应用应用Stata软件进行最大似然估计,得到软件进行最大似然估计,得到模型拟合的主要结果如下模型拟合的主要结果如下 似然函数比为似然函数比为2ln(L)76.32,df=2,P0.001,因此拒绝,因此拒绝H0:1=2=0,可以,可以认为认为 1和和 2不全为不全为0。ppt课件27实例实例2应用应用Logistic模型模型校正混杂作用校正混杂作用 应用应用Stata软件进行最大似然估计,得到软件进行最大似然估计,得到回归系数估计的主要结果如下回归系数估计的主要结果如下 饮酒饮
8、酒:-0.000021 0.999979OReppt课件28多自变量多自变量Logistic模型的模型的OR解释解释 在本例中,对于同为吸烟或不吸烟的对象在本例中,对于同为吸烟或不吸烟的对象而言而言(x2相对固定不变相对固定不变),饮酒饮酒(x1=1)的对数的对数Odds为为 不饮酒不饮酒(x1=0)的对数的对数Odds为为1 10122()xLog Oddsx1 0022()xLog Oddsxppt课件29多自变量多自变量Logistic模型的模型的OR解释解释 则饮酒的对数则饮酒的对数Odds Ratio为为 即:饮酒的即:饮酒的 意义:对于同为吸烟的对象或者同意义:对于同为吸烟的对象或
9、者同为不吸烟的对象,其饮酒的为不吸烟的对象,其饮酒的 故称校正吸烟后故称校正吸烟后OR,而前者未考虑,而前者未考虑吸烟的单因素吸烟的单因素OR称为称为crude OR1 11 01ln()()()xxORLog OddsLog Odds1ORe1OReppt课件30实例实例2应用应用Logistic模型模型校正混杂作用校正混杂作用 饮酒饮酒:P=1 校正了吸烟因素的情况下,没有足够的校正了吸烟因素的情况下,没有足够的证据推断饮酒与证据推断饮酒与AMI患病有关联性。患病有关联性。吸烟:吸烟:P1OReppt课件31Logistic模型中的交互作用模型中的交互作用 实例实例3:采用病例对照设计研究
10、吸烟和家:采用病例对照设计研究吸烟和家属史与患肺癌的关联性。属史与患肺癌的关联性。用用x1=1,0分别表示吸烟和不吸烟;分别表示吸烟和不吸烟;x2=1,0分别表示有无家属史;用分别表示有无家属史;用y=1,0分别表示分别表示患肺癌和未患肺癌。患肺癌和未患肺癌。有有家家属属史史 无无家家属属史史 患患肺肺癌癌 未未患患肺肺癌癌 患患肺肺癌癌 未未患患肺肺癌癌 吸吸烟烟 200 50 80 6 不不吸吸烟烟 300 450 270 310 合合计计 500 500 350 316 ppt课件32实例实例3:Logistic模型的交互作用模型的交互作用 一般而言,吸烟和家属史均是肺癌的重要一般而言,
11、吸烟和家属史均是肺癌的重要相关因素,很有可能这两个因素对患肺癌相关因素,很有可能这两个因素对患肺癌有交互作用,因此采用下列含有交互作用有交互作用,因此采用下列含有交互作用项的项的Logistic模型。模型。其中其中x1和和x2的乘积项的乘积项x1x2称为交互作用项称为交互作用项01 1223 1 2()Logit Pxxx xppt课件33应用应用Logistic模型分析实例模型分析实例3 用用Stata软件对实例软件对实例3的资料拟合上述模型,得的资料拟合上述模型,得到下列结果:到下列结果:3=0.955825,P0.04,差别有统计学意义,差别有统计学意义,可以认为吸烟和家属史对患肺癌有交
12、互作用。可以认为吸烟和家属史对患肺癌有交互作用。变变量量 回回归归系系数数.P 95%Conf.Interval x1 1.791759 0.000 1.449155 2.134364 x2.2481449 0.026 0.029683 0.4666067 x12.955828 0.040 0.0436748 1.867981 _cons-.4054651 0.000-0.5515522 -0.259378 ppt课件34实例实例3:Logistic模型的交互作用模型的交互作用 由于本例模型为由于本例模型为 对于无家属史,对于无家属史,x2=0代入模型,得到代入模型,得到 由回归系数与由回归系
13、数与OR的关系,得到吸烟的:的关系,得到吸烟的:11.791759 6ORee01 1223 1 2()Logit Pxxx x01 1()Logit Px95%CI=(4.3,8.5)P =3.84,故拒绝,故拒绝H0,可,可以认为以认为 1+3 0,差别有统计学意义,可,差别有统计学意义,可以认为吸烟者患肺癌的风险更大。以认为吸烟者患肺癌的风险更大。221313()40.58var()20.05,1ppt课件37实例实例3:Logistic模型的交互作用模型的交互作用 同理,为了评价家属史与肺癌的关联性,同理,为了评价家属史与肺癌的关联性,根据下列根据下列Logistic模型模型 对于不吸
14、烟对于不吸烟x1=0,则上述,则上述Logistic模型为模型为 家属史的家属史的 P=0.认为认为0260.05,两个药的疗效差异无统计学意义。两个药的疗效差异无统计学意义。模型模型 病情重病情重x2=1代入模型,得到代入模型,得到1.2047944 02131()()Logit Px01 12 23 1 2()Logit Pxxx xppt课件45Logistic模型中的交互作用模型中的交互作用 即:病情重时的药物变量即:病情重时的药物变量x1的回归系数为的回归系数为 对于在病情重的情况下,两个药的疗效是否对于在病情重的情况下,两个药的疗效是否有差异需检验有差异需检验 1+3=0,用,用S
15、tata软件计算得:软件计算得:检验统计量检验统计量 242.16,df=1,P0ppt课件46实例实例4小结小结 在病情轻的情况下,两个药的疗效差异在病情轻的情况下,两个药的疗效差异无统计学意义。无统计学意义。在病情重的情况下,可以认为在病情重的情况下,可以认为A药的疗效药的疗效优于优于B药。药。即:不能简单地称即:不能简单地称A药优于药优于B药或两个药药或两个药的疗效差异无统计学意义。的疗效差异无统计学意义。请注意:在有交互作用的模型中,其主请注意:在有交互作用的模型中,其主效应效应(本例本例x1)解释应谨慎。)解释应谨慎。ppt课件47交互作用的小结交互作用的小结1.交互作用的意义就是不
16、同层(某因交互作用的意义就是不同层(某因素的不同水平)另一个研究因素与素的不同水平)另一个研究因素与应变量的之间的关联程度是不同的。应变量的之间的关联程度是不同的。2.在回归分析和方差分析中,在回归分析和方差分析中,经统计经统计检验得到交互作用项有统计学意义检验得到交互作用项有统计学意义只是统计分析的中间结果,只是统计分析的中间结果,不要简不要简单归结为协同作用或拮抗作用,一单归结为协同作用或拮抗作用,一般要做进一步分析般要做进一步分析。ppt课件48交互作用的小结交互作用的小结3.在有交互作用的在有交互作用的Logistic模型中,对交模型中,对交互作用项要根据研究目的进行解释,一互作用项要
17、根据研究目的进行解释,一般应进行分层作简单效应检验,特别很般应进行分层作简单效应检验,特别很可能某个层有统计学意义而另一个层没可能某个层有统计学意义而另一个层没有统计学意义。主效应的解释要特别注有统计学意义。主效应的解释要特别注意,要结合回归模型和变量定义进行谨意,要结合回归模型和变量定义进行谨慎地解释。慎地解释。4.应用交互作用模型可以比较多个应用交互作用模型可以比较多个OR。ppt课件49多分类无序自变量的处理多分类无序自变量的处理 例例5:用横断面调查设计,分析职业与患:用横断面调查设计,分析职业与患糖尿病的关联性。糖尿病的关联性。职业:用职业:用x1=1,2,3分别表示农民,工人和分别
18、表示农民,工人和干部干部(含知识分子含知识分子)。用用x2表示年龄。表示年龄。由于由于x1是分类无序变量,必须用亚元变是分类无序变量,必须用亚元变量表示。量表示。ppt课件50多分类无序自变量的处理多分类无序自变量的处理 职业变量职业变量x1直接引入直接引入Logistic模型是不合适的,模型是不合适的,因为模型中引入因为模型中引入x1后,模型为后,模型为 若若 10,导致,导致x1越大,患病概率相对越大;越大,患病概率相对越大;若若 10.05,即:对于,即:对于职业为工人与农民而言,其与患病之间的职业为工人与农民而言,其与患病之间的关联性无统计学意义。关联性无统计学意义。y 回归系数 P
19、值 95%CI x12.3021807 0.401-0.4034157 1.007777 x13 1.164267 0.003 0.4093795 1.919155 x2.0458908 0.000 0.0236281 0.0681536 _cons-2.449857 0.000-3.557851 -1.341864 ppt课件53多分类无序自变量的处理多分类无序自变量的处理 x13的回归系数P0.0030.05,说明干部与农民的职业与患糖尿病有关联,其 干部与工人比较,用Stata软件检验12=13,P=0.0230.05,差异有统计学意义。X2的回归系数P0.001,说明年龄与患病也有关联
20、,其OR=1.04。1.1642673.20OReppt课件54引用亚元变量应注意的问题引用亚元变量应注意的问题 在在Logistic模型中,二分类变量是不区分有序模型中,二分类变量是不区分有序和无序的,因为回归系数的正负号能处理两和无序的,因为回归系数的正负号能处理两分类变量所对应的概率大小问题。分类变量所对应的概率大小问题。在在Logistic模型中,用亚元处理多分类自变量模型中,用亚元处理多分类自变量时,对同一个因素的一组亚元而言,必须同时,对同一个因素的一组亚元而言,必须同时引入模型或同时不引入模型,不能若干个时引入模型或同时不引入模型,不能若干个亚元在模型中,其它亚元不在模型中,这样
21、亚元在模型中,其它亚元不在模型中,这样会导致模型的参数意义发生改变以致错误解会导致模型的参数意义发生改变以致错误解释参数意义。释参数意义。ppt课件55多分类有序自变量的处理多分类有序自变量的处理 例例6:用横断面调查设计,分析肥胖与患:用横断面调查设计,分析肥胖与患糖尿病的关联性。糖尿病的关联性。职业:用职业:用x1=0,1,2分别表示体重正常,超分别表示体重正常,超重和肥胖。重和肥胖。用用x2表示年龄。表示年龄。x1是有序的分类变量是有序的分类变量(等级变量等级变量)Y=1表示患糖尿病,表示患糖尿病,Y=0表示未患糖尿病。表示未患糖尿病。ppt课件56多分类有序自变量的处理多分类有序自变量
展开阅读全文