多元logistics回归分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《多元logistics回归分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 logistics 回归 分析 课件
- 资源描述:
-
1、内容内容 基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用内容内容 基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用 从数学角度看,logistic回归模型非常巧妙地避开了分类型变量的分布问题,补充完善了线性回归模型和广义线性回归分析的缺陷。 因变量y 是分类型变量,自变量x是与之有关的一些因素。但是,这样的问题却不能直接用线性回归分析方法来解决,其根本原因就在于因变量是分类型变量,严重违背了线性回归分析对数据的假设条件。 从数学角度看,很难找到一个函数y=f (x),当x变化时,它对应的函数值y仅取两个或几个有限值。 研究者将所要研究的问题转换
2、了一个角度,不是直接分析y与x的关系,而是分析y取某个值的概率p与x的关系。 分析因变量y取某个值的概率p与自变量x的关系,等价于寻找一个连续函数p=p(x),使得当x变化时,它对应的函数值p不超出0,1范围。数学上这样的函数是存在且不唯一的,logistic回归模型就是满足这种要求的函数之一。 根据数据的类型,logistic回归分析分为两种: 一种是条件logistic回归(conditional logistic regression),用于分析配对病例对照研究数据。 另一种是非条件logistic回归(unconditional logistic regression),用于分析成组数
3、据或非配对的病例对照研究。非条件logistic回归分析也简称为logistic回归分析。 内容内容 基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用logistic回归模型对变量的要求回归模型对变量的要求 Logistic回归分析要求因变量是分类变量,包括顺序变量和名义变量。不论是哪种变量都要用数字来表示它的取值。自变量可以是数值型连续变量,也可以是顺序型分类变量,如果是名义变量,则需要转换成哑变量来处理。 logistic回归模型的个数回归模型的个数 取决于因变量的取值个数。因为 logistic回归模型描述的是因变量取每个值的概率与自变量的关系,因此因变量的每一个
4、值都对应一个模型。但是由于概率之和为1,所以当因变量是g值变量时,只需要估计g-1个模型 二值因变量的二值因变量的 logistic回归模型回归模型 假设因变量 y是一个取值为1和0的二值变量(binary variable),x 是一个影响y 的危险因子(risk factor)。令在x 条件下y=1的概率是 p=p(y=1| x),那么,表达式 :)exp(1exp1)1(xxeexyppxx10 xp0.5-/p=p(x)图7-1 变量 p 与 x 的关系多元多元 logistic回归模型回归模型 )exp(1exp)1(22112211kkxkxxxxxxxypp如果对模型的概率 p
5、进行logit 变换 pppit1ln)(loglogistic回归模型的另一种形式,它给出的是变量z=logit(p)关于x 的线性函数 kkxxxpppit22111ln)(log多值变量的多值变量的 logistic回归模型回归模型 kkjjjjxxxpppit22111ln)(logp j = p( y j | x ),它表示了 y 取前 j 个值的累积概率(cumulative probability)。 累积概率函数累积概率函数 gjgjxxxjyppjjj当当, 111,)exp(1)exp()(第一个模型表示了y 取第一个值的概率p1与x的关系;第二个模型表示了y 取前两个值的
6、累积概率p2与x的关系。这两个模型的常数项不同,回归系数完全相同的。 y 取第一个值的概率p(1)=p1 ,y 取第二个值的概率p(2)=p2 -p1,y 取第三个值的概率p(3)=1- p2 。它们的截距不同,斜率相同,所以是g-1条平行直线族。多值因变量logistic回归模型要求进行数据的平行性检验。 内容内容 基本原理 数学模型 方法步骤方法步骤 - 参数估计参数估计 - 检验参数检验参数 - 模型检验模型检验 - 平行性检验平行性检验 系数解释 条件Logistics分析 应用参数估计参数估计在logistic回归分析模型中,回归系数的估计方法通常是最大似然法(Maximum Lik
7、elihood method)。最大似然法就是选取使得总体真参数落在样本观察值领域里的概率达到最大的参数值作为真参数的估计值。 为了得到一个非偏估计(non-biased estimate),需采用重复递推的方法,将最大似然估计值不断修正。软件系统使用的是重复加权最小二乘递推法(iteratively reweighted least squares algorithm)来估计回归系数。 和线性回归分析一样,logistic回归模型的回归系数是自变量对应变量作用大小的一种度量。因为自变量的单位不同,不能用回归系数的估计值来判断哪一个自变量对因变量的影响作用最大。为了要进行比较,需要计算出标准回
8、归系数。计算原理和线性回归分析一样。在标准回归系数估计值中,绝对值最大的标准回归系数对应的 x 变量对 y 变量的影响最大。 检验参数检验参数统计假设常用的方法是Ward卡方检验。当大于样本对应的Ward卡方值的概率小于0.05时,在统计意义上可以拒绝上述零假设。即,可以认为第 j个 x 变量对y=1的概率p有显著性影响,其犯第一类错误的可能性不超过5% 。和线性回归分析一样,当自变量个数较多时,可采用逐步回归分析方法来筛选危险因子。 模型检验模型检验logistic回归模型的总体检验常用的方法有: AIC检验法(Akaike Information Criterion)。用于比较同一数据下的
9、不同模型(含自变量个数不同)。AIC值越小,模型越合适。AIC值的计算公式是: )(2)log(2kgLAICSC检验法(Schwarte Coriterion)。和AIC一样,用于比较同一数据下的不同模型(含自变量个数不同)。SC值越小,模型越合适。SC的计算公式是: )log()()log(2nkgLSC似然比检验法(G= -2log L)。用于检验全部自变量(包括常数项)对因变量的联合作用。它的计算公式是: )log(2LG计分检验法(Score)。用于检验全部自变量(不包括常数项)对因变量的联合作用。 平行性检验平行性检验当因变量为多值变量时,模型包含多个回归方程。Logistic回归
10、分析要求这多个回归方程中自变量的系数是相等的。因此对于多值变量的logistic回归模型,要求作平行性检验,也称为比例比数假设检验(test for the proportional odds assumption),使用的方法是计分检验法。 当检验结果p0.05时,没有理由拒绝上述无效假设,这时,多值变量的logistic回归模型有统计意义。否则,应当将因变量的某些值合并,减少因变量的取值个数,使得多值变量logistic回归模型的平行性成立。 内容内容 基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用复习相关概念复习相关概念相对危险比数比21ppRR 221111p
11、pppOR相对危险RR表示暴露在危险因子下的发病率与不暴露在危险因子下的发病率的比。例如,如果RR=2.5,那么,暴露下的发病率是非暴露下的发病率的2.5倍。比数比OR表示暴露在危险因子下的发病率与不发病率之比与非暴露在危险因子下的发病率与不发病率之比的比。比较以上公式可以看出,当发病率很低时,ORRR。因此,当发病率很低时,OR=2.5也可以解释为:暴露下的发病率是非暴露下的发病率的2.5倍,或暴露下发病的几率比非暴露下发病的几率高150% 。 一元一元logistic回归模型系数的解释回归模型系数的解释 当发病率很低时,ORRR,因此这时e RR,也就是说,e 近似地表示了相对危险度,即暴
12、露下的发病率与非暴露下的发病率之比。 有哑变量的有哑变量的logistic回归模型系数的解释回归模型系数的解释 每一个组与对照组的相对危险度的估计值。任意两组间的OR=ei / ej 无交互影响的多元无交互影响的多元Logistic回归模型的系数解释回归模型的系数解释 如果模型中因变量y=1,0分别表示有胃病和无胃病;自变量 x 1 =1,0分别表示吸烟和不吸烟;自变量 x 2 =1,0分别表示饮酒和不饮酒,那么,e1 近似地表示消去了饮酒因素的影响后吸烟者患胃病的几率与不吸烟者患胃病的几率之比。e2 近似地表示消去了吸烟因素的影响后饮酒者患胃病的几率与不饮酒者患胃病的几率之比。 设因变量 y
13、 取值1和0,分别表示患病和未患病。设自变量 x 1取值1和0,设自变量 x 2取值1和0。这样 x 1 和 x 2 的交叉水平有四个,它们是(1,1)、(1,0)、(0,1)、(1,1),建立四个哑变量分别代表这四个水平,记为 x11、 x 10、 x 01、 x 00 ,它们表示了四种不同的方式。将前三个哑变量放进模型,则可以得前三种方式相对于最后一种方式患病的相对危险度。 有交互影响的多元有交互影响的多元logistic回归模型的系数解释回归模型的系数解释 多值变量的多值变量的logistic回归模型的系数解释回归模型的系数解释 对于多值因变量模型,平行性假设决定了每个自变量的OR值对于
14、前g-1个模型是相同的。例如,变量x1的OR=5.172,它表示使用第一种的可能性是使用第二种的5.172倍;它也表示使用第一种至少有效的可能性是使用第二种的5.172倍。内容内容 基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用共有n个匹配组,1:m配对,p个变量资料的条件似然函数:nimjpiijppiijxxxxL110011111再用最大似然法求解参数估计值,由于匹配关系,在模型中不含常数项。数据资料特征数据资料特征内容内容 基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用Logistic回归分析在医学研究中有着相当广泛的应用价值。归纳起
展开阅读全文