生存分析和COX回归44页课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《生存分析和COX回归44页课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生存 分析 COX 回归 44 课件
- 资源描述:
-
1、第十八章第十八章生存分析和生存分析和COXCOX回归回归上海第二医科大学生物统计教研室第一节第一节 基本概念基本概念 在医学,生物学研究中,常用到生存分析 (Survival Analysis)方法。例如对于肿瘤等疾病的疗效及预后的考核,通常不用治愈率,有效率等表示,而用将来复发或死亡的时间长短表示,也即生存期来表示。 所谓生存期(survival time)是指从某个标准时刻(如发病,确诊,开始治疗或进行手术的时间)算起至死亡或复发为止的时间。 生存期不同于一般指标的二个特点:1.有截尾数据(censored data) 随访中未能知道病人的确切生存时间,只知道病人的生存时间大于某时间。(1
2、)病人失访或因其他原因而死亡-失访(2)到了研究的终止期病人尚未死亡-终访截尾数据可记为t+,如: 4+ = 生存时间大于4年。 虽然截尾数据提供的信息是不完全的,但不能删去,因为这不仅损失了资料,而且会造成偏性。2. 生存期的资料一般不服从正态分布。 由于上述原因,常用的统计方法不适用,而要用特殊的统计方法。 生存分析是指对于生存期这一指标进行分析的一系列特殊的统计方法。 生存时间不一定专用于死与活的情况,生存时间(存活时间)可定义为从某种起始事件到达某终点事件所经历的时间跨度。例如急性白血病病人从治疗开始到复发为止之间的缓解期;冠心病病人在两次发作之间的时间间隔;已作输卵管结扎的妇女从施行
3、输卵管吻合手术后至受孕的时间间隔;在流行病学研究中,从开始接触危险因素到发病所经历的时间等都可作为生存时间用作生存分析。 有时还收集一些有关因素(称为自变量或协变量), 以分析这些协变量是否对生存时间有影响,影响的大小,是缩短或延长生存时间。这可以通过Cox回归进行分析,因此,Cox 回归可看成带有协变量的生存分析。 包括: (1)开始观察日期,终止观察日期-生存时间 (2)结局(最终的观察到的是死亡还是存活) 死于该病-完全数据 存活或死于其他原因-截尾数据 每个生存期数据要用2个变量表示:观察到的生存时间和是否截尾(如:用1表示截尾,用0表示死亡;4+ 用4,1表示;4用4,0表示)。 (
4、3)协变量-各种影响生存期长短的因素。随访资料的记录:第二节 描述生存时间分布规律的函数 一. 生存率(Survival Rate) 又称为生存概率或生存函数,它表示一个病人的生存时间长于时间t的概率,用S(t) 表示: s(t)=P(Tt) 如5年生存率: s(5)=P(T5) 以时间t为横坐标,S(t)为纵坐标所作的曲线称为生存率曲线, 它是一条下降的曲线,下降的坡度越陡,表示生存率越低或生存时间越短,其斜率表示死亡速率。 1.2 概率密度函数 (Probability Density Function) 简称为密度函数,记为f(t),其定义为: f(t)=lim (一个病人在区间(t,t
5、+t)内死亡概率/t) 它表示死亡速率的大小。如以t为横坐,f(t) 为纵坐标作出的曲线称为密度曲线,由曲线上可看出不同时间的死亡速率及死亡高峰时间。纵坐标越大,其死亡速率越高,如曲线呈现单调下降,则死亡速率越来越小,如呈现峰值,则为死亡高峰。 1.3 风险函数(Hazard Function) 用h(t)表示,其定义为: h(t)=lim(在时间t生存的病人死于区间(t,t)的概率/t) 由于计算h(t)时,用到了生存到时间t,这一条件,故上式极限式中分子部分是一个条件概率。可将h(t)称为生存到时间t的病人在时间t的瞬时死亡率或条件死亡速率或年龄别死亡速率。当用t作横坐标,h(t)为纵坐标
6、所绘的曲线,如递增,则表示条件死亡速率随时间而增加,如平行于横轴,则表示没有随时间而加速(或减少)死亡的情况。 风险函数的不同情况:常数, 如:死于飞机失事。下降, 如:急性损伤。上升, 如:持续接触危险因素。澡盆样,如:人的一生。 生存分析目的:(1)估计生存函数。(2)比较各组的生存函数。(3)研究影响生存期长短的因素。第三节 生存率的估计方法 生存率S(t)的估计方法有参数法和非参数法。常用非参数法,非参数法主要有二个,即,乘积极限法与寿命表法,前者主要用于观察例数较少而未分组的生存资料,后者适用于观察例数较多而分组的资料,不同的分组寿命表法的计算结果亦会不同,当分组资料中每一个分组区间
7、中最多只有 1个观察值时,寿命表法的计算结果与乘积极限法完全相同。t(年)s(t)0110.6720.4530.340.250.1460.0970.06 参数法可求出一个方程表示生存函数S(t)和时间t的关系,画出的生存曲线是光滑的下降曲线。 非参数法只能得到某几个时间点上的生存函数,再用直线联起来,画出的生存曲线是呈梯型的。一. 乘积极限法(Product-Limit Method) 简称为积限法或PL法,它是由统计学家Kaplan和Meier于1958年首先提出的, 因此又称为Kaplan-Meier法, 是利用条件概率及概率的乘法原理计算生存率及其标准误的。 设S(t)表示t年的生存率,
8、s(ti/ti-1)表示活过ti-1年又活过 ti年的条件概率,例如s(1),s(2)分别表示一年,二年的生存率,而s(2/1)表示活过一年者,再活一年的条件概率,据概率的乘法定律有: S(2)=S(1)S(2/1),一般地有 S(ti)=S(ti-1)S(ti/ti-1) 例22.1 用某中药加化疗(中药组)和化疗(对照组)两种疗法治疗白血病后, 随访记录各患者的生存时间,不带+号者表示已死亡,即完全数据,带+ 号者表示尚存活,即截尾数据,试作生存分析。时间单位为月。 中药组 10,2+,12+,13,18,6+,19+,26,9+,8+,6+,43+,9,4,31,24 对照组 2+,13
9、,7+,11+,6,1,11,3,17,7资料中药组积限法计算生存率时间 状态 期初人数 死亡人数 条件生存率 累积生 di di/ni(ni-di)累积生存 ti si ni di (ni-di)/ni 存率S(ti)ni(ni-di) 率标准误 = 2 活 4 死 15 1 0.9333 0.9333 0.004762 0.004762 0.0644 6 活 6 活 8 活 9 死 11 1 0.9090 0.8485 0.009091 0.013853 0.0999 9 活 10 死 9 1 0.8889 0.7542 0.013889 0.027742 0.1256 12 活 13 死
10、 7 1 0.8571 0.6465 0.023810 0.051551 0.1468 18 死 6 1 0.8333 0.5387 0.033333 0.084885 0.1570 19 活 24 死 4 1 0.7500 0.4040 0.083333 0.168218 0.1657 26 死 3 1 0.6667 0.2694 0.166667 0.334885 0.1559 31 死 2 1 0.5000 0.1347 0.500000 0.834885 0.1231 43 活积限法的计算步骤为: 1.将n个生存数据ti,按小到大排列,当截尾数据与完全数据(非截尾值)相同时,截尾数据排
11、列在后,并写出每个生存数据的状态Si(即死或活),见表22.1的1,2列 2.写出各个完全数据(即死亡状态)的期初人数ni和死亡人数di,见表22.1的3,4列。 3.计算条件生存率的估计值,见表中第5列,S(ti/ti-1)=(ni-di)/ni 4.计算累积生存率,即时间ti的生存率估计值(见表中第6列) S(ti)=S(ti-1)S(ti/ti-1) 5.计算S(ti)的标准误(见表中第9列) i SE(Sti)=S(ti)dj/nj(nj-dj) j=1 表中已列出了积限法的全部结果,各个时间点的生存率和标准误分别在6,9两列,例如二年生存率(即24个月)为0.40400.1657二.
12、 寿命表法(Life Table Method) 适用于随访的病例数较多, 将资料按生存期进行分组,在分组的基础上计算生存率 ,本法也能用于不分组的资料,此时计算结果与积限法相同。 某医院1946年1月1日到1951年12月31日收治的126例胃癌病例,生存情况如表22.2,试用寿命表法估计生存率。 表22.2 126例胃癌患者寿命表法估计生存率 时间(年) 期初例数 死亡例数 失访例数 截尾例数 有效例数 条件生存率 累积生存率 di di/ni(ni-di)累积生存 ti ni di ui wi ni S(ti/ti-1) S(ti) ni(ni-di) 率标准误 = 0- 126 47
13、4 15 116.5 0.5966 0.5966 5.80510-3 5.80510-3 0.0455 1- 60 5 6 11 51.5 0.9029 0.5386 2.08810-3 7.89310-3 0.0479 2- 38 2 0 15 30.5 0.9344 0.5033 2.30110-3 0.0102 0.0508 3- 21 2 2 7 16.5 0.8788 0.4423 8.35910-3 0.0186 0.0602 4- 10 0 0 6 7.0 1.0000 0.4423 0 0.0186 0.0602 5- 4 0 0 4 2.0 1.0000 0.4423 0 0
14、.0186 0.0602 寿命表法估计生存率步骤如下: 1.将观察例数按时间段(年)0-,1-,2-,划分,分别计数期初例数,死亡,失访, 截尾例数列入表22.2的1-5列。事实上,从第二个时间段开始,期初人数ni 系由下式算得: ni=ni-1-di-ui-wi 例如第二行,即时间段1-,有 n2=126-47-4-15=60 2.计算各时间段期初实际观察例数,(亦称有效例数)ni ni=ni-ui/2-wi/2 上式表明该时间段期初例数中的失访,及截尾例数只计其半时,即得有效例数。 如第一行,n1=126-4/2-15/2=116.5 3.分别用(22.5)(22.6)(22.7)式计算条
15、件生存率S(ti/ti-1),累积生存率s(ti)及其标准误。 计算结果已列于表22.2中,第7,8,11列,表中9,10二列系用于第11列的计算。 例如时间段0-中 S(ti/ti-1)=(116.5-47)/116.5=0.5966 S(ti)=10.5966=0.5966 SE(S(ti)=0.59665.80510-3=0.0455 故一年生存率的估计为0.59660.0455 同样二年生存率的估计为0.53860.0479 由于寿命表法与积限法的累积生存率及其标准误的计算公式完全相同,所以,当分组资料中每一个分组区间中最多只有1个观察值时,寿命表法就是积限法。第四节 生存率的比较 当
16、有两个或两个以上的生存分布时,我们常需比较它们是否来自同一生存分布,此时的假设检验为: H0:样本所来自的总体生存分布相同。 H1:样本所来自的总体生存分布不相同。 可选用的检验方法有:Logrank法, 广义Wilcoxon法,和Cox-Mantel法等。当拒绝H0时,认为几个生存分布不相同。 当不需要整体比较,而只要比较个别时间点上几组生存率时可用下面方法:(1)两个生存率比较 生存率S1和S2,其方差为V1和V2 用卡方检验: 2 =(S1-S2)2 / (V1+V2) df=1(2)两个以上两个生存率比较 生存率S1,S2和S3,方差为V1,V2和V3 用卡方检验: 权重W1=1/V1
17、, W2=1/V2,W3=1/V3 加权平均生存率: S=(W1*S1+W2*S2+W3*S3) /(W1+W2+W3) 2 =W1*(S1-S)2 +W2*(S2-S)2 +W3*(S3-S)2 df=3-1表22.3 例22.1资料两疗法生存比较的Logrank检验时间 秩次 中药组序号 死亡例序号 处于危险 Logrank (非截尾数据) 状态例数 变换值Wti(年) i1 i2 i3 r 1 1 1 26 -0.96 2+ 2 1 0.04 2+ 3 0.04 3 4 2 23 -0.92 4 5 2 3 22 -0.87 6 6 4 21 -0.82 6+ 7 3 0.18 6+ 8
展开阅读全文