医学统计方法概述课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《医学统计方法概述课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计 方法 概述 课件
- 资源描述:
-
1、浙江大学公共卫生学院流行病与卫生统计学科系 沈毅医学统计方法概述医学统计方法概述浙江大学公共卫生学院流行病与卫生统计学科系 沈毅 随着国内外医学期刊越来越重视统计方法的正确应用,医学研究者早已认识到医学统计学在医学研究中的重要作用。然而,医学研究者对统计方法的应用还存在一定的困难,时常会出现误用甚至错用统计方法的情况。统计分析的一个目的就是通过样本信息推论总体特征,分析单个或多个暴露变量和结局变量的关系。统计学将数据分为计量资料和分类资料两大类型。在随访研究中,还有一种数据为生存资料。统计分析方法主要根据结局变量的类型,综合考虑研究目的、设计类型及适用条件等因素进行选择。浙江大学公共卫生学院流
2、行病与卫生统计学科系 沈毅1.采用统计学方法,发现不确定现采用统计学方法,发现不确定现象背后隐藏的规律。象背后隐藏的规律。变异变异(variation)是社会和生物医学中的普遍现象。是社会和生物医学中的普遍现象。变异使得实验或观察的结果具有变异使得实验或观察的结果具有不确定性不确定性,如每个人的身高、体重、血压等,如每个人的身高、体重、血压等各有不同。各有不同。一、为什么要学统计学?一、为什么要学统计学?浙江大学公共卫生学院流行病与卫生统计学科系 沈毅 最大值=6.18,最小值=3.29,极差=2.89。算术均数=4.72,标准差=0.57。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅2.
3、用统计学思维方式考虑有关医学研用统计学思维方式考虑有关医学研究中的问题究中的问题 “阳性阳性”结果是否是虚假联系?结果是否是虚假联系?某感冒药治疗某感冒药治疗1周后,治愈率为周后,治愈率为90%,能否说该感冒药十,能否说该感冒药十分有效?分有效?以前的许多研究表明,血清甘油三酯的含量与冠心病危险以前的许多研究表明,血清甘油三酯的含量与冠心病危险性有关,即甘油三酯的含量越高,患冠心病的危险性就越大。性有关,即甘油三酯的含量越高,患冠心病的危险性就越大。有的医生以此筛选危险人群?有的医生以此筛选危险人群?冠心病甘油三酯胆固醇+高密度脂蛋白虚假联系浙江大学公共卫生学院流行病与卫生统计学科系 沈毅统计
4、学方法用于干预试验统计学方法用于干预试验 1835年,法国医生年,法国医生P.C.A.Louis 对当时流行的对当时流行的“放血放血”疗法治疗肺炎的效果疗法治疗肺炎的效果进行了比较,发现进行了比较,发现“放血放血”的疗效不象预期的那么好,而且早期的疗效不象预期的那么好,而且早期“放血放血”和和晚期晚期“放血放血”组比较,患者的诊断、病情、病程、年龄等方面的差异很大,组比较,患者的诊断、病情、病程、年龄等方面的差异很大,比较平均治愈时间意义不大。因为晚期比较平均治愈时间意义不大。因为晚期“放血放血”组的平均治愈时间长,但该组的平均治愈时间长,但该组患者病情重、病程长、年龄大。组患者病情重、病程长
5、、年龄大。Louis对医学研究的方法学作出了很大贡献:对医学研究的方法学作出了很大贡献:(1)用数字的方法表示不同疾病患者的特征和预后;)用数字的方法表示不同疾病患者的特征和预后;(2)提出了临床疗效对比的前瞻性原则;)提出了临床疗效对比的前瞻性原则;(3)提出抽样误差和混杂()提出抽样误差和混杂(confounding)概念。其中前瞻性研究和减少混概念。其中前瞻性研究和减少混杂,分别成为当今临床试验和流行病学研究的基本研究方法;杂,分别成为当今临床试验和流行病学研究的基本研究方法;(4)在在J.Gavarret 的的协助下,协助下,Louis的数字方法发展为的数字方法发展为“概率框架概率框架
6、”,Gavarret也于也于1840年在巴黎出版了世界第一部医学统计学教科书。年在巴黎出版了世界第一部医学统计学教科书。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅 如:当专业上有一定联系的两个变量之间的变化呈“S型”或“倒S型”曲线趋势时,若错误地用直线方程去描述,从统计学角度看效果也很好,但在专业上是解释不通的。再比如,某两个统计量(如均值、率等)之间的差别在统计学上有显著性意义,有时在专业上并无实用价值。如某种新的降压药,平均降低血压 2 mmHg,若样本含量较大,误差又较小,统计检验可能会得到“P0.05”的结果,但在临床上却认为此新药的疗效没有多大提高。另外,在运用统计学中,稍有
7、不慎都可能犯这样或那样的错误。因此,统计结论的可靠性仍需通过实践去检验。所以,应当牢记:运用统计学时必须结合医学实际,才能真正发挥统计学应有的作用。组别N基线血压(mmHg)治疗后血压(mmHg)标准差(mmHg)P值95%CI(mmHg)统计学意义临床意义治疗组20016014260.050.83.2有无对照组2001601446有统计学(差异)意义,并不代表有生物学、临床意义有统计学(差异)意义,并不代表有生物学、临床意义浙江大学公共卫生学院流行病与卫生统计学科系 沈毅例:某医生用一种新的治疗某病的疗法(简称治疗组),用现在公认的疗法作为对照(简称对照组),经临床试验,对照组和治疗组的疗效
8、分别为P1=75%与P2=95。问:能认为这两个有效率之间的差别有显著性意义吗?答:这两个有效率之间的差别可能有统计学意义,也可能没有统计学意义。因为其结论不仅取决于二者之差的绝对值大小,更主要的是取决于随机误差的大小和样本大小,千万不可轻率地作出统计推断。现假定这两个有效率分别来自下列甲、乙、丙三批实验的结果,则具有下列3种不同的统计检验结果。“阴性阴性”结果是否是样本含量不足?结果是否是样本含量不足?有人曾对发表在有人曾对发表在Lancet,N Engl J Med,JAMA等著名医学杂志上的等著名医学杂志上的71篇阴性结果的论文作过分析,发现其中有篇阴性结果的论文作过分析,发现其中有62
9、篇(篇(93%)可能是由于)可能是由于样本含样本含量量不足造成的假阴性。不足造成的假阴性。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅 例 数 组 别 疗效:有效 无效 合计 有效率()甲实验 对照组 15 5 20 75.0 治疗组 19 1 20 95.0 乙实验 对照组 30 10 40 75.0 治疗组 38 2 40 95.0 丙实验 对照组 45 15 60 75.0 治疗组 57 3 60 95.0表1、两个有效率的比较甲实验中,P1与P2之间的差别无统计学意义(校正2=1.765,P0.05)乙实验中,P1与P2之间的差别有统计学意义(26.275,0.01P0.05);丙
10、实验中,P1与P2之间的差别也有统计学意义(29.412,P0.01)。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅00.10.20.30.40.50.60.70.80.91020406080100120140样本大小检验效能浙江大学公共卫生学院流行病与卫生统计学科系 沈毅3.保证你的研究论文能通过统计学审查保证你的研究论文能通过统计学审查 据国外据国外6080年代对不同医学杂志发表论文的调年代对不同医学杂志发表论文的调查,有查,有统计错误的论文的百分比最高达统计错误的论文的百分比最高达72%,最低,最低也有也有20%。国内国内1984年对年对中华医学杂志中华医学杂志、中华内科中华内科杂志
11、杂志、中华外科杂志中华外科杂志、中华妇产科杂志中华妇产科杂志、中华儿科杂志中华儿科杂志595篇论文的调查结果,相对数误篇论文的调查结果,相对数误用为用为11.2%,抽样方法误用,抽样方法误用15.9%,统计图表误用,统计图表误用11.7%。某研究者。某研究者1996年对年对4586篇论文统计(中华篇论文统计(中华医学会系列杂志仅占医学会系列杂志仅占6.9%),数据分析方法误用达),数据分析方法误用达55.7%。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅 “非常痛心地看到,因为数据分析的缺陷和错误,那么多好的生物研究工作面临着被葬送的危险”F.Yates,M.J.R.Healy医学论文中的
12、统计问题医学论文中的统计问题 统计知识的运用统计知识的运用 撰写论文:报告自己观察或实验的研究结果撰写论文:报告自己观察或实验的研究结果 阅读论文:吸收新知识,了解学术进展阅读论文:吸收新知识,了解学术进展 1996年,对申报科技成果的年,对申报科技成果的4586篇科研论文分析,篇科研论文分析,统计方法使用率为统计方法使用率为76%。医学论文中统计运用错误,除了影响论文的科学性,医学论文中统计运用错误,除了影响论文的科学性,还可能导致严重的伦理学问题。还可能导致严重的伦理学问题。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅 JAMA,新英格兰医学杂志(新英格兰医学杂志(NEJM)、)、英国
13、医学杂志、中华医学会英国医学杂志、中华医学会杂志对来稿杂志对来稿都有统计学要求都有统计学要求或统计学指导。或统计学指导。国际生物医学杂志编辑协会在其国际生物医学杂志编辑协会在其生生物医学期刊投稿的统一要求物医学期刊投稿的统一要求中也包含中也包含了统计学要求。了统计学要求。Uniform Requirements for Manuscripts Submitted to Biomedical Journals http:/www.acponline.org浙江大学公共卫生学院流行病与卫生统计学科系 沈毅中华医学杂志中华医学杂志对来稿中统计学处理的有关要求对来稿中统计学处理的有关要求1统计研究设计
14、:应交代统计研究设计的名称和主要做法。如调查设计统计研究设计:应交代统计研究设计的名称和主要做法。如调查设计(分为前瞻性、回顾性或分为前瞻性、回顾性或横断面调查研究横断面调查研究);实验设计;实验设计(应交代具体的设计类型,如自身配对设计、成组设计、交叉设计、应交代具体的设计类型,如自身配对设计、成组设计、交叉设计、析因设计、正交设计等析因设计、正交设计等);临床试验设计;临床试验设计(应交代属于第几期临床试验,采用了何种盲法措施等应交代属于第几期临床试验,采用了何种盲法措施等)。主要做法应围绕主要做法应围绕4个基本原则个基本原则(随机、对照、重复、均衡随机、对照、重复、均衡)概要说明,尤其要
15、交代如何控制重要非概要说明,尤其要交代如何控制重要非试验因素的干扰和影响。试验因素的干扰和影响。2资料的表达与描述:用资料的表达与描述:用x 和和s表达近似服从正态分布的定量资料,用表达近似服从正态分布的定量资料,用M(Q)表达呈偏态分布的表达呈偏态分布的定量资料;用统计表时,要合理安排纵横标目,并将数据的含义表达清楚;用统计图时,所用统定量资料;用统计表时,要合理安排纵横标目,并将数据的含义表达清楚;用统计图时,所用统计图的类型应与资料性质相匹配,并使数轴上刻度值的标法符合数学原则;用相对数时,分母不计图的类型应与资料性质相匹配,并使数轴上刻度值的标法符合数学原则;用相对数时,分母不宜小于宜
16、小于2O,要注意区分百分率与百分比。,要注意区分百分率与百分比。3统计分析方法的选择:对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析统计分析方法的选择:对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析目的,选用合适的统计分析方法,不应盲目套用目的,选用合适的统计分析方法,不应盲目套用t检验和单因素方差分析;对于定性资料,应根检验和单因素方差分析;对于定性资料,应根据所采用的设计类型、定性变量的性质和频数所具备的条件以及分析目的,选用合适的统计分析据所采用的设计类型、定性变量的性质和频数所具备的条件以及分析目的,选用合适的统计分析方法,不应盲目套用方法,不应盲目套用2
17、检验。对于回归分析,应结合专业知识和散布图,选用合适的回归类型,检验。对于回归分析,应结合专业知识和散布图,选用合适的回归类型,不应盲目套用简单直线回归分析,对具有重复实验数据的回归分析资料,不应简单化处理;对于不应盲目套用简单直线回归分析,对具有重复实验数据的回归分析资料,不应简单化处理;对于多因素、多指标资料,要在一元分析的基础上,尽可能运用多元统计分析方法,以便对因素之间多因素、多指标资料,要在一元分析的基础上,尽可能运用多元统计分析方法,以便对因素之间的交互作用和多指标之间的内在联系进行全面、合理的解释和评价。的交互作用和多指标之间的内在联系进行全面、合理的解释和评价。4统计结果的解释
18、和表达:当统计结果的解释和表达:当P005(或或P001)时,应说明对比组之间的差异有统计学意时,应说明对比组之间的差异有统计学意义,而不应说对比组之间具有显著性义,而不应说对比组之间具有显著性(或非常显著性或非常显著性)的差别;应写明所用统计分析方法的具体名的差别;应写明所用统计分析方法的具体名称称(如:成组设计资料的如:成组设计资料的t检验、两因素析因设计资料的方差分析、多个均数之间两两比较的检验、两因素析因设计资料的方差分析、多个均数之间两两比较的q检检验等验等),统计量的具体值,统计量的具体值(如如t=345,X2=468,F=679等等)应尽可能给出具体的应尽可能给出具体的P值值(如
19、如P=0.0238);当涉及到总体参数;当涉及到总体参数(如总体均数如总体均数 总体率等总体率等)时,时,在给出显著性检验结果的同时,再给在给出显著性检验结果的同时,再给出出95置信区间。置信区间。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅4.获得循证医学证据的主要手段获得循证医学证据的主要手段“良好愿望的医学良好愿望的医学”(well-meaning medicine)转入转入“以证据为基础的医学以证据为基础的医学”(evidence-based medicine,EBM)需要有统计学方法的支持。)需要有统计学方法的支持。全世界的医学期刊每年大约刊登全世界的医学期刊每年大约刊登6006
20、00万学术论文,但能作为可靠万学术论文,但能作为可靠“证据证据”的论文的论文并不多。并不多。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅二、数据的类型二、数据的类型 数据(Data)是统计统计分析的基础。统计统计分析方法的选择取决于不同的数据类型。最常见的数据类型有两种,分类数据(Categorical Data)或称定性数据(Qualitative Data)和定量数据(Qulantitative Data)或称计量数据(Numerical Data)。分类数据类型:分类数据的分层大于2时,又称为多分类数据(Polytomous Data)。分类数据类型有无序(Nominal Categ
21、orial)和有序(Ordinal Categorieal)。无序数据如性别(男、女)、血型(A、B、O、AB型)等。有序数据如肿瘤的分级(I级、II级、III级)、疼痛的程度(轻、中、重)等,以及在临床研究设计中,经常看到的“非常好、好、一般、差”这样的数据类型。不同类型的分类数据在统计分析方法上也不同,并不是大家所熟悉的 x2 检验所能全部涵盖的。定量数据类型:包括连续性数据(Continuous Data),如身高、体重以及不连续性数据(Discrete Data),如妇女的产次,疾病的复发次数等。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅按变量测量的精确程度测量的精确程度由低到高
22、,将数据分类为:名义数据(如性别、婚姻状况)、有序变量(如疗效,类别间差别大小难以度量)、区间变量(如摄氏体温,类别间差别有实际意义)、比变量(如身高,除具有区间变量的特征外,还具有真实意义的零点。摄氏温度的零点为水结冰时温度,并非绝对意义的零点,所以它不属于比变量)浙江大学公共卫生学院流行病与卫生统计学科系 沈毅三、临床研究数据的统计学特征人工设计的困难程度 不允许人工制造特定的病态个体差异大 个体间变异和个体内变异小样本试验差异的判断II型错误较大试验过程的多样性脱落病例非正态分布定性数据多结局指标有多个浙江大学公共卫生学院流行病与卫生统计学科系 沈毅四、四、总体与样本总体与样本 popu
23、lation and sample总体总体:根据研究目的根据研究目的确定的确定的同质同质研究对象研究对象的的全体全体(集合)。分(集合)。分有限总体与无限总体有限总体与无限总体样本样本:从总体中随机:从总体中随机抽取的部分研究对象抽取的部分研究对象 浙江大学公共卫生学院流行病与卫生统计学科系 沈毅随机抽样随机抽样 random sampling为了保证样本的为了保证样本的可靠可靠性性和和代表性代表性,需要采,需要采用随机的方法抽取样用随机的方法抽取样本(在总体中每个个本(在总体中每个个体具有体具有相同的机会相同的机会被被抽到)。抽到)。浙江大学公共卫生学院流行病与卫生统计学科系 沈毅浙江大学公
24、共卫生学院流行病与卫生统计学科系 沈毅五、五、参数与统计量参数与统计量 parameter and statistic参数参数:总体总体的统计指标,的统计指标,如总体均数、标准差,采如总体均数、标准差,采用希腊字母分别记为用希腊字母分别记为、。固定的常数固定的常数 样本样本抽取部分观察单位抽取部分观察单位 推断推断inference统计量统计量:样本样本的统计指标,如样本均数、标准差,采用拉的统计指标,如样本均数、标准差,采用拉丁字母分别记为丁字母分别记为 。参数附近波动的随机变量参数附近波动的随机变量。SX、浙江大学公共卫生学院流行病与卫生统计学科系 沈毅六、医学研究常用统计方法六、医学研究
25、常用统计方法 1描述集中趋势的统计量选择 描述集中趋势的统计量主要有算术均数、几何均数和中位数。选择何种统计量来描述其平均水平(即集中趋势)取决于数据的分布类型,判断其是否更适用,要看计算出来的统计量是不是更靠近其集中位置的变量值,即某组数据最中间的变量值。(一)、统计描述浙江大学公共卫生学院流行病与卫生统计学科系 沈毅表1、描述集中趋势的统计量浙江大学公共卫生学院流行病与卫生统计学科系 沈毅 2.描述离散趋势的统计量选择 描述离散趋势的统计量主要有极差、四分位数间距、标准差、方差、变异系数以及标准误。统计量的选择主要与资料的分布类型和研究目的有关。一般来讲,要全面描述一组数据的分布特征,既要
展开阅读全文