1、,2020/4/6,1,第十一章 实验设计与诊断试验的评价,医学统计学 人民卫生出版社,2020/4/6,2,学习目标 掌握:实验设计的基本要素;实验设计的基本原则;对照的几种形式;诊断试验评价指标。 熟悉:常用几种实验设计的方法;一致性检验Kappa值的计算。 了解:确定样本含量大小的基本条件;Kappa值标准误的计算和假设检验的方法。,2020/4/6,3,在开展实验研究之前,研究人员必须进行周密、细致而合理的实验设计(experiment design) 。实验设计就是对科学研究的具体内容、方法的设想和计划的安排。实验设计主要是依据研究目的,确定研究因素,选择效应指标,拟定研究对象的数量
2、和实施方法,以及数据收集、整理和分析模式,直至结果的解释。通过合理的、系统的安排,达到控制系统误差,以消耗最少的人力、物力和时间,而获得可靠的信息和结论。 良好的设计是顺利进行科学研究和数据分析的前提,也是获得预期结果的重要保证。如果设计错误,所得数据毫无价值,任何统计方法也无法挽救。,2020/4/6,4,第一节 实验设计的基本要素 医学实验包括3个组成部分,即受试对象、处理因素和实验效应。例如,观察某降压药的效果,高血压患者为受试对象,某降压药就是处理因素,被测的血压值则是实验效应,这三部分内容就构成了完整的实验基本要素,缺一不可。因此任何一项实验研究在进行设计时,首先应明确这三个要素,再
3、根据它来制订详细的研究计划。,2020/4/6,5,一、处理因素(study factor) 研究者根据研究目的施加于受试对象并能产生一定实验效应的因素,称为处理因素。处理因素可以是主动施加的,如实施某种药物等;也可以是客观存在的,如观察两种病人体内的某种理化指标等,两种病人即为处理因素。在确定处理因素时,应注意以下两个问题:,2020/4/6,6,1.明确实验研究的非处理因素 非处理因素是指不是此次实验研究的因素,但也能使受试对象产生效应的因素。如观察某药物治疗慢性胃炎的疗效,病人的病情、年龄、饮食结构等都对疗效有一定的影响。故这些因素为实验的非处理因素,又称干扰因素或混杂因素(confou
4、nder)。一定要明确影响实验的非处理因素,并尽可能地进行控制。 2.处理因素要标准化 是指在进行同一个实验研究时,施加于多个受试对象的处理因素要相同一致。如试验药物要同一厂家、批号和生产日期;检测仪器、试剂、操作者要相同。,2020/4/6,7,二、受试对象(study subjects) 医学研究的受试对象一般为人和动物,在实验进行前必须对研究对象的条件作严格的规定,以保证受试对象的同质性。受试对象的选择应注意以下几个方面: 1.受试对象应具有明确的纳入标准和排除标准 无论是动物实验或临床试验,对受试对象的选择一定要有严格的纳入标准和排除标准,以保证研究对象的同质性。 2.受试对象应对处理
5、因素敏感和反应稳定 受试对象对处理因素是否敏感、反应是否稳定直接影响到实验结果的正确性。,2020/4/6,8,例如,观察某药物对高血压的疗效,一般情况期高血压患者对药物不够敏感,而期患者本身血压波动较大,结果不稳定,因此宜选择期高血压患者为受试对象。又如,猫和鸽子对呕吐反应比较敏感,而豚鼠、家兔则缺乏此种反应。 3.注意医学伦理问题 临床试验一定以不影响患者健康转归为准则,患者或其亲属要有知情权,并在知情同意书上签字并注明日期。当科研与治疗发生冲突时,要服从医疗上的需要,确实符合医学伦理学的要求。,2020/4/6,9,三、实验效应(experimental effect) 实验效应是处理因
6、素作用于受试对象的反应和结果,它通过观察指标来表达。如果指标选择不当,未能准确的反映处理因素的作用,那么获得的研究结果就缺乏科学性,因此选好观察指标是关系研究成败的重要环节。选择指标的依据是:指标应具有关联性、客观性、精确性、特异性与敏感性。,2020/4/6,10,1.关联性 是指观察指标与研究目的有着本质而密切的联系,能够确切反映处理因素的试验效应。如观察苯对人体的作用,应检查白细胞数,因为苯可直接是白细胞数下降。指标的选择可以通过查阅文献或根据以往经验而获得。 2.客观性 观察指标有主观指标与客观指标之分,主观指标是由病人回答或医生定性判断来描述观察结果;而客观指标则是借助仪器进行测量来
7、反映观察结果。特别是在临床试验中,主观指标易受研究者和受试对象心理因素的影响,例如“疼痛程度”、“咳喘程度”等。因此应尽量选用客观的、定量的指标。,2020/4/6,11,3.精确性 包括准确度(accuracy)和精密度(precision)。准确度指观察值与真值的接近程度,主要受系统误差的影响。精密度指相同条件下对同一对象的同一指标进行重复测量时,测量值与其均数的接近程度,主要受随机误差的影响。观察指标应当既准确又精密。 4.特异性与敏感性:特异性表示该指标能鉴别真阴性的能力,敏感性则表示该指标检出真阳性的能力。,2020/4/6,12,选择指标应能反映处理因素的效应本质,高特异性和高敏感
8、性是指标可用性的体现。特异性高的指标最易揭示处理因素的作用,不易受混杂因子所干扰,减少假阳性率;同时敏感性高的指标则可减少假阴性率。例如,血糖高低是诊断糖尿病患者基本依据,显然血糖在糖尿病研究中是特异性高的指标。如血沉在结核活动期明显升高,属敏感性高的指标,但它在风湿病活跃期也发生改变,显然对研究结核病不具有高特异性,仅能作为辅助指标或次要指标。,2020/4/6,13,消除主观性指标导致的心理偏性的方法一般是使用盲法设计。 盲法设计(design of blind method)一般分为单盲(single blind)及双盲(double blind)。单盲是指受试对象不知道自己被施加何种处
9、理因素,不知道该处理因素的预期结果或效应,而研究人员知道具体的设计方案。该法主要用于消除受试对象的心理偏见。双盲是指试验执行者及受试对象均不知道具体的设计方案及处理因素的预期结果或效应。,2020/4/6,14,第二节 实验设计的基本原则 实验设计的目的是使处理因素对机体的实验效应能单独地显示出来,如果处理因素用T表示,T的实验效应用e表示,即T e,但是,由于T对机体的作用还受到非处理因素的影响,所以实验效应的大小也就不单是处理因素T的结果。如用某药治疗某病,药物是处理因素,疗效是实验效应,患者的年龄、病情、饮食、环境等各种非处理因素都对疗效有作用,如非处理因素用S表示,其对疗效的作用用s表
10、示,即 T+S e+s e 称为真实效应,s称为干扰效应。,2020/4/6,15,如果实验设立对照组,使实验组和对照组的非处理因素S均衡,S1=S2,则理论上两组的干扰效应也均衡,即s1=s2,则T的真实效应e就显示出来。 空白对照: 实验组:T+S1 e+s1 对照组:O+S2 o+s2 相互对照: T1+S1 e1+s1 T2+S2 e2+s2 在实验设计时必须遵守3个基本原则,即对照原则、随机原则和重复原则。,2020/4/6,16,一、对照原则 对照(control)是科学实验中消除非处理因素的影响不可缺少的重要手段,没有对照就没有比较和鉴别,也就谈不上实验结果的正确性和科学性。但有
11、些很难治愈治愈的疾病也可不设对照组。 常用对照的形式: 1.空白对照:对照组不施加任何处理因素,完全在“空白”的情况下进行对照。 2.实验对照:对照组不施加处理因素,但施加某种试验因素。,2020/4/6,17,3.自身对照:对照和试验在同一受试者身上进行。此对照应注意观察指标随时间、环境变化而自然变化的问题,如治疗前后血压值的变化。 4.相互对照:不单设对照组,各试验组之间互为对照。 5.标准对照:以最好的“标准”疗法或药物作对照。此对照安全、稳妥、易于病人接受。 6.安慰剂对照 安慰剂(placebo)是指一种无药理作用的假药,其与治疗药物在外观、剂型等方面不能被受试对象所识别。安慰剂对照
12、则是指将安慰剂施加于对照组的受试对象。安慰剂对照是一种特殊的空白对照,其目的主要是排除病人或受试对象的心理偏见。主要用于双盲试验。,2020/4/6,18,7.历史对照 历史对照是指以过去或以往的研究结果作为对照。应特别注意资料的各种背景条件因素及其可比性。 实验组和对照组要满足均衡性的要求: 均衡性(balance)也称为齐同性,是指对照组除处理因素与实验组不同外,其它各种非处理因素应基本一致。 例如观察药物ADI对预防儿童肠道传染病的效果,拟进行两种方案设计:,2020/4/6,19,第一方案:甲托儿所选100名儿童,服用ADI,乙托儿所选100名儿童作对照,观察其结果。,甲托儿所 100
13、名 服ADI,乙托儿所 100名 未 服ADI,甲托儿所年肠道发病率8%,乙托儿所年肠道发病率20%,2 检验,P 0.05,2020/4/6,20,第二方案:甲托儿所选100名儿童,其中50名服用药物,50名作对照;乙托儿所选100名儿童,其中50名服用药物,50名作对照。,甲托儿所 50名服ADI,甲托儿所 50名未服ADI,乙托儿所 50名服ADI,乙托儿所 50名未服ADI,服ADI年肠道发病率8%,乙托儿所年肠道发病率20%,2 检验,P 0.05,2020/4/6,21,对于观察病人的某些主观指标,要采用盲法(blind method)设计。分为单盲法(single blind m
14、ethod)和双盲法(double blind method)。 二、随机原则 随机化(randomization)是指总体中的每一个个体都有均等的机会被分配到实验组及对照组中去,而不是凭研究者的主观意愿而决定。这是保证实验中均衡一致的重要手段。随机化的方法有多种。常用的有抽签法,抓阄法,随机数字法等。具体方法见第五节。,2020/4/6,22,三、重复原则 重复(replication)是指在相同实验条件下进行多次实验和观察,以提高实验结果的可靠性。主要包括以下两方面的含义: (一)对同一受试对象进行重复测量 对同一受试对象进行多次观测,以保证结果的可靠性。例如,血压一般重复测3次,以3次的
15、均数作为观测结果。 (二)对多个受试对象进行试验 处理组与对照组的受试者应具有一定的数量,也就是说要求有一定的样本含量(样本例数)。,2020/4/6,23,临床试验中,研究对象往往是无限的,如观察某药治疗糖尿病的效果,研究对象应是所有糖尿病的病人,这实际是不可能的,往往是抽一部分病人做样本进行治疗观察,其疗效结果来推断治疗所有糖尿病人的效果,所以样本的例数越大,其治 效果的代表性就越大,例数越少,代表性也就越差。 另外,在统计检验中,样本例数较少,易出现假阴性结果,即本来试验组和对照组疗效差异有统计学意义,而结论为无统计学意义(p0.05),使试验结果失去真实性。,2020/4/6,24,有
16、人调查我国15种主要临床医学杂志中的450个两样本率比较假设检验的阴性结果,经验证有81的样本例数偏小,因此文章中差异无显著性的结论很可能是判断错误。但也不是样本例数越多越好,样本例数太大,不仅会增加严格控制试验条件的困难,也造成人力、物力和时间上的浪费。因此,在试验设计中要对样本的大小作出合理的估计,即在保证试验结果具有一定可靠性的条件下,确定最少的样本含量,以节约人力和经费。,2020/4/6,25,估计样本含量应考虑下列基本条件和要求: 1.确定所比较的两个总体参数间的差值 可以是两个总体均数或总体率的差值。如两总体均数间的差值1-2 ,两总体率间的差异1-2。总体参数可使用公认的标准值
17、、常规值或经样本预试验而获得的估计值。 2.确定总体标准差 由于总体标准差往往未知或不易获得,一般可用预试验的样本标准差S来估计或代替。,2020/4/6,26,3.确定第一类错误的概率 也称为检验水准或显著性水平,越小,所需样本例数越多。习惯上,检验水准一般取0.05,并可根据专业要求决定取单侧或双侧。 4.检验效能(1-) 检验效能也称为把握度,是指在特定水准下,若总体间确实存在差异,则该次试验能发现此差异的概率。其中的为第二类错误。(1)越大,即把握度越高,所需样本例数越多。通常取0.1或0.2,相应的检验效能为0.9或0.8。一般检验效能不宜低于0.75,否则第二类错误增大,“存伪”的
18、概率增加。,2020/4/6,27,第三节 常用实验设计方法 一、完全随机设计(completely randomized design) 完全随机设计也称为单因素设计,该设计是一种考察单因素二水平或多水平设计方案,他将同质受试对象不加任何条件限制,采用随机数字表或随机排列表,随机的分配到各处理水平组去。处理水平组数k=2时,适用成组t检验对两组均数进行比较;k2时适用单因素方差分析对多个均数进行比较,有统计学意义时,进行两两比较。该设计的特点是,简单方便,易于实施,但只能分析一个因素的作用,检验效能较低。,2020/4/6,28,例11-1 试将15只体重相近、性别相同小白鼠随机分为A、B、
19、C三组,每组5只。 设计及分组步骤如下。 (1)将15只动物任意编号为115号。,2020/4/6,29,(2)查附表14随机数字表,可以从表中任意一行或一列,任意一个方向查抄随机数字。本例由该表的第11行第1列沿水平方向查抄15个两位随机数字,按随机数字从小到大的顺序编序号,如果随机数相同,则先出现的为小。事先设定规则:序号15对应的小白鼠分为A组,序号610对应的小白鼠分为B组,序号1115对应的小白鼠分为C组。分组结果见表11-1。,2020/4/6,30,注意事项: 1.注意组间的均衡性,减少抽样误差。 2.各组样本含量相等时,称为平衡设计(balanced design);样本含量不
20、等时,称非平衡设计(unbalanced design)。平衡设计的统计检验效率高于非平衡设计。 二、配对设计(paired desige) 配对设计是将受试对象按一定条件配成对子,再将每对中的两个受试对象随机分配到两个不同的处理组。与完全随机设计相比,其优点是抽样误差较小,统计检验效率较高,所需样本含量相对较少。常用的统计方法为配对t检验。,2020/4/6,31,受试对象,对子1,对子2,对子k,按配对条件,实验组,对照组,随机分组,实验组,对照组,实验组,对照组,随机分组,随机分组,2020/4/6,32,常用设计方式有: 1.自身对照设计:是以受试者接受处理因素前的测定值作为对照,将处
21、理因素作用后的测定值作为实验值,据此观察一定数量的受试者。同一标本接受两种不同的测定方法。 2.异体配对设计:是将条件(年龄、性别、病种、病情)相同或相近的个体配成对子,再按随机的方法将其分别分配到对照组和试验组中。,2020/4/6,33,例11-2 试将10对受试者随机分入甲、乙两处理组。 (1)先将受试者编号,如第一对第1受试者编为1.1,第2受试者编为1.2,余仿此。 (2)从附表14随机数字表中任意一行,如第16行最左端开始横向连续取20个两位数。事先规定,每对中,随机数较小者序号为1,对应A组;随机数较大者序号为2,对应B组。如果随机数相同,则先出现的为小。分配结果见表11-2。,
22、2020/4/6,34,2020/4/6,35,三、随机区组设计(randomized block design) 随机区组设计又称配伍组设计,是配对设计的扩展,也可看作 1:X 的配对设计。该设计时将受试对象按配对的条件划分成若干个区组或配伍组,再将每一区组中的各受试对象随机分配到各个处理组中去。,2020/4/6,36,2020/4/6,37,该设计的特点: 1.配伍组设计属两因素设计,能对处理组和配伍组进行两因素方差分析。 2.由于各配伍组的条件基本相同,组间均衡性好,抽样误差小,试验效率较高。 3.设计的原则为“区组内差别越小越好,区组间差别越大越好”。 4.按规定条件划分区组,若每个
23、区组的例数是处理组的倍数,则将条件更接近者再分为若干小区组。,2020/4/6,38,例11-3 研究人员在进行科研时,要观察2个因素的作用。欲用16只动物分为四个区组和四个处理组。试进行设计及分组。 (1)取同一品系的动物16只。其中每一区组取同一窝出生的动物4只。四个区组即为四个不同窝别的动物。 (2)将每一区组的4只动物分别顺序编号为14号,58号,912号,1316号,接受A、B、C、D四种处理方式。 (3)查附表16 随机数字表,任意指定一行,如第36行最左端开始横向连续取16个两位数字。再将每一区组内的四个随机数字由小到大排序。事先规定:序号1,2,3,4分别对应A,B,C,D四个
24、处理组。见表10-4。,2020/4/6,39,2020/4/6,40,第四节 诊断试验的评价 临床诊断包括各种实验室化验检查诊断、影像学诊断和医疗仪器诊断等,各种方法的诊断价值如何,必须通过诊断试验确定。 一、诊断试验评价方法 1.诊断试验评价方法的金标准 诊断试验评价(evaluating diagnostic tests)中要有一个金标准(gold standard),临床上常用的金标准有:病理学检查(细胞学检查、组织活检或尸体解剖);外科学中的手术确诊; 影像学诊断中使用的标准片或标准模具。,2020/4/6,41,2.新的诊断试验方法 主要包括以下几个方面:新的生化检测方法;新的DN
25、A检测指标;新的影像学检测方法;新的医学检测仪器的检测指标;根据多种指标提出的新的数学模型、判别准则。 3.诊断试验评价的四格表 根据“金标准”诊断结果,把受试对象分为实际患病组(阳性)和未患病组(阴性),用待评价的诊断试验方法对这些受试对象进行评价,得出阳性和阴性的结果,于是可得四格表。见表11-5所示。,2020/4/6,42,二、诊断试验评价指标 1.敏感度 敏感度(sensitivity)又称真阳性率,记为。表示实际患病按诊断实验方法正确判为有病的概率,反映了诊断方法检出患者的能力,该指标越大越好。,2020/4/6,43,2.特异度 特异度(specificity)又称真阴性率,记为
26、。表示实际未患病按诊断实验方法正确判为没病的概率,反映正确排除某病的能力,该指标越大越好。,3.总符合率 总符合率(total consistent rate)又称总正确率,记为。表示诊断方法与金标准诊断的符合程度,它反映了正确诊断患者和非患者的能力。,2020/4/6,44,4.误诊率 误诊率(mistake diagnostic rate)又称为假阳性率,记为。表示实际未患病按诊断实验方法错误判为有病的概率,该指标越小越好。,5.漏诊率 漏诊率(omission diagnostic rate)又称假阴性率,记为。表示实际患病按诊断实验方法错误判为没病的概率,该指标越小越好。,2020/4
27、/6,45,6.Youden指数 Youden指数(Youden index)记为YI,表示扣除了误诊率、漏诊率之后的率,反映了诊断试验方法的综合能力,该指标越大越好。,7.比数积 比数积(odds product)记为OP,是把敏感度和特异度综合考虑的统计指标,该指标越大越好。,2020/4/6,46,8.阳性预测值 阳性预测值(positive predictive value)记为,表示诊断试验结果为阳性者实际患病的概率,该指标越大越好。,9. 阴性预测值 阴性预测值(negative predictive value)记为,表示诊断试验结果为阴性者实际未患病的概率,该指标越大越好。,2
28、020/4/6,47,例11-4 现欲评价一种牙髓电活力测试仪诊断牙髓组织是否坏死的准确性,选择知情同意的251名牙患病人作为受试对象,以病理检查作为诊断的“金标准”,结果见表11-6。试计算各种诊断试验评价指标。,2020/4/6,48,2020/4/6,49,三、诊断试验的一致性检验 1960年Cohen等提出了用Kappa值作为评价判断的一致性程度的指标。实践证明,Kappa值是描述判断一致性的较为理想的指标,因此在临床试验中得到广泛的应用。 一致性检验常用于以下几个方面:诊断试验方法与金标准的一致性;两种检测方法对同一样本检测的一致性;同一医务工作者对同一观察对象进行两次诊断(如影像学
29、诊断)结果的一致性;两个医务工作者对同一观察对象诊断结果的一致性。,2020/4/6,50,1.Kappa值的计算 Kappa值的计算公式为,式中,PA为实际观察到的一致率,计算公式为,式中,a和d是检验结果相同的例数。 Pe为期望一致率,即两次检查结果由于偶然机遇所造成的一致率,计算公式为:,2020/4/6,51,式中,Ri、Ci为四格表中a和d对应的同行合计值和同列合计值,N为总例数。 Kappa值的分子为实际观察到的一致率与期望一致率之差,分母是为了减少期望一致率对一致性判断的影响。Kappa取值在-11之间,Kappa值为1,说明两次判断完全一致;Kappa值为-1,说明两次判断完全
30、不一致;Kappa值为0,说明两次判断完全是机遇造成的。实际应用中Kappa值只有在01时,判断一致性才有意义。Kappa值越大,说明一致性越好。一般说来,Kappa0.75,说明有极好的一致性;Kappa值0.4,说明一致性不理想。,2020/4/6,52,例11-5 对表11-6资料评价两种方法诊断的一致性。,本例Kappa值接近0.75,说明两种方法诊断的一致性比较理想。 2.Kappa值的抽样误差与可信区间 由样本数据计算的Kappa值是样本统计量,存在着抽样误差。Kappa指抽样误差计算公式为:,2020/4/6,53,Kappa值的标准误:,本例,=0.063,2020/4/6,54,当观察例数较多时(n100),Kappa值的可信区间为,本例Kappa值95%可信区间为0.7081.960.063,即(0.585,0.831)。 3.Kappa值的假设检验 Kappa住的假设检验是推断Kappa值为0的总体。基本步骤为: (1)建立检验假设,确定检验水准,H0:总体Kappa=0;H1:总体Kappa0,2020/4/6,55,(2)计算检验统计量,本例,(3)确定P值,作出推断结论 本例z , P0.001,按照=0.05检验水准,拒绝H0,接受H1,可认为两种检测方法诊断结果存在一致性。,2020/4/6,56,Thank You !,