医学统计学第三章总体均属的估计与假设检验课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《医学统计学第三章总体均属的估计与假设检验课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学 第三 总体 估计 假设检验 课件
- 资源描述:
-
1、1第三章第三章 总体均数的估计与假设检验总体均数的估计与假设检验Estimation of Population Mean Estimation of Population Mean and Hypothesis Testand Hypothesis Test 2ContentContent1.1.Sampling error and standard error of meanSampling error and standard error of mean2.2.t-distributiont-distribution3.3.Estimation of Population MeanEst
2、imation of Population Mean4.4.t-testt-test5.5.Notice of hypothesis testNotice of hypothesis test 6.6.Normality test and homogeneity of varianceNormality test and homogeneity of variance test test3第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误4统计推断:由样本信息推断总体特征统计推断:由样本信息推断总体特征。样本统计指标样本统计指标(统计量)(统计量)总体统计指标总体统计指标(参数)(参数
3、)正态(分布)总体:正态(分布)总体:推断推断 !说明!说明!为说明抽样误差规律,先用一个实例,后为说明抽样误差规律,先用一个实例,后引出理论。引出理论。2(,)N 5 jjXS 167.41,2.74 165.56,6.57 168.20,5.36 165.69,5.09 nj=10 100 个 =167.7cm =5.3cm X1,X2,X3,Xi,图图3-1 1999年某市年某市18岁男生身高岁男生身高N(167.7,5.32)的抽样示意图的抽样示意图 6见见P3436表表3-17 将此将此100个样本均数看成个样本均数看成新变量值新变量值,则这,则这100个样本均数构成一个样本均数构成
4、一新分布新分布,绘制直方图。,绘制直方图。图图3-2 从正态分布总体从正态分布总体N(167.7,5.32)随机抽样所得样本均数分布随机抽样所得样本均数分布8 ,各样本均数各样本均数 未必等于总体均数;未必等于总体均数;各样本均数间存在差异;各样本均数间存在差异;样本均数的分布为中间多,两边少,左右基本样本均数的分布为中间多,两边少,左右基本对称。对称。样本均数的变异范围较之原变量的变异范围大样本均数的变异范围较之原变量的变异范围大大缩小。大缩小。可算得这可算得这100个样本均数的均数为个样本均数的均数为167.69cm、标准、标准差为差为1.69cm。XX 样本均数的抽样分布具有如下样本均数
5、的抽样分布具有如下特点:特点:91、抽样误差:、抽样误差:由个体变异产生的、抽样造成的样由个体变异产生的、抽样造成的样本统计量与总体参数的差别本统计量与总体参数的差别 均数的抽样误差:均数的抽样误差:由于抽样造成的由于抽样造成的样本均数与总体均数的差别样本均数与总体均数的差别 原因:原因:1 1)抽样)抽样 2 2)个体差异)个体差异10同理,在非正态分布总体中也可进行类似的抽样同理,在非正态分布总体中也可进行类似的抽样研究。研究。若若iX服从正态分布服从正态分布 则则 jX服从正态分布服从正态分布 n大:大:则则 jX近似服从正态分布近似服从正态分布 若若iX不服从正态分布不服从正态分布 n
6、小:小:则则 jX为非正态分布为非正态分布 本书以本书以n=60n=60为界限为界限11表示表示样本统计量样本统计量抽样误差大小的统计抽样误差大小的统计指标。指标。均数标准误:均数标准误:说明均数抽样误差的说明均数抽样误差的大小,总体计算公式大小,总体计算公式(3-1)Xn2、标准误标准误(standard error,SE)实质:样本均数的标准差实质:样本均数的标准差12XX;XX。数理统计证明:数理统计证明:13若用样本标准差若用样本标准差S 来估计来估计 ,(3-2)降低抽样误差的途径有降低抽样误差的途径有:通过增加样本含量通过增加样本含量n;通过设计减少通过设计减少S。XSSn14第二
7、节第二节 t 分布分布(t-distribution)15nt分布概述 n 抽样误差的分布规律 n n 样本 总体n t分布 理论 n 手段 (桥梁)目的16 一、一、t 分布分布的概念的概念 172若样本均数若样本均数X服从总体均数为服从总体均数为、总体标准差为总体标准差为X的正态分布的正态分布2(,)XN,则通则通过同样方式的过同样方式的 u 变换变换(XX)也可将其转换为也可将其转换为标准正态分布标准正态分布 N(0,12),即,即 u 分布分布。18,1XXXtnSSn 式中式中 为自由度为自由度(degree of freedom,df)3实际工作中,由于实际工作中,由于 未知,用未
8、知,用 代替,代替,则则 不再服从标准正态分布,而不再服从标准正态分布,而服从服从t t 分布。分布。XXS()/XXS19t 分分布布是是一一簇簇曲曲线线。当当自自由由度度不不同同时时,曲曲线线的的形形状状不不同同。当当 时时,t 分分布布趋趋近近于于标标准准正正态态分分布布,但但当当自自由由度度较较小小时时,与与标标准准正正态态分分布布差差异异较较大大。其其图图形形如如下下:二、二、t 分布的图形与特征分布的图形与特征 分布只有一个参数,即自由度t20 t-5.0-4.0-3.0-2.0-1.00.01.02.03.04.05.0(标准正态曲线)=5=1f(t)图3-3 不同自由度下的t
9、分布图21 单峰分布,以单峰分布,以 0 为中心,左右对称;为中心,左右对称;自由度自由度越小,则越小,则 t 值越分散,值越分散,t 分布的峰部分布的峰部越矮而尾部翘得越高;越矮而尾部翘得越高;当当逼近逼近,XS逼近逼近X,t 分布逼近分布逼近 u分布,故标分布,故标准正态分布是准正态分布是 t 分布的特例。分布的特例。1特征:特征:22 3t界界值值表表:详详见见附附表表2,可可反反映映t分分布布曲曲下下的的面面积积。单单侧侧概概率率或或单单尾尾概概率率:用用,t表表示示;双双侧侧概概率率或或双双尾尾概概率率:用用2 t界值表:详见附表界值表:详见附表2,可反映,可反映t分布曲分布曲线下的
10、面积。线下的面积。单侧概率或单尾概率:用单侧概率或单尾概率:用 表示;表示;双侧概率或双尾概率:用双侧概率或双尾概率:用 表示。表示。表表示示;双双侧侧概概率率或或双双尾尾概概率率:用用/2,t表表示示。23-tt024 0.05,10101.812t,单=0.05,则有(1.812)0.05 (1.812)0.05P tP t 或 0.05/2,10102.228t,双=0.05,则有(2.228)(2.228)0.05P tP t 举例举例:25第三节第三节 总体均数的估计总体均数的估计26一、参数估计一、参数估计 用样本统计量推断总体参数。用样本统计量推断总体参数。总体均数估计:总体均数
11、估计:用样本均数(和用样本均数(和标准差)推断总体均数。标准差)推断总体均数。27 1点点估估计计(point estimation):就就是是用用相相应应样样本本统统计计量量直直接接作作为为其其总总体体参参数数的的估估计计值值。如如用用X估估计计、S 估估计计等等。其其方方法法虽虽简简单单,但但未未考考虑虑抽抽样样误误差差的的大大小小。28 按预先给定的概率按预先给定的概率(1 )所确定的包含所确定的包含未知总体参数的一个范围。未知总体参数的一个范围。总体均数的区间估计:总体均数的区间估计:按预先给定的按预先给定的概率概率(1 )所确定的包含未知总体均数的一所确定的包含未知总体均数的一个范围
12、。个范围。如给定如给定=0.05,该范围称为参数的该范围称为参数的95%可信区可信区间或置信区间;间或置信区间;如给定如给定=0.01,该范围称为参数的该范围称为参数的99%可信区可信区间或置信区间。间或置信区间。2区间估计区间估计(interval estimation):29二、总体均数可信区间的计算二、总体均数可信区间的计算30 n总体均数可信区间的计算n需考虑:n(1)总体标准差是否已知,n(2)样本含量n的大小n通常有两类方法:n(1)t分布法 (2)u分布法31 (1)未未知知:按按t 分分布布。双双侧侧1可可信信区区间间则则为为:2,2,60,故可采用正态近似的方法按公式,故可采
13、用正态近似的方法按公式(3-8)计算可信区间。今计算可信区间。今 X=3.64、S=1.20、n=200、XS=0.0849,取双尾取双尾 0.05 得得0.05/21.96u。3.641.960.0849(3.47,3.81)(mmol/L)382.两两 总总 体体 均均 数数 之之 差差 的的 可可 信信 区区 间间:从从 相相等等,但但不不 等等 的的 两两 个个 正正 态态 总总 体体N(1,2)和和N(2,2)进进 行行 随随 机机 抽抽 样样。则则 两两 总总 体体 均均 数数 之之 差差(12)的的 双双 侧侧1可可 信信 区区 间间 为为 1212/2,()XXXXtS1212
14、(1)(1)2nnnn394041 例例3-4 为了解氨甲喋呤为了解氨甲喋呤(MTX)对外周血对外周血IL-2水平的影响,某医生将水平的影响,某医生将61名哮喘患者随机分为名哮喘患者随机分为两组。其中对照组两组。其中对照组29例例(),采用安慰剂;实验,采用安慰剂;实验组组32例例(),采用小剂量氨甲喋呤,采用小剂量氨甲喋呤(MTX)进行治进行治疗。测得对照组治疗前疗。测得对照组治疗前IL-2的均数为的均数为20.10 IU/ml(),标准差为,标准差为7.02 IU/ml();试验组;试验组治疗前治疗前IL-2的均数为的均数为16.89 IU/ml(),标准差,标准差为为8.46 IU/ml
15、()。问两组治疗前基线的。问两组治疗前基线的IL-2总总体均数相差有多大?体均数相差有多大?1n2n1X2X2S1S42第一步:第一步:1222(29 1)7.02(32 1)8.4611()2.002329 32 229 32XXS 43第二步第二步:以:以0.05,2932259查查 t 界值表界值表 查附表查附表 2 得,得,0.05/2,602.000t,代入公式,代入公式(3-11),则,则 两总体两总体 IL-2 均数之差均数之差(12)的双侧的双侧 95%可信区间为可信区间为(20.1016.89)2.0002.00230.79,7.21(IU/ml)故两组治疗前基线的故两组治疗
16、前基线的 IL-2 总体均数之差的总体均数之差的 95%可信区间为可信区间为(-0.79,7.21)(IU/mL)。能否下:两组能否下:两组IL-2的总体均数的总体均数“不同不同”或或“有差别有差别”的结论?的结论?44三、可信区间的确切涵义三、可信区间的确切涵义45 n1.95%的可信区间的理解:n(1)所要估计的总体参数有95%的可能在我们所估计的可信区间内。n(2)从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的可信区间,平均约有95个可信区间包含了总体均数。n(3)但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数。
17、46 n2.可信区间的两个要素n(1)准确度:用可信度(1)表示:即区间包含总体均数的理论概率大小。n当然它愈接近1愈好,如99%的可信区间比95%的可信区间要好。n(2)精确度:即区间的宽度 n 区间愈窄愈好,如95%的可信区间比99%的可信区间要好。47 n当n确定时,上述两者互相矛盾。n提高准确度(可信度),则精确度降低n(可信区间会变宽),势必降低可信区间的实际应用价值,故不能笼统认为99%可信区间比95%可信区间要好。n相反,在实际应用中,95%可信区间更为常用。48 n在可信度确定的情况下,增加样本含量可减小区间宽度,提高精确度。49四、总体均数可信区间四、总体均数可信区间与参考值
18、范围的区别与参考值范围的区别50*也可用对应于双尾概率时也可用对应于双尾概率时),*也可用对应于也可用对应于双尾概率双尾概率时时)表表3-2 总体均数的可信区间与参考值范围的区别总体均数的可信区间与参考值范围的区别 区别点 总体均数可信区间 参考值范围 含 义 按预先给定的概率,确定的未知参数 的可能范围。实际上一次抽样算得的可信区间要么包含了总体均数,要么不包含。但可以说:当=0.05 时,95%CI 估计正确的概率为 0.95,估计错误的概率小于或等于0.05,即有95%的可能性包含了总体均数。“正常人”的解剖,生理,生化某项指标的波动范围。总体均数的可能范围 个体值的波动范围 计算 公式
19、 未知:,XXtS*已知或未知但n60:XXu或XXu S*正态分布:Xu S*偏态分布:PXP100X 用途 总体均数的区间估计 绝大多数(如 95%)观察对象某项指标的分布范围 51第四节第四节 t 检验检验521 1、样本均数、样本均数 与已知某总体均数与已知某总体均数 比较的比较的t t检验检验 目的:推断一个未知总体均数 与已知总体均 数 是否有差别,用单样本设计。2 2、两个样本均数、两个样本均数 与与 比较的比较的t t检验检验目的:推断两个未知总体均数 与 是否有差 别,用成组设计。3 3、配对设计资料均数比较的、配对设计资料均数比较的t t检验检验目的:推断两个未知总体均数
20、与 是否有差别用配对设计。X1X2X01212t t 检验,亦称检验,亦称student student t t 检验检验,有下述情况有下述情况:53对于大样本对于大样本,也可以近似用也可以近似用u u检验。检验。54nt检验和u检验的应用条件:n1.t检验应用条件:n样本含量n较小时(如n60)n(1)正态分布 n(2)方差齐性(homogeneity of variance)n2.u 检验应用条件:n样本含量n较大,或n虽小但总体标准差已知n (1)正态分布 n (2)方差齐性(homogeneity of variance)55 假设检验过去称显著性检验。它是利假设检验过去称显著性检验。
21、它是利用小概率反证法思想,从问题的对立面用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题出发间接判断要解决的问题(H1)是否是否成立。然后在成立。然后在H0成立的条件下计算检验成立的条件下计算检验统计量,最后获得统计量,最后获得P值来判断值来判断。假设检验基本思想及步骤基本思想及步骤56n例3-5 某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?n130.83g/L 140g/Ln原因:1.可能是总体均数不同 n 2.是抽样造成的 571.建建立立
22、检检验验假假设设,确确定定检检验验水水准准(选选用用单单侧侧或或双双侧侧检检验验)(1)无无效效假假设设又又称称零零假假设设,记记为为H0;(2)备备择择假假设设又又称称对对立立假假设设,记记为为H1。对对于于检检验验假假设设,须须注注意意:检检验验假假设设是是针针对对总总体体而而言言,而而不不是是针针对对样样本本;H0和和H1是是相相互互联联系系,对对立立的的假假设设,后后面面的的结结论论是是 根根据据H0和和H1作作出出的的,因因此此两两者者不不是是可可有有可可无无,而而是是 缺缺一一不不可可;58 H1的内容直接反映了检验单双侧。若的内容直接反映了检验单双侧。若H1中中只是只是 0 或或
23、 0,则此检验为单侧检验。它不,则此检验为单侧检验。它不仅考虑有无差异,而且还考虑差异的方向。仅考虑有无差异,而且还考虑差异的方向。单双侧检验的确定,首先根据专业知识,其单双侧检验的确定,首先根据专业知识,其次根据所要解决的问题来确定。若从专业上看一次根据所要解决的问题来确定。若从专业上看一种方法结果不可能低于或高于另一种方法结果,种方法结果不可能低于或高于另一种方法结果,此时应该用单侧检验。一般认为双侧检验较保守此时应该用单侧检验。一般认为双侧检验较保守和稳妥。和稳妥。59(3)检验水准检验水准,过去称显著性水准,是预,过去称显著性水准,是预先规定的概率值,它确定了小概率事件的先规定的概率值
24、,它确定了小概率事件的标准。在实际工作中常取标准。在实际工作中常取 =0.05。可根据可根据不同研究目的给予不同设置。不同研究目的给予不同设置。60 根据变量和资料类型、设计方根据变量和资料类型、设计方案、统计推断的目的、是否满足特案、统计推断的目的、是否满足特定条件等(如定条件等(如数据的分布类型数据的分布类型)选)选择相应的检验统计量。择相应的检验统计量。2.计算检验统计量计算检验统计量61 P的含义的含义是指从是指从H0规定的总体随机抽样,抽得规定的总体随机抽样,抽得等于及大于等于及大于(或或/和等于及小于和等于及小于)现有样本获得的检验现有样本获得的检验统计量统计量(如如t、u等等)值
展开阅读全文