总体均数的估计与假设检验-课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《总体均数的估计与假设检验-课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 总体 估计 假设检验 课件
- 资源描述:
-
1、第五章第五章 参数估计参数估计吴立娟流行病与卫生统计学系阶平楼230办公室 内容 抽样分布与抽样误差 总体均数的估计populationsamplesamplesampling 抽样研究(sampling study)在总体中随机抽取一定数量 观察单位作为样本。统计推断(statistical inference)由样本信息推断总体特征,这一过程称为统计推断 抽样误差(sampling error)通过样本推论总体时会存在一定的误差,这种由抽样造成的样本统计量与总体参数的差异称为抽样误差。抽样误差有两种表现形式:样本统计量与总体参数间的差异 样本统计量间得差异第一节 抽样分布与抽样误差 将这1
2、00份样本的均数看成新变量值,按频数分布方法,得到这100个样本均数得直方图见图1。1722.0XS样本均数抽样分布的特点样本均数抽样分布的特点 各样本均数未必等于总体均数 样本均数之间存在差异 样本均数的分布很有规律,围绕着总体均数(4.83*1012),中间多,两边少,左右基本对称,也服从正态分布 样本均数的变异较之原变量的变异大大缩小 随着样本量的增大,样本均数的变异范围逐渐缩小3个抽样实验结果图示0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数0501001502002
3、503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数2212.0;5XSn0920.0;30XSn1580.0;10XSn中心极限定理 central limit theorem即使从即使从非正态总体非正态总体中抽取样本,所得均中抽取样本,所得均数分布仍近似呈数分布仍近似呈正态正态。随着样本量的增大随着样本量的增大,样本均数的样本均数的变异变异
4、范范围也逐渐变窄。围也逐渐变窄。样本均数的标准差也称均数的标准误(样本均数的标准差也称均数的标准误(SEMSEM),它,它说明各样本均数说明各样本均数 围绕总体均数围绕总体均数的离散程度。的离散程度。可用于衡量抽样误差的大小可用于衡量抽样误差的大小 因通常未知,计算标准误采用下式:Xn均数的均数的标准误标准误XSSn 通过增加样本通过增加样本含量含量n n来降低抽来降低抽样误差。样误差。X 越大,样本均数的分布越分散,样本均越大,样本均数的分布越分散,样本均数与总体均数的差别越大,抽样误差越大,数与总体均数的差别越大,抽样误差越大,由样本均数估计总体均数的可靠性越小。反由样本均数估计总体均数的
5、可靠性越小。反之亦然。之亦然。标准误反映了样本均数间的离散程度,也反标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异。映了样本均数与总体均数的差异。标准误与标准差成正比,当总体中各观测值标准误与标准差成正比,当总体中各观测值变异很小时,样本均数与总体均数的差异小,变异很小时,样本均数与总体均数的差异小,抽样误差小。抽样误差小。标准误标准误 与样本含量的平方根成反比,样本与样本含量的平方根成反比,样本含量越大,抽样误差越小含量越大,抽样误差越小X例:例:140140名成年男子红细胞数的标准差为名成年男子红细胞数的标准差为 0.37 0.37 10101212/L L,则标准误为
6、则标准误为LSX/1003.014037.012标准差均数的标准误区别统计符号总体标准差表示样本标准差S表示均数的标准误其估计值用计算公式统计学意义标准差越小,个体值相对越集中,均数对数据的代表性越好。标准误越小,样本均数的分布越集中,样本均数与总体均数的差别越小,抽样误差越小,由样本均数估计总体均数的可靠性越大用途描述个体值得变异程度描述均数抽样误差的大小联系XXS1)(2nXXSXSSnXSSn第二节 总体均数的估计X),(2nN随机变量XN(,s2)z变换标准正态分布N(0,12)均数标准正态分布N(0,12)z变换1,nvSXnSXtX实际工作中,x 未知XzXXzt t分布分布 统计
7、量为t的分布称为t分布。t分布与自由度有关,每个自由度都对应一条分布曲线。英国统计学家W.S.Gosset于1908年以“student”笔名发表论文,首次揭示t分布的特征,因此t分布又称”Student t 分布”。它是总体均数的区间估计和假设检验的理论基础。中国中国首医首医William Sealey GossetBorn:13 June 1876 in Canterbury,EnglandDied:16 Oct 1937 in Beaconsfield,England图2 不同自由度下的t 分布图2)1(2)/1()2(2)1()(ttft分布特征-5-4-3-2-1012345 以0为
8、中心,左右对称的单峰分布;t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近正态分布(标准正态分布);当趋于时,t分布即为态分布。t界值当自由度确定后,t分布曲线下,双侧尾部的面积或单侧尾部的面积为指定概率时,横轴上相应的t值。单侧概率相对应的t界值用t,表示;双侧概率相对应的t界值用t/2,表示;一般的表示方法:单侧:P(t-t,)=和P(t t,)=双侧:P(t-t/2,)+P(t t/2,)=t界值表t 值表值表横标目:自由度,横标目:自由度,纵标目:概率,纵标目:概率,p,即曲线下阴影部分的面即曲线下阴影部分的面积
9、积;表中的数字:相应的表中的数字:相应的|t|界界值。值。t界值表 同一概率下,自由度越大,|t|越小;同一自由度下,|t|越大,概率P值越小;同一自由度下,双侧概率为单侧概率的2倍时,所对应的t界值相等;当自由度趋向于时的t界值即为相应概率下的Z值。练习题1当样本含量增大时,以下说法正确的是()A.标准差会变小B.均数标准误会变小C.均数标准误会变大D标准差会变大2.标准误的英文缩写为:AS BSE C DSD3.通常可采用以下那种方法来减小抽样误差:A减小样本标准差 B减小样本含量 C扩大样本含量 D以上都不对XS二、点估计和区间估计二、点估计和区间估计统计推断参数估计假设检验参数估计:用
10、样本指标值(统计量)估计总体指标值(参数)。点估计区间估计统计推断的任务就是用样本信息推论总体特征。统计推断的任务就是用样本信息推论总体特征。1 1、点(值)估计(点(值)估计(近似值)近似值)用相应的样本统计量直接作为其总体参数的用相应的样本统计量直接作为其总体参数的估计值。估计值。2 2、区间估计(近似范围)区间估计(近似范围)按预先给定的概率(按预先给定的概率(1-1-)所确定的包含)所确定的包含未知总体参数的一个范围未知总体参数的一个范围 点估计 由样本统计量由样本统计量 直接估计总体参数直接估计总体参数pSX、该方法简单,未考虑抽样误差的影响该方法简单,未考虑抽样误差的影响如:27例
11、健康成年男性血红蛋白量的样本均数为125g/L,若以该样本均数作为总体均数的点估计值,即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L。区间估计 总体均数的区间估计是按一定的概率(1-),估计总体参数所在的范围,这个范围称为参数的置信区间(confidence interval,CI)。(1)称为可信度或置信度(confidence level),常取95。置信区间通常两个数值即置信限(confidence limit,CL)构成,较小的称为置信下限(lower limit,L),较大的称为置信上限(upper limit,U)总体均数95%的可信区间表示该区间包括总体均
12、数的概率为95%。若作100次抽样算得100个可信区间,平均有95个可信区间包括总体均数,只有5%的可信区间不包括总体均数,但是,错误概率为5%的事件为小概率事件,仅仅在一次实验中出现错误的可能性很小。区间估计的准确度:区间估计的准确度:说对的可能性大小,说对的可能性大小,用用(1-)来衡量。来衡量。99%的可信区间好于的可信区间好于95%的可信区的可信区间间(n,S 一定时)一定时)。区间估计的精确度:区间估计的精确度:指区间范围的宽窄,范围指区间范围的宽窄,范围越宽精确度越差。越宽精确度越差。99%的可信区间的可信区间差于差于95%的可的可信区间信区间(n,S 一定时)一定时)。准确度与精
13、确度的关系:准确度与精确度的关系:置信区间的两个要素置信区间的计算未知,且 n较小,按t分布已知,或未知但n足够大,按z分布(一)(一)t分布法分布法X/2,XXtS/2,XXtS100(1)%面积:1未 知 且未 知 且 n 较 小较 小 的的 总 体 均 数 的总 体 均 数 的 100(1-)%可 信 区 间可 信 区 间 为:为:),()(2/)(2/XXStXStX 或或XStX)(2/查界值表,得双侧,即95可信区间为:)58.173,44.170()3020.4045.201.1723020.4045.201.172(,o 某某卫生防疫站为了解某厂所生产的同卫生防疫站为了解某厂所
14、生产的同一批罐装午餐肉中亚硝酸盐的含量,一批罐装午餐肉中亚硝酸盐的含量,随机抽取了该批罐装午餐肉随机抽取了该批罐装午餐肉1010听,测听,测得亚硝酸盐含量的样本均数为得亚硝酸盐含量的样本均数为17.6mg/kg17.6mg/kg,标准差为标准差为1.64mg/kg1.64mg/kg。试。试估计该批罐装午餐肉中亚硝酸盐含量估计该批罐装午餐肉中亚硝酸盐含量的的9595CICI。Z0.05/2=1.96Z0.05=1.645例:为了解某地成年男子红细胞的总体均数,随机抽查了200名男子,算得红细胞的样本均数为4.95*1012,标准差为0.57,试估计总体均数95%的可信区间。Z0.05/2=1.9
15、6Z0.05=1.645置信区间的含义o 总体均数的95置信区间表示该区间包含总体均数的概率为95(或99)o 若做100次抽样算得100个可信区间,平均有95(或99)个可信区间包括总体均数,只有5个或1个区间不包括总体均数,即估计错误。o 但小概率事件仅仅在一次试验中结果出现错误的可能性很小。122211221212(1)(1)11()(1)(1)XXnSnSSnnnn总体均数可信区间与参考值范围的区别已知正常人血红蛋白含量近似服从正态分已知正常人血红蛋白含量近似服从正态分布,某人拟根据布,某人拟根据20002000正常人血红蛋白数正常人血红蛋白数据制定据制定9595正常值范围,但计算时误
16、用正常值范围,但计算时误用了求了求9595置信区间的公式,其结果应该置信区间的公式,其结果应该是是_。(。()A.A.提高了精确度提高了精确度 B.B.该指标异常者容易被判为正常该指标异常者容易被判为正常 C.C.该指标正常者易被判为异常该指标正常者易被判为异常 D.D.降低了精确度降低了精确度例例 随机抽样调查某地随机抽样调查某地110110名名1818岁男大学生岁男大学生身高的均数为身高的均数为172.73cm,172.73cm,并估计得该并估计得该地地1818岁男大学生身高均数的岁男大学生身高均数的95%95%可信区可信区间为(间为(171.97171.97,173.49173.49)c
17、mcm。请估计该地请估计该地1818岁男大学生身高岁男大学生身高9595参考参考值范围。值范围。第六章第六章 假设检验假设检验 组 别 有效 无效 合计 有效率(%)对照组 20(25.8)a 24(18.2)b 44)(ba 45.45 试验组 21(15.2)c 5(10.8)d 26)(dc 80.77 合 计 41)(ca 29)(db 70)(n 58.57 表表1 两种疗法治疗原发性高血压的疗效两种疗法治疗原发性高血压的疗效 例例 为了解某中药治疗原发性高血压的疗效,将为了解某中药治疗原发性高血压的疗效,将70名高血名高血压患者随机分为两组。试验组用该药加辅助治疗,对照组压患者随机
18、分为两组。试验组用该药加辅助治疗,对照组用安慰剂加辅助治疗,观察结果如表用安慰剂加辅助治疗,观察结果如表1,问该药治疗原发性,问该药治疗原发性高血压是否有效?高血压是否有效?例例 通过以往大规模调查,已知某地一般新生儿的头通过以往大规模调查,已知某地一般新生儿的头围均数为围均数为34.50cm34.50cm,标准差为标准差为1.99cm1.99cm。为研究某矿区为研究某矿区新生儿的发育状况,现从该地某矿区随机抽取新生儿新生儿的发育状况,现从该地某矿区随机抽取新生儿5555人,测得其头围均数为人,测得其头围均数为33.8933.89cmcm,问该矿区新生儿问该矿区新生儿的头围总体均数与一般新生儿
展开阅读全文