统计推断原理和基本方法课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计推断原理和基本方法课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 推断 原理 基本 方法 课件
- 资源描述:
-
1、均数的抽样误差和总体均数估计均数的抽样误差和总体均数估计1.参数估计参数估计2.假设检验假设检验统计推断的两部分内容:统计推断的两部分内容:样本随机抽取部分观察单位?推断推断inferenceinferenceX参数估计参数估计一、抽样误差与标准误一、抽样误差与标准误 jjXS 167.41,2.74 165.56,6.57 168.20,5.36 165.69,5.09 nj=10 100 个 =167.7cm =5.3cm X1,X2,X3,Xi,2009年某市18岁男生身高N(167.7,5.32)的抽样示意图 将此100个样本均数看成新变量值新变量值,则这100个样本均数构成一新分布新
2、分布,绘制频数图从正态分布总体N(167.7,5.32)随机抽样所得样本均数分布 ,各样本均数 未必等于总体均数;各样本均数间存在差异;样本均数的分布为中间多,两边少,左右基本对称。样本均数的变异范围较之原变量的变异范围大大缩小。可算得这100个样本均数的均数为167.69cm、标准差为1.69cm。XX 样本均数分布具有如下样本均数分布具有如下特点:特点:1、抽样误差:由个体变异产生的、抽样造成的样本统计量与总体参数的差别 原因:1)抽样 2)个体差异表示样本统计量抽样误差大小的统计指标。标准误:说明抽样误差的大小,总体计算公式(7-27)Xn2、标准误、标准误(standard error
3、,SE)实质:样本均数的标准差若用样本标准差s 来估计 ,(7-28)XSSn当样本例数n一定时,标准误与标准差呈正比当标准差一定时,标准误与样本含量n的平方根呈反比。通过增加样本含量通过增加样本含量n来降低抽样误差。来降低抽样误差。随机抽样调查7岁男孩120名,的身高均数为120.88,标准差为5.23,则其标准误是多少?例子例子:48.0nsxs指标指标意义意义应用应用标准差标准差(s s)衡量变量值变异程度,衡量变量值变异程度,s s越大表示变量值变异程度越大表示变量值变异程度越大,越大,s s越小表示变量值越小表示变量值变异程度越小变异程度越小描述正态分布(近似正描述正态分布(近似正态
4、分布)资料的频数分态分布)资料的频数分布;医学参考值范围的布;医学参考值范围的估计估计标准误标准误()样本均数的变异程度,表样本均数的变异程度,表示抽样误差的大小。示抽样误差的大小。标准标准误越大表示抽样误差越大,误越大表示抽样误差越大,样本均数的可靠性越小;标样本均数的可靠性越小;标准误越小表示抽样误差越小,准误越小表示抽样误差越小,样本均数的可靠性越大样本均数的可靠性越大总体均数区间估计;两总体均数区间估计;两个或多个总体均数间比个或多个总体均数间比较较XS标准差和标准误的区别标准差和标准误的区别二、二、t 分布分布(一)(一)t分布概念分布概念 随机变量随机变量X XN N(,2 2)标
5、准正态分布标准正态分布N N(0 0,1 12 2)z变换Xz,1XXXtnSSn 式中 为自由度(degree of freedom,df)3实际工作中,由于 未知,用 代替,则 不再服从标准正态分布,而服从t 分布。XXS()/XXS均数标准正态分布N(0,12)),(2nN1,nvSXnSXtXStudent t分布自由度:n-1XnXz/(二)(二)t 分布的图形与特征分布的图形与特征 分布只有一个参数,即自由度t t-5.0-4.0-3.0-2.0-1.00.01.02.03.04.05.0(标准正态曲线)=5=1f(t)图 不同自由度下的t 分布图 单峰分布,以单峰分布,以 0 为
6、中心,左右对称;为中心,左右对称;自由度自由度越小,则越小,则 t 值越分散,值越分散,t 分布的峰部分布的峰部越矮而尾部翘得越高;越矮而尾部翘得越高;当当逼近逼近,逼近逼近 ,t 分布逼近分布逼近 z 分布,分布,故标准正态分布是故标准正态分布是 t 分布的特例。分布的特例。XXS1特征:特征:3t 界界值表:详见附表值表:详见附表 2,可反映,可反映 t 分布曲下的面积。分布曲下的面积。单侧概率或单尾概率:用单侧概率或单尾概率:用,t 表示;表示;双侧概率或双尾概率:用双侧概率或双尾概率:用2、t界值表:界值表:详见详见附表,附表,可反映可反映t分布曲线下的面积。分布曲线下的面积。单侧概率
7、或单尾概率:用单侧概率或单尾概率:用 表示;表示;双侧概率或双尾概率:用双侧概率或双尾概率:用 表示。表示。表示;表示;双侧概率或双尾概率:用双侧概率或双尾概率:用/2,t表示。表示。-tt00.05,10101.812t,单=0.05,则有(1.812)0.05 (1.812)0.05P tP t 或 0.05/2,10102.228t,双=0.05,则有(2.228)(2.228)0.05P tP t 举例:举例:三、参数估计三、参数估计用样本统计量推断总体参数。用样本统计量推断总体参数。总体均数估计:总体均数估计:用样本均数(和标准差)推断总用样本均数(和标准差)推断总体均数。体均数。1
8、.点估计点估计(point estimation):用相应样本统计量直接作为其总体参数的估计值。如用 估计、s估计 等。其方法虽简单,但未考虑抽样误差的大小。X 按预先给定的概率(1)所确定的包含未知总体参数的一个范围。总体均数的区间估计:按预先给定的概率(1)所确定的包含未知总体均数的一个范围。如给定=0.05,该范围称为参数的95%可信区间或置信区间;如给定=0.01,该范围称为参数的99%可信区间或置信区间。2区间估计区间估计(interval estimation):计算总体均数可信区间计算总体均数可信区间需考虑:(1)总体标准差是否已知,(2)样本含量n的大小通常有两类方法:(1)t
9、分布法 (2)z分布法2,2,50,故可采用正态近似的方法计算可信区间。今 =3.64、s=1.20、n=200、xs=0.0849,取双尾 0.05 得0.05/21.96u。3.641.96 0.0849(3.47,3.81)(mmol/L)X四、四、假设检验的基本概念和步骤假设检验的基本概念和步骤举例 大规模调查表明,健康成年男子血红蛋白的均数为136.0g/L,今随机调查某单位食堂成年男性炊事员25名,测得其血红蛋白均数121g/L,标准差48.8g/L。问题:根据资料推论食堂炊事员血红蛋白均数是否与健康成年男子血红蛋白均数有无差别(一)(一)假设检验的基本思想假设检验的基本思想假设检
10、验目的判断差别是由哪种原因造成的。抽样误差造成的;本质差异造成的。;/8.48,/121,25,/0.1360LgSLgXnLg0X造成 的可能原因有二:案例炊事员血红蛋白总体均数 136.0g/L 121g/L炊事员血红蛋白总体均数 136.0g/LX 一种假设一种假设H0另一种假设另一种假设H1抽样误差抽样误差总体不同总体不同 假定假如炊事员均数为136.0g/L,即 则 ,服从t 分布,绝大多数t应该分布在主要区域 根据 t 分布能够计算出有如此大差异的概率P,如果P 值很小,即计算出的t 值超出了给定的界限,则倾向于拒绝H0,认为山区血红蛋白均数不是136.0g/L0.136:0dHn
11、SXt/0 假设检验的基本思想假设检验的基本思想利用小概率反证法的思想利用小概率反证法的思想利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。当P小于或等于预先规定的概率值,就是小概率事件。根据小概率事件的原理:小概率事件在一次抽样中发生的可能性很小,如果他发生了,则有理由怀疑原假设H0,认为其对立面H1成立1.建立检验假设,确定检验水准(选用单侧或双侧检验)(1)无效假设,记为H0;(2)备择假设,记为H1。对于检验假设,须注意:1)检验假设是针对总体而言,而不是针对样本;2)H0和H1是相互联系,
12、对立的假设,后面的结论是根据H0和H1作出的,因此两者不是可有可无,而是缺一不可二、假设检验的基本步骤二、假设检验的基本步骤3)H1的内容直接反映了检验单双侧。若H1中只是 0 或只是 0,则此检验为单侧检验。它不仅考虑有无差异,而且还考虑差异的方向。4)单双侧检验的确定,首先根据专业知识,其次根据所要解决的问题来确定。若从专业上看一种方法结果不可能低于或高于另一种方法结果,此时应该用单侧检验。一般认为双侧检验较保守和稳妥。(3)检验水准,是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取=0.05。可根据不同研究目的给予不同设置。例如本题:0.136:00H01:H=0.052.
13、计算计算检验统计量检验统计量根据变量和资料类型、设计方案、统计推断的目的、是否满足特定条件等(如数据的分布类型)选择相应的检验统计量。如 t 检验、z检验、F检验和 检验等。2本例采用t检验方法本例t值为1.540,1XXXXtnSSnSn 是指根据所计算的检验统计量确定H0成立的可能性大小,即确定在检验假设条件下由抽样误差引起差别的概率。3.确定P值,做出推断结论 查表得到检验用的临界值,然后将算得的统计量与拒绝域的临界值作比较,确定P 值。如对双侧 t 检验 ,则 ,按检验水准 拒绝H0。/2()t|t|P 本例查t界值表自由度v=24,t=1.54按照a=0.05的水准,不拒绝H0,差异
14、没有统计学意义,还不能认为炊事员血红蛋白和健康成年男子有差别。711.124,2/05.0 tt05.0P概述概述当样本含量较大时,t检验与z检验可以等同使用。一、样本均数与总体均数比较 单样本t检验二、配对t检验三、完全随机设计两均数比较 两样本t检验 两样本z检验一、样本均数与总体均数比较 样本均数 (代表未知总体均数)与已知总体均数0(一般为理论值、标准值或经过大量观察所得稳定值等)的比较。X(一)单样本 t 检验 应用条件:数值变量资料 样本来自正态分布的总体 计算公式:0,1XXXXtnSSnSn单个样本单个样本t t检验检验实例分析实例分析以往通过大规模调查已知某地新生儿出生体重为
15、3.30kg.从该地难产儿中随机抽取35名新生儿作为研究样本,平均出生体重为3.42kg,标准差为0.40kg,问该地难产儿出生体重是否与一般新生儿体重不同?本例已知总体均数0=3.30kg,但总体标准差未知,n=35,S=0.40kg,故选用单样本t检验。检验步骤检验步骤 1.建立检验假设,确定检验水准H0:0,该地难产儿与一般新生儿平均出生体重相同;H1:0,该地难产儿与一般新生儿平均出生体重不同;0.05。2.计算检验统计量在=0成立的前提条件下,计算统计量为:003.423.301.770.40/35XXXtSSn3.确定确定P值,做出推断结论值,做出推断结论 本例自由度n-135-1
16、34,查t界值表,得t0.05/2,34=2.032。t t0.05/2,34,故P0.05,差异无统计学意义,按 0.05水准,不拒绝H0,根据现有样本信息,尚不能认为该地难产儿与一般新生儿平均出生体重不同。适用条件:配对设计的数值变量资料 差值来自正态分布的总体二、配对t检验自身配对同一受试对象身体两个部位的数据同一个体自身前后的比较(如高血压患者治疗前后的舒张压比较)同一对象同时分别接受两种不同处理(同一份标本分成两部分用两种方法检验)配对设计主要有两种情况异体配对:配成对子的两个个体分别给予两种不同的处理(如把同窝、同性别和体重相近的动物配成一对;把同性别、同病情和年龄相近的病人配成一
17、对等)。案例案例现用两种测量的仪器对12名妇女测得收缩压(SBP),资料如表10-5,请问两种方法的检测结果有无差别表表 两种方法测量收缩压(两种方法测量收缩压(mmHgmmHg)被测编号被测编号水银水银电子电子差值差值dd21120115-525211012515225310811241641231296365130136636612012663679090008110116636910298-4161010511274591196100416128880864合计-53555对于配对样本数据,应该首先计算出各对差值的均数。当两种处理结果无差别或某种处理不起作用时,理论上差值的总体均数应该为
18、0,故可将配对样本资料的假设检验视为样本均数与总体均数=0的比较,所用方法为配对t检验。d0,1dddddddtnSSnSn配对t 检验公式:(1)建立检验假设,确定检验水准建立检验假设,确定检验水准H0:d0,两种方法测量血压值结果相同H1:d0,两种方法测量血压值结果不相同=0.05(2)计算检验统计量计算检验统计量本例n=12,d=53,d2=555,83.212/40.542.4/40.511212/)53(5551/)(42.41253222nsdtnnddsndddd11112(3)确定确定P值,作出推断结论值,作出推断结论 查附表1的t界值表得P0.05。按=0.05水准,拒绝H
19、0,接受H1,差异有统计学意义。可认为两种方法测量收缩压的结果不一样。三、完全随机设计两均数比较(两样本)两样本t检验,适合于独立成组的两个样本(成组设计),或完全随机设计两样本均数的比较,此时研究者关心的是两样本均数所代表的两总体均数是否不等。121212222112211212121212212()(),2 11(1)(1)11()()2 CXXXXXXnSnSSSnnXXXnnnnXtnnSS)11(2/)(/)(21212122221212121nnnnnxxnxxSxx案例将出生28天的20只大白鼠随机分成两组,分别饲以高蛋白和低蛋白饲料,8周后观察其体重(g)。问两种不同饲料对大白
20、鼠的体重影响有无差别?高蛋白组:133,145,112,138,99,157,126,121,139,106,115低蛋白组:118,75,106,87,94,110,102,124,130高蛋白组:低蛋白组:179051,1391,11,76.17,45.126211111xxnsx101970,946,9,80.17,11.105222222xxnsx(2)(2)计算检验统计量计算检验统计量(3)确定P值,作出推断结论 举例为研究某中医疗法的降血糖效果,某医院用40名II型糖尿病病人进行同期随机对照试验。试验者将这些病人随机等分到试验组(用中药成药)和对照组(用传统药物拜唐苹胶囊),分别测
展开阅读全文