研究生-统计学讲义-第3讲-总体均数估计和假设检验课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《研究生-统计学讲义-第3讲-总体均数估计和假设检验课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 研究生 统计学 讲义 总体 估计 假设检验 课件
- 资源描述:
-
1、第四章第四章 第一节第一节 总体均数的估计总体均数的估计一一.样本均数的分布和样本均数的分布和 t 分布分布(P49P49)在抽样研究中,即使是严格遵守随机抽样原则,从在抽样研究中,即使是严格遵守随机抽样原则,从同一总体中每次抽取样本含量相等同一总体中每次抽取样本含量相等(都为都为n n)的样本,计的样本,计算每一个样本的样本均数,由于变异存在,样本均数算每一个样本的样本均数,由于变异存在,样本均数有大有小,不尽相同,是随机变量,其分布称为样本有大有小,不尽相同,是随机变量,其分布称为样本均数的分布。这里介绍样本均数的两条常用性质:均数的分布。这里介绍样本均数的两条常用性质:情形情形当抽样来自
2、均数为当抽样来自均数为 ,方差为,方差为 的的正态分布正态分布总体总体时,样本均数的分布(抽样分布)有下面的性质时,样本均数的分布(抽样分布)有下面的性质X 2X 1.的分布是正态的的分布是正态的 X2.设设 分布的均数是分布的均数是 ,则则 =XX X3.设设 的方差是的方差是 ,则则 =,是总体标是总体标准误准误.X2X 2X nX2 X X 情形情形 当抽样来自均数为当抽样来自均数为 ,方差为,方差为 的的非正态非正态分布分布总体时,样本均数的分布(抽样分布)有下面总体时,样本均数的分布(抽样分布)有下面的性质:的性质:X2X1 的分布是近似正态的,随样本容量的增加,靠的分布是近似正态的
3、,随样本容量的增加,靠近正态的程度就越好近正态的程度就越好一般地,一般地,的抽样分布靠近正的抽样分布靠近正态分布所需要的样本容量取决于最初分布的外形态分布所需要的样本容量取决于最初分布的外形在几乎所有的情形里面,对在几乎所有的情形里面,对 的抽样分布,样本容的抽样分布,样本容量在量在30或以上就可以得到很好的正态近似或以上就可以得到很好的正态近似(均数(均数的这个性质就是众所周知的的这个性质就是众所周知的中心极限定理中心极限定理Central Limit Theorem)XXX2.设设 分布的均数是分布的均数是 ,则则 =3.设设 的方差是的方差是 ,则则 =,是总体标是总体标准误准误.X X
4、 XX2X 2XnX2 X X 由第由第1条(均数抽样分布的正态或近似正态)将在后面条(均数抽样分布的正态或近似正态)将在后面推出强有力的统计推论推出强有力的统计推论两种情形中的第两种情形中的第3条表明,与条表明,与个体观测值相比较,样本均数是变化较小的变量,那个体观测值相比较,样本均数是变化较小的变量,那是因为标准误总是比标准差小的缘故是因为标准误总是比标准差小的缘故 nSSXX 二、二、t 分布分布 在公式在公式 n/X 中用中用 nsn 代替代替得到:得到:nsX/用用 S 替换替换产生了一个不同的样本分布产生了一个不同的样本分布如果如果值未值未知又必须估计它,用估计值替换知又必须估计它
5、,用估计值替换所得变量的分布称所得变量的分布称为为 t 分布这个分布是分布这个分布是19世纪在英国世纪在英国Guinness 啤酒啤酒厂工作的厂工作的W.S.Gossett发现,在发现,在1908年以笔名年以笔名“Student”发表因此有时称为发表因此有时称为Students t 分布,分布,这个分布族取决于参数这个分布族取决于参数n1 (4-4)n/X nsX/是具有是具有=0,=1的标准正态分布,而的标准正态分布,而 是是具有具有=0,取决于样本容量的取决于样本容量的t 分布分布随随样本容量的增加,样本容量的增加,t 分布渐近标准正态分分布渐近标准正态分布布见图,见图,t 分布的准确外形
6、取决于被称为自由度(分布的准确外形取决于被称为自由度(degrees of freedom)的数量)的数量像正态分布一样,像正态分布一样,t 分布是对称的分布是对称的钟形曲线,但是有点平坦,例如,它们有大的标准差钟形曲线,但是有点平坦,例如,它们有大的标准差对任何对任何t 分布,自由度恰好是样本容量减分布,自由度恰好是样本容量减1:df=n1 作为为多个作为为多个t 分布的部分累积分布函数的比较已经列分布的部分累积分布函数的比较已经列在附表在附表 5 里里因为因为t 分布是概率密度函数,任何分布是概率密度函数,任何t 分布曲线下的面积分布曲线下的面积为为1在某些情形,我们必须使用固定概率(一个
7、在某些情形,我们必须使用固定概率(一个t 分分布下的面积),留心并找出区间端点到中心布下的面积),留心并找出区间端点到中心0的这个的这个概率,设这个概率是概率,设这个概率是1,常常很小,规定为常常很小,规定为0.05或或0.01,于是,于是1=0.95或或0.99那么为寻找这个那么为寻找这个t 0,使使得得 1)(00tttP0t0t 2 2 t 分布里,定位在中间的面积分布里,定位在中间的面积1 t 分布有两条重要性质:分布有两条重要性质:(1)从正态总体中每次随机抽取例数为)从正态总体中每次随机抽取例数为n的样本,的样本,按(式按(式4-4)计算的统计量服从自由度为)计算的统计量服从自由度
8、为df=n-1的的t分分布(即样本均数与总体均数相差多少个标准误服从自布(即样本均数与总体均数相差多少个标准误服从自由度为由度为n-1的的t分布)。分布)。(2)从相互独立,总体均数分别为)从相互独立,总体均数分别为1,2,而标准,而标准差都为差都为的两个正态总体中,随机抽取样本含量分别为的两个正态总体中,随机抽取样本含量分别为n1,n2的两个样本,分别算出样本均数和标准差为的两个样本,分别算出样本均数和标准差为X1和和S1,X2和和S2,按,按(式(式4-5)计算的统计量服从自由度)计算的统计量服从自由度为为df=n1+n22的的t分布。分布。x xt=21)()(2121xxsxx自由度自
9、由度df=n1+n22 (式(式4-5)S =21xx)11(2)1()1(2121222211nnnnsnsn (式(式4-6)2T 分布的规律分布的规律 如附表如附表3的的 t 界值表(表中只列出界值表(表中只列出正的正的t值),表中横标目为自由度值),表中横标目为自由度df,纵标目为概率,纵标目为概率P,表中数字表示自由度为表中数字表示自由度为df时时t分布的界值(分布的界值(critical value)。)。t界值有单侧和双侧两种情况:自由度为界值有单侧和双侧两种情况:自由度为df时,时,t分布的双侧分布的双侧界值记为界值记为t/2,df,P(|t|t/2,df)=;t分布分布的单侧
10、的单侧界值记为界值记为t,df,P(tt,df)=。例如,自由例如,自由度度df9时,由附表时,由附表3的的t界值表查出界值表查出0.05的单侧界值的单侧界值t0.05,91.833,双侧界值,双侧界值t0.05/2,92.262,则有:,则有:P(t1.833)0.05;P(t 1.833)P(t1.833)0.95。P(t2.262)0.025;P(t 2.262)P(-2.262 t 2.262)1-20.0250.95。从从 t 分布的界值与标准正态分布的界值可发现,同样分布的界值与标准正态分布的界值可发现,同样的尾部面积,的尾部面积,t分布的界值要大于标准正态分布的界值,分布的界值要
11、大于标准正态分布的界值,当自由度当自由度df时,时,t 分布的界值逼近标准正态分布界分布的界值逼近标准正态分布界值。值。三三.总体均数的估计总体均数的估计(P 51)1 1点估计和点估计和区间估计区间估计 总体参数的估计有点估计和总体参数的估计有点估计和区间估计。区间估计。由样本观察值算出总体参数的一个估计值(为统计由样本观察值算出总体参数的一个估计值(为统计量)称为该参数的量)称为该参数的一个点估计一个点估计(point estimation)。点估计给出未知参数的一个近似值,但没考虑试验误点估计给出未知参数的一个近似值,但没考虑试验误差影响,也未指出这种估计的可靠程度。因为估计量差影响,也
12、未指出这种估计的可靠程度。因为估计量是来自一个随机抽取的样本,每一次取值都有随机性是来自一个随机抽取的样本,每一次取值都有随机性,刚好等于待估计参数的可能性极小,而在参数值左,刚好等于待估计参数的可能性极小,而在参数值左右的情况较多。右的情况较多。统计学上更合理的估计是在一定概率(统计学上更合理的估计是在一定概率(1-)下,由)下,由含有未知参数及其点估计值所构成的统计量的分布规含有未知参数及其点估计值所构成的统计量的分布规律估计出参数可能存在的范围,称为区间估计律估计出参数可能存在的范围,称为区间估计(interval estimation),所给出的范围称为该参数的),所给出的范围称为该参
13、数的(1-)可信区间或置信区间()可信区间或置信区间(confidence interval,简记为简记为CI)。这个范围包含参数值的可靠程度为()。这个范围包含参数值的可靠程度为(1-),称为可信度或置信度(),称为可信度或置信度(confidence degree)或可)或可信概率。信概率。2 2可信区间的意义可信区间的意义 现以总体均数的现以总体均数的95%可信区间为可信区间为例,总体参数例,总体参数95%可信区间的意义是:考虑总体参数可信区间的意义是:考虑总体参数的可信区间取决于所抽取的样本,在同样条件下,进的可信区间取决于所抽取的样本,在同样条件下,进行许多重复的抽样,每抽取一个样本
14、可得到待估计参行许多重复的抽样,每抽取一个样本可得到待估计参数的一个可信区间,在这些区间中,有的包含待估计数的一个可信区间,在这些区间中,有的包含待估计的参数,有的不包含,平均说来每的参数,有的不包含,平均说来每100个中有个中有95个正个正确。确。实践中一般不会去抽取许多个样本,通常只抽取一个实践中一般不会去抽取许多个样本,通常只抽取一个样本,计算出一个区间,虽然无法确认这个区间是否样本,计算出一个区间,虽然无法确认这个区间是否包含了待估计的参数,但可知这种估计可信的程度为包含了待估计的参数,但可知这种估计可信的程度为95,会冒,会冒5%犯错误的风险。因犯错误的风险。因5%是小概率,在实是小
15、概率,在实际应用中就认为待估计的总体参数在算得的区间内。际应用中就认为待估计的总体参数在算得的区间内。3可信区间有两要素:一是准确度,反映在可信度(可信区间有两要素:一是准确度,反映在可信度(1-)的大小,即区间包含总体参数的可能性(概率)的大小,准的大小,即区间包含总体参数的可能性(概率)的大小,准确度越接近确度越接近1越好,例如,可信度越好,例如,可信度99%比比95%犯错误的风险小;犯错误的风险小;二是精密度,反映在区间的长度,区间的长度愈小愈精密。二是精密度,反映在区间的长度,区间的长度愈小愈精密。在可信度确定的情况下,增大样本含量,相应的界值(如在可信度确定的情况下,增大样本含量,相
16、应的界值(如t界界值)减少,标准误也减小,可减小区间长度,提高精密度。值)减少,标准误也减小,可减小区间长度,提高精密度。在样本含量确定的情况下,可信度(在样本含量确定的情况下,可信度(1-)愈大,总体参数估)愈大,总体参数估计的准确度愈高,但精密度愈差。二者是矛盾的,为兼顾准计的准确度愈高,但精密度愈差。二者是矛盾的,为兼顾准确度和精密度,常用确度和精密度,常用95%可信区间。可信区间。4.4.单个总体均数的估计单个总体均数的估计 样本均数是总体均数样本均数是总体均数的一的一个点估计。个点估计。已知时,按(式已知时,按(式4-34-3)计算的统计量服从)计算的统计量服从标准正态分布,根据标准
17、正态分布的规律标准正态分布,根据标准正态分布的规律 P(-u/2 u u/2)=1-,有,有 已知时,正态总体均数已知时,正态总体均数的双侧的双侧(1 1)可信区间计算公式为(可信区间计算公式为(4-74-7)未知时,按(式未知时,按(式4-4)计算的统计量服从)计算的统计量服从 t 分布,由分布,由t分布的规律分布的规律 P(-t/2t72次次/分分 对于这两种可能,统计上通过检验前一种可能来对于这两种可能,统计上通过检验前一种可能来作出判断,假设检验的目的是排除差异完全由抽样作出判断,假设检验的目的是排除差异完全由抽样误差所致的可能性。方法是:先假设差异完全由抽误差所致的可能性。方法是:先
18、假设差异完全由抽样误差所致,在这个假设下,计算检验统计量样误差所致,在这个假设下,计算检验统计量(如如t值值、u值等值等),按样本统计量的概率分布规律,求出获得,按样本统计量的概率分布规律,求出获得现有样本检验统计量值的概率现有样本检验统计量值的概率 如果出现了小概率事件,就拒绝这个假设;如果如果出现了小概率事件,就拒绝这个假设;如果没有出现小概率事件,则没有理由怀疑这个假设,所没有出现小概率事件,则没有理由怀疑这个假设,所以不拒绝这个假设。这种推断方法的特点是依据小概以不拒绝这个假设。这种推断方法的特点是依据小概率原理,采用类似于数学中逻辑论证的反证法,但又率原理,采用类似于数学中逻辑论证的
19、反证法,但又区别于纯数学中逻辑推理的反证法。因为这里并不是区别于纯数学中逻辑推理的反证法。因为这里并不是形式逻辑中的绝对矛盾,而是基于人们在实践中广泛形式逻辑中的绝对矛盾,而是基于人们在实践中广泛应用的小概率原理。所以,可以说假设检验的基本思应用的小概率原理。所以,可以说假设检验的基本思想是某种带有概率性质的反证法。想是某种带有概率性质的反证法。假设检验有两种类型:假设检验有两种类型:(1)参数检验参数检验(nparametric):在许多问题中,总体分布的类型为已知,只是一个:在许多问题中,总体分布的类型为已知,只是一个或几个参数未知,只对未知参数作出假设,然后根据或几个参数未知,只对未知参
20、数作出假设,然后根据随机样本提供的信息,选取检验统计量,按检验统计随机样本提供的信息,选取检验统计量,按检验统计量的分布规律,用量的分布规律,用“小概率原理小概率原理”推断假设是否成立推断假设是否成立。绍的绍的 t 检验、检验、u 检验,第五章介绍的方差分析等。检验,第五章介绍的方差分析等。(2)非参数检验非参数检验(nonparametric):是一种与总体分布):是一种与总体分布无关的统计检验方法,它不比较参数,而是比较分布的无关的统计检验方法,它不比较参数,而是比较分布的位置。当不知道样本来自的总体分布类型或已知总体分位置。当不知道样本来自的总体分布类型或已知总体分布与检验所要求的条件不
21、符,可用非参数检验。详见第布与检验所要求的条件不符,可用非参数检验。详见第十一章。十一章。二、假设检验的一般步骤二、假设检验的一般步骤 1.1.建立假设并确定检验水准建立假设并确定检验水准 (1)(1)建立假设:建立假设:假设需根据研究的目的对总体的特征而提出。假假设需根据研究的目的对总体的特征而提出。假设有两种:一种是检验假设设有两种:一种是检验假设(hypothesis to be tested),假设差异完全由抽样误差造成,常称无效假设,假设差异完全由抽样误差造成,常称无效假设(hull hypothesis),用,用H0表示。表示。另一种是和另一种是和H0相对立的备择假设相对立的备择假
22、设(alternative hypothesis),用,用H1表示,表示,H1通常是希望证实的情况。假通常是希望证实的情况。假设检验是针对设检验是针对H0进行的,希望用样本数据推断进行的,希望用样本数据推断H0是假的是假的,从而证实,从而证实H1是真的。假设检验的结果是在零假设是真的。假设检验的结果是在零假设H0和和对立假设对立假设H1之间作出抉择。当拒绝之间作出抉择。当拒绝H0时,接受时,接受H1,认,认为差异有统计意义;当不拒绝为差异有统计意义;当不拒绝H0时,认为差异无统计意时,认为差异无统计意义,则不接受义,则不接受H1。建立假设涉及检验方向:以建立假设涉及检验方向:以H0为准,如果根
23、据专业为准,如果根据专业知识或研究目的,知识或研究目的,H1不能肯定方向,则假设检验的方不能肯定方向,则假设检验的方向是双侧的,称为双侧检验向是双侧的,称为双侧检验(two sided test)。如果根据。如果根据专业知识或研究目的,专业知识或研究目的,H1肯定方向,则假设检验方向肯定方向,则假设检验方向是单侧的,称为有单侧检验是单侧的,称为有单侧检验(one sided test)。也就是说。也就是说,单侧指实验结果向一个方向变化的。,单侧指实验结果向一个方向变化的。以样本均数以样本均数(其总体均数为其总体均数为)与已知的总体均数与已知的总体均数(已已知的总体均数用知的总体均数用0表示表示
24、)比较为例,如例比较为例,如例4.2,如果根据,如果根据专业知识已知此类脾虚病人的脉博不会低于健康人,或专业知识已知此类脾虚病人的脉博不会低于健康人,或是研究者只关心此类脾虚病人的脉博是否快于正常人,是研究者只关心此类脾虚病人的脉博是否快于正常人,不关心是否慢于正常人,可用单侧检验。如果如果没有不关心是否慢于正常人,可用单侧检验。如果如果没有专业知识,不知此类脾虚病人的脉博快于或慢于健康人专业知识,不知此类脾虚病人的脉博快于或慢于健康人,两种可能性都存在,或是研究者只关心此类脾虚病人,两种可能性都存在,或是研究者只关心此类脾虚病人的脉博是否不同于正常人,目的只是推断两总体均数有的脉博是否不同于
25、正常人,目的只是推断两总体均数有无差别,不管是此类脾虚病人的脉博快于正常人还是慢无差别,不管是此类脾虚病人的脉博快于正常人还是慢于正常人,研究者都同等关心,应当用双侧检验。于正常人,研究者都同等关心,应当用双侧检验。例例4.2的目的是推断此类脾虚病人的脉博是否快于的目的是推断此类脾虚病人的脉博是否快于正常人正常人(正常人的脉博总体均数为正常人的脉博总体均数为0=72次次/分分),H0为此类脾虚病对脉博数无影响,即此类脾虚病人的为此类脾虚病对脉博数无影响,即此类脾虚病人的脉博总体均数脉博总体均数 等于正常人等于正常人,用符号表示为用符号表示为:H0:=72次次/分分,即,即=0与之对应的备择假设
展开阅读全文