抽样误差与假设检验课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《抽样误差与假设检验课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样误差 假设检验 课件
- 资源描述:
-
1、第四章第四章 抽样误差与假设检验抽样误差与假设检验第一节第一节 均数的抽样误差与标准误差均数的抽样误差与标准误差随机原则随机原则总体参数总体参数统计量统计量推断估计推断估计参数估计参数估计检验检验假设检验假设检验一、抽样误差一、抽样误差 从总体当中随机抽取一份样本,计算均数。从总体当中随机抽取一份样本,计算均数。这个均数不同于总体的均数。为什么?这个均数不同于总体的均数。为什么?再从该总体中随机抽取一份样本,再计算均数。再从该总体中随机抽取一份样本,再计算均数。前后两个均数不等。为什么?前后两个均数不等。为什么?抽样误差!抽样误差!例:某市例:某市19991999年年1818岁男生身高服从岁男
2、生身高服从=167.7cm=167.7cm、=5.3cm=5.3cm正态分布,从该总体中随机抽样。正态分布,从该总体中随机抽样。每次抽取每次抽取1010人,得到一个样本均数记为人,得到一个样本均数记为1x一共抽取一共抽取100100次,就得到了次,就得到了100100本样本的均数本样本的均数12100,xxx将上述将上述100100个样本均数看成新变量值,这个样本均数看成新变量值,这100100个样本个样本均数构成了一个新的分布。均数构成了一个新的分布。抽样分布:抽样分布:某一统计量所有可能的样本的取值形成某一统计量所有可能的样本的取值形成的分布。的分布。样本均数抽样分布具有如下特点:样本均数
3、抽样分布具有如下特点:1 1、各样本均数未必等于总体均数;、各样本均数未必等于总体均数;2 2、各样本均数间存在差异;、各样本均数间存在差异;3 3、样本均数围绕总体均数呈正态分布;、样本均数围绕总体均数呈正态分布;4 4、样本均数变异范围较原变量变异范围大大缩小,、样本均数变异范围较原变量变异范围大大缩小,这这100100个样本均数的均数为个样本均数的均数为167.69cm167.69cm,标准差为,标准差为1.69cm1.69cm。在非正态分布总体中可进行类似抽样。在非正态分布总体中可进行类似抽样。可得到如下结论:可得到如下结论:若变量服从正态分布,则各样本均数也服从正态若变量服从正态分布
4、,则各样本均数也服从正态分布。分布。若变量不服从正态分布,当样本量足够大时,各若变量不服从正态分布,当样本量足够大时,各样本均数样本均数近似近似服从正态分布,当样本量很小时,服从正态分布,当样本量很小时,则样本均数为非正态分布。则样本均数为非正态分布。样本均数的总体均数为样本均数的总体均数为,而样本均数的标准差比,而样本均数的标准差比原来个体值的标准差要小,为区别两者,我们用原来个体值的标准差要小,为区别两者,我们用 来表示,其计算公式为来表示,其计算公式为x xn (标准误)(标准误)反映样本均数间的离散程度。反映样本均数间的离散程度。xSSn(标准误的估计值)(标准误的估计值)例例1 20
5、00年某研究所随机调查某地健康成年年某研究所随机调查某地健康成年男子男子27人,得到血红蛋白的均数为人,得到血红蛋白的均数为125g/L,标准,标准差为差为15g/L。试估计该样本均数的抽样误差。试估计该样本均数的抽样误差。lgnSSX/89.227/15/标准差与标准误的区别与联系标准差与标准误的区别与联系 标准差:描述个体值间的变异,标准差较小,表标准差:描述个体值间的变异,标准差较小,表示观察值围绕均数的波动较小,说明样本均数的代示观察值围绕均数的波动较小,说明样本均数的代表性就越好。表性就越好。标准误:描述样本均数的抽样误差,标准误较小,标准误:描述样本均数的抽样误差,标准误较小,表示
6、样本均数与总体均数较接近。说明样本均数的表示样本均数与总体均数较接近。说明样本均数的可靠性。可靠性。用途用途 标准差:表示变量值离散程度的大小,结合均数估计标准差:表示变量值离散程度的大小,结合均数估计 参考值范围。参考值范围。标准误:表示抽样误差的大小,估计总体均数的可信标准误:表示抽样误差的大小,估计总体均数的可信 区间。区间。与样本含量的关系与样本含量的关系 标准差:随样本含量的增多,逐渐趋于稳定标准差:随样本含量的增多,逐渐趋于稳定 标准误:随样本含量的增多逐渐减小。标准误:随样本含量的增多逐渐减小。联系联系 1 1、标准差与标准误都是变异指标,说明个体值之间、标准差与标准误都是变异指
7、标,说明个体值之间差异是用标准差,说明样本均数之间差异时用标准差异是用标准差,说明样本均数之间差异时用标准误。误。2 2、当样本含量不变时,标准差越大,标准误越大。、当样本含量不变时,标准差越大,标准误越大。标准差和标准误的区别 标 准 差(S)标 准 误(XS)1.表示个体变量值的变异度大小,即原始变量值的离散程度。公式为:1)(2nXXS 2.计算变量值的频数分布范围,如:(SX96.1)。3.可对某一个变量值是否在正常值范围内作出初步判断。4.用于计算标准误。1.表示样本均数抽样误差的大小,即样本均数的离散程度。公式为:nSSX 2.计算总体均数的可信区间,如:(XSX96.1)。3.可
8、对总体均数的大小作出初步的判断。4.用于进行假设检验。XZ随机变量随机变量X XN N(,2 2)标准正态分布标准正态分布N N(0 0,1 12 2)Z变换标准正态分布标准正态分布N N(0 0,1 12 2)XZnX均数均数),(2nN,1XXXtvnSSnStudent Student t t分布分布自由度:自由度:n n-1-1一、一、t t分布的概念分布的概念 从正态总体从正态总体N(,2)中进行无数次样本含量为中进行无数次样本含量为n的随机抽样,每次均可得到一个的随机抽样,每次均可得到一个 和一个和一个S,通过,通过 公式转换,可得无数个公式转换,可得无数个t值,值,t值的分值的分
9、布即为含量为布即为含量为n的的t值的总体或称值的总体或称t-分布。分布。XXXtSSnX t值的分布与自由值的分布与自由度度 有关(实际有关(实际是样本含量是样本含量n不不同)。同)。t 分布的图形不是分布的图形不是一条曲线,而是一条曲线,而是一簇曲线。一簇曲线。vt t分布曲线是单峰分布,以分布曲线是单峰分布,以0 0为中心,左右两侧对称为中心,左右两侧对称v曲线的中间比标准正态曲线(曲线的中间比标准正态曲线(Z Z分布曲线)低,两分布曲线)低,两侧翘得比标准正态曲线略高。侧翘得比标准正态曲线略高。vt t分布曲线随自由度分布曲线随自由度而变化,当样本含量越小而变化,当样本含量越小(严格地说
10、是自由度(严格地说是自由度=n-1=n-1越小),越小),t t分布与分布与Z Z分分布差别越大;当逐渐增大时,布差别越大;当逐渐增大时,t t分布逐渐逼近于分布逐渐逼近于Z Z分分布,当布,当=时,时,t t分布就完全成正态分布分布就完全成正态分布 。vt t分布曲线是一簇曲线,而不是一条曲线。分布曲线是一簇曲线,而不是一条曲线。vt t分布下面积分布规律:查分布下面积分布规律:查t t分布表。分布表。vt-分布曲线下面积为分布曲线下面积为1二、二、t 分布的图形和分布的图形和t 分布表分布表t分布曲线特点:分布曲线特点:同标准正态分布曲线一样,统计应用中最为关心的是t分布曲线下的尾部面积(
11、即概率p)与横轴t值间的关系。为使用方便,统计学家编制了不同自由度v下的t界值表(附表2)。在t界值表中,横标目为自由度v,纵标目为概率p。表中数字表示当v和p确定时,对应的t临界值(critical value)。t t 分布表分布表 该表中分别给出了单侧概率和两侧尾部面积之和的双侧概率所对应的t临界值。单侧概率相对应的t临界值用符号 表示。,vt双侧概率相对应的t临界值用符号 表示。/2,vt例如:当单侧概率p=0.05时,v=16,单侧 0.05,161.746t当双侧概率p=0.05时,v=16,双侧 0.05/2,162.120t0 0(b)(b)-t-t/2/2t t/2/2单双侧
12、单双侧t t分布示意图分布示意图T T为单侧临界值为单侧临界值T T/2/2为单侧临界值为单侧临界值0 0(a)(a)t t在相同自由度时,值越大,概率p越小;t从t界值表中亦可看出:而在相同t值时,双侧概率p为单侧概率p的两倍。即:0.10/2,160.05,161.746tt第四章第四章 抽样误差与假设检验抽样误差与假设检验第一节第一节 均数的抽样误差与标准误差均数的抽样误差与标准误差 统计推断包括参数估计和假设检验。参数估计就统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。是用样本指标(统计量)来估计总体指标(参数)。参数估计参数估计点估计点估计(
13、point estimation)区间估计区间估计(interval estimation)一、参数估计的概念一、参数估计的概念 ,即认为即认为20002000年该地所有健康成年男性血红年该地所有健康成年男性血红蛋白量的总体均数为蛋白量的总体均数为125125g/L。1.点估计点估计:用样本统计量直接作为总体参数的估计值用样本统计量直接作为总体参数的估计值。例如例如 于于2000年测得某地年测得某地2727例健康成年男性血红蛋白例健康成年男性血红蛋白量的样本均数为量的样本均数为125125g/L,试估计其总体均数。,试估计其总体均数。X 按预先给定的概率按预先给定的概率(1)估计总体参数的可能
14、范围估计总体参数的可能范围,该范围就称为该范围就称为。可信区间由两个数值即可信区间由两个数值即构成,其中最小值构成,其中最小值称为下限,最大值称为上限。严格讲,可信区间不包称为下限,最大值称为上限。严格讲,可信区间不包括上下限两个端点值。括上下限两个端点值。2 2、区间估计区间估计 预先给定的概率(1)称为,常取95%或99%。如无特别说明,一般取双侧95%。可信区间的含义是:有(1-)的把握认为总体参数位于该区间内。而不是总体参数落在该范围的可能性为。从总体中作随机抽样,根据每个样本可以算得一个置信区间。95%的置信区间,意味着作100次抽样,算得100个置信区间,平均有95个置信区间包括了
15、总体均数,只有5个不包括。5%是小概率事件,在一次试验中出现的可能性很小。因此就认为总体均数在算得的置信区间内,可信度是95%,犯错误的概率是5%。总体均数可信区间的计算总体均数可信区间的计算 xvxvStxStx )()(t t/2,/2,是按自由度是按自由度=n-1=n-1,由附表,由附表2 2查得的查得的t t值值。99%的双侧置信区间:的双侧置信区间:0.05/20.05/2,XXXtSXtS 0.01/20.01/2,XXXtSXtS95%的双侧置信区间:的双侧置信区间:94.130,06.11938.2056.21252715tX262/05.0 例例2 2 已知某地已知某地272
展开阅读全文