统计学参数估计课件-2.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计学参数估计课件-2.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 参数估计 课件 _2
- 资源描述:
-
1、统计学StatisticsStatistics第第 6 6 章章 参数估计参数估计u 6.1 6.1 参数估计的基本原理参数估计的基本原理u 6.2 6.2 一个总体参数的区间估计一个总体参数的区间估计u 6.3 6.3 两两个总体参数的区间估计个总体参数的区间估计u 6.4 6.4 样本量的确定样本量的确定u 6.5 6.5 小结小结第第 6 6 章章 参数估计参数估计6.1 6.1 参数估计的基本原理参数估计的基本原理参数估计的基本原理参数估计的基本原理参数估计中把用于估计总体参数的样本统计量就称为估计量估计量(estimator)。由于估计量是样本的函数(不包含未知的总体参数),如果重复
2、多次抽样,根据每个样本数据计算出来的估计量取值都可能不一样,所以估计量本身也是一个随机变量,有自己的抽样分布。参数估计参数估计(parameter estimation)是用样本统计量估计未知的总体参数。参数估计的基本原理参数估计的基本原理实践中往往只能抽取一次样本,根据一个具体样本计算得到的估计量的取值就称为估计值估计值(estimate)。一般地,通常用 表示总体参数,用 表示估计量。为便于区分,各类常见的总体参数和相应的估计量符号如表6-1所示。总体参数估计量均值方差2s2标准差s比例p表表6-1 常见的总体参数和相应的估计量符号常见的总体参数和相应的估计量符号xx参数估计的基本原理参数
3、估计的基本原理直接将基于某个特定样本计算出来的估计量的取值作为总体参数的估计值的方法就称为点估计点估计(point estimation)。理论上而言,根据一个特定样本计算出来的估计值恰好等于总体参数真实取值的概率是很小的,并且如果能够重复多次抽样,每次抽样计算出来的点估计值也都可能不一样,这是由抽样的随机性所决定的。因此,讨论一个具体的点估计值的可靠性是没有意义的,我们应该根据一些标准来选择合适的点估计量,也就是确定合适的计算点估计值的方法。参数估计的基本原理参数估计的基本原理统计学中常用的评价估计量好坏的标准主要包括无偏性、有效性和一致性。一般地,无偏性无偏性(unbiasedness)是
4、指估计量抽样分布的期望值等于被估计的总体参数。在同一个总体参数的多个无偏估计量中,人们更倾向于选择方差更小的估计量。有效性有效性(efficiency)指的就是估计量的方差大小。一致性一致性(consistency)是指随着样本量的增大,点估计量的值越来越接近被估计的总体参数。参数估计的基本原理参数估计的基本原理为了提供比点估计更多的信息,并且能够给出估计的可靠性,人们更多地会选择区间估计的方法。区间估计区间估计(interval estimation)是在点估计的基础上给出总体参数的一个估计区间,该区间通常是由样本统计量加减边际误差边际误差(margin of error)构造得到。与此同时
5、,通常用置信水平置信水平(confidence level,也称置信度置信度)来度量区间估计的可靠性,记作1-。参数估计的基本原理参数估计的基本原理基于样本统计量构造出的一定置信水平下的总体参数的估计区间也称为置信区间置信区间(confidence interval)。区间的最小值称为置信下限,最大值称为置信上限,置信区间的宽度即为置信上限和置信下限的差值。参数估计的基本原理参数估计的基本原理虽然人们习惯将置信水平通俗地理解为所构造的置信区间包含总体参数真值的概率,但严格来说,总体参数的真值是固定的(虽然未知),根据一个特定样本最终计算出来的置信区间也是固定的,因此该区间要么包含总体参数的真值
6、,要么不包含,并无概率可言。实际上,置信水平也是一个针对大量重复抽样的渐近概念。如果重复多次抽样,根据每次抽样结果计算出来的具体的置信区间不尽相同,置信水平表示的是在重复抽样情况下按特定方法构造的大量置信区间中包含总体参数真值的区间个数所占的比例。第第 6 6 章章 参数估计参数估计6.2 6.2 一个总体参数的区间估计一个总体参数的区间估计总体总体均值均值的区间估计的区间估计在对总体均值进行区间估计时,需要考虑总体是否服从正态分布、总体方差是否已知、用于估计的样本是大样本(n30)还是小样本(n30)等几种不同情况。但无论是哪种情况,通常选择的点估计量都是样本均值 ,在此基础上,根据 的抽样
7、分布计算指定置信水平下的边际误差,再由样本均值加减边际误差得到相应的置信区间。xxx由于在上述任一种情况下,的抽样分布都是左右对称的,因此总体均值的1-置信水平下的置信区间一般表达式为x (/2上侧分位数 的标准误差)x总体总体均值均值的区间估计的区间估计在大样本(n30)情况下,无论总体是否服从正态分布,由中心极限定理可知,样本均值 都近似服从正态分布,且均值为,标准误差为 。那么,经过标准化后得到的 就近似服从标准正态分布N(0,1)。当总体方差2已知时,总体均值在1-置信水平下的置信区间为xxn/nxz/nzx2/其中,为标准正态分布的/2上侧分位数,和 分别为置信上限和置信下限。2/z
8、nzx2/nzx2/总体总体均值均值的区间估计的区间估计当总体方差2未知时,用样本方差s2代替2,的抽样分布不变,这时,总体均值在1-置信水平下的置信区间为x其中,和 分别为置信上限和置信下限。nszx2/nszx2/nszx2/总体总体均值均值的区间估计的区间估计【例【例6.1】某款饮料的生产商在超市随机抽取了100位购买该饮料的消费者,记录下其年龄数据如表6-2所示。试构造该款饮料所有消费者平均年龄的95%置信区间。2024191726182021162222261828222425192820202019232322182625221816222426222619202320252517
9、1623232426182726231918202222172416162025242619182322202225171823262020192419202221211824232617212523181620222021表表6-2 某款饮料的某款饮料的100位消费者年龄数据位消费者年龄数据 单位:岁单位:岁总体总体均值均值的区间估计的区间估计解:解:根据题意,需要构造该款饮料所有消费者平均年龄即总体均值的95%置信区间。样本量n=100,=0.05,总体方差未知,因此用样本均值 作为估计量,用样本标准差s代替。根据表6-2中的样本数据计算得到:=21.44,s=3.13,使用Excel中的
10、【NORM.S.INV】函数计算得到z0.025=1.96,代入公式得到即该款饮料所有消费者平均年龄的95%置信区间为20.8322.05岁。0.6121.441003.131.9621.44xx总体总体均值均值的区间估计的区间估计在小样本(n30)情况下,需要假设总体服从正态分布。当总体方差2已知时,样本均值 同样服从均值为,标准误差为 的正态分布,此时总体均值在1-置信水平下的置信区间仍然为xn/nzx2/其中,为t(n-1)分布的/2上侧分位数,和 分别为置信上限和置信下限。但当总体方差2未知时,用样本方差s2代替2,经过标准化后得到的 则服从自由度为n-1的t分布。这时,总体均值在1-
11、置信水平下的置信区间为xnsxt/nstx2/2/tnstx2/nstx2/总体总体均值均值的区间估计的区间估计【例【例6.2】某食品生产企业生产的薯片标注每袋重量为150克,质检机构从其生产的一批产品中随机抽取了25袋,并测量每袋薯片的重量数据如表6-3所示。假定该批薯片的重量服从正态分布,试构造该批薯片平均重量的90%置信区间。150.5151.0149.8150.2150.0148.5151.2153.0147.0150.9147.6152.3150.0148.0149.7153.4151.0146.9152.0151.6150.7149.0148.8152.1153.2表表6-3 随机
12、抽取的随机抽取的25袋薯片重量数据袋薯片重量数据 单位:克单位:克总体总体均值均值的区间估计的区间估计解:解:根据题意,需要构造该批薯片平均重量即总体均值的90%置信区间。样本量n=25,=0.1,总体服从正态分布但方差未知,因此用样本均值 作为估计量,用样本标准差s代替。根据表6-3中的样本数据计算得到:=150.34,s=1.85,使用Excel中的【T.INV】函数计算得到t0.05(24)=1.71,代入公式得到即该批薯片平均重量的90%置信区间为149.71150.97克。xx63.034.1502585.171.134.150总体总体比例比例的区间估计的区间估计从一般性来看,通过样
13、本数据的调查(样本量为n)来估计总体中具有某一类特征的个体所占的比例,相当于做了n次伯努利试验,每次试验的结果只有两种可能,要么具有该类特征(记为“成功”),要么不具有该类特征(记为“失败”)。因此,在大样本情况下,抽取的样本数据中具有指定特征的个体所占的比例p也近似服从正态分布,且均值等于总体比例(即每次试验成功的概率),标准误差等于 。那么,样本比例p经过标准化后得到的 就近似服从标准正态分布N(0,1)。总体比例的1-置信水平下的置信区间一般表达式为n/)1(npz/)1(p(/2上侧分位数p的标准误差)总体总体比例比例的区间估计的区间估计与大样本情况下总体均值的区间估计类似,由于总体比
14、例未知,用样本比例p代替标准误差中的,最后得到总体比例在1-置信水平下的置信区间为其中,和 分别为置信上限和置信下限。nppzp)1(2/nppzp)1(2/nppzp)1(2/总体总体比例比例的区间估计的区间估计【例【例6.3】某电视频道想要估计旗下一档王牌节目的观众中女性所占的比例,为此随机调查了100名观众,其中72人为女性。试构造该档节目所有观众中女性比例的99%置信区间。解:解:根据题意,需要构造该档节目所有观众中女性比例即总体比例的99%置信区间。样本量n=100,=0.01,样本比例p=0.72,使用Excel中的【NORM.S.INV】函数计算得到z0.005=2.58,代入公
15、式得到1158.072.0100)72.01(72.058.272.0即该档节目所有观众中女性比例的99%置信区间为60.42%83.58%。总体总体方差方差的区间估计的区间估计要构造总体方差2的置信区间,自然想到选择样本方差s2作为估计量。在总体服从正态分布的假定下,可以证明 服从自由度为n-1的 分布。依据 分布的概率密度曲线可得其中,和 分别为(n-1)分布的1-/2上侧分位数和/2上侧分位数。和 即为总体方差2在1-置信水平下的置信区间上下限。22)1(sn21)1()1(22/12222/2snsnP222/122/222/12)1(sn22/2)1(sn总体总体方差方差的区间估计的
16、区间估计【例【例6.4】沿用例6.2,试构造该批薯片重量方差的90%置信区间。解:解:根据题意,需要构造该批薯片重量方差即总体方差2的90%置信区间。样本量n=25,=0.1,总体服从正态分布,基于表6-3中的样本数据已经计算得到s=1.85,使用Excel中的【CHISQ.INV.RT】函数可以计算得到 (24)=36.42,(24)=13.85,代入公式得到总体方差2在90%置信水平下的置信区间为即该批薯片重量方差的90%置信区间为2.265.93。)85.1385.124,42.3685.124(22205.0295.0第第 6 6 章章 参数估计参数估计6.3 6.3 两两个总体参数的
17、区间估计个总体参数的区间估计两个总体均值之差的区间估计两个总体均值之差的区间估计设两个总体的均值分别为1和2,从两个总体中分别抽取样本量为n1和n2的两个随机样本,其样本均值分别为 和 。与一个总体均值的区间估计类似,通常选择两个样本均值之差()作为两个总体均值之差(1-2)的估计量,并在此基础上构建两个总体均值之差(1-2)的1-置信水平下的置信区间一般表达式为 ()(/2上侧分位数()的标准误差)1x2x21xx 21xx 21xx 具体地,需要考虑独立大样本、独立小样本以及配对样本三种不同情况。两个总体均值之差的区间估计两个总体均值之差的区间估计如果两个样本是从两个总体中独立随机抽取的,
18、即一个样本中的元素与另一个样本中的元素相互独立,且均为大样本(n130,n230),可以证明,两个样本均值之差()近似服从正态分布,且均值为(1-2),标准误差为 。那么,()经过标准化后得到的就近似服从标准正态分布N(0,1)。当两个总体方差21和22已知时,两个总体均值之差(1-2)在1-置信水平下的置信区间为当两个总体方差21和22未知时,分别用两个样本方差s21和s22代替,两个总体均值之差(1-2)在1-置信水平下的置信区间为21xx 21xx 222121/nn2221212/21)(nnzxx2221212/21)(nsnszxx两个总体均值之差的区间估计两个总体均值之差的区间估
19、计【例【例6.5】某连锁快餐店分别在一个高校集中区域和一个商务写字楼区域开设了两家分店,为了估计两家店日平均营业额的差值,试营业期间随机抽取了两家店60天的营业额数据(单位:万元),计算得到相关样本信息如表6-4所示。假设两家店的营业互不影响,试构造其日平均营业额之差的95%置信区间。分店1分店2n1=60n2=60=1.24=0.98s1=0.16s2=0.101x2x表表6-4 两家分店日营业额样本数据信息两家分店日营业额样本数据信息两个总体均值之差的区间估计两个总体均值之差的区间估计解:解:根据题意,需要构造两家分店日平均营业额之差即总体均值之差(1-2)的95%置信区间。随机抽取了两个
20、独立大样本,样本量n1=n2=60,=0.05,两个总体方差未知,因此用两个样本均值之差()作为估计量,用两个样本方差s21和s22分别代替总体方差21和22。使用Excel中的【NORM.S.INV】函数计算得到z0.025=1.96,与表6-4中的已知信息一并代入公式得到即这两家分店日平均营业额之差的95%置信区间为0.210.31万元。21xx 05.026.0601.016.096.1)98.024.1(22两个总体均值之差的区间估计两个总体均值之差的区间估计假定两个总体都服从正态分布,分别从两个总体中独立随机抽取两个小样本(n130,n230),当两个总体方差21和22已知时,两个样
展开阅读全文