统计学原理-抽样调查课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计学原理-抽样调查课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 原理 抽样调查 课件
- 资源描述:
-
1、第七章第七章 抽样调查抽样调查第一节第一节 抽样调查与统计推断基础知识抽样调查与统计推断基础知识一、 抽样调查的概念、特点和适用范围 1、 抽样 抽样是根据一定的调查目的,从调查对象中抽取部分单位构成样本的过程全部工业企业部分工业企业2、抽样种类 概率抽样(随机抽样)非概率抽样(非随机抽样)简单随机抽样分层抽样等距抽样整群抽样3、抽样调查的概念抽样调查是按照随机原则从调查对象中抽取一部分单位作为样本进行调查,以其所获得的样本资料,对总体的数量特征进行估计的一种非全面调查方式。抽样调查抽样(手段)推断 (目的)调查对象或总体样本抽取推断调查4、抽样调查的特点 -与其他非全面调查相比较按照随机原则
2、抽取调查单位根据样本信息对总体的数量特征进行估计存在误差但可以计算并施加控制5、抽样调查的适用范围在不可能进行全面调查的情况下,抽样调查是唯一选择在时效性要求很高的情况下,适用于抽样调查在不必要开展全面调查的情况下,适用于抽样调查在对全面调查进行补充和修正时,适用于抽样调查二、抽样调查与估计的步骤设计抽样方案抽样样本单位对样本单位进行调查由样本信息对总体特征进行估计三、抽样调查与推断的常用指标1、总体指标(总体参数)用以描述与刻画总体数量特征。特点:既定,唯一,未知。总体平均数NXXXXN21NXNii1总体方差与标准差NXXnii122NXXnii12符号规定:符号规定: N-N-总体单位数
3、总体单位数 n-n-样本单位数样本单位数 X-X-总体平均数总体平均数 P-P-总体成数总体成数 x x-样本平均数样本平均数 p p-样样本成本成数数 -总体标准差总体标准差 S-S-样本标准差样本标准差n-样本单位数,也叫样本容量。样本单位数,也叫样本容量。n30时,为大样本,时,为大样本,n30时为小样本时为小样本总体成数总体单位属性有时为品质标志,品质标志有时为是非标志是非标志-标志表现只有两种情况,如,性别:男,女;产品质量:合格,不合格。变量值X频数f成数成数(频率)一种属性1N1P= N1/N另一种属性0N21-P=N2/NN1)1 ()1 ()0()1 (222PPPPPPff
4、XXiii是非标志的平均数、方差和标准差XPNNNNNNffXNii12121101N1/N=P)1 (PP2P(1-P)1、样本指标(样本统计量)用以描述与刻画样本数量特征。样本既定时:唯一,可知。样本平均数nxxxxn21nxnii1样本方差与标准差1122nxxSnii112nxxSniinnpx1样本成数(平均数)四、数据的分布特征及其度量 峰峰度度均值反均值反映集中映集中趋势趋势偏偏斜斜度度所有数据所有数据对均值的对均值的偏离或离偏离或离散度散度集中趋势的度量:众数 、中位数和四分位数、平均数平均数离散程度的度量:极差 、平均差、方差和标准差方差和标准差、离散系数峰度的度量:峰度系数
5、偏度的度量:偏度系数第二节 抽样方法与抽样调查组织方式一、 抽取样本的方法u重复抽样亦称回置抽样每抽出一个单位在登记后仍放回去同一个单位有多次被重复抽中的可能u不重复抽样二、抽样调查组织方式简单随机抽样简单随机抽样: 对总体不做任何处理,直接随机抽取样本。具体包括抽签法,随机数表法。适用性:总体单位之间差异较小,且总体单位数目较少的情况。类型抽样:类型抽样:又称分层抽样,将总体单位按某种属性特征分类或分层,再从各类或各层抽样。适用性:总体单位之间差异较大,且总体单位数目较多的情况。等距抽样:等距抽样:又称机械抽样或系统抽样,将总体各单位按一定标志或顺序排列,实施等距或等间隔(k=N/n)抽样。
6、整群抽样:整群抽样:又称集团抽样,将总体按某一标志划分成若干群,随机抽取若干群,对抽中的群内的所有单位逐一调查。第三节、简单随机抽样及抽样估计第三节、简单随机抽样及抽样估计一、抽样误差测算一、抽样误差测算二、抽样区间估计二、抽样区间估计三、抽样数目确定三、抽样数目确定1、统计调查误差、统计调查误差登记性误差:登记性误差:所有统计调查活动都可能会产生登记性误差。全面调查和非全面调查皆如此。表现为样本的统计数据与真值有偏误。通过加强监管和组织工作,可以减少乃至消除此误差。代表性误差:代表性误差:代表性误差只存在于非全面调查,表现为样本结构与总体结构不一致。抽样调查中的代表性误差不可避免,但可以计算
7、和控制。一、抽样误差一、抽样误差2、抽样平均误差、抽样平均误差抽样平均误差是样本平均数或样本成数的标准差3名同学成绩为88,82,96 平均88.66667分,不重复抽样,n=2可能的样本为:可能的样本为:88,82; 88,96; 82,96平均数:平均数: 85 92 8988.66667抽样误差就是用来反映样本平均数与总体平均数的离差的抽样误差就是用来反映样本平均数与总体平均数的离差的样本平均数的抽样平均误差可能的样本个数2)(Xxx可能的样本个数2)(Ppp样本成数的抽样平均误差 当样本单位数既定时当样本单位数既定时, ,从一个总体可抽取多个样本,抽样指标(如平均数、从一个总体可抽取多
8、个样本,抽样指标(如平均数、抽样成数等),就有多个不同的数值,它们对总体指标(如总体平均数、总体成抽样成数等),就有多个不同的数值,它们对总体指标(如总体平均数、总体成数等)的离差也就有大有小,这就必需用一个指标来衡量抽样误差的一般水平。数等)的离差也就有大有小,这就必需用一个指标来衡量抽样误差的一般水平。 抽样平均误差是抽样平均数(或抽样成数)的标准差,它反映抽样平均数抽样平均误差是抽样平均数(或抽样成数)的标准差,它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均差异程度。(或抽样成数)与总体平均数(或总体成数)的平均差异程度。根据概率论与数理统计学的有关知识,抽样平均误差公式
9、nnx2nPPnpp)1 (2NnnNnnNx1) 1()(22重复抽样:不重复抽样:NnnPPNnNnPPp1)1 () 1()()1 (上例只有3名同学作为总体,不重复抽样且每次样本容量为2,所有可能的抽样可以试验。但当总体单位较多时候,各种可能的抽样是不可以一一试验的。这就需要而且只能根据一个样本进行计算。考虑问题:哪些因素影响抽样平均误差? 它们如何影响抽样平均误差?1、总体标准差2、样本单位数n3、抽样方法4、抽样的组织方式解:已知 N=30,n=4,2=4例题:某工人某天生产电子元件30件,已知其方差为4,现从中抽取4件产品进行质量检查。试计算本次抽样平均误差在重复抽样下: 厘米1
10、442nx在不重复抽样下: 厘米95. 0) 130( 4) 430( 4) 1()(2NnnNx例题:有5个工人的日产量分别为(单位:件):6,8,10,12,14,用重复抽样的方法,从中随机抽取2个工人的日产量,用以代表这5个工人的总体水平。计算抽样平均误差解:总体平均数 件抽样平均误差 件?总体标准差 件8)(2NXX在抽样平均误差公式中有总体方差2、P(1-P)或标准差, P(1-P)的平方根,但是在大部分情况下,总体方差或标准差是未知的。如何处理?用以前或同类现象的标准差代替当有多个标准差可供选择时,选其最大者当为成数时,选其最接近0.5的那一个P,因为P=0.5时,p最大当为成数时
11、,没可供选择的成数,直接取p=0.5 用样本标准差代替在大样本下,直接用S代替在小样本下,用S代替 ,S= 11)(1)(22nnSnnnxxnxx1、甲乙两地区各抽选400家企业进行调查,结果表明,甲地区平均每个企业盈利300万元,乙地区平均每个企业盈利80万元,甲乙两地区标准差系数分别为30%和20%,请计算两地区的抽样平均误差练习题2、某企业生产的产品,按正常生产经验,合格率为90%,现从5000件产品中抽取50件进行检验,求合格率的抽样平均误差3、要估计某县10万家庭的电视机拥有率,随机抽取100户家庭,发现有85户拥有电视机,求电视机拥有率的平均抽样误差。 2、解:在重复抽样条件下,
12、合格率的抽样平均误差为: 在不重复抽样条件下,合格率的抽样平均误差为: 3、根据已知条件可得:p= 85/100 =0.852=p(1-p)= 0.850.15=0.1275在重置抽样下: =0.0357不重置抽样下: = =0.0357计算结果表明,用样本的拥有率来估计总体的拥有率,其抽样误差平均说来为3.6%左右。3、抽样极限误差XXx抽样极限误差也叫允许误差,是指样本指标与总体指标之间抽样误差的可能范围。或者说,在一定的置信度置信度下,抽样估计可以允许的误差范围。抽样平均数的极限误差抽样成数的极限误差pPp置信度置信度,又称置信水平或把握度,是表明抽样指标和总体指标的误差不超过一定范围的
13、概率保证度,一般表示为1-, 是显著显著性水平性水平 样本指标与总体指标之间的差异绝对值不超过极限误差 样本统计量与总体参数之间的差异绝对值不超过极限误差这样看来,置信度越大,极限误差就越大,反之,置信度越小,极限误差就越小。xx2根据平均数抽样分布理论,在给定置信度1-时,大样本条件大样本条件下的极限误差可以表示为:抽样平均数的极限误差抽样成数的极限误差pp2Z /2是什么?是什么?在给定显著性水平,或者给定置信水平1- 时候,标准正态分布的临界值为Z /2 ,可查Z分布表取得广泛应用的是: 1-=90%, Z =1.65 1-=95%, Z =1.96 1-=95.45%, Z =2 1-
14、=99%, Z =2.58 1-=99.73%, Z =3 3x 2x x x x 2x 3x 68.27% 95.45% 99.73% 对刚下线的1000个酒瓶重量进行检查。重复抽取100个酒瓶,样本平均重量为100克,样本标准差为5克,试以95%的把握度估计本次抽查的抽样极限误差解解: 依照题意,已知:N=1000 ,n=100,S=5,1-=95%Z /2 =1.96抽样平均数的极限误差xx2重复抽样的平均误差克5 .01005222nSnx本次抽样极限误差克98. 05 . 096. 1x意思是说,我们有95%的把握保证样本的平均重量与总体的平均重量的误差不超过0.98克2、某电扇厂对
15、1500台电扇使用寿命进行抽样调查,抽取30台,平均寿命为45万小时,使用寿命的标准差为240小时,试以95%的置信水平计算本次抽查的极限误差1、对某地区电视机拥有率进行抽样调查,抽取100户,调查显示90户拥有电视机,试以95%的把握程度计算本次调查的极限误差练习二、抽样区间估计:利用样本信息对总体数量特征进行推断 区间估计:在一定的置信度下,根据样本统计量推断总体参数与总体总量的可能范围或置信区间。1、总体均值的区间估计:由样本平均数估计总体均值的可能范围由抽样极限误差的定义:在1-下,XXx)()(xxxXx总体均值的置信区间:),(xxxx亦即,),(22xxZxZx在大样本下,给定置
16、信度1-时,总体均值的总体均值的区间估计区间估计抽样平抽样平均误差均误差总体均值的区间估计的含义:-由样本平均数估计总体均值的可能范围),(22xxZxZx在大样本下,给定置信度1-时,总体均值的置信区间为:含义:我们有1-(95%)的把握能保证总体均值落在上述区间之内例题例题: 对刚下线的1000个酒瓶重量进行检查。重复抽取100个酒瓶,样本平均重量为100克,样本标准差为5克,试以95%的置信度估计这批酒瓶重量的置信区间,并说明其含义是什么?解解: 已知:N=1000 ,n=100,S=5,1-=95% ,Z /2 =1.96重复抽样的平均误差克5 .01005222nSnx总体均值的置信
17、区间:(100-1.960.5,100+1.960.5 ) ( 99.02,100.98 )2、总体成数的区间估计:由样本成数估计总体成数的可能范围由成数的抽样极限误差的定义:在1-下,pPp)()(pppPp总体成数的置信区间:),(pppp亦即,),(22ppZpZp在大样本下即,例、对某地区电视机拥有率进行调查,抽取100户,调查显示90户拥有电视机,试以95%的把握程度估计本地区电视机拥有率解解:n=100,n1=90,即 p=90/100=0.9,1-=95%,即 z/2=1.96%3100)9.01(9.0)1(nppp(重复)抽样平均误差(成数)抽样极限误差%88.5%396.1
18、2pp在把握度为95%下的置信区间:(90%-5.88%,90+5.88%)即(84.12%,95.88%) 我们以95%把握度保证本地区电视机拥有率介于84.12%95.88%之间 3、总体总量的区间估计:由样本总量估计总体总量的可能范围总体标志总量的区间估计:由均值的区间估计推断总体标志总量的可能范围总体标志总量的区间估计:由均值的区间估计推断总体标志总量的可能范围),(22xxZxZxN1000( 99.02,100.98 )=( 99020,100980 )前例题:酒瓶总重量:即,在95%的置信度下,这批酒瓶的总重量介于99020100980克之间 总体成数总量的区间估计:由成数区间估
19、计推断总体成数总量的可能范围),(22ppZpZpN前例题假定该地区有居民家庭10000户拥有电视机的总户数: 10000(84.12%,95.88%)=( 8412,9588 )户在95%置信度下,该地区拥有电视机的家庭总数介于84129588 户之间对一批产品的质量进行调查,随机抽取100个产品,调查发现有6个产品不合格,若以95%的置信水平,可否能推断这批产品的不合格率不会超过10%?计算其置信区间。 以95的概率保证推断该市职工人均年收入的置信区间(采用重复抽样)。思考题三、抽样数目确定在重复抽样条件下: 平均数估计的必要样本单位数的确定平均数估计的必要样本单位数的确定 在不重复抽样条
20、件下:nZZxxx22/22222xxZn由NnnZxx1222222222xxxZNNZn由某厂对10000个电子元件的耐用时间进行检查,根据以往资料可知该型号电子元件耐用时间的标准差为800小时,要求置信概率为95.45%,抽样误差范围不超过200小时,问:需要抽取多少个电子元件检查?1-/2若采取重复抽样:重复抽样:若采取不重复抽样:不重复抽样:小时200 x(个)642008002222222xxZn(个)638002200100008002100002222222222xxxZNNZn小时800 xn 成数估计的必要样本单位数的确定在重复重复抽样条件抽样条件 在不重复不重复抽样条件抽
21、样条件下nPPZZpp)1 (22222)1(pPPZn由NnnPPZZpp1)1 (22)1()1(22222PPZNPPNZnp由 上例中,若对10000个电子元件的合格率进行检查,根据以往调查资料得知产品合格率为96%,要求在95.45%的概率保证程度下,抽样误差范围不超过4%,试确定需要抽取的电子元件数量?已知: N=10000个 P=96% p=4% 1-=95.45% /2(个)96%)4(%)961(%962)1(2222pPPZn(个)9504.096.0204.01000004.096.0210000)1()1(222222PPZNPPNZnp若采取不重复抽样不重复抽样若采取
22、重复抽样重复抽样现对某地区电视机拥有率进行调查。以往曾经做过三次调查,抽取家庭均为500户,拥有电视机的家庭分别为400、436、450户,若置信度为95%,误差范围不超过3%,本次调查至少应该抽取多少个家庭户?第四节 其他抽样组织方式类型抽样等距抽样整群抽样一、类型抽样一、类型抽样(分层抽样分层抽样)亦称分层抽样先将总体各单位分成若干类型或层从各类型中抽取样本单位再由各类型的样本单位组成一个样本类型抽样的样本抽取总体单位数N,样本单位n,分成k组或层,每一组抽取多少样本单位ni ?等额抽取样本:等比例抽取样本每一组抽取n/ k个样本单位N=N1+N2+N3+Nkn=n1+n2+n3+nkni
23、 = n(Ni /N)考虑:哪一种样本抽取方法更科学?为什么? 类型抽样的抽样平均误差 类型抽样用平均组内方差代替总方差计算抽样平均误差n类型抽样:平均数的抽样平均误差在重复抽样条件下: nSix2NnnSix12在不重复抽样条件下:2iS为各组内方差nnSSiii222iS为平均组内方差n类型抽样:成数的抽样平均误差在重复抽样条件下: nSip2NnnSip12在不重复抽样条件下:2iS为各组内方差nnppSiiii)1 (22iS为平均组内方差 类型抽样:抽样极限误差的计算类型抽样用平均组内方差代替总方差计算抽样平均误差重复抽样的极限误差nS2i2Zx不重复抽样的极限误差NnnSZix12
展开阅读全文