抽样技术-7-不等概率抽样.课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《抽样技术-7-不等概率抽样.课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 技术 不等 概率 课件
- 资源描述:
-
1、 第七章第七章 不等概抽样不等概抽样放回不等概率抽样放回不等概率抽样不放回不等概率抽样不放回不等概率抽样利用软件进行抽样和计算利用软件进行抽样和计算案例分析案例分析第一节 不等概率抽样概述一、不等概率抽样的必要性一、不等概率抽样的必要性 1、在简单随机抽样中,总体(或层)中的每个单元入样的概率都相等。等概率抽样的特点是总体中的每个单元在该总体中的地位(或重要性)相同,在抽样时对每个单元采取的是“不偏不倚”的态度 。等概率抽样不仅实施简单,而且相应的数据处理公式也简单。但是在许多实际问题中,我们还需要使用不等概率抽样(sampling with unequal probabilities)。2、
2、抽样单元在总体中所占的地位不一致:例如:要反映某小麦品种的优良情况,以村作为抽样单位,但各村的种植面积不同,一些种植面积大的村庄在抽样中是否被抽中对推断总体的结果有很大影响 ,所以让“大单元”被抽到的概率大,“小单元”被抽到的概率小,这样能够大大提高样本的代表性,减少抽样误差。 不等概率抽样概述 不等概率抽样的特点 2、不等概率抽样的主要优点优点是由于使用了辅助信息,提高了抽样策略的统计效率, 能显著地减少抽样误差。1、凡需使用不等概率抽样的场合,必须提供总体单元的某种辅助信息。例如:例如:每个单元的“大小”度量Mi。注意:注意:比估计和回归估计是估计方法用到了辅助信息,本章是抽样方法用到辅助
3、信息.不等概率抽样的特点3 3、抽样框的创建比简单随机抽样和系统抽样成本、抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要存储总体中每一个单元高,更复杂,因为需要存储总体中每一个单元的度量大小的度量大小;4 4、并非在任何情况下都能使用,因为并不是每一、并非在任何情况下都能使用,因为并不是每一个总体都有稳定且与主要调查变量相关的有关个总体都有稳定且与主要调查变量相关的有关大小或规模的度量大小或规模的度量;5 5、抽样及估计(特别对不放回抽样)相当复杂、抽样及估计(特别对不放回抽样)相当复杂; 6 6、 当单元大小度量不准确或不稳定时不适用当单元大小度量不准确或不稳定时不适用。6不等
4、概率抽样的分类放回不等概抽样放回不等概抽样:按照总体单元的规模大小来确定在每次抽中的概率。抽取后放回总体,再进行下一次抽样,每次抽样都是独立的。这种抽样称为放回不等概抽样(sampling with p probabilities p proportional to s sizes,简称PPS抽样) 不放回的不等概抽样不放回的不等概抽样:每次在总体中对每个单元按入样概率进行抽样,抽出的样本不再放回总体,因此,在抽取了第一个单元后,余下的单元再以什么概率被抽取就较复杂。 这种抽样不是独立的,无论是抽样方法还是方差估计,都要比放回抽样繁复得多。不放回抽样通常称为PS抽样。抽样。放回不等概抽样 PP
5、S PPS抽样:有放回的不等概抽样抽样:有放回的不等概抽样01100,11NiiNiiiiiNMiiNinMMMZMnZ抽设总体包含 个单元,是第 个单元的大小或规模的度量, , ,总体的总规模度量为:则第 个单元的抽选概率为:即,一次抽完后再,进行下一次抽取。独立地进行这样的抽样 次样概率正比于规模度量放回有可能重复,只调查一次,但计算时按,共抽到 个重复数单元(计算)。0N1N1jj1N1jj1N1jjN2111211iMMM2M1MMNMM2M1MM2M21M1Mi ,代码代码单元大小单元大小单元单元在PPS抽样中,赋予每个单元与Mi相等的代码数,将代码数累加得到M0,每次抽样都等概等概
6、产生一个1,M0之间的随机数,设为m,代码m所对应的单元被抽中。放回不等概率抽样实施方法放回不等概率抽样实施方法1.代码法代码法累计累计代码代码10.66616214.5145151715131.515166152166413.713730316730357.87838130438161515053138253171010063153263183.6366676326679660727668727101.11173872873873.8738 例例5.1 设某个总体有设某个总体有10个单元,相应的单元大小及其代码个单元,相应的单元大小及其代码数如下表,在其中产生一个数如下表,在其中产生一个n=
7、3的样本。的样本。 iMi假设在假设在1,7381,738 中中等概等概产生第一个随机数为产生第一个随机数为354354,再在,再在1,7381,738中产生第二中产生第二个随机数为个随机数为553553,最后在,最后在1,7381,738中产生第三个随机数为中产生第三个随机数为493493,则它们所,则它们所对应的第对应的第5 5,7 7,6 6号单元被抽中。号单元被抽中。 Mi*10例:假设有例:假设有10个乡,每个乡的村庄数不同,按个乡,每个乡的村庄数不同,按pps抽抽3个乡个乡乡村庄数Mi累计代码155152283363332659345941473607351083748363812
8、1841217712812212885017812917892180179180108188181188结合一下整群抽样、结合一下整群抽样、多阶段抽样多阶段抽样2.2.拉希里法拉希里法( (二次抽取法二次抽取法) )(统计学家(统计学家LahiriLahiri最先提出):最先提出):1max 11M ,MM1M M.Mii NaaiiiiiMNMapN M Mi令每次从 ,中简单随机地抽取一随机数a,同时再独立从 ,中抽取一随机数b。若b则第 个单元入样,若b则重抽。第i个单元被抽中的概率:z =pa=i,b=pa=ib=显然地,z简单随机设设 M1, M2,MN为单元的规模为单元的规模放回不
9、等概率抽样实施方法放回不等概率抽样实施方法拉希里法抽样举例:拉希里法抽样举例:例例5.1中,中,M=150,N=10.在在1,10,1,150 中分别产中分别产生(生( i,m)如下)如下:第一次第一次 (3,121) , M3=15121, 舍弃,重抽舍弃,重抽 ;第二次(第二次(8,50),),M8=3677, 第第7号单元入样;号单元入样;第四次(第四次(5,127),),M5=7877, 第第4号单元入样;号单元入样;第六次第六次(9,60),M9=6060, 第第9号单元入样;号单元入样;因此第因此第4,7,9号单元被抽中。号单元被抽中。三、三、Hansen-HurwitzHanse
10、n-Hurwitz(汉森汉森- -郝维茨郝维茨)估计量及其性质:)估计量及其性质:112121,1(1) ()1(2) ()()1(3) ()()()(1)nniHHiiHHNiHHiiiniHHHHHHiizzyYnzE YYYV YZYnZyYYV Yn nvz样本单元被抽中的概率 , ,则对总体总量Y的估计是是的无偏估计。 因为是放回抽样,所以是独立样本,数理统计的结因为是放回抽样,所以是独立样本,数理统计的结论可以在这里应用。论可以在这里应用。放回不等概率抽样对总体特征的估计放回不等概率抽样对总体特征的估计对上述结论加以说明:对上述结论加以说明: 独立同分布样本y1y2yn抽中概率z1
11、z2zn新变量 ty1/ z1y2 /z2yn/zn22111222111111v()=v(1V T()(1)1()11niniiHHinitHHiHHHHnnitiHHiiiiitytYnnzV tV YYtnnnysttysYnzYnnz样本均值 ()即 ()的无偏估计量为:)()()汉森汉森-赫维茨估计量估计给出总体总量的估计赫维茨估计量估计给出总体总量的估计, 如果对总体均值估计可按下公式:如果对总体均值估计可按下公式:0100221011()()(1)nHHiHHiiniHHHHiiMyYYMM nzyv YYM n nz假设是总体规模大小的度量例:例:某县农业局要调查全县养猪专业户
12、今年生猪的出栏头某县农业局要调查全县养猪专业户今年生猪的出栏头数,现有全县数,现有全县365365个养猪专业户个养猪专业户去年的生猪存栏数去年的生猪存栏数,各专业,各专业户的规模相差较大,决定以放回方式按与各养猪专业户上户的规模相差较大,决定以放回方式按与各养猪专业户上年末生猪存栏头数成比例的年末生猪存栏头数成比例的PPS抽样 从中抽取从中抽取3030户进行调户进行调查,结果如下,已知全县养猪专业户上年末生猪存栏头数查,结果如下,已知全县养猪专业户上年末生猪存栏头数为为95429542头,头,试估计该县养猪专业户生猪今年出栏总头数和试估计该县养猪专业户生猪今年出栏总头数和抽样标准误。抽样标准误
13、。(摘自:(摘自:“应用抽样技术应用抽样技术”李金昌)李金昌)imiyiimiyiimiyi11575114025821191242 2232313413412321862226160393713176923372154291521426156242110458451511492574963118516362212643336724133172514527189682917318533283017791374191938382882881019872042304其中第其中第2、19号被抽中两次号被抽中两次解:根据题中所给资料,解:根据题中所给资料,n=30,M0=9542,01119542 7
14、5134177(2.)56163()30152330nniiHHiiyMyYnznm 头2220112222M1()() =()(1)(1)954275561631345616317756163()()2.() 30 291595422395423095422806070()1675nniiHHHHHHiiiiHHyyYYYn nzvvn nmY (头)利用汉森利用汉森-郝维茨估计量,则有:郝维茨估计量,则有:例例5.25.2:某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧,准备采用抽
15、样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本。 iimiyiimiyiimiy1*38.2310926105.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301315.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600245.00311710.8029
16、01615.8023702528.43928482.00430179.00940269.9784298.8199218*21.00640275.20510niiiHHmynMY102 . 651070.13102423.381092623.381092630367622121211()()=45%=20%SSnnSSrttrttHHHHHHHHHHHHYY,YYYY773861.0595%t=1.96()1741181.9645%757087srtHHHHHH在置信度为时,对应的,YY 的相对误差为:Y相对误差达到相对误差达到20时所需样本量:时所需样本量:220.45301520.2n222
17、011M1()() =()(1)(1)=30317005145.8(1741)8=1nniiHHHHHHiiiiHHyyv YYYn nzn nmv Y解:解:有放回不等概整群抽样有放回不等概整群抽样 群规模不等的整群抽样中,可采用群规模不等的整群抽样中,可采用等概和不等概等概和不等概抽样;抽样;如果群规模如果群规模差异不大差异不大,可采用,可采用等概等概抽样;如果群规模差异抽样;如果群规模差异较大较大,各个群对总体的影响不同,此时采用,各个群对总体的影响不同,此时采用不等概不等概抽样。抽样。把群规模作为辅助信息,能提高估计精度,而且方差估计把群规模作为辅助信息,能提高估计精度,而且方差估计形
18、式简单。但在抽样时要掌握辅助信息,比简单随机复杂。形式简单。但在抽样时要掌握辅助信息,比简单随机复杂。 假设群的抽取是按与假设群的抽取是按与 MMi i成比例的成比例的ppspps抽样,每次按抽样,每次按 Z Zi i=M=Mi i/M/M0 0(i=1,2i=1,2,NN)的概率抽取第)的概率抽取第i i个群。个群。由汉森由汉森- -赫维茨估计量,赫维茨估计量, ppspps整群抽样总体总值估计量为整群抽样总体总值估计量为01212011()(1 )(),niiniiYvYyMyYnZynnZyM估计量方差的估计为:v ( Y ) =Yv () = 例例 某企业欲估计上季度每位职工的平均病假
19、天数。该企业共8个分厂,现用不等概整群抽样拟抽取3个分厂,并以置信度95%计算其置信区间。分厂编号 职工人数 Mi 累积区间123456781200450210086028401910390320011200120116501651375037514610461174507451936093619750975112950有放回不等概整群抽样有放回不等概整群抽样解:n3,采用PPS抽样,随机抽取的3个数为02011,07972,10281。调查结果如下:01232110100243204160579011()(1)11 43205790()2.023 210032( )00( )0.0356nn
20、iiiiniiiyyyyyYnZn nZMyYyyMM nMnv yv YM,v(Y)=Y=有放回不等概整群抽样有放回不等概整群抽样注:注:1、对于群规模不等的整群抽样,采用不等概对于群规模不等的整群抽样,采用不等概PPS抽抽样,可以得到总体目标量的无偏估计,样,可以得到总体目标量的无偏估计, 2、估计量和估计量的方差都有比较简明的形式,估估计量和估计量的方差都有比较简明的形式,估计的效率也比较高,是值得优先考虑采用的方法,计的效率也比较高,是值得优先考虑采用的方法, 3、使用条件:在抽取样本前,要掌握各群规模的信使用条件:在抽取样本前,要掌握各群规模的信息。息。多阶段有放回不等概抽样多阶段有
21、放回不等概抽样 当初级单元规模不等时,常采用不等概抽样。对初级单当初级单元规模不等时,常采用不等概抽样。对初级单元进行元进行PPS抽样时,事先规定每个初级单元被抽中的概率抽样时,事先规定每个初级单元被抽中的概率 Z Zi i=M=Mi i/M/M0 0 (i=1N),(i=1N),可利用代码法,可利用代码法,对抽中的对抽中的初级初级单元再单元再抽抽取取m mi i个二级单元;个二级单元;如果对第二阶段实行简单随机抽样,且如果对第二阶段实行简单随机抽样,且抽相同的样本数(抽相同的样本数(第一阶段抽出来的一般是单元的规模较第一阶段抽出来的一般是单元的规模较大,而且彼此差别不大大,而且彼此差别不大)
22、,此时估计形式较简单,且是自),此时估计形式较简单,且是自加权的。加权的。这是实际中经常采用的多阶段不等概抽样法。这是实际中经常采用的多阶段不等概抽样法。 111100011222011210i111/1()=()()(1)(1)(), ( )(1)mijnnnijiiiHHiiiiiinmijijnniHHHHiiiiniHHiyM yMYYnznznMMMyMynMYv YYyyn nzn nyyYyv yMn nmm HHY二阶抽样的自加权形式:多阶段有放回不等概抽样多阶段有放回不等概抽样实际工作中,如果初级单元大小不等,实际工作中,如果初级单元大小不等,人们喜欢:人们喜欢:1 1、第一
23、阶段抽样时按放回的与二级单元成比例的第一阶段抽样时按放回的与二级单元成比例的PPSPPS抽抽样;样;2 2、第二阶抽样进行简单随机抽样,且抽的样本量相同,第二阶抽样进行简单随机抽样,且抽的样本量相同,这样得到的样本是自加权的,估计量的形式也非常简单。这样得到的样本是自加权的,估计量的形式也非常简单。 例:例:某县农村共有某县农村共有1414个乡个乡509509个村,在实现小康的进程中个村,在实现小康的进程中欲计算该县农村的恩格尔系数,欲计算该县农村的恩格尔系数,即居民户的食品支出占即居民户的食品支出占总支出的比例。首先要调查全县的食品总支出,现采用总支出的比例。首先要调查全县的食品总支出,现采
24、用了二阶段抽样,第一阶段先在了二阶段抽样,第一阶段先在1414个乡中,按村的数目多个乡中,按村的数目多少进行少进行PPSPPS抽样,共抽了抽样,共抽了5 5个乡,第二阶段在抽中的乡中个乡,第二阶段在抽中的乡中随机地抽选随机地抽选6 6个村,然后对抽中的村做全面调查,取得的个村,然后对抽中的村做全面调查,取得的数据如下,数据如下,估计全县的食品支出总额及其标准误。估计全县的食品支出总额及其标准误。样本乡序号村数样本村数样本村平均食品支出(万元)119648241617537261084546905366100多阶段有放回不等概抽样例题分析多阶段有放回不等概抽样例题分析多阶段有放回不等概抽样例题分
25、析多阶段有放回不等概抽样例题分析011001222011M =509509=511=1()=()()(1)(1)=nnniiiHHiiiiiinniHHHHiiiiiM yMYYynznznMYv YYyyznMMn nni解:已知村,可按照各单位的入样概率z =采用公式:(48+175+108+90+100)53037.8(万元)故全县农村的食品支出总额为:53037.8万元,其方差估计为:(1)1040834876199.4HHv Y 误差有点偏大,要想提高估计精度,必须误差有点偏大,要想提高估计精度,必须 增加第增加第一阶段的样本量一阶段的样本量 例;某小区有例;某小区有10座高层建筑,
展开阅读全文