第六章-抽样课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第六章-抽样课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 抽样 课件
- 资源描述:
-
1、 第一节 抽样的意义与作用一、与抽样有关的概念(一)总体和元素个体元素是收集信息和进行分析的基本范围。可以是个人、家庭、社区、组织、社会产物;(二)样本和抽样 总体总体样本样本样本 n总体 N个体元素(三)抽样单位 例:以某高校例:以某高校60006000名在校大学生为总体:名在校大学生为总体:抽样抽样1 1:按一定方式抽取:按一定方式抽取300300名大学生作样本;名大学生作样本;抽样抽样2 2:按一定方式抽取:按一定方式抽取1010个班作样本;个班作样本;分析:两种抽样方式下的抽样单位和抽样框分析:两种抽样方式下的抽样单位和抽样框(四)抽样框sample framesample frame
2、 一次直接抽样时总体中所有元素的名单。抽样框是抽样操作依据的名单,是和调查的总体相抽样框是抽样操作依据的名单,是和调查的总体相对应的对应的一级抽样单位:城市 城市抽样框:-全国所有城市名单 二级抽样单位:居委会/街区 居委会抽样框:-抽中城市所有居委会名单-抽中城市所有街区清单 三级抽样单位:住户 住户抽样框:-抽中居委会中所有住户名单-抽中街区中所有门牌编号清单 制作抽样框要注意以下几个问题:n抽样框资料的来源:来自哪一类机构。权威部门资料更有价值不同来源的资料的差异n抽样框资料的时效:离调查时点越近越好n抽样框资料的覆盖范围:尽可能地覆盖全部研究的对象,不要遗漏,也不要重复(五)(五)参数
3、值参数值又称又称总体值,是关于总体中某一变量的,是关于总体中某一变量的的综合描述,或者说是总体中所有元素的某种特征的综的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。合数量表现。参数值只有对总体中每一个元素都进行调查或测量才参数值只有对总体中每一个元素都进行调查或测量才能得到。能得到。(六)(六)统计值统计值又称又称样本值,是关于样本中某一变量的,是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合综合描述,或者说是样本中所有元素的某种特征的综合数量表现。数量表现。统计值是从样本中计算出来的,它是相应的参数值的统计值是从样本中计算出来的,它是相应的参数值的估计量。
4、(七)置信度和置信区间 置信度又称置信水平,它指的是总体参数值落在样本统计值某一区间内的概率,或者说,是总体参数值落在样本统计值某一区间内的把握程度。如置信度为95%,指的是总体参数值落在样本统计值某一区间的概率是95%。置信区间是指在一定的置信度下,样本统计值与总体参数值之间的误差范围。置信区间反映的是抽样的精确程度。置信区间越大,误差范围越大,抽样的精确度越低。置信区间=样本统计值置信水平*S.E95%置信区间=82%1.96*sqrt82%*(1-82%)/200 =76.7%87.3%99%置信区间=82%2.58*sqrt82%*(1-82%)/200 =75%89%在一项样本规模为
5、200人的居民调查中,有82%的人赞同制定法律来惩罚“见死不救”的人。请做出统计推断,总体中同样赞同的人,会有多大的比例?置信水平越高,估计总体参数时的置信区间越大,估计也就越不精确二、抽样的作用 1、抽样主要涉及和处理有关总体与部分 之间的关系问题。2、是人们从部分认识整体这一过程的关键环节,基本作用:是向人们提供一种实现“由部分认识总体”这一目标的途径和手段。3.抽样主要解决研究对象的选取问题。部分整体 概率抽样非概率抽样简 单 随 机 抽 样等 距 抽 样整 群 抽 样分 层 抽 样偶 遇 抽 样判 断 抽 样配 额 抽 样滚 雪 球 抽 样抽样三、抽样的类型多 段 抽 样p p s 抽
6、 样一阶段抽样一阶段抽样样本一次直接从样本一次直接从总体中抽出总体中抽出样本分多阶段从样本分多阶段从总体中抽出总体中抽出第二节 概率抽样的原理与程序一、概率抽样的基本原理 抽样的最终目的在于通过对样本的统计值的描述,来相对准确地勾画出总体的面貌。概率抽样的方法可以帮助我们实现这一目标,并且可以对这种勾画的准确程度作出估计。随机抽取是这一过程的关键。所谓随机抽取(random selection),就是保证总体中的每一个个体都有同等的机会入选样本。概率抽样概率抽样又称为随机抽样,是根据概率论的基本原又称为随机抽样,是根据概率论的基本原理,按照理,按照等概率等概率原则进行的抽样原则进行的抽样。概率
7、抽样的特点:概率抽样的特点:n按照随机抽样的原则抽取样本。(等概率原则)按照随机抽样的原则抽取样本。(等概率原则)n通过对样本的调查来推论总体。通过对样本的调查来推论总体。n抽样误差是可以控制的。抽样误差是可以控制的。n具有节省人力、经费和时间的特点。具有节省人力、经费和时间的特点。二、抽样分布 抽样分布是根据概率的原则而成立的理性分布。它显示出:从一个总体中不断抽取样本时,各种可能出现的样本统计值的分布情况。三、抽样的一般程序三、抽样的一般程序界定总体界定总体制定抽样框制定抽样框决定抽样方案决定抽样方案实际抽取样本实际抽取样本评估样本质量评估样本质量界定总体界定总体制定抽样框制定抽样框决定抽
8、样方案决定抽样方案实际抽取样本实际抽取样本评估样本质量评估样本质量明确界定总体是确保样本明确界定总体是确保样本代表性的重要前提代表性的重要前提当存在多阶段抽样时,需当存在多阶段抽样时,需分别编制不同的抽样框分别编制不同的抽样框样本评估样本评估 是对样本的质量、代表是对样本的质量、代表性、偏差等进行初步的检验和衡量性、偏差等进行初步的检验和衡量评估样本的方法:将可得到的反映评估样本的方法:将可得到的反映总体中某些重要特征及其分布的资总体中某些重要特征及其分布的资料与样本中的同类指标的资料进行料与样本中的同类指标的资料进行对比。对比。(一)界定总体1.总体往往是抽象的(如中国境内成年人中国境内成年
9、人),需要对抽象的总体界定其范围和界限。常叫做目标总体 2.界定总体的方法说明将被抽样的元素、地理位置和总体在时间上的界限。中国境内(不包括台湾、香港、澳门)于中国境内(不包括台湾、香港、澳门)于20192019年年7 7月月1 1日年满日年满1818周岁,居住在非机构设施内(即居住在住户周岁,居住在非机构设施内(即居住在住户内)的公民。内)的公民。例子 3.经过界定的总体,也称为研究/调查总体,即从中抽取样本的全部要素的总和。目标总体:中国境内成年人目标总体:中国境内成年人调查总体:中国境内(不包括台湾、香港、调查总体:中国境内(不包括台湾、香港、澳门)于澳门)于20192019年年7 7月
10、月1 1日年满日年满1818周岁,居住在周岁,居住在非机构设施内(即居住在住户内)的公民。非机构设施内(即居住在住户内)的公民。目标总体是研究对象的总集合,是理想的界定。调查总体是对研究总体的操作化界定,规定了调查对象选择的具体指标。目标总体和调查总体吻合度越高,调查的代表性就越好;否则会产生覆盖误差。目标总体与调查总体目标总体与调查总体(二)制定抽样框 1.抽样框是对研究总体的进一步操作。2.抽样框的意义 (1)抽样框与研究/调查总体之间可能不匹配,可能包含研究总体之外的某些人,或可能遗漏其中的某些人.(2)根据样本所得到的结果,只能代表组成抽样框的各个要素的集合 (3)样本的大小(规模)与
11、其能否正确代表总体比较起来,是一项不太重要的因素。(三)决定抽样方案(四)实际抽取样本 两种方式:事前和实地抽样(五)评估样本质量 三种方法:事先的抽样设计、抽样实施过程的质量、比较法不严格的抽样方法,往往会扭曲调查结果不严格的抽样方法,往往会扭曲调查结果20192019中国公众幸福感民意调查报告中国公众幸福感民意调查报告 四、抽样设计的原则 目的性原则 可测性原则 可行性原则 经济性原则第三节 概率抽样方法一、简单随机抽样(一)定义又称纯随机抽样,是概率抽样的最基本形式。它是按等概率原则,直接从含有N个元素的总体中随机抽取n个元素组成样本(Nn)。(二)选取样本的两种办法 1.抽签方式 (1
12、)将总体名单从1到N编号,形成抽样框;(2)准备N张卡片,每张卡片上的号码与总体名单编号对应,将卡片放在盒子里,混合均匀;(3)根据抽样设计的样本规模,从盒内n次取出n张卡片;(4)根据取出的卡片上的号码,找到总体名单上对应的元素,构成样本。应用限制:当N很大时,且样本容量n也很大时,抽样过程比较麻烦。卡片混合不均匀会影响每个元素被抽中的概率。2.随机数表方式 制定抽样框;根据总体规模的位数确定从随机数表中所选的数码位数;以总体的规模为标准,对随机数表中的数码逐一进行衡量和取舍;根据样本规模的要求选够数码个数;依据选出的数码,到抽样框中找对应的元素。应用条件:适用于总体元素很多的情形。概率抽样
13、中,简单随机方法是代表性最强的概率抽样中,简单随机方法是代表性最强的n说明:每一个体都等概率入选n适用条件:个体差异不大,分布均匀n优点:精度高,代表性强n缺点:不适于个体差异大的情况;总体数目大时难以制作抽样名单n工具:抽签、抓阄、随机乱数表n应用:简单随机抽样是一切概率抽样的基础,但很难在大规模调查中单独运用。因为要预先制作一个包含了总体中所有成员的名单,这一工作十分繁复,成本巨大。电子信息技术的引入,使得简单随机抽样应用简便起来。现在可以用电脑简单随机抽样产生样本,通过电话/Email进行访问。二、系统抽样(一)定义又称等距抽样或机械抽样。它是把总体的单位进行编号排序后,再计算出某种间隔
14、,然后按这一固定的间隔抽取个体的号码来组成样本的方法。(二)步骤制定抽样框;计算抽样间距K;确定随机起点:在最前面的K个元素中,按照简单随机抽样的方法抽取一个元素,记下此编号A,作为随机起点;按照样本规模抽取元素,自A开始,每隔K个元素抽取一个元素,并编号;将n个元素集合起来,构成该总体的样本。(三)优点 1.简单易行,便于操作,特别是总体比较大时。2.实践中,当不知道总体规模时候,也可以试一下此法,此时不需要编制抽样框。如物价部门每隔若干天进行市场物价调查。财会审计员按时间先后顺序排列的发票每隔20天抽取一张进行审核。(三)应用1.总体中元素的排列,相对于研究的变量来说,应是随机的,即不存在
15、某种与研究变量相关的规则分布。2.编制抽样框时候应注意的两个问题 (1)总体名单中,元素的排列不具有某种次序上的先后,等级上的高低的情况。(2)总体名单中,元素的排列不应具有与抽样间距相对应的周期性分布情况。等距抽样是最为简便的随机抽样方法等距抽样是最为简便的随机抽样方法n应用:等距抽样的应用最为普遍,因为它规则简单,便于访问员掌握。入户访问中,经常采用隔若干户敲门访问的方式;单位上门访问中,也经常利用职工花名册等间距抽样。n说明:将总体中的所有个体依序排列而后以等间距的方法抽取若干个体n适用条件:同质性较高n优点:操作简便,分布均匀n缺点:抽样名单存在循环特征时,会产生顺序偏误;异质性时精度
16、差;总体数目大时难以制作抽样名单 抽样间距不是整数怎么办抽样间距不是整数怎么办:调整直线等距抽样如:如:N=2580,n=300,则K=8.6调整:在186之间选择整数的随机起点,如27;将小数点调回,得到非整数的随机起点2.7,由此得到号码:2.7,11.3,19.9,28.5,。将小数点后面的部分略去,就是迁中单位的号码:2,11,19,28,三、分层抽样(一)定义又称类型抽样,它是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。例:某企业
17、有例:某企业有20002000人,欲抽取人,欲抽取100100人进行调查。人进行调查。如何分层?如何分层?按性别分,男职工和女职工各取按性别分,男职工和女职工各取5050人人 按年龄分:老、中、青按年龄分:老、中、青 按工作性质分:工人、干部、技术人员、勤杂人员按工作性质分:工人、干部、技术人员、勤杂人员 按车间分按车间分(二)分层抽样的优点 在不增加样本规模的前提下降低抽样误差,提高抽样的精度。非常便于了解总体内不同层次的情况,以及对总体中不同的层次进行单独研究,或者进行比较。(三)特点 1.随机性体现在层内各元素都有被抽中的概率;2.分层标志的确定是分层抽样的关键,如果不具备分层的全面资料
18、,分层抽样就不可能进行;3.对总体而言是全面调查,对各层而言是非全面调查。4.样本的代表性反映的是层内样本对本层总体的代表性,而与层间差异无关。这要求层内差异越小越好(同质性越高越好),层间差异越大越好。(三)分层抽样的运用 1.分层的标准问题a:以分析的主要变量或相关变量作分层标准;如:研究居民消费状况和消费趋向 主要变量?居民家庭人均收入 b:保证各层内部同质性强,各层之间异质性强,突出总体内在结构的变量作为分层变量;c:以那些已有明显层次区分的变量作为分层变量。如:性别、年龄、文化程度、职业等 2.分层的比例问题 (1)按比例分层抽样 按照各层的单位数目跟总体的比例抽取子样本,可以得到与
展开阅读全文