样本含量估计讲解课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《样本含量估计讲解课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 样本 含量 估计 讲解 课件
- 资源描述:
-
1、2022-8-41第十七章第十七章流行病与统计教研室2022-8-42第一节 样本含量估计的意义及应具备的条件【例【例17-1】已知糖尿病患病率一般为】已知糖尿病患病率一般为2%3%,现拟采用单纯随机抽样方法从某社区抽取随机现拟采用单纯随机抽样方法从某社区抽取随机样本,以了解该社区人群中糖尿病患病率。该样本,以了解该社区人群中糖尿病患病率。该社区人口为社区人口为3000人,希望误差不超过人,希望误差不超过1%,取,取a=0.05,需调查多少人?,需调查多少人?2022-8-43一、样本含量估计的意义 样本含量(样本含量(sample size)又称样本容量、样本例数,是指在抽样研究中,每个又称
2、样本容量、样本例数,是指在抽样研究中,每个样本所包含的观察单位的数量。样本所包含的观察单位的数量。估计样本含量的意义估计样本含量的意义 是研究设计的重要内容之一,它是是研究设计的重要内容之一,它是研究设计中重复性研究设计中重复性原则的体现原则的体现,即各组的受试对象都应有一定的数量,即各组的受试对象都应有一定的数量,即每个组都有足够的重复数(样本量)。即每个组都有足够的重复数(样本量)。在调查研究、临床观察或实验研究中,首先要考虑样在调查研究、临床观察或实验研究中,首先要考虑样本含量(或样本大小)的问题。本含量(或样本大小)的问题。2022-8-44 应注意克服两种倾向应注意克服两种倾向 样本
3、例数过大样本例数过大 增加实际工作中的困难,可能引入更多的混杂因素,增加实际工作中的困难,可能引入更多的混杂因素,不易控制研究的质量,不易控制研究的质量,影响研究结果的真实性和可影响研究结果的真实性和可靠性靠性,另外还会造成人力、物力和时间上不必要的,另外还会造成人力、物力和时间上不必要的浪费浪费 样本例数过少样本例数过少 致使抽样误差较大,所得指标不够稳定,检验效能致使抽样误差较大,所得指标不够稳定,检验效能低,容易得出低,容易得出假阴性假阴性的结果,影响结论的可靠程度的结果,影响结论的可靠程度2022-8-45 样本含量的估计是在保证研究结论具样本含量的估计是在保证研究结论具有一定可靠性的
4、条件下,有一定可靠性的条件下,确定最少的调查确定最少的调查单位或实验单位数单位或实验单位数。2022-8-46二、样本含量估计应具备的条件 I型错误型错误a的概率或区间估计中的可信度的概率或区间估计中的可信度 型错误的概率型错误的概率 ,或检验效能,或检验效能 容许误差或差值容许误差或差值 ,即欲比较或估计的总,即欲比较或估计的总体参数与样本统计量之间或总体参数相差体参数与样本统计量之间或总体参数相差所容许的限度。所容许的限度。总体平均数总体平均数 、总体率、总体率 或总体标准差或总体标准差 112022-8-47第二节第二节 调查设计常用样本含量估计方法调查设计常用样本含量估计方法 一、单纯
5、随机抽样的样本含量估计一、单纯随机抽样的样本含量估计(一)(一)估计总体均数的样本含量估计总体均数的样本含量(二)(二)估计总体率的样本含量估计总体率的样本含量 二、其它概率抽样方法的样本含量估计二、其它概率抽样方法的样本含量估计(一)(一)分层抽样所需样本含量估计分层抽样所需样本含量估计 (二)(二)整群抽样所需样本含量估计整群抽样所需样本含量估计2022-8-48单纯随机抽样的样本含量估计 估计总体均数的样本含量估计总体均数的样本含量 公式:公式:式中,式中,S 为总体标准差的估计值为总体标准差的估计值 为容许误差为容许误差 需要查需要查t界值表,可先用标准正态分界值表,可先用标准正态分布
6、中的布中的 代入,算出一个初步估计的代入,算出一个初步估计的n,再计,再计算初步的自由度算初步的自由度v,可查表得,可查表得 ,以此带入公,以此带入公式,可算得第二次估计的式,可算得第二次估计的n,如此迭代,直到稳,如此迭代,直到稳定为止。定为止。2,stnvavat,azvat,2022-8-49若是从有限总体抽样,尚需进一步校正若是从有限总体抽样,尚需进一步校正 1cnnn N2022-8-410【例【例17-2】某研究者拟用抽样方法了解冠心病某研究者拟用抽样方法了解冠心病患者血清胆固醇的平均水平,希望误差不超过患者血清胆固醇的平均水平,希望误差不超过0.2mmlo/L,根据文献,冠心病患
7、者血清胆固,根据文献,冠心病患者血清胆固醇标准差约为醇标准差约为0.94mmol/L,如取,如取a=0.05,则需,则需调查多少人?调查多少人?允许误差允许误差 =0.2 估计标准差估计标准差s=0.942,stnva2022-8-411【估计步骤【估计步骤】1.先以先以 =1.96 代替代替 ,可得,可得 2.以自由度以自由度 ,查,查t界值表得界值表得 双侧双侧 ,则,则 因此,本研究应调查因此,本研究应调查88例冠心病患者。例冠心病患者。21.960.94850.2n 1 85 1 84n 21.990.94880.2n vat,az99.184,05.0t2022-8-412第二节第二
8、节 调查设计常用样本含量估计方法调查设计常用样本含量估计方法 一、单纯随机抽样的样本含量估计一、单纯随机抽样的样本含量估计(一)(一)估计总体均数的样本含量估计总体均数的样本含量(二)(二)估计总体率的样本含量估计总体率的样本含量 二、其它概率抽样方法的样本含量估计二、其它概率抽样方法的样本含量估计(一)(一)分层抽样所需样本含量估计分层抽样所需样本含量估计 (二)(二)整群抽样所需样本含量估计整群抽样所需样本含量估计2022-8-413 估计总体率的样本含量估计总体率的样本含量 公式:20.05arcsin(1)znpp20.0557.3arcsin(1)znpp(用弧度)(用度)2022-
9、8-414 当当趋向趋向0.5,且,且n 较大时,随机抽样所得的样较大时,随机抽样所得的样本率才趋向于正态分布或近似正态分布:本率才趋向于正态分布或近似正态分布:2(1)znpp22(1)z ppn或 2022-8-415【例【例 17-3】某研究者欲了解某研究者欲了解20岁岁24岁妇女生岁妇女生育率,希望误差不超过育率,希望误差不超过2%,a取取0.05,问需调查,问需调查多少人?多少人?本例未给出本例未给出20岁岁24岁妇女生育率岁妇女生育率的估计值,的估计值,可取可取p=0.5 21.9624000.02arcsin0.5(10.5)n2022-8-416 若根据文献知若根据文献知20岁
10、岁24岁妇女生育率为岁妇女生育率为5%25%,则,则p可取其中较接近可取其中较接近0.5的值,即的值,即25 21.9618000.02arcsin0.25(10.25)n2(1)znpp22(1)zppn2022-8-417【例【例17-1】已知糖尿病患病率一般为】已知糖尿病患病率一般为2%3%,现拟采用单纯随机抽样方法从某社区抽取随机样现拟采用单纯随机抽样方法从某社区抽取随机样本,以了解该社区人群中糖尿病患病率。该社区本,以了解该社区人群中糖尿病患病率。该社区人口为人口为3000人,希望误差不超过人,希望误差不超过1%,取,取a=0.05,需调查多少人?需调查多少人?1117)03.01(
11、03.001.0arcsin(96.12n8143000/111711117/1Nnnnc2022-8-418第二节第二节 调查设计常用样本含量估计方法调查设计常用样本含量估计方法 一、单纯随机抽样的样本含量估计一、单纯随机抽样的样本含量估计(一)(一)估计总体均数的样本含量估计总体均数的样本含量(二)(二)估计总体率的样本含量估计总体率的样本含量 二、其它概率抽样方法的样本含量估计二、其它概率抽样方法的样本含量估计(一)(一)分层抽样所需样本含量估计分层抽样所需样本含量估计 (二)(二)整群抽样所需样本含量估计整群抽样所需样本含量估计2022-8-419 分层抽样所需样本含量估计分层抽样所需
12、样本含量估计 按比例分配按比例分配 是按各层观察单位数是按各层观察单位数 占总体观察单位数占总体观察单位数N的的比例抽取样本,比例抽取样本,使各层样本含量使各层样本含量 与总样本含与总样本含量量n 之比等于各层观察单位数之比等于各层观察单位数 与总体观察单与总体观察单位数位数N 之比之比,可按下式计算:可按下式计算:iNiniNiiinNWnNiiiNnnnNNN2022-8-4202022-8-421 最优分配最优分配 是按总体各层观察单位数是按总体各层观察单位数 的多少和标准差的多少和标准差 (或各层率(或各层率 )大小来分配各层的观察单位数)大小来分配各层的观察单位数 iNiiiiiii
13、NnnN11iiiiiiiNnnN(均数的抽样)(率的抽样)2022-8-4222022-8-423第二节第二节 调查设计常用样本含量估计方法调查设计常用样本含量估计方法 一、单纯随机抽样的样本含量估计一、单纯随机抽样的样本含量估计(一)(一)估计总体均数的样本含量估计总体均数的样本含量(二)(二)估计总体率的样本含量估计总体率的样本含量 二、其它概率抽样方法的样本含量估计二、其它概率抽样方法的样本含量估计(一)(一)分层抽样所需样本含量估计分层抽样所需样本含量估计 (二)(二)整群抽样所需样本含量估计整群抽样所需样本含量估计2022-8-424 整群抽样估计总体率的样本含量估计整群抽样估计总
14、体率的样本含量估计 公式:有限总体需校正:222022()(1)iiymppkzkm)1(001Kkkk无限总体应调无限总体应调查的群体数查的群体数预调查的群体数预调查的群体数预调查的群体中第预调查的群体中第i群调查人数群调查人数预调查的群体中第预调查的群体中第i群群某事件的发生频率某事件的发生频率群的平均调查人数群的平均调查人数平均发生频率平均发生频率2022-8-425【例【例 17-5】为了解某市】为了解某市40岁以上人群高血压患病岁以上人群高血压患病率,拟对全市率,拟对全市55个街区采用整群抽样调查,随机个街区采用整群抽样调查,随机预调查了预调查了2个街区,第一街区调查了个街区,第一街
15、区调查了4180人,高血人,高血压病人压病人1060人,患病率为人,患病率为0.2536;第二街区调查了;第二街区调查了4970人,高血压病人人,高血压病人720人,患病率为人,患病率为0.1449,问,问需要调查几个街区?(需要调查几个街区?(,)0.050.10,0.104180497024575m 2yk 55K 1060 7204180 49700.1945p,96.105.0z2536.01p1449.02p2022-8-426 因为该市为有限总体,因为该市为有限总体,K=55 需抽样调查需抽样调查3个街区。个街区。324.21.04575121945.01449.049701945
16、.02536.0418296.122222220k133(1)2.84 355k 2022-8-427 概率抽样方法不同,样本含量的估计方法不同概率抽样方法不同,样本含量的估计方法不同 单纯随机抽样、整群抽样和分层抽样的样本单纯随机抽样、整群抽样和分层抽样的样本含量估计都有专用公式含量估计都有专用公式 系统抽样,因抽样间隔不同,其抽样误差也系统抽样,因抽样间隔不同,其抽样误差也不同,故系统抽样尚无统一的方法估计样本不同,故系统抽样尚无统一的方法估计样本含量含量2022-8-428 一、定量资料的样本含量估计一、定量资料的样本含量估计(一)样本均数与总体均数比较所需样本含量的估计(一)样本均数与
展开阅读全文