统计培训教材22-抽样及样本容量课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计培训教材22-抽样及样本容量课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 培训教材 22 抽样 样本 容量 课件
- 资源描述:
-
1、抽样及样本容量抽样及样本容量(Sampling&Sample Size)专业专业.什么是抽样及为何要进行抽样?什么是抽样及为何要进行抽样?抽样是抽样是 收集收集所有所有数据的一部分。数据的一部分。使用该部分数据得出结论(进行推论)。使用该部分数据得出结论(进行推论)。为什么要进行抽样?因为查看为什么要进行抽样?因为查看所有所有数据可能数据可能 成本太高。成本太高。费时太长。费时太长。造成破坏(例如、品尝测试)。造成破坏(例如、品尝测试)。一般可从比较少量的数据得出可靠的结论。一般可从比较少量的数据得出可靠的结论。专业专业.总体总体 情况:在操作上您可以定义现存的总体的边界、以便可以认出情况:在
2、操作上您可以定义现存的总体的边界、以便可以认出 总体的每个个体、在理论上还可以进行编号。总体的每个个体、在理论上还可以进行编号。抽样目的:抽样目的:描述该总体的特征。描述该总体的特征。示例:抽样调查(示例:抽样调查(8 月月 31 日以前毕业的)大学校友、以确定日以前毕业的)大学校友、以确定 在今后两年中他们至少将一个小孩送进大学的百分比。在今后两年中他们至少将一个小孩送进大学的百分比。总体和过程总体和过程样本使用样本对总体进行推论:例如。平均值=X、比例=p专业专业.过程过程 情况:过程是动态的且不断变化的;过程中的个体并不是全可以鉴定的、情况:过程是动态的且不断变化的;过程中的个体并不是全
3、可以鉴定的、因为某些个体尚不存在(如明天制造的那些个体)。因为某些个体尚不存在(如明天制造的那些个体)。目的:了解过程、以便采取行动改进或预测过程未来的行为。目的:了解过程、以便采取行动改进或预测过程未来的行为。示例:我们估计下月发票中有示例:我们估计下月发票中有 5%至至 20%有错误(除非更改该过程)。有错误(除非更改该过程)。总体和过程(续)总体和过程(续)使用样本对过程未来的行为进行推论昨天保存时间顺序!今天明天?20%5%10%15%抽样数据的时间曲线图抽样数据的时间曲线图?以时间顺序排列的过程输出以时间顺序排列的过程输出专业专业.抽样和改进项目抽样和改进项目v 确定过程周期和缺陷比
4、率的基准性能;确定过程周期和缺陷比率的基准性能;(例如:(例如:在控制图上绘出样本数据在控制图上绘出样本数据)v 估计过程能力;估计过程能力;(例如:(例如:计算一件样本中的缺陷计算一件样本中的缺陷)v 确定造成性能低下或数据变动的因素确定造成性能低下或数据变动的因素(X);(利用样本数据绘制图表、进行假设测试或回归分析利用样本数据绘制图表、进行假设测试或回归分析)v 验证建议的改进工作;验证建议的改进工作;(比较从过程中抽取的新数据与从该过程抽取的旧数据比较从过程中抽取的新数据与从该过程抽取的旧数据)v 监视过程性能、必要时采取补救措施、并预测未来的性能;监视过程性能、必要时采取补救措施、并
5、预测未来的性能;(在控制图上绘出新过程的样本数据在控制图上绘出新过程的样本数据)改进项目一般是对过程情况进行抽样:改进项目一般是对过程情况进行抽样:专业专业.为什么要区别总体抽样和过程抽样?为什么要区别总体抽样和过程抽样?样本容量公式是为定义明确的静态(而且常常是理论上的)样本容量公式是为定义明确的静态(而且常常是理论上的)总体情况设计的。总体情况设计的。但是大多数抽样应用是针对动态的、尚未知的过程情况。但是大多数抽样应用是针对动态的、尚未知的过程情况。将样本容量公式应用于过程抽样情况可能得出错误的结论、将样本容量公式应用于过程抽样情况可能得出错误的结论、除非满足一定的条件。除非满足一定的条件
6、。要使推论有效、样本必须真实地代表总体或过程。要使推论有效、样本必须真实地代表总体或过程。总体所需的抽样策略不同于过程所需的抽样策略、总体所需的抽样策略不同于过程所需的抽样策略、以确保样本具有代表性(在下一节中讨论)。以确保样本具有代表性(在下一节中讨论)。专业专业.从稳定的过程中抽样从稳定的过程中抽样如果如果过程是稳定的、样本容量公式可应用于过程情况。过程是稳定的、样本容量公式可应用于过程情况。可获得具有特定精度的可靠估计值。可获得具有特定精度的可靠估计值。当进行比较时、如果存在的差异具有一定功效、便可找出它们。当进行比较时、如果存在的差异具有一定功效、便可找出它们。(稳定的、可预测的过程)
7、4045505560651357911131517192123252729313335373941专业专业.从不稳定的过程中抽样从不稳定的过程中抽样然而许多过程是不稳定的。然而许多过程是不稳定的。无论如何总要收集数据、并绘制控制图或时间曲线图。无论如何总要收集数据、并绘制控制图或时间曲线图。识别特殊原因并清除之。识别特殊原因并清除之。使用样本容量公式求出的值是您应认为最小的数字;使用样本容量公式求出的值是您应认为最小的数字;可能的话,需要收集更多的数据。可能的话,需要收集更多的数据。存在特殊原因时,需要更大的样本容量,因为长期变动大于短期变异。存在特殊原因时,需要更大的样本容量,因为长期变动大
8、于短期变异。使用公式时,您必须估计使用公式时,您必须估计s(或或 p););您必须判断特殊原因如何您必须判断特殊原因如何 影响该估计值,并根据您认为过程将会是什么情况来调整它影响该估计值,并根据您认为过程将会是什么情况来调整它。专业专业.从不稳定的过程中抽样(续)从不稳定的过程中抽样(续)当进行组之间的比较时:当进行组之间的比较时:尽量在相同时间内获取每组的样本。尽量在相同时间内获取每组的样本。当作结论或报告结论时、会存在这样一个风险、即这些结论可能当作结论或报告结论时、会存在这样一个风险、即这些结论可能 不适用于将来。不适用于将来。如果过程是不稳定的,可能的话,将一段如果过程是不稳定的,可能
9、的话,将一段很长的时间里得到的数据的时间里得到的数据 绘制于一张控制图上,并圈出或特别标示您的样本所代表的数据点绘制于一张控制图上,并圈出或特别标示您的样本所代表的数据点 或时间区间。或时间区间。允许您和他人可直接从曲线观察过程的行为。允许您和他人可直接从曲线观察过程的行为。帮助您判断这些结论在未来的可靠性。帮助您判断这些结论在未来的可靠性。专业专业.从过程中抽样从过程中抽样对于过程情况,我们希望确保能够理解过程的行为。因此我们:对于过程情况,我们希望确保能够理解过程的行为。因此我们:在一段时间内进行系统或整群(非随机)抽样。在一段时间内进行系统或整群(非随机)抽样。即使随机抽样能适用于稳定过
10、程,我们仍采用系统或整群抽样,并保持时间顺序即使随机抽样能适用于稳定过程,我们仍采用系统或整群抽样,并保持时间顺序 以便能更好地表示过程行为。以便能更好地表示过程行为。尽量从足够长的时间段中进行抽样,以便真实地表示过程中的变化源。尽量从足够长的时间段中进行抽样,以便真实地表示过程中的变化源。运用您自己的判断和有关变化源的过程知识来确定多长时间进行一次抽样运用您自己的判断和有关变化源的过程知识来确定多长时间进行一次抽样(每隔(每隔 10 个个体、每隔个个体、每隔 7 个个体、每天、每月等)。个个体、每天、每月等)。一般情况下、更加频繁地收集小样本、可确保随着时间的过去能真实地表示过程行为。一般情
11、况下、更加频繁地收集小样本、可确保随着时间的过去能真实地表示过程行为。绘制控制图或时间曲线图,以确定该过程是稳定的还是不稳定的(寻找非正常值、偏移、绘制控制图或时间曲线图,以确定该过程是稳定的还是不稳定的(寻找非正常值、偏移、趋势或其它模式)。趋势或其它模式)。专业专业.抽样方法抽样方法专业专业.代表性样本代表性样本要使结论有效,样本必须具有代表性。要使结论有效,样本必须具有代表性。数据应真实地表示总体或过程数据应真实地表示总体或过程 收集的数据与未收集的数据之间不应存在有系统性的差异。收集的数据与未收集的数据之间不应存在有系统性的差异。专业专业.每个单元具有相同被选中的机会每个单元具有相同被
12、选中的机会从每个组随机抽样一个成比例的数字从每个组随机抽样一个成比例的数字随机随机 抽样抽样分层分层随机随机抽样抽样样本样本总体总体样本样本总体总体AABBBBCDDDAAAABB BBBBBCCD D DD D DB概率抽样概率抽样专业专业.每隔每隔 n 个抽样(如每隔三个抽样)个抽样(如每隔三个抽样)每经过时间每经过时间 t 抽样抽样 n 个单元(例如,个单元(例如,每小时抽样三个单元)每小时抽样三个单元);然后计算每然后计算每个小组的平均值个小组的平均值(比例)(比例)系统系统 抽样抽样整群整群 抽样抽样样本总体或过程保持时间顺序样本过程9:009:3010:3010:00保持时间顺序专
13、业专业.统计调查的误差(抽样误差):是指调查所得结果与总体真实数值之间的差异。可分 1、登记性误差:指在调查和汇总过程中,由于观察、测量、登记、计算等 方面的差错或被调查者提供虚假资料而造成的误差。(不是抽样调查独有的)尽量避免 2、代表性误差:指用样本指标推断总体指标时,由于样本结构与总体结构 不一致、样本不能完全代表总体而产生的误差。它又分 -2-1、系统误差:指由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故也称偏差,尽量避免 如抽样框与目标总体不一致、有意多选较好或较差的单位等;-2-2、随机误差:又称偶然性误差,指遵循随机抽样原则,由于随机因素
14、 (偶然性因素)引起的代表性误差。不可避免,但需加以计算与控制 抽样估计中所谓的抽样误差,就是指这种随机误差,即由于抽样的随机性而产生的样本估计量与总体参数之间的代表性误差。抽样误差抽样误差专业专业.抽样误差的抽样误差的3个概念个概念 1 1、实际抽样误差:、实际抽样误差:-实际上总体参数实际上总体参数是未知数,不可计算是未知数,不可计算 2 2、抽样平均误差:、抽样平均误差:3 3、抽样极限误差:是指在一定的概率下抽样误差的可能范围,、抽样极限误差:是指在一定的概率下抽样误差的可能范围,也称为允许误差。用表示抽样极限误差,即在一定概率下,也称为允许误差。用表示抽样极限误差,即在一定概率下,抽
15、样误差率抽样误差率=(抽样极限误差(抽样极限误差/估计量)估计量)*100%100%抽样估计精度抽样估计精度=100%-=100%-抽样误差率抽样误差率可能样本个数2如如|xxbar-X|xbar专业专业.抽样总结抽样总结本单元包括:本单元包括:抽样是查看所有数据的一种有效率和效果的方法。抽样是查看所有数据的一种有效率和效果的方法。总体抽样与过程抽样有不同的目的和方法。总体抽样与过程抽样有不同的目的和方法。代表性是抽样最重要的一方面。代表性是抽样最重要的一方面。正确抽样使您对结论有信心。正确抽样使您对结论有信心。总体抽样的样本容量公式可适用于稳定过程。总体抽样的样本容量公式可适用于稳定过程。专
16、业专业.样本容量样本容量(Sample Size)专业专业.样本容量介绍样本容量介绍人们常问的第一个问题是人们常问的第一个问题是“我需要多少个样本?我需要多少个样本?”该问题的答案由下列四个因素确定:该问题的答案由下列四个因素确定:1.数据类型数据类型 离散数据和连续数据离散数据和连续数据2.您想做什么您想做什么 描述整组的某个特征(平均值或比例)描述整组的某个特征(平均值或比例)在特定的精度内(在特定的精度内(_ 单位)单位)比较组的特征(找出组平均值或比例之间的差异)比较组的特征(找出组平均值或比例之间的差异)以什么功效:希望检测到特定差异的概率以什么功效:希望检测到特定差异的概率3.您估
17、计的标准偏差(或比例)为多大您估计的标准偏差(或比例)为多大4.您希望的置信度为多高(通常为您希望的置信度为多高(通常为 95%)专业专业.当样本容量太小当样本容量太小 不能检验出差异不能检验出差异n=1n=5 过程过程A过程过程A过程过程 B过程过程 BAxBxfromaway2thanlessisxAxBxfromaway3thanmoreisx专业专业.当样本容量太大当样本容量太大对平均值的漂移过于敏感对平均值的漂移过于敏感 资源浪费资源浪费专业专业.第一步第一步:明确研究过程中的响应变量明确研究过程中的响应变量第二步第二步:选择合适的统计检验选择合适的统计检验第三步第三步:决定可接受的
18、风险决定可接受的风险 和和 第四步第四步:定出漂移敏感度定出漂移敏感度 第五步第五步:建立或估计当前过程中的参数建立或估计当前过程中的参数 第六步第六步:决定合适的样本容量决定合适的样本容量专业专业.是是 H0 成立成立,但结果却否定它的风险但结果却否定它的风险.1-是是 H0 的置信系数的置信系数.观察值 1专业专业.是是H0不成立不成立,但结果却肯定它的风险但结果却肯定它的风险.(1-)称为检验的称为检验的功效功效,它表示它表示H0 不成立不成立,而结果也否定它的概率而结果也否定它的概率,即当即当H0不成立不成立时时,作出正确结论的概率作出正确结论的概率.观 察 值 1 2漂移 专业专业.
19、专业专业.H0:无差异无差异 H1:有明显差异有明显差异零假设零假设成立不成立决策决策接受 H0拒绝 H0正确正确1 正确正确1 专业专业.实验之前需要预先指定反映明显差异的量实验之前需要预先指定反映明显差异的量 .与标准差与标准差 之比之比 /称为漂移敏感度称为漂移敏感度(drift sensitivity).专业专业.单样本检验单样本检验(1-Sample Tests)Stat Power and Sample Size 1-Sample ZStat Power and Sample Size 1-Sample t双样本检验双样本检验(2-Sample Tests)Stat Power a
20、nd Sample Size 2-Sample t专业专业.样本容量公式取决于您的目的样本容量公式取决于您的目的抽样目的抽样目的公式公式*Minitab 命令命令估计平均值估计平均值(例如、确定基准周期)(其中 d=精度:_ 单位)估计比例估计比例(例如、确定缺陷基准百分比)(其中 d=精度:_ 单位)2d2sn p1pd2n2专业专业.精度精度(d)精度是允许某个特征的估计值波动的范围。精度是允许某个特征的估计值波动的范围。估计上下不超过两天的周期。估计上下不超过两天的周期。估计上下不超过估计上下不超过 3%的缺陷百分比。的缺陷百分比。使用符号使用符号 d 表示精度。表示精度。传统的统计学称
21、它为传统的统计学称它为“delta”、因此以因此以d 表示表示。精度等于置信区间精度等于置信区间(CI)的一半。的一半。周期(单位为天)为周期(单位为天)为 95%时时 CI=(48、52)意味着我们有意味着我们有 95%的的确信平均周期在确信平均周期在 48 天至天至 52 天之间。天之间。CI 的宽度的宽度=4 天。天。精度精度=d=2 天天(=估计值上下不超过估计值上下不超过 2 天)。天)。专业专业.精度精度(d)(续)续)决定您需要多大的精度。决定您需要多大的精度。精度与样本容量的平方根成反比。精度与样本容量的平方根成反比。n1专业专业.精度和样本容量精度和样本容量 要提高精度、必须
22、增加样本容量(但会增加成本)。要提高精度、必须增加样本容量(但会增加成本)。对于需要多大的精度没有明确的答案;对于需要多大的精度没有明确的答案;该答案取决于使用该估计值对业务产生多大的影响。该答案取决于使用该估计值对业务产生多大的影响。每种情况都是独特的;不要效仿别人的决定。每种情况都是独特的;不要效仿别人的决定。专业专业.估计平均值所需的样本容量估计平均值所需的样本容量95%的置信度*意味着因子为 2 标准偏差的估计您希望的精度2d2sn2222/xznNzznx222/2222/不重复抽样不重复抽样重复抽样重复抽样专业专业.目的:练习使用样本容量公式估计平均值。目的:练习使用样本容量公式估
23、计平均值。时间:时间:3 分钟。分钟。要求:要求:使用样本容量公式计算平均值,使用样本容量公式计算平均值,以便回答下列问题。以便回答下列问题。1.假设您想估计假设您想估计 呼入电话的平均通话时间呼入电话的平均通话时间 1 分钟。您需要多少样本?分钟。您需要多少样本?(历史数据显示典型的标准偏差历史数据显示典型的标准偏差=3 分钟。)分钟。)2.您需要对多少次呼入抽样、以获得您需要对多少次呼入抽样、以获得 1/8 分钟的精度?分钟的精度?练习练习:估计平均值所需的样本容量:估计平均值所需的样本容量2d2sn专业专业.练习:答案练习:答案问题 1.问题 2.3042848132 n22)(3661
展开阅读全文