第八章-抽样推断课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第八章-抽样推断课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 抽样 推断 课件
- 资源描述:
-
1、经济管理类专业应用型本科教材统 计 学 电子工业出版社出版 主编 杜家龙第八章 抽 样 推 断 教学目的 掌握抽样推断的基本原理和常用组织掌握抽样推断的基本原理和常用组织方式,理解抽样推断的基本概念和特点,能方式,理解抽样推断的基本概念和特点,能够选择适当抽样方式、确定必要样本容量、够选择适当抽样方式、确定必要样本容量、组织抽样调查、计算样本指标和抽样误差,组织抽样调查、计算样本指标和抽样误差,熟练、准确地应用样本指标推断总体指标。熟练、准确地应用样本指标推断总体指标。重点难点抽样原理和抽样平均误差的分布规律和计抽样原理和抽样平均误差的分布规律和计算方法。简单随机抽样、类型抽样理论和方算方法。
2、简单随机抽样、类型抽样理论和方法。法。第一节抽样推断基本原理一、抽样推断的概念和特点 所谓抽样推断,是指按照随机原则从调查总体中抽取一部分单位组成样本进行统计观察和计算,并根据所得样本指标,在一定把握程度下,对调查总体相应指标作出估计和判断。抽样推断具有以下五个特点:第一,在抽取调查单位时遵循随机原则;第二,在取得调查结果时用部分估计总体;第三,在推断手段上使用概率估计方法;第四,抽样推断误差可以计算和控制;第五,抽样推断以中心极限定理为基础。二、抽样推断的基本范畴 抽样推断中常用的基本范畴(或称概念)主要有全及总体与样本总体、全及指标(或称参数)与样本指标(或称统计量)、重复抽样与不重复抽样
3、等。(一)全及总体与样本总体 全及总体指所研究现象的整体,即研究对象所有单位组成的总体。全及总体单位数通常是很大的,常用N表示。样本总体,是指在抽样调查中从全及总体中抽取的那部分单位组成的总体。例如上述调查中抽取的100名学生就构成样本总体。样本总体单位数(或称样本容量)常用n表示,上例中n=100。例如,从10000名学生中抽取100人进行生活消费调查,以计算学生月平均生活消费额,则全及总体单位数 N=10000。X2 (二)全及指标与样本指标 1.全及指标(参数)根据全及总体全部单位的数据计算的指标称全及指标(或参数)。全及指标是客观存在的常数,在抽样推断中常用的全用指标主要有全及平均数
4、,全及成数P,全及方差 和全及标准差 等。NXXX,21或NXXFXFX(1)全及平均数设全及总体某一变量值为则有:(2)全及成数 设全及总体N个单位中具有某种属性单位和N1,其余N0个单位不具有该种属性,且有N1+N0=N,则称具某种属性的单位在全及总体中年占比重P为全及成数,即:NNP1NNQ0PQ11QP,令则,或XXNNiix212)(1NiiiNiixFXXF1212)(1或XXNNiix12)(1NiiiNiixFXXF121)(1)1(2PPP)1(PPP (3)总体方差和标准差 总体平均数的方差和标准差:总体成数(比率)的方差和标准差:xp2SS .样本指标(统计量)根据样本各
5、单位变量值或品质属性计算的反映样本特征的统计数据称为样本指标或称统计量。与全及指标相对应,样本指标主要有样本平均数 ,样本成数 ,又称样本比率或比重,样本方差 和样本标准差 等。xn,21nxxxniixnx11niiiniifxfx111(1)样本平均数设 为样本的某一变量,其n项变量值为则:或n1nnnn01pnnp1nnq0pq11qp(2)样本成数(比率)设样本总体 个单位中,具有某种属性的单位有 其余 个单位不具有该种属性,且则称具有某种属性的单位在样本总体中所占比重为样本成数,即:,令,则:,0n(3)样本方差和标准差 样本平均数的方差和标准差:或xxnSniix212)(1nii
6、iniixfxxfS1212)(1或xxnSniix12)(1niiiniixfxxfS121)(1)1(2ppSp)1(ppSp样本成数(比率)的方差和标准差:Nnn (三)重复抽样与不重复抽样 1.重复抽样重复抽样又称有放回抽样或重置抽样。它是从 个单位的总体中抽取 个单位组成样本,每次从总体中抽取一个单位并登记其有关标志信息后,再放回总体中参加下一次抽取,直至抽取 个单位为止。这样总体单位数不变,每次抽取一个单位时总体中的所有单位都有同等被抽中的机会,但是有重复抽取的可能。根据研究目的和研究对象的特点不同,重复抽样又有考虑顺序与不考虑顺序两种情况。NnnN2552 (1)考虑顺序的重复抽
7、样 考虑顺序的重复抽样就是可重复排列。一般地,从 个不同单位的总体中,随机有放回地抽取 个单位组成样本,其全部可能的样本数目为 个。如从1、2、3、4、5 五个数字中随机取两个组成两位数,可组成 个两位数,它们是:11 12 13 14 15 21 22 23 24 25 31 32 33 34 35 41 42 43 44 45 51 52 53 54 55 Nn(2)不考虑顺序的重复抽样不考虑顺序的重复抽样就是可重复组合。一般地,从 个不同单位的总体中,随机有放回地抽取 个单位组成样本,其全部可能的样本数目为 个。如从A、B、C、D四个字母中随机取两个组成代码,在不考虑顺序(只要元素相同就
8、认为是同一个样本)的情况下可组成 个代码,它们是:AA AB AC AD BB BC BD CC CD DD)!1(!)!1(1NnnNCnnN10)!14(!2)!124(2124CNnn 2.不重复抽样 不重复抽样又称无放回抽样或不重置抽样。它是从 个不同单位的总体中随机抽取 个单位组成样本,每次从总体中抽取一个单位,连续 次抽取构成一个样本。但每次抽取一个单位登记其有关标志信息后,不再放回总体中参加下一次抽取,每个单位只有一次被抽选的机会,因而不会出现重复抽取的情况。不重复抽样也有考虑顺序与不考虑顺序两种情况。Nn(1)考虑顺序的不重复抽样考虑顺序的不重复抽样就是不重复排列。一般地,从
9、个不同单位的总体中,随机无放回地抽取 个单位组成样本,其全部可能的样本有 个,如从A、B、C、D四个字母中随机不重复抽取两个组成代码,可组成的没有重复字母的代码共有12个,即:,这些代码是:AB AC AD BA BC BD CA CB CD DA DB DC)!(!nNNAnN12)!24(!424ANn)!(!/!nNnNCnN6)!24(!2/!424C (2)不考虑顺序的不重复抽样 不考虑顺序的不重复抽样就是不重复组合。一般地,从 个不同单位的总体中,随机无放回地抽取 个单位组成样本,其全部可能的样本数目为 个。如从A、B、C、D四个字母中随机不重复抽取两个组成代码,可组成的没有重复且
10、字母不同的代码为 个,它们是:AB AC AD BC BD CD三、抽样推断的数理基础 (一)大数定理 大数定理,就是关于大量随机现象具有稳定性质的定理。它表明,如果被研究总体由大量相互独立的随机因素构成,而且每个因素对总体的影响都相对地小,那么,由于综合平衡的结果,因素的个别影响将相互抵消,从而显现出它们共同作用的倾向,使总体具有稳定的性质。n1limXxPniixXn 大数定理表明:如果随机变量总体存在有限的平均数和方差,则对于充分大的抽样单位数 ,可以几乎趋近于的概率期望抽样平均数与总体平均数的绝对离差为任意小,即对任意小的正数 有:式中:为样本平均数;为总体平均数;为抽样单位数(样本容
11、量)。)()(tXPtF)(xftdxxftF)()((二)正态分布 1.正态分布的概念 当我们研究的变量是连续变量时,无法将变量值一一列出来表示它们的概率分布,而事实上在这种情况下,每一点的概率都接近于0,求某一点的概率意义不大。通常我们去求变量落在某一区间的概率,用分布函数 来描述概率分布情况,通过一个函数 把它表示成积分的形式:)(xfx)(tF),(t 函数 称为密度函数,它表示随机变量在 点概率密度,在图形上则表示为各点概率大小的曲线,表示 在 区间上所围成的面积,用它来反映 落在这一区间内的概率,如图6-1所示。x图6-1 正态分布曲线图)(xfxx2.正态分布密度函数222)(2
12、1)(xxexf式中:为随机变量;e为自然对数的底数;e=2.718281828;为圆周率;=3.141592654;为 的平均数;为变量的标准差;和 是决定密度函数的两个参数。xx)(xf),(xx)(xfx)(xfx)(xfx)(xfx 3.关于密度函数 的两个参数 平均数 和标准差 对密度函数 来说,是两个重要参数,当 和 确定了,也就确定了,并且平均数 和标准差 对密度函数 的影响是不同的。(1)平均数 对密度函数 的影响平均数 的变动不改变正态分布的形状,只改变正态分布的中心位置,如图6-2所示。图6-2当平均数 时,密度函数的频率线以 轴为对称轴两边对称展开;当平均数 时,密度函数
13、的频率线向右平移a个单位;当平均数 时,密度函数的频率线向右平移a个单位。0 xaxax oyoy)(xf (2)标准差 对密度函数 的影响 标准差 的变动不改变正态分布的中心位置,只改变分布曲线的“胖”、“瘦”、“高”、“矮”程度,如图6-3。图6-3 当 时,把密度函数的分布称为标准正态分布;当 时,分布曲线变“瘦”,中心高度则增长一倍,表示变量分布比较集中;当 时,分布曲线变“胖”,中心高度则缩短一半,表示变量分布比较分散。1,0 x5.024.正态分布密度函数的几个特点(1)对称性,即密度函数 的频率曲线以 为中心,两边完全对称向左向右延伸。(2)非负性,即 在上方。(3)当 时,密度
14、函数 为最大值。(4)当 时,此处是密度函数的拐点,即离平均数 左方一个 处频率曲线趋势由凹向变为凸向,然后到了平均数 右方一个 处,频率曲线趋势又恢复为凹向。(5)当 时,密度函数 ,频率曲线向两边下垂,以 轴为渐近线伸向无穷处。)(xfxxoxxx21)(xfxxxxx0)(xfox)(xf)(xF5.变量落在某一区间的概率有了概率分布的密度函数 ,就可以利用不定积分的形式,来表达分布函数 ,并计算变量落在某一区间的概率。正态分布的分布函数为:txxtdxedxxfxF222)(21)()(它表示变量 落在 的概率,它是由密度函数 与 轴在 区间所围成的面积,如图8-1所示。x),(t)(
15、xfox),(tx),(ba)(xfox),(ba 我们可以利用两个积分的差数来表示变量 落在区间 内的概率,如图6-4(a)密度函数 与 轴在区间 所围成的阴影面积所示。)()()(aFbFbxaPaxxbxxdxedxe22222)(2)(21baxxdxe222)(21xx同样,也可以利用分布函数来求变量 与 值之差的绝对值不超过某数a的概率。即:axaxxxdxeaxxP222)(21)(axxxxdxe222)(22图6-4(b)图6-4(a)如图6-4(b),密度函数 与 轴在区间 所围成的阴影面积。)(xfox),(axax)1,0(xtxxt 6.正态分布的应用 由于利用正态分
16、布函数求一定区间的定积分值很复杂,因而人们通常是利用已编制的标准正态 分布表去求正态概率值。实践中,我们通常需要首先将非标准正态分布加以标准化,使其变为平均数等于,标准差等于的标准正态分布。为此,引进新变量 ,并令 ,则:0)()(xxxxExxEtE222)(xxExxEttEt2222)(0 xxExxExxE 1220,1t所以,标准正态分布的密度函数为:2221)(tetf标准正态分布分布函数为:dtetFtt2221)(0 xxx标准正态分布变换的意义是将频率曲线的中心移至原点,使 ,并将 的绝对离差化为以 为单位表示的相对离差。)(tFx),(axax利用标准正态分布函数 ,我们可
17、以计算变量 落在区间 之间的概率。其步骤如下:第一,将原给定的变量标准化,即将原变量变换成新的标准变量 ,;t ttxxt 第二,将原来的定积分区间 变换成相应的新区间:),(axaxxaxxax)(,)(即aa,x),(axaxtaa,也就是所求的 落在 的概率等价于 落在区间 的概率,从而有如下关系:aFatPaxxP)(at)(tF40600 xxxt 第三,从标准正态分布概率表中找出 对应的 就是我们所求的概率。例8.1 已知某地小麦亩产量服从正态分布,平均亩产为600公斤,标准差为40公斤,求亩产在580626公斤之间的麦地所占比例。解:根据正态分布标准化要求,令:x),(axax2
18、6600626at根据题意要求 落在 区间的概率,这里 公斤,所以新变量 的区间相应为:)65.0,65.0(4026,4026,aa当65.0t,查概率表得:4026)26600()626580(FxPxP4843.0)65.0(F即有48.43%的麦地亩产量在580626公斤之间。6.1585172180 xxt8904.06.1)8172()180170(FxPxP 例6.2 某服装厂经调查得知市场某种男装需求量为50000件,消费者平均身高为172cm,身高标准差为5cm,问身高在170180cm之间的服装应制作多少套?解:根据正态分布标准化要求应有:查概率表得:身高在170180cm
19、之间的服装应制作:500000.8904=44520(套))(tF表6.1 常用t值和对应的概率F(t)1.001.501.651.962.002.503.000.6827 0.8664 0.90110.9500 0.9545 0.9876 0.9973t (三)中心极限定理 中心极限定理是阐述随机变量的极限分布是正态分布的一系列理论的总称。一般地,如果一个随机变量是由大量相互独立的随机因素的影响所造成,而每个因素的作用又是很微小的,那么这一随机变量趋于正态分布。中心极限定理告诉我们:30nXxE)(第一,如果总体很大且服从正态分布,则样本平均数的分布也服从正态分布。第二,如果总体很大但不服从
20、正态分布,只要样本足够大(样本容量 ),样本平均数的分布也趋近于正态分布。第三,样本平均数的平均数等于总体平均数,即 。第四,样本分布的标准差等于总体标准差的 ,即 (式中 为样本标准差,为总体标准差,为样本容量)。n1nSxxSn 例6.3 某高校分析新生体检结果资料,得到其中某项指标的均值为10,标准差为4,从该批参加体检的新生中随机抽取35人作为样本,试计算:(1)样本均值大于11的概率;(2)样本均值小于10.5的概率;(3)样本均值在11和10.5之间的概率。10X02.1354nS)02.1,10(2NX 解:因为与人体有关很多变量都服从正态分布,样本容量为35属于大样本,由中心极
21、限定理可知它的分布近似于平均数 、标准差 的正态分布,即 98.002.11002.1101102.110)11()1(XPXPXP1635.0)98.0(1)98.0(1)98.0(tPtP49.002.11002.1105.1002.110)5.10()2(XPXPXP6879.0)49.0()49.0(tP02.1101102.11002.1105.10)115.10()3(XPXP98.002.11049.0XP1486.06879.08365.0)49.0()98.0(附正态概率表:第二节 抽样误差一、抽样误差的概念及影响因素 (一)抽样误差的概念 抽样推断不可避免产生误差。抽样误差
22、就是抽样估计值与被估计的总体指标之差。抽样误差可分为登记性误差和代表性误差两大类。登记性误差是指在调查过程中由于登记上的差错所造成的误差。代表性误差是指由于样本不足以代表总体特征而产生的误差。代表性误差的产生也有两种情况:一是由于违反随机抽样原则而造成的偏差,称系统性偏误。系统性误差与登记性误差是抽样组织工作的问题,可以采取措施预防或减少它。二是在遵循随机原则的情况下,由于被选择的样本内部各单位被研究标志的构成比例和总体不可能完全一致而形成的随机性误差。该种误差在抽样推断中是无法消除的,抽样推断理论所研究的抽样误差,主要是这种误差。(二)影响抽样误差的主要因素 影响抽样误差大小的因素,主要有以
23、下四种:第一,总体变量差异程度的大小。在其他条件不变的情况下,总体变量离散程度(或 )越大,抽样误差(或 )越大,反之则抽样误差越小;第二,样本单位数(样本容量)的多少。在其他条件不变的情况下,样本单位数 越小,抽样误差(或 )越大,反之则抽样误差越小。如果样本单位数多到接近总体单位数时,抽样误差就会缩小到几乎没有的程度。xpxpnxp 第三,抽样方法。抽样方法有重复抽样和不重复抽样两种,一般来说,重复抽样的抽样误差要大于不重复抽样的抽样误差。第四,抽样组织方式。在样本容量和抽样方法相同的条件下,不同抽样组织会产生不同的抽样误差。一般来说,简单随机抽样、整群抽样误差较大,类型抽样、等距抽样等抽
24、样组织方式下,抽样误差要小一些。二、抽样平均误差 (一)抽样平均误差的概念 抽样平均误差就是样本平均数(样本成数)的标准差,它可反映样本平均数(样本成数)与总体平均数(总体成数)的平均误差。由于样本是按随机原则抽取的,从一个总体可以抽取许多同样单位数的样本,每个样本都有自己的样本平均数和成数,一系列的样本平均数(样本成数)就可以计算样本平均数(样本成数)的平均数和标准差。又因为样本平均数(样本成数)的平均数就等于总体平均数(总体成数),因而样本平均数(样本成数)的标准差实际上就反映了样本平均数(样本成数)与总体平均数(总体成数)的平均误差。(二)抽样平均误差的计算 1.样本平均数抽样平均误差的
25、计算 (1)重复抽样下,样本平均数抽样平均误差计算nnnx2 若设样本平均数的抽样平均误差为 ,总体标准差为 ,样本容量为 ,则样本平均数的抽样 平均误差为:x 例6.4 某组5名学生的体重依次为50、52、54、56、58千克,现随机从中抽出2名计算平均体重,可组成的全部样本为 个,样本组合及平均数如表6-2所示,根据样本组合及样本平均数,我们可编制如下频数及频率分布表:2552样本均值505152535455565758合计频数12345432125频率0.040.080.120.160.200.160.120.080.041.00 xfff/表6.3 样本平均数分布表 根据样本平均数分布
展开阅读全文