应用统计复习概况课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《应用统计复习概况课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计 复习 概况 课件
- 资源描述:
-
1、2022-11-11复习2013年6月9日注:该注:该PPTPPT中红色标注的内容为重点复习内容(必须中红色标注的内容为重点复习内容(必须掌握)掌握)2022-11-12试题和分布试题和分布填空题填空题 20%20%5 5题题单选题单选题 14%14%7 7题题计算题计算题 48%448%4题题根据输出结果回答问题根据输出结果回答问题 18%118%1题题l分组数据平均数、中位数和众数分组数据平均数、中位数和众数 l单总体均值区间估计单总体均值区间估计l假设检验假设检验2 2题题(单总体和两个总体各单总体和两个总体各1 1题题)l一元回归分析综合题一元回归分析综合题1 1题题2022-11-1
2、3第第1 1章和第章和第2 2章不考章不考第第3 3章重点:章重点:1.1.几何平均数(几何平均数(p.49p.49)2.2.分组数据的平均数、中位数、众数计算分组数据的平均数、中位数、众数计算(p.42-45)(p.42-45)3.3.算术平均数、中位数和众数间的关系算术平均数、中位数和众数间的关系(p.45)(p.45)4.p.334.p.33偏态曲线偏态曲线2022-11-14 (1)(1)简单算术平均数简单算术平均数niixnx11算术平均数的计算算术平均数的计算 n 总体单位总数;xi 第 i 个单位的标志值。xi 第 i 组的代表值(组中值或该组变量值);f i 第 i 组的频数。
3、iiiffxx (2)(2)加权算术平均数加权算术平均数 2022-11-15几何平均数几何平均数当统计资料是各时期的发展速度等前后期的两两环比数据,要求每时期的平均发展速度时,就需要使用几何平均数。几何平均数是 n 个数连乘积的 n 次方根。1.简单几何平均数简单几何平均数nnGxxxx 21 2.加权几何平均数加权几何平均数 ffnffGnxxxx 2121f i 各比率出现的频数 2022-11-16例例:某公司原料成本随时间增长的情况如下表求原料成本的平均年增长率。解一解一:1992199319941995成本200228239.4244.2年增长率(%)1452302.105.114
4、.1Gx解二:解二:3200/2.244Gx 年平均增长率=1.0688-1=6.88%0688.10688.12022-11-17复习题复习题某公司原料成本随时间增长的情况如下,1992年的原料成本为200万元,1995年的原料成本为244.2万元,则3年中该公司原料成本的年平均增长率为()。(保留小数点后2位)。19921993199419952022-11-18000,100$X000,50$X000,100$X32150%decrease 100%increase25.2)1()5.(X%0111)2()50(.1)1(1()5.(1(1)1()1()1(2/12/12/1/121nn
5、GRRRR算术平均数算术平均数:几何平均数几何平均数:2022-11-19位置平均数是根据总体标志值所处的特殊位置确定的一类平均指标。包括中位数和众数两种。(一一)中位数中位数(Median)将总体各单位标志值按由小到大的顺序排列后处于中间位置的标志值称为中位数,记为Me。中位数是一种位置平均数,不受极端数据的影响。当统计资料中含有异常的或极端的数据时,中位数比算术平均数更具有代表性。比如有 5 笔付款:9元,10元,10元,11元,60元付款的均值为 20 元,显然这并不是一个很好的代表值,而中位数 Me=10 元则更能代表平均每笔的付款数。二二.位置平均数位置平均数2022-11-110分
6、组数据中位数的确定分组数据中位数的确定 对于分组数据的统计资料,中位数要用插值法来估算。(1)计算各组的累计频数;(2)确定中位数所在的组 是累计频数首次包含中位数位次f/2的组。dfSfLMmme121其中:L 中位数所在组的下限;Sm-1 中位数所在组前一组的累计频数;fm 中位数所在组的频数;d 中位数所在组的组距。2022-11-111(二二)众数众数(Mode)是总体中出现次数最多的标志值,记为M 0。众数明确反映了数据分布的集中趋势,也是一种位置平均数,不受极端数据的影响。但并非所有数据集合都有众数,也可能存在多个众数。在某些情况下,众数是一个较好的代表值。例如在服装行业中,生产商
7、、批发商和零售商在进行生产和存货决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。又如,当要了解大多数家庭的收入状况时,也要用到众数。2022-11-112未分组数据众数的确定未分组数据众数的确定在数据量很大的时候,可以使用 Excel 统计函数中的 MODE 函数返回众数。格式:MODE(,)功能:返回所有参数中数据的众数。0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Mode=92022-11-113分组数据众数的确定分组数据众数的确定对于分组数据的统计资料,众数也要用插值法来估算。(1)确定众数所在的组 对于等距分组,众数组是频数最高的组;(2)使用以下插值公式计算
8、dLM2110其中:L 众数组的下限1 众数组与前一组的频数之差2 众数组与后一组的频数之差 d 众数组的组距12众数Ld2022-11-114三三.算术平均数和位置平均数间的关系算术平均数和位置平均数间的关系1.频数分布呈完全对称的单峰分布,算术平均数、中位数和众数三者相同0 xf(Me,M0)X0 xfMeXM00 xfMeXM02.频数分布为右偏态时,众数小于中位数,算术平均数大于中位数3.频数分布为左偏态时,众数大于中位数,算术平均数小于中位数2022-11-115复习例(必看)复习例(必看)补充题:某地区私营企业注册资金分组资料如下,求该地区私营企业注册资金的平均数、中位数和众平均数
9、、中位数和众数,并判断分布的形状数,并判断分布的形状。注册资金(万元)50以下 50100 100150 150200 200250 250以上企业数203542261552022-11-116 答案答案注册资金(万元)企业数 累计企业数组中值50以下2020255010035557510015042971251502002612317520025015138225250以上5143275(万元)6.123iiiffxx(万元)64.1195042555.711002/1dfSfLMmmef/2=143/2=71.5,中位数所在“100150”的组,众数组为“100150”的组,)(22.11
10、550)2642()3542(35421002110万元dLM2022-11-117第四章(2-5分)条件概率乘法公式全概率公式贝叶斯公式事件独立性2022-11-118某地区死亡人口统计资料表明,该地区人口死亡某地区死亡人口统计资料表明,该地区人口死亡年龄不低于年龄不低于60岁的占岁的占80%,死亡年龄不低于,死亡年龄不低于80岁的岁的占占20%。问:该地区现年问:该地区现年60岁的人能活到岁的人能活到80岁的概率是多岁的概率是多少?少?2022-11-119某地区死亡人口统计资料表明,该地区人口死亡年龄不低于60岁的占80%,死亡年龄不低于80岁的占20%。问:该地区现年60岁的人能活到8
11、0岁的概率是多少?解解:设A=寿命60,B=寿命80,求P(B|A)。B A,P(AB)=P(B)ABP(AB)=P(B)P(B|A)=P(AB)/P(A)=P(B)/P(A)=0.2/0.8=0.252022-11-120复习重点复习重点1.贝叶斯公式2022-11-121贝叶斯(Bayes)公式若A1,A2,A3,An 为样本空间S的一个完备事件组,则对任一事件B,(P(B)0),有)()|()()|()()|()()|(1BPABPAPABPAPABPAPBAPiiniiiiiii=1,2,n(*)贝叶斯公式在风险型决策中有非常重要的应用,详见本章最后的案例。2022-11-122贝叶斯
12、公式的简单应用某产品由甲、乙、丙三个班组生产,甲、乙、丙班的产量分别占全部产量的50%、30%和20%;次品率分别为2%、3%和1%。现任取1件进行检验,求:(1)抽到的是甲班生产,且是次品的概率;(2)抽到次品的概率;(3)若抽到的是次品,求该次品是丙班生产的概率。2022-11-123解:记:记A1,A2,A3,分别为抽到的产品是甲班、乙班、丙班生产的,分别为抽到的产品是甲班、乙班、丙班生产的,B=抽到的是次品抽到的是次品。(1)由概率的乘法公式,P(A1B)=P(A1)P(B|A1)=0.500.02=0.01(2)由全概率公式 P(B)=P(A1)P(B|A1)+P(A2)P(B|A2
13、)+P(A3)P(B|A3)=0.50.02+0.30.03+0.20.01=0.021(3)由Bayes公式0952.0021.001.02.0)()|()()|(333BPABPAPBAP2022-11-124案例3解答 统计资料表明,某地癌症发病率为千分之五,现该地区正进行癌症普查。普查试验的结果为阴性或阳性。以往的临床资料表明,癌症患者试验反应为阳性的概率是0.95,健康人试验反应呈阳性的概率是0.04。问:(1)当某人试验反应为阳性时他确患癌症的概率;(2)试验反应为阴性者患癌症的概率。2022-11-125记:记:A A1 1=癌症患者癌症患者,A A2 2=健康人健康人,B B1
14、 1=反应阳性反应阳性,B B2 2=反应阴性反应阴性 由题意可知,P(A1)=0.005,P(A2)=0.995,P(B1|A1)=0.95,P(B2|A1)=0.05,P(B1|A2)=0.04,P(B2|A2)=0.96,由全概率公式:P(B1)=P(A1)P(B1|A1)+P(A2)P(B1|A2)=0.0050.95+0.9950.004=0.04455 P(B2)=1-P(B1)=1-0.04455=0.95545。由Bayes公式可得1066.0045.095.0005.0)()|()()|(111111BPABPAPBAP00026.095545.005.0005.0)()|(
15、)()|(212121BPABPAPBAP 即普查试验反应为阳性者确患癌症的概率是10.66%,而反应为阴性者患癌症的概率为万分之2.6。2022-11-126第第5 5章章 抽样与抽样分布抽样与抽样分布复习重点:1.1.抽样方法特点和关系(选择题)抽样方法特点和关系(选择题)2.2.抽样分布抽样分布3.3.会查标准正态分布表、会查标准正态分布表、t t分布表,卡方分布表,卡方,F,F分布分布表表2022-11-127抽样方法抽样方法关系到抽样调查的成本费用和抽样误差的大小,应根据调查的目的、和调查对象的特点采取不同的抽样方法。主要有以下几种抽样方法。2022-11-128(simple ra
16、ndom sampling)也称纯随机抽样纯随机抽样,指不对总体作任何处理,直接按随机原则抽取调查单位的抽样方式。简单随机样本(I.I.D)简单随机抽样最能体现抽样的随机原则,抽样误差的计算就是以简单随机抽样为基础的。局限性局限性:当总体单位数很大时,就难以实现简单随机抽样,且抽样误差较大。1.简单随机抽样2022-11-129(1).分层随机抽样(stratified sampling)也称类型抽样抽样,是将总体按某一主要标志进行分类(分组),分别从各类型组中随机抽取一部分调查单位共同组成样本。三种方法:三种方法:(1 1)等数分配法)等数分配法(2 2)等比分配法)等比分配法(3 3)最优
17、分配法)最优分配法。2.其他抽样方法例如,对企业进行调查时将企业划分为特大型企业、大型企业、中型企业和小型企业四个类型组。对家庭收入进行调查时将居民家庭分为高收入、中等收入、低收入三个类型组等。2022-11-130(2).机械抽样(systematic sampling)也称等距抽样或系统抽样,其步骤如下:(1)按某一标志值的大小将总体单位进行排队并顺序编号;(2)根据确定的抽样比例确定抽样间距;(3)随机确定第一个样本单位;(4)按顺序从总体中等间距地抽取其余样本单位。系统抽样的随机性主要体现在第一个样本单位的抽取上,因此一定要保证抽取第一个样本单位的随机性。2.其他抽样方法(续)2022
18、-11-131(3).整群抽样(Cluster sampling )人们就将总体的各单位按一定的标志或要求,分成若干群,然后以群为单位,随机抽取几个群,对被抽中的群进行全部调查,这就是整群抽样。如对人口普查资料进行复查,就采用整群抽样的方式。当群中的元素差异性大时,整群抽样得到的结果比较好。在理想状态下,每一群是整个总体小范围内的代表。分层抽样分层抽样:层间差异尽可能大,层内差异尽可能小整群抽样整群抽样:群间差异尽可能小,群内差异尽可能大2.其他抽样方法(续)2022-11-132(2)代表性误差指由于随机样本内部结构与总体结构之间存在差异而引起的样本指标与总体指标之间的差异。代表性误差又可分
19、为两类:系统性误差系统性误差指由于违反抽样的随机原则而产生的误差。随机误差随机误差也称抽样误差抽样误差,指由于随机抽样本身导致的现样本内部结构与总体结构不一致而产生的误差。在抽样调查中随机误差是不可避免的。如全部产品中有2%的次品,随机抽取100件,其中恰好有2件次品的可能性是很少的。统计误差和抽样误差(续)统计误差和抽样误差(续)2022-11-133影响抽样误差的主要因素(1)(1)总体标准差总体标准差越大,样本结构就越难以接近总体结构,误差也就越大。(2)(2)样本容量样本容量 越大,样本结构就越接近总体结构,样本对总体的代表性就越高,抽样误差就越小。(3)(3)抽样方法抽样方法不同抽样
20、的方法,将直接影响样本内部结构与总体结构之间的差异。如分层抽样就可以使样本结构更接近于总体结构,因而其抽样误差是所有抽样方法中最小的。(4)(4)抽样方式抽样方式不重复抽样可以使样本内部结构更接近总体结构。因此不重复抽样的抽样误差小于重复抽样。2022-11-134抽样分布抽样分布(1 1)均值的抽样分布)均值的抽样分布(2 2)比例的抽样分布)比例的抽样分布2(,)xN un2(,)XN u2(,)xN un2(,)XN u(1)(,)spppN pn5(1)5npnp2022-11-135第六章第六章 置信区间估计置信区间估计1.1.允许误差允许误差d d2.2.区间估计(单总体方差未知时
21、的均区间估计(单总体方差未知时的均值估计)值估计)3.3.样本容量的确定(均值和比例)样本容量的确定(均值和比例)2022-11-136估计对象估计对象条件条件要求要求置信区间置信区间nZddxdx/),(2/nSntddxdx/)1(),(2/nSntx/)1(nSntx/)1(,),(dpdpnppZd/)1(2/)1()1(,)1()1(22/1222/2nSnnSn)1()1(22nSn)1()1(212nSnP2 2已知 2未知未知双侧双侧双侧双侧双侧双侧单侧上限单侧上限单侧上限单侧上限单侧下限单侧下限单侧下限单侧下限第六章第六章 置信区间估计置信区间估计2022-11-137设某种
22、元件的寿命 XN(,2),其中,2未知,现随机测得10个元件的寿命如下(小时)1502,1453,1367,1108,1650 1213,1208,1480,1550,1700试求元件平均寿命 的95%置信区间。复习题复习题2022-11-138 故所求 的 95%置信区间为 解:解:已知x/2=0.025,10/5.1962622.2=1423.1,S=196.5,=1-0.95=0.05,n=10,查表得 t0.025(9)=2.26226.140nSntd/)1(2/),(dxdx 可用 Excel 的【工具】“数据分析”“描述统计”需要注意:只给出只给出d值值求解正态总体均值 的置信区
展开阅读全文