第五章统计分布特征的描述:集中趋势和离散趋势课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第五章统计分布特征的描述:集中趋势和离散趋势课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 统计 分布 特征 描述 集中 趋势 离散 课件
- 资源描述:
-
1、第五章 统计分布特征的描述:平均指标和变异指标安徽财经大学统计与应用数学学院第五章 统计分布特征的描述n第一节 集中趋势的测度:平均指标n第二节 离散趋势的测度:变异指标第一节 集中趋势的测定:平均指标n一、平均指标的概念和作用 n二、算术平均数n三、调和平均数n四、几何平均数n五、众数n六、中位数n七、各种平均数之间的相互关系上一页下一页返回本章首页一、平均指标的概念和作用概念概念:平均指标是指将同质总体内各单位的数量差异抽象化,反映总体一般水平或集中趋势的统计指标所谓集中趋势,指一组数据向某一中心值靠拢的倾向,测度集中趋势,也就是寻找数据的一般水平的代表值或中心值。上一页下一页返回本节首页
2、2、作用、作用n(1)使范围不同的总体具有可比性。n(2)反映总体各单位的一般水平这一综合特征,抽象掉了个体差异。n(3)反映总体分布的集中趋势。即如果以总体单位某一标志的平均数为中心线,则总体各单位的标志值主要分布于中心线及其上下附近,而远离中心线的标志值较少。(三)平均指标的种类三)平均指标的种类 数值平均数:数值平均数:根据统计数列中的各项数据计算出的平均数。主要有:算术平均数算术平均数、调调和平均数和平均数、几何平均数几何平均数。位置平均数位置平均数:将各单位标志值排序后,取得某一位置的标志值作为反映一般水平的代表值。有:众数、中位数众数、中位数。二、算术平均数(Arithmetic
3、Mean)上一页下一页返回本节首页n基本公式基本公式n例如:q平均工资=企业工资总额/工人数,q平均成绩=成绩总分/学生人数n注意区分算术平均数和强度相对数;总体单位总量总体标志总量算术平均数 n算术平均数和强度相对指标的区别:n(1)含义和作用不同:q强度相对指标表明现象程度发展的强度、密度或普遍程度;q而平均指标则表明同类现象在一定时间、地点条件下所达到的一般水平。n(2)计算方法不同。q强度相对指标的分子与分母分别来自不同的总体,一般没有直接的依存关系,且有的强度相对指标分子分母可以对换,即强度相对指标可以计算正指标或逆指标;q而平均指标的分子是总体总量指标,分母则是同一总体内的总体单位
4、总量,两者具有密切的关系,且平均指标的分子分母不能互换。n(3)计量单位表示不同。q强度相对指标一般为复名数,有时为无名数;平均指标则为单名数。n(二)、算术平均数的计算(二)、算术平均数的计算n1.简单算术平均数简单算术平均数n计算公式:n适用条件:未分组的原始资料NXNXXXXNiiN121例1:某企业一生产班组共5人,他们在2000年9月的月工资分别为1700元,1900元,1500元,1850元,2200元。则他们的月平均工资为:)(1830522001850150019001700元nxx例例2:n班级平均年龄:)(65.212020202321211岁NXXNii)(6135.12
5、073.158.158.143.152.11米NXXNiin班级平均身高:n加权算术平均数加权算术平均数n计算公式计算公式:miiimiimiimiiimmmffXffXffffXfXfXX1111212211XiXifimi适用条件适用条件:分组资料分组资料例例1:单项式数列:单项式数列 某班学生年龄情况表某班学生年龄情况表按年龄分组(岁)人数(人)比重()20212223552825251040合计20100分组分组频数频数频率频率n求学生的平均年龄n解:(1)绝对权数n(2)相对权数)(65.21825582322252152011岁niiniiiffXX65.21%4023%1022%
6、2521%252011niniiiiffXX例例2 2:组距式数列(等距数列):组距式数列(等距数列)某班学生身高情况表按身高分组(米)组中值人数(人)比重()1.41.51.51.61.61.71.71.81.81.91.451.551.651.751.85464422030202010合计20100分组分组频数频数频率频率组中值组中值n求学生的平均身高n解:(1)绝对权数n(2)相对权数)(62.124464285.1475.1465.1655.1445.111米niiniiiffXX)(62.1%1085.1%2075.1%2065.1%3055.1%2045.111米niniiiiff
7、XXn例3:某班英语成绩整理如下,求学生英语平均成绩.n解(1)绝对权数n(2)相对权数)(4.7511分niiniiiffXX)(4.7511分niiiniiffXX分析如下:(1)平均什么什么就是标志值,标志值出现的次数即为权数 (2)影响算术平均数大小的因素有二:q变量值x的大小。n变量值越大平均数越大q各组次数或频率,又称权数。n权数越大的标志值对平均数影响越大,实际上权数的大小反映了标志值的重要性,因此权数也称为权重系数。n各组频率也即相对权数更能体现权衡轻重的本质。加权算术平均数有两种变形:q当权数用相对数时 q当f1=f2=f3=fn时,权数的作用消失,加权平均数=简单平均数n(
8、3)组距数列计算加权算术平均数时,假定该组标志值是完全均匀分布的,以各组的组中值为各组变量值,计算的平均数是近似值。ffxfxfxn(四).算术平均数的数学性质:变量值与其算术平均数的离差之变量值与其算术平均数的离差之和衡等于零,即:和衡等于零,即:变量值与其算术平均数的离差平变量值与其算术平均数的离差平方和为最小,即:方和为最小,即:0)(0)(fxxxx或min)(min)(22fxxxx或n算术平均数的缺点:易受极端值的影响张庄有个张千万,张庄有个张千万,九个邻居穷光蛋;九个邻居穷光蛋;平均起来算一算,平均起来算一算,个个都是张百万。个个都是张百万。去掉一个最高分去掉一个最高分去掉一个最
9、低分去掉一个最低分三号选手最后得三号选手最后得分分.三、调和平均数(Harmonic Mean)n调和平均数调和平均数:(二二)简单调和平均数简单调和平均数n计算公式计算公式:XmXXXmXmH111121iiXmHX适用条件:已知各组的代表变量值x和标志总量xf,且各组的标志总量恰好相等.n计算举例计算举例1:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1斤,求平均价格。n例2:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1元,求平均价格。n在例1中,用简单算术平均数0.5 1 0.4 1 0.25
10、11 1 10.50.40.2530.38xfxf 元在例2中,先求早、中、晚购买的斤数。早 1/0.5=2(斤)中 1/0.4=2.5(斤)晚 1/0.25=4(斤)1111 1 130.3511118.50.50.40.25miiimmiiiiiix fmxx fxx 元实际上,例2是用下列公式计算:1hmXX这就是简单调和平均数的公式。上一页下一页返回本节首页n(三三)加权调和平均数加权调和平均数n计算公式计算公式:n适用条件适用条件:分组资料,且已知各组的代表变量值(x)和标志总量(xf).上一页下一页返回本节首页mXmXmXmXmmmmXmmmH1221121imiXiin计算举例计
11、算举例:n例3:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买2元、3元、4元,求平均价格。元33.05.27925.044.035.02432hXn说明n(1)社会经济统计中所应用的调和平均数通常是加权算术平均数的变形,已知各组变量值 xi 和(xi fi)而缺乏 fi 时,加权算术平均数通常可变形为调和平均数形式来计算。q在已知每种价格x、销售量f时,求平均价格用加权算术平均数。q在已知每种价格x、销售额m时,求平均价格用加权调和平均数。n(2)简单调和平均数实际上是加权调和平均数的一种特例,即各组标志总量相等时出现阶的一种特殊情况.fxfxhX
12、XmmxfxxffxfX1上一页下一页返回本节首页n(四)相对指标的平均数(四)相对指标的平均数n算术平均数与调和平均数不仅可以用于计算严格意义上的静态平均指标(单位标志平均数),而且常可用来计算其它相对指标或时间数列的平均数。这时平均数仅仅是种计算形式,计算的结果并不要求它们符合平均指标的基本规定(总体标志总量/总体单位总量)。n相对指标平均数的计算形式应该根据相对指标的相对指标平均数的计算形式应该根据相对指标的对比关系来确定。对比关系来确定。企业数(个)实际产值(万元)5103057007.510207020500152030502250025合计15048700某行业产值和利润情况表产值
13、利润率(%)组中值(%)一季度%47.18487005.9127225002050057002250025.02050015.05700075.0:%100:fxf产值利润率一季度平均则实际产值实际利润产值利润率为产值利润率的其本公式企业数(个)实际利润(万元)510507107.5102080351415203020225025合计1506474某行业产值和利润情况表二季度产值利润率(%)组中值(%)%45.153.41893647425.0225015.03514075.071022503514710:%100:产值利润率二季度平均则实际产值实际利润产值利润率为产值利润率的其本公式四、几何
14、平均数(Geometric Mean)n几何平均数 n个变量值连乘积的n次方根。q简单几何平均数nniinnGxxxxx121.q加权几何平均数niiikkfnififfffkffGxxxxx1212!1).(21.q适用于。例1n某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88、85、90、92、96,试求这五道工序的平均合格率。n解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:%31.90%9692%90%85885Gx 例例2:银行对某笔投资的年利率按复利计算,:银行对某笔投资的年利率按复
15、利计算,25年利率如下,问该笔投资的年利率如下,问该笔投资的25的平均年利率的平均年利率为多少?为多少?解:=1.086n结论:25年的平均利率为8.6%25210841.15 1.101.081.051.03G五、众数(Mode)和中位数(Median)n(一一)众数众数(Mode)n1.概念概念:众数是总体中出现次数最多的标志值(或属性表现)。有关购买软饮料的频数分布有关购买软饮料的频数分布软饮料购买数量可口可乐百事可乐非常可乐雪碧鲜橙多娃哈哈19(最频繁购买的软饮料)(最频繁购买的软饮料)851373总计55众数的不惟一性众数众数无众数无众数众数众数 1众数众数2n2.众数的特点特点:n
16、是一种位置平均数,不受极端值的影响.n众数具有不惟一性:它可能为一个,也可能为多个,也可能没有众数.n众数可以用于各种计量尺度(定类、定序、定距和定比)的数据。3、众数的确定众数的确定n(1)单项数列众数的确定。n在单项式数列中,确定众数的方法比较简单,可以用观察法直接确定众数,即指出次数最多的标志值即为众数。n例如,某企业工人日产量资料如下表:n例1.已知某企业某日工人的日产量资料如下:0M n先确定众数组,然后推算出众数的近似值。n计算众数的近似值主要有两种方法。当组距式数列次数分布对称时,可以用众数组的组中值作为众数的近似值。当组距式数列次数分布不对称时,可以当组距式数列次数分布不对称时
17、,可以利用相应的计算公式计算众数的近似值。利用相应的计算公式计算众数的近似值。(2)组距数列众数的确定其近似公式推导下限公式:下限公式:上限公式:上限公式:例如,某企业职工月工资资料如下表:例如,某企业职工月工资资料如下表:57.1657)16001700()2135()1635()1635(1600211dLMO57.1657)16001700()2135()1635(21351700212dUMOn(二)中位数(二)中位数(Median)n1.概念概念:将总体各单位按其标志值大小排列,居于中间位置的那个标志值标志值就是中位数。n2.作用作用:对对分布数列的总次数进行二等分,标志值小于中位数
18、和大于中位数的次数各一半。上一页下一页返回本节首页(1)根据原始数据计算中位数q先将数据排序(特别重要!)qn为奇数时等于第(n+1)/2个数。qn为偶数时等于第n/2和n/2+1个数的平均值1,2,5,9,11中位数中位数=51,2,5,9,11,18中位数中位数=(5+9)/2=7121222nennxnMxxn为奇数为偶数(2)单项式分组资料中位数的确定n先计算向上累计次数(或向下累计次数)n当f为奇数时,中位数在第 项,该项所对应的标志值即为中位数。n当f为偶数时,中位数在第 项,该项所对应的标志值即为中位数。21f2f假定某企业职工生产一产品的日产量资料如下表:假定某企业职工生产一产
19、品的日产量资料如下表:11212121fMe=163)组距式分组资料确定中位数eeeeMMMMedfSfLM12eeeeMMMMedfSfUM12第一步:计算向上累计次数(或向下累计次数)第二步:确定中位数所在组,第三步:计算中位数1eMS2feMS月产量(件)月产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)200以下以下200400400600600以上以上373283104250合计合计50XfdfSfLMmme12 件75.4934006003210250400eM月产量(件)月产量(件)工人人数(人)工人人数(人)向下累计次数向下累计次数(人)(人)200以
20、下以下200400400600600以上以上373285047408合计合计50XfdfSfUMmme12 件75.493400600328250600eMn中位数的特点:中位数的特点:q是位置平均数,可以避免数列中极端值的影响。q具有惟一性。n中位数的适用场合中位数的适用场合:q要求数据至少是定序数据。q对于明显呈偏态分布的变量数列,也适于用中位数代表其一般水平。小案例:揭秘工资被增长原因:平均工资不能反映个体水平n“其实,平均工资只是宏观经济发展的参考,并不能反映个体工资水平,这也是很多人感觉工资被增长的原因”,昨日,在四川省统计局举行的“中国统计开放日”上,省统计局相关负责人表示。解放军
21、信息工程大学魏振军教授认为,用“中位数”反映工资平均水平更为恰当。n省统计局相关负责人以“统计数据背后的故事”为题,阐述了统计数据产生的来源、流程以及容易被社会公众误解的地方,同时还对“被增长”的平均工资专门做出解释。社会平均工资统计的组成通常分为5大类:国有单位职工工资、城镇集体单位职工工资、三资企业职工工资、私营单位员工工资和有雇佣关系的劳动个体工资,平均工资的计算原理基本上是这5大类的工资总和除以总人数。省统计局相关负责人表示,如此一来,由于是相对的简单平均,导致了这个数据与很多人的真实收入有些差距。n“以往公布的社会平均工资只有前3类,今年国家统计局将私营单位员工工资计入其中。”由于统
22、计口径的改变,也导致了去年的全省社会平均工资比2008年社会平均工资有所降低。n尽管如此,魏振军认为,采用平均值的方式反映工资收入水平仍不合理,“如一个单位有23个人工作,其中10个人每个月100元收入,5个人200元,6个人250元,1个人1000元,领导2400元,平均值就是300元,但绝大部分人没有达到平均水平”。她引入了另两个概念众数和中位数。众数就是“出现最多的月收入,如例子中的100元”,而中位数就是处于中间水平的那个数,“例子中的250元就是中位数”。她说,从中可以看出,众数最能反映大多数工资水平,而中位数反映平均工资水平更为恰当,“因为很多人关心的是众数或者中位数,被扭曲的平均
23、值工资则毫无价值”。小案例:香港工资统计公布n根据政府统计处今日(三月十八日)公布的数字,二零零九年第二季本港的雇员人数(不包括留宿家庭佣工、政府雇员、雇主及自营作业者)为2 776 600人,而这些雇员的每小时工资中位数为$58.5(港元)。在二零零九年第二季,本港雇员每小时工资的第10个百分位数、第25个百分位数、第75个百分位数及第90个百分位数分别为$27.0、$38.9、$96.0及$171.8。把所有雇员的每小时工资按数值从小至大排列,每小时工资中位数是指排列在中间位置的雇员的每小时工资。换言之,每小时工资中位数即是把所有雇员中每小时工资水平最低的50%划分出来的每小时工资数值。每
24、小时工资百分位数对描述雇员的每小时工资分布非常有用。每小时工资的第p个百分位数即指把所有雇员中每小时工资水平最低的p%划分出来的每小时工资数值,而p可以是1至99之间任何一个整数值。举例说,每小时工资的第10个百分位数就是把所有雇员中每小时工资水平最低的10%划分出来的每小时工资数值。每小时工资的第25个、50个及75个百分位数,分别称为每小时工资下四分位数、中位数及上四分位数。*知识拓展:分位数(Quantile)n把顺序排列的一组数据分割为若干相等部分的分割点的数值把顺序排列的一组数据分割为若干相等部分的分割点的数值。n分位数可以反映数据分布的相对位置(而不单单是中心位置)。分位数可以反映
25、数据分布的相对位置(而不单单是中心位置)。q四分位数:四分位数:将按大小顺序排列的观测值划分为将按大小顺序排列的观测值划分为4个等分,位于全部数据个等分,位于全部数据1/4、2/4和和3/4位置上的位置上的3个数值就称为四分位数,分别以个数值就称为四分位数,分别以Q1,Q2,Q3代表第代表第1个,第个,第2个,第个,第3个四分位数个四分位数。q十分位数:十分位数:将按大小顺序排列的观测值划分为将按大小顺序排列的观测值划分为10个等分,位于全部数据个等分,位于全部数据1/10、2/10,9/10位置上的位置上的9个数值就称为十分位数,分别以个数值就称为十分位数,分别以D1,D2,D9代表第代表第
展开阅读全文