书签 分享 收藏 举报 版权申诉 / 51
上传文档赚钱

类型统计学导论讲义版第3章课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4290806
  • 上传时间:2022-11-26
  • 格式:PPT
  • 页数:51
  • 大小:457.18KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《统计学导论讲义版第3章课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    统计学 导论 讲义 课件
    资源描述:

    1、管理统计学管理统计学第三章第三章3-1第三章第三章 数据分布特征的描述数据分布特征的描述n第一节第一节 统计变量集中趋势的测定统计变量集中趋势的测定n第二节第二节 统计变量离散程度的测定统计变量离散程度的测定n第三节第三节 变量分布的偏度与峰度变量分布的偏度与峰度2第一节第一节 统计变量集中趋势的测定统计变量集中趋势的测定n一、测定集中趋势的指标及其作用一、测定集中趋势的指标及其作用n二、数值平均数二、数值平均数n三、众数与中位数三、众数与中位数3一、测定集中趋势的指标及其作用一、测定集中趋势的指标及其作用n集中趋势集中趋势(Central tendency)n较大和较小的观测值出现的频率比较

    2、低,大多数较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心附近,使得全部数据呈现观测值密集分布在中心附近,使得全部数据呈现出向中心聚集或靠拢的态势。出向中心聚集或靠拢的态势。n测度集中趋势的指标有两大类:测度集中趋势的指标有两大类:n数值平均数数值平均数是根据全部数据计算得到的代表值,主要是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数;有算术平均数、调和平均数及几何平均数;n位置代表值位置代表值根据数据所处位置直接观察、或根据与特根据数据所处位置直接观察、或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中定位置有关的部分数据来确定的代表值,主要

    3、有众数和中位数。位数。4测定集中趋势指标的作用测定集中趋势指标的作用1反映变量分布的集中趋势和一般水平。反映变量分布的集中趋势和一般水平。n如用平均工资了解职工工资分布的中心,反映职如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。工工资的一般水平。2可用来比较同一现象在不同空间或不同阶段可用来比较同一现象在不同空间或不同阶段的发展水平。的发展水平。n不受总体规模大小的影响,不受总体规模大小的影响,n在一定程度上使偶然因素的影响相互抵消。在一定程度上使偶然因素的影响相互抵消。3可用来分析现象之间的依存关系。可用来分析现象之间的依存关系。n如研究劳动者的文化程度与收入的关系如研究劳动者

    4、的文化程度与收入的关系4平均指标也是统计推断中的一个重要统计量,平均指标也是统计推断中的一个重要统计量,是进行统计推断的基础。是进行统计推断的基础。5二、数值平均数二、数值平均数(一)算术平均数(一)算术平均数(均值)(均值)n一组数据的总和除以这组数据的项数所得的结果一组数据的总和除以这组数据的项数所得的结果;n最常用的数值平均数。最常用的数值平均数。1简单算术平均数简单算术平均数n把每项数据直接加总后除以它们的项数。把每项数据直接加总后除以它们的项数。n通常用于对未分组的数据计算算术平均数。通常用于对未分组的数据计算算术平均数。n计算公式:计算公式:nxnxnxxxxniin121.6分分

    5、组组例例 3-1 表表 3-23-2年龄年龄人数(人)人数(人)x xf f22224 42525101030305 550501 1合计合计2020表表 3-13-1男性男性女性女性222222222222222225252525252525252525252525252525252525253030303030303030505030309.26205382030.2250303025252525252222n解:解:采用简单算术平均法计算,即全体采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁):队员的平均年龄为(单位:周岁):75.31450302522若采用简单平均:若采用

    6、简单平均:n分组数据不能简单分组数据不能简单平均平均!因为各组变!因为各组变量值的次数不等!量值的次数不等!72加权算术平均数加权算术平均数n加权算术平均数的加权算术平均数的计算公式计算公式:fxfffxffffxfxfxxniiniiinnn11212211.9.2620538151041505301025422xn正确的计算是:正确的计算是:n加权加权为了体现各变量值轻重不同的影响作用,为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的对各个变量值赋予不尽相同的权数权数(fi).8权数权数(fi,也称权重),也称权重)n权数权数指在计算总体平均数或综合水平的过指在计算总体平均数

    7、或综合水平的过程中对各个数据起着权衡轻重作用的变量。程中对各个数据起着权衡轻重作用的变量。n可以是绝对数形式,也可以是比重形式(如频可以是绝对数形式,也可以是比重形式(如频率)来表示。率)来表示。n事实上比重权数更能够直接表明权数的权衡轻重作事实上比重权数更能够直接表明权数的权衡轻重作用的实质。用的实质。n当权数完全相等(当权数完全相等(f1=f2=fn)时,加权算术)时,加权算术平均数就成了简单算术平均数。平均数就成了简单算术平均数。ffxx93由组距数列计算算术平均数由组距数列计算算术平均数 要点:要点:n各组变量值用组中值各组变量值用组中值来代表。来代表。n假定条件是各组内数假定条件是各

    8、组内数据呈均匀分布或对称据呈均匀分布或对称分布。分布。n计算结果是近似值计算结果是近似值.表表3 33 3节能灯泡的使用寿命的分组数据节能灯泡的使用寿命的分组数据使用寿命使用寿命(小时)组中组中值值 (x)数量数量(f)XfXf 频率频率 (f/ff/f)(Xf/f)10001000以下以下900218000.020 181000-12001000-12001100888000.080 881200-14001200-1400130016208000.160 2081400-16001400-1600150035525000.350 5251600-18001600-1800170023391

    9、000.230 3911800-20001800-2000190012228000.120 22820002000以上以上2100484000.040 84合合 计计1001542001.000 1542解:平均使用寿命为:解:平均使用寿命为:154210015420011niiniiiffxx104对相对数求算术平均数对相对数求算术平均数n由于各个相对数的对比基础不同,采用简单由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要加权。算术平均通常不合理,需要加权。表表 3-43-4企 业流通费用率()商品销售额(万元)流通费用(万元)甲161600256乙104750475丙124

    10、000480合 计11.70048103501211%7.11%10010350121140004750160040001247501016001611niiniiiffxxn权数的选择必须符权数的选择必须符合该相对数本身的合该相对数本身的计算公式。计算公式。n权数通常为该相对权数通常为该相对数的分母指标。数的分母指标。115算术平均数的主要数学性质算术平均数的主要数学性质(1)算术平均数与变量值个数的乘)算术平均数与变量值个数的乘积等于各个变量值的总和。积等于各个变量值的总和。(2)各变量值与算术平均数)各变量值与算术平均数的离差之总和等于零。的离差之总和等于零。(3)各变量值与算术平均)各

    11、变量值与算术平均数的离差平方之总和为数的离差平方之总和为最小。最小。niixxn10)1niixx(min)12niixx(12(二)调和平均数(二)调和平均数(Harmonic mean)n调和平均数调和平均数也称为倒数平均数。也称为倒数平均数。n各变量值的倒数(各变量值的倒数(1/xi)的算术平均数的倒数)的算术平均数的倒数.n其计算公式为:其计算公式为:niiiniinnnnnnHxmmxmxmxmmmmmmmmxmxmxx11221121212211.1.11113(续)(续)n社会经济统计中所应用的调和平均数通常是社会经济统计中所应用的调和平均数通常是加权算术平均数的变形,加权算术平

    12、均数的变形,n已知各组变量值已知各组变量值 xi 和(和(xi fi)而缺乏)而缺乏 fi 时,加权算时,加权算术平均数通常可变形为调和平均数形式来计算。术平均数通常可变形为调和平均数形式来计算。n【例例3-4】解:解:7.11100103501211124801047516256480475256)()(1111niiiiniiiniiniiixfxfxffxx14(三)几何平均数(三)几何平均数(Geometric mean)n几何平均数几何平均数 n个变量值连乘积的个变量值连乘积的n次方根。次方根。n简单几何平均数简单几何平均数nniinnGxxxxx121.n加权几何平均数加权几何平均

    13、数niiikkfnififfffkffGxxxxx1212!1).(21.n适用于适用于各个变量值之间存在连乘积关系的场合。各个变量值之间存在连乘积关系的场合。n主要用于计算现象的平均发展速度,主要用于计算现象的平均发展速度,n也适用于对某些具有环比性质的比率求平均也适用于对某些具有环比性质的比率求平均.15【例例3-5】n某企业产品的加工要顺次经过前后衔接的五某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分道工序。本月该企业各加工工序的合格率分别为别为88、85、90、92、96,试求,试求这五道工序的平均合格率。这五道工序的平均合格率。n解:解:本例中各工序的合

    14、格率具有环比的性质,本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:乘积。所以,所求的平均合格率应为:%31.90%9692%90%85885Gx16三、众数与中位数三、众数与中位数(一)众数(一)众数(Mode)n众数是一组数据中出现频数最多、频率最高众数是一组数据中出现频数最多、频率最高的变量值的变量值,常用,常用 M0 表示。表示。n如表如表3-2中年龄的众数值中年龄的众数值MO25。n众数代表的是最常见、最普遍的状况,是对众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量现象集中趋势

    15、的度量。n可用来测度定性变量的集中趋势;可用来测度定性变量的集中趋势;n销售量最大的产品颜色是销售量最大的产品颜色是“白色白色”,则有,则有M0“白色白色”n可以度量定量变量的集中趋势。可以度量定量变量的集中趋势。n从分布曲线的角度看,众数就是变量分布曲线的最高从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。峰所对应的变量值。xMOf(x)17组距数列中众数的确定组距数列中众数的确定n先找到众数组。先找到众数组。n在等距数列中,众数组就是次数最多的组;在等距数列中,众数组就是次数最多的组;n在异距数列中,众数组应是频数密度最大的组。在异距数列中,众数组应是频数密度最大的组。n根

    16、据众数组与其相邻两组的次数差来推算。根据众数组与其相邻两组的次数差来推算。n其近似公式为:其近似公式为:OOMMOdLM211下限公式:下限公式:上限公式:上限公式:OOMMOdUM21218(二)中位数(二)中位数(Median)n中位数中位数是将数据由小到大排列后位置居中的数是将数据由小到大排列后位置居中的数值。值。n由未分组数据计算中位数由未分组数据计算中位数n若数据项数是奇数,则正好位于中间的数若数据项数是奇数,则正好位于中间的数值就是中位数;值就是中位数;n如如5人收入为人收入为:1200,1450,1500,1600,2000元,则元,则收入的中位数收入的中位数 Me=1500。n

    17、若数据项数是偶数,则取居中两个数值的若数据项数是偶数,则取居中两个数值的平均数为中位数平均数为中位数.n如如6人收入为人收入为:1200,1450,1500,1600,1800,2000元,则收入的中位数元,则收入的中位数 Me=1550。x Mef(x)50%50%19由组距数据计算中位数由组距数据计算中位数n先确定中位数组,即中间位置(用先确定中位数组,即中间位置(用f/2来计算)来计算)所在的组。所在的组。n假定中位数组内次数均匀分布(次数与变量值假定中位数组内次数均匀分布(次数与变量值的区间大小成比例),近似推算中位数的值。的区间大小成比例),近似推算中位数的值。n计算公式为:计算公式

    18、为:MeMeMeMeedfSfLM12MeMeMeMeedfSfUM12下限公式:下限公式:上限公式:上限公式:20四分位数、十分位数和百分位数四分位数、十分位数和百分位数n四分位数四分位数是将数据由小到大排序后,位于全部数据是将数据由小到大排序后,位于全部数据1/4位置上的数值。位置上的数值。n十分位数十分位数是将数据由小到大排序后,位于全部数据是将数据由小到大排序后,位于全部数据1/10位置上的数值。位置上的数值。n百分位数百分位数是将数据由小到大排序后,位于全部数据是将数据由小到大排序后,位于全部数据1/100位置上的数值。位置上的数值。n中位数也就是第二个四分位数、第五个十分位数、第五

    19、十中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。个百分位数。n分位数与其它指标结合,可以更详细地反映数据的分位数与其它指标结合,可以更详细地反映数据的分布特征。分布特征。21箱线图(箱线图(boxplot)n箱线图箱线图由一组数据的最小值(由一组数据的最小值(xmin)、第一四)、第一四分位数分位数(Q1)、中位数、中位数(Me)、第三四分位数、第三四分位数(Q3)、最大值(最大值(xmax)等五个数值来绘成。)等五个数值来绘成。n利用箱线图可以观察数据分布的范围、中心利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据位置和对称性等特征,还可以进行多组

    20、数据分布的比较。分布的比较。xmin Q1 Me Q3 xmax22(三)众数、中位数和算术平均数的比较(三)众数、中位数和算术平均数的比较1.算术平均数综合反映了全部数据的信息,众算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。数和中位数由数据分布的特定位置所确定。2.算术平均数和中位数在任何一组数据中都存算术平均数和中位数在任何一组数据中都存在而且具有惟一性,但计算和应用众数有两在而且具有惟一性,但计算和应用众数有两个前提条件:个前提条件:n(1)数据项数众多;)数据项数众多;n(2)数据具有明显的集中趋势。)数据具有明显的集中趋势。3.算术平均数只能用于定量(

    21、数值型)数据,算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据用于所有形式(类型、计量层次)的数据23(续)(续)n4.算术平均数要受数据中极端值的影响。而众算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。数和中位数都不受极端值的影响。n为了排除极端值的干扰,可计算切尾均值,即去为了排除极端值的干扰,可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值掉数据中最大和最小的若干项数值后计算的均值.n切尾均值是将均值与中位数取长补短的结果。切尾均值是将均值与中位数取长

    22、补短的结果。n5.算术平均数可以推算总体的有关总量指标,算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。而中位数和众数则不宜用作此类推算。24算术平均数和众数、中位数的数量关系算术平均数和众数、中位数的数量关系n在对称分布中,三者相等在对称分布中,三者相等.即:即:均值均值=Me=Mo;x MeMe xn在左偏分布中,一般有:在左偏分布中,一般有:均值均值MeMon在右偏分布中,一般在右偏分布中,一般有:有:Mo Me 均值均值。n皮尔生经验公式:在轻微偏态时,皮尔生经验公式:在轻微偏态时,三者的近似关系:三者的近似关系:)(3)(MeXMoX25第二节第二节 统计变量

    23、离散程度的测定统计变量离散程度的测定n一、测定离散程度的指标及其作用一、测定离散程度的指标及其作用n二、极差、四分位差和平均差二、极差、四分位差和平均差n三、方差和标准差三、方差和标准差n四、离散系数四、离散系数n五、异众比率五、异众比率 26一则笑话一则笑话n如果你一只脚放在摄氏如果你一只脚放在摄氏 1 度的水里,另一只度的水里,另一只脚放在摄氏脚放在摄氏 79 度的水里,平均水温度的水里,平均水温 40 度,度,你一定感觉很舒服你一定感觉很舒服?n显然,只了解变量的集中趋势是不够的!显然,只了解变量的集中趋势是不够的!27一、测定离散程度的指标及其作用一、测定离散程度的指标及其作用n1.说

    24、明数据的分散程度,反映变量的稳定性、说明数据的分散程度,反映变量的稳定性、均衡性。均衡性。n数据之间差异越大,变量的稳定性或均衡性越差。数据之间差异越大,变量的稳定性或均衡性越差。n2.衡量平均数的代表性。衡量平均数的代表性。n离散程度越大,平均数的代表性就越小。离散程度越大,平均数的代表性就越小。n3.统计推断的重要依据统计推断的重要依据n判别统计推断前提条件是否成立,判别统计推断前提条件是否成立,n衡量推断效果好坏的重要尺度。衡量推断效果好坏的重要尺度。28二、极差、四分位差和平均差二、极差、四分位差和平均差(一)极差(一)极差(Range)n极差是一组数据的最大值(极差是一组数据的最大值

    25、(xmax)与最小值()与最小值(xmin)之差,通常用之差,通常用 R 表示。表示。n对于总体数据而言,极差也就是变量变化的范围或对于总体数据而言,极差也就是变量变化的范围或幅度大小,故也称为幅度大小,故也称为全距全距。n组距数列中,极差组距数列中,极差最高组的上限最高组的上限-最低组的下限。最低组的下限。n优缺点:计算简便、含义直观、容易理解。它未考优缺点:计算简便、含义直观、容易理解。它未考虑数据的中间分布情况,不能充分说明全部数据的虑数据的中间分布情况,不能充分说明全部数据的差异程度。差异程度。minmaxxxR29(二)四分位差(二)四分位差n第第3四分位数(四分位数(Q3)与第)与

    26、第1四分位数(四分位数(Q1)之差,常)之差,常用用Qd表示。计算公式为:表示。计算公式为:n实质上是两端各去掉四分之一的数据以后的极差,实质上是两端各去掉四分之一的数据以后的极差,表示占全部数据一半的中间数据的离散程度。表示占全部数据一半的中间数据的离散程度。n四分位差越大,表示数据离散程度越大。四分位差越大,表示数据离散程度越大。n是在一定程度上对极差的一种改进,避免了极端值是在一定程度上对极差的一种改进,避免了极端值的干扰。但它对数据差异的反映仍然是不充分的。的干扰。但它对数据差异的反映仍然是不充分的。n四分位差是一种顺序统计量,适用于定序数据和定四分位差是一种顺序统计量,适用于定序数据

    27、和定量数据。尤其是当用中位数来测度数据集中趋势时量数据。尤其是当用中位数来测度数据集中趋势时.13QQQd30(三)平均差(三)平均差(Average Deviation)n平均差平均差各个数据与其均值的离差绝对值各个数据与其均值的离差绝对值的算术平均数,反映各个数据与其均值的平的算术平均数,反映各个数据与其均值的平均差距,通常以均差距,通常以A.D表示。计算公式为:表示。计算公式为:n未分组数据:未分组数据:nxxDAnii1|.niiiniiffxxDA11|.n平均差含义清晰,能全面地反映数据的离散程度。但取平均差含义清晰,能全面地反映数据的离散程度。但取离差绝对值进行平均,数学处理上不

    28、够方便,在数学性离差绝对值进行平均,数学处理上不够方便,在数学性质上也不是最优的。质上也不是最优的。n已分组数据:已分组数据:31三、方差和标准差三、方差和标准差n1.方差(方差(Variance)的概念和计算的概念和计算n方差是各个数据与其均值的离差平方的算术平均数方差是各个数据与其均值的离差平方的算术平均数.n总体方差(总体方差(2)的计算公式为:)的计算公式为:n未分组数据:未分组数据:nxxnii122)(n分组数据:分组数据:niiiniiffxx1122)(n样本方差(通常用样本方差(通常用 S2 表示)分母应为(表示)分母应为(n-1)。)。32标准差(标准差(standard

    29、Deviation)n标准差标准差方差的算术平方根。方差的算术平方根。n总体标准差一般用总体标准差一般用表示。其计算公式为:表示。其计算公式为:n未分组数据:未分组数据:nxxnii12)(n分组数据:分组数据:n标准差比方差更容易理解。在社会经济现象的统计分标准差比方差更容易理解。在社会经济现象的统计分析中,标准差比方差的应用更为普遍,经常被用作测析中,标准差比方差的应用更为普遍,经常被用作测度数据与均值差距的标准尺度。度数据与均值差距的标准尺度。niiiniiffxx112)(n样本标准差(样本标准差(S)分母应为()分母应为(n-1)。)。33【例例3-9】计算平均差和方差、标准差计算平

    30、均差和方差、标准差使用寿命(小时)组中值(x)试验数量(只)f 频率 (f/f)(x1542)|x1542|f(X1542)2*f1000以下90020.020-64212848243281000-1200110080.080-442353615629121200-14001300160.160-24238729370241400-16001500350.350-421470617401600-18001700230.230 15836345741721800-20001900120.120 358429615379682000以上210040.040 55822321245456合计合计10

    31、01001.000 1.000 20324203246743600674360024.20310020324|.11kiiikiiffxxDA6743610067436001122niiiniiffxx)(684.259674361006743600112niiiniiffxx)(342.方差的主要数学性质方差的主要数学性质(3)分组条件下,总体的方差等于组分组条件下,总体的方差等于组间方差与各组方差平均数之和。间方差与各组方差平均数之和。02a222xyb222Bniiniiiff1122kiiniiiffxxB1122)(1)常数的方差等于零。常数的方差等于零。a为常数为常数,则则(2)变

    32、量的线性函数的方差等于变量系数的平方乘变量的线性函数的方差等于变量系数的平方乘以变量的方差。设以变量的方差。设a,b为常数,为常数,y=a+bx,则有:,则有:n组间方差组间方差n各组方差平均数各组方差平均数353.标准化值(标准化值(Z-score)n标准化值或标准得分也称为标准化值或标准得分也称为Z值。值。n对于来自不同均值和标准差的个体的数据,往对于来自不同均值和标准差的个体的数据,往往不能直接对比。这就需要将它们转化为同一往不能直接对比。这就需要将它们转化为同一规格、尺度的数据后再比较。规格、尺度的数据后再比较。n标准化值实际上是将不同均值和标准差的总体标准化值实际上是将不同均值和标准

    33、差的总体都转换为均值为都转换为均值为0、标准差为、标准差为1的总体,将各个的总体,将各个体的数据转换为它在其总体中的相对位置。体的数据转换为它在其总体中的相对位置。xxZi36【例例3-10】n解:由于两次考试成绩的均值和标准差不同,解:由于两次考试成绩的均值和标准差不同,每个学生两次考试的成绩不宜直接比较。每个学生两次考试的成绩不宜直接比较。n利用标准化值进行对比,表明第二次考试的成绩更利用标准化值进行对比,表明第二次考试的成绩更好一些。好一些。20.110809243.177080n假定某班学生先后两个两次进行了难度不同的综合假定某班学生先后两个两次进行了难度不同的综合考试,第一次考试成绩

    34、的均值和标准差分别为考试,第一次考试成绩的均值和标准差分别为80分分和和10分,而第二次考试成绩的均值和标准差分别为分,而第二次考试成绩的均值和标准差分别为70分和分和7分。张三第一、二次考试的成绩分别为分。张三第一、二次考试的成绩分别为92分分和和80分,那么全班相比较而言,他哪一次考试的成分,那么全班相比较而言,他哪一次考试的成绩更好呢?绩更好呢?374.对称钟形分布中的对称钟形分布中的3法则法则n3 法则法则关于钟形分布的一个近似的或经关于钟形分布的一个近似的或经验的法则:验的法则:n变量值落在变量值落在-3,+3范围以外的情况极为少见。范围以外的情况极为少见。因此通常将落在区间因此通常

    35、将落在区间-3,+3之外的数据称为之外的数据称为异常数据或称为离群点异常数据或称为离群点。x99.73%68.27%95.45%2x3xxx2x3xx38四、离散系数四、离散系数n前面的各变异指标都是有计量单位的,它们的数值大小前面的各变异指标都是有计量单位的,它们的数值大小不仅取决于数据的离散程度,还要受数据本身水平高低不仅取决于数据的离散程度,还要受数据本身水平高低和计量单位的影响。和计量单位的影响。n对不同变量(或不同数据组)的离散程度进行比较时,对不同变量(或不同数据组)的离散程度进行比较时,只有当它们的平均水平和计量单位都相同时,才能利用只有当它们的平均水平和计量单位都相同时,才能利

    36、用上述变异指标来分析;否则,须利用离散系数来比较它上述变异指标来分析;否则,须利用离散系数来比较它们的离散程度。们的离散程度。n例如,哪个变量的差异较大:体重,还是身高?例如,哪个变量的差异较大:体重,还是身高?n例如,体重的差异哪个较大:父亲,还是婴儿?例如,体重的差异哪个较大:父亲,还是婴儿?n 父亲:平均体重父亲:平均体重=70 kg,标准差,标准差=5 kgn 婴儿:婴儿:5 kg,1 kg39四、离散系数四、离散系数n离散系数是极差、四分位差、平均差或标准差等离散系数是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式变异指标与算术平均数的比率,以相对数的形式

    37、表示变异程度。表示变异程度。n将极差与算术平均数对比得到将极差与算术平均数对比得到极差系数极差系数,n将平均差与算术平均数对比得到将平均差与算术平均数对比得到平均差系数平均差系数。n最常用的离散系数是就标准差来计算的,称之最常用的离散系数是就标准差来计算的,称之为为标准差系数标准差系数:n离散系数大,说明数据的离散程度大,其平均数离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之亦然的代表性就差;反之亦然.xV40五、异众比率五、异众比率 n异众比率异众比率是指非众数值的次数之和在总次数中是指非众数值的次数之和在总次数中所占比重,其公式为:所占比重,其公式为:iimiimiimfff

    38、ffVOOO1n主要用于衡量一组数据以众数为分布中心的集中程度,主要用于衡量一组数据以众数为分布中心的集中程度,即衡量众数代表一组数据一般水平的代表性。即衡量众数代表一组数据一般水平的代表性。n其值越小,数据集中程度越高,众数代表性越大其值越小,数据集中程度越高,众数代表性越大.n【例例3-12】n规格的异众比率规格的异众比率 n颜色的异众比率:颜色的异众比率:496.0504.011iimmffVOO569.0431.011iimmffVOO41第三节第三节 变量分布的偏度与峰度变量分布的偏度与峰度n一、矩(动差一、矩(动差)n二、偏度(二、偏度(Skewness)n三、峰度(三、峰度(Ku

    39、rtosis)42一、矩(动差一、矩(动差)n矩(动差矩(动差)一系列刻画数据分布一系列刻画数据分布特征的指标的统称。特征的指标的统称。n变量值与数值变量值与数值 a 之离差的之离差的 K 次方的平均数次方的平均数称为称为变量变量 x 关于关于 a 的的K 阶矩阶矩,即:,即:nK 阶原点矩阶原点矩(当(当a=0 时)时)是数据的是数据的K次方的平均数次方的平均数.n一阶原点矩即算术平均数一阶原点矩即算术平均数;n二阶原点矩即平方平均数。二阶原点矩即平方平均数。niiniikiffax11)(nK 阶中心矩矩阶中心矩矩(当(当a=均值均值 时)时)是是以均值为中心计以均值为中心计算的离差算的离

    40、差 K 次方的平均数次方的平均数nk=1时,称为一阶中心矩,它恒等于时,称为一阶中心矩,它恒等于0,即,即 m1=0;nk=2时,称为二阶中心矩,也就是方差,即时,称为二阶中心矩,也就是方差,即m2=2。43二、偏度二、偏度(Skewness)n偏度偏度指数据分布的不对称程度或偏斜程指数据分布的不对称程度或偏斜程度。度。n以以 对称分布对称分布 为标准来区分为标准来区分n偏态分布又分左偏(负偏)和右偏(正偏)偏态分布又分左偏(负偏)和右偏(正偏).44偏态的测度方法偏态的测度方法okMxS -3 0 +3 极左偏态极左偏态 对称分布对称分布 极右偏态极右偏态一般有:一般有:45(二)由三个四分

    41、位数之间的关系求偏态系数(二)由三个四分位数之间的关系求偏态系数13132QQMQQSek值域:值域:-1 Sk 1 极左偏态极左偏态 对称分布对称分布 极右偏态极右偏态-1 0 +1 46偏度系数偏度系数n(三)利用(三)利用 3 阶中心矩来计算偏度系数。阶中心矩来计算偏度系数。n测定偏度最常用的方法测定偏度最常用的方法n原理:若分布不对称,则原理:若分布不对称,则 3 阶中心矩不为阶中心矩不为0。不对。不对此程度愈严重,此程度愈严重,3 阶中心矩的绝对值愈大。为消阶中心矩的绝对值愈大。为消除量纲的影响,可除以除量纲的影响,可除以3。33mSK 0 对称分布对称分布 左偏分布左偏分布 右偏分

    42、布右偏分布47三、峰度(三、峰度(Kurtosis)n峰度峰度是指变量的集中程度和分布曲线的是指变量的集中程度和分布曲线的陡峭(或平坦)的程度。陡峭(或平坦)的程度。n对峰度的度量通常以正态分布曲线为比较标准,对峰度的度量通常以正态分布曲线为比较标准,分为正态峰度、尖顶峰度和平顶峰度分为正态峰度、尖顶峰度和平顶峰度.n尖顶峰度尖顶峰度的分布曲线比正态分布的分布曲线比正态分布曲线更加尖峭、更高更窄;曲线更加尖峭、更高更窄;n平顶峰度平顶峰度的分布曲线比正态分配的分布曲线比正态分配曲线更为平缓、更低更扁平。曲线更为平缓、更低更扁平。48峰度系数峰度系数n原理:分布曲线的尖峭程度与偶数阶中心矩的数值

    43、大原理:分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系。以四阶中心矩小有直接关系。以四阶中心矩m4为基础,为了消除量为基础,为了消除量纲的影响,再除以标准差的四次方纲的影响,再除以标准差的四次方4所得到的相对数所得到的相对数即可衡量峰度。即可衡量峰度。344mKn当当K=0时,分布曲线为正态曲线;时,分布曲线为正态曲线;n当当K0时,为尖顶曲线,表示数据比正态分布更集中在均值时,为尖顶曲线,表示数据比正态分布更集中在均值附近;附近;K的数值越大,则变量分布曲线之顶端越尖峭;的数值越大,则变量分布曲线之顶端越尖峭;n当当K0时,为平顶曲线,表示数据比正态分布更分散;时,为平顶曲线,表示数据

    44、比正态分布更分散;K的的数值越小,则变量分布曲线之顶端越平坦。数值越小,则变量分布曲线之顶端越平坦。n对于正态分布曲线有:对于正态分布曲线有:m4/4=3,故峰度系数为:,故峰度系数为:49【例例3-13】n根据表根据表3-3的数据,计算使用寿命分布的偏度的数据,计算使用寿命分布的偏度系数和峰度系数。系数和峰度系数。n解:解:0646.0)6844.259(1131024)6844.259(100/1131024003333mSK1429.03)6844.259(21299315771444mKn计算结果表明,偏度系数几乎为计算结果表明,偏度系数几乎为0,峰度系数略小于,峰度系数略小于0,说明,说明该产品使用寿命的分布十分接近对称分布,分布曲线顶峰略该产品使用寿命的分布十分接近对称分布,分布曲线顶峰略比正态分布平坦一些。总的说来,该产品的使用寿命的分布比正态分布平坦一些。总的说来,该产品的使用寿命的分布非常接近正态分布。非常接近正态分布。50本章小结本章小结n测度集中趋势的各指标的含义、计算方测度集中趋势的各指标的含义、计算方法、特点和应用场合法、特点和应用场合n测度离散程度的各指标的含义、计算方测度离散程度的各指标的含义、计算方法、特点和应用场合法、特点和应用场合n偏度与峰度的含义和测度方法偏度与峰度的含义和测度方法n利用利用 Excel 计算描述统计量计算描述统计量51

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:统计学导论讲义版第3章课件.ppt
    链接地址:https://www.163wenku.com/p-4290806.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库