统计学-第3章-数据分布特征描述课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计学-第3章-数据分布特征描述课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 数据 分布 特征 描述 课件
- 资源描述:
-
1、n以数值特征,对以数值特征,对统计数据分布统计数据分布进行进行量化描述量化描述。n主要包括三方面:主要包括三方面:集中趋势集中趋势 用用平均指标平均指标描述(位置特征);描述(位置特征);离中趋势离中趋势 用用变异指标变异指标描述(离散特征);描述(离散特征);偏斜程度偏斜程度 用用偏度偏度和和峰度峰度描述(偏斜特征、峰度特征)。描述(偏斜特征、峰度特征)。 本章学习任务本章学习任务n学习要求:学习要求: 理解理解测度统计数据集中趋势、离散程度的概念测度统计数据集中趋势、离散程度的概念、指标、相互关系;、指标、相互关系; 掌握掌握主要分析指标主要分析指标的的计算方法计算方法和和应用场合,应用场
2、合,并能并能熟练熟练进行相关进行相关计算分析计算分析。数据分布特征与测度:概览数据分布特征与测度:概览数据分布特征测度数据分布特征测度分布形状分布形状集中趋势集中趋势离散程度离散程度幂平均数幂平均数中位数中位数众众 数数异众比率异众比率方差、标准差方差、标准差峰峰 度度平均差平均差极差极差偏偏 度度变异系数变异系数第一节第一节 统计变量集中趋势测定统计变量集中趋势测定一一 集中趋势指标及作用集中趋势指标及作用二二 数值平均数数值平均数三三 众数与中位数(众数与中位数(位置平均数位置平均数)一、集中趋势指标及作用一、集中趋势指标及作用n集中趋势集中趋势(Central tendency)集中趋势
3、集中趋势 即即一组数据一组数据向其向其中心值中心值聚集或靠聚集或靠拢拢的的倾向和程度倾向和程度。 用用平均指标平均指标表示,代表数据的表示,代表数据的一一般水平般水平。测定测定集中趋势集中趋势是认识数据分布特征的是认识数据分布特征的基本内容基本内容。n集中趋势指标有两类:集中趋势指标有两类:数值平均数数值平均数 根据根据全部数据计算得到全部数据计算得到的代表值。的代表值。 优点:优点:数学性质良好,可用于统计推断数学性质良好,可用于统计推断 缺点:缺点:易受极端值影响易受极端值影响。 主要有主要有算术平均数、调和平均数算术平均数、调和平均数及及几几何平均数何平均数,三者均为,三者均为幂平均数幂
4、平均数特例。特例。位置平均数位置平均数 根据根据对总体中处于特定位置的单个或部对总体中处于特定位置的单个或部分单位标志值直接观察或推算确定分单位标志值直接观察或推算确定的代表值。的代表值。 优点:优点:不易受极端值影响,具有较好稳健性。不易受极端值影响,具有较好稳健性。 缺点:缺点:不宜用作统计推断不宜用作统计推断。 主要包括主要包括众数众数和和中位数中位数。n集中趋势指标作用集中趋势指标作用1反映变量分布的反映变量分布的集中趋势集中趋势和和一般水平一般水平。如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。2比较同一现象在不同空间或不同阶段的发比较同一现象在不同空间或不同阶段的发展
5、水平,反映现象展水平,反映现象变化特征变化特征、趋势趋势和和规律性规律性。能消除总体规模差异造成的不利影响;在一定程度上减弱偶然因素的影响。一、集中趋势指标及作用一、集中趋势指标及作用3分析现象之间的分析现象之间的依存关系依存关系。如研究劳动者文化程度与收入的关系。4(数值)平均指标是推断统计中的(数值)平均指标是推断统计中的重要重要统计量统计量,是进行统计推断的基础。,是进行统计推断的基础。几种常见的位置特征数几种常见的位置特征数n数据分布的位置特征数实际上也是数据的代表值实际上也是数据的代表值,代表了数据的一般水平。n在不同场合,可以适当选用平均数、中位数、众数充当位置特征数(代表值)n其
6、中平均数不同于中位数、众数的特点在于:其中平均数不同于中位数、众数的特点在于:平均数是由所研究的全体数据参加计算所得。n平均数的一般形式叫做幂平均数幂平均数。常见的有算术平均数、几何平均数、调和平均数。二、数值平均数二、数值平均数(一)幂平均数(一)幂平均数幂,power变量X取N个值: 。权数为一组正数: 。加权幂平均数一般形式为: 其中,k 为任意实数。Nxxx,21Nwww,21kNiiNiikipwwxM11权数w均相等时,加权平均数退化为简单平均数: kNikipNxM1n特例情况特例情况 幂平均数幂平均数算术平均数(幂指数算术平均数(幂指数 k=1) 调和平均数(幂指数调和平均数(
7、幂指数 k=-1)几何平均数(幂指数几何平均数(幂指数 k0) 其他幂平均数其他幂平均数nk=1:算术平均数算术平均数 加权加权 简单简单NiiNiiiwwxx11NxxNii1nk=-1:调和平均数调和平均数 加权加权 简单简单NiiiNiiNiiiNiiHwxwwwxM1111111NiiNiiHxNNxM11111nk0:几何平均数几何平均数加权加权简单简单NiiNwwNwwGxxxM12121NNGxxxM21关于加权问题关于加权问题n权数确定方式:客观权数: 权数由实际统计资料获得获得或推算推算。主观权数: 根据研究问题,由研究者主观赋值主观赋值。n权数作用:权衡权衡变量的各种取值在
8、计算平均数时的重重要性要性。权数作用,根本上是通过权数结构权数结构实现。n权数作用:即使不改变被平均的数值,仅改变权数结构,即可改变平均数水平。 例如,改变教师职称结构,而不改变各种职例如,改变教师职称结构,而不改变各种职称教师课时费标准,会改变平均课时费水平。称教师课时费标准,会改变平均课时费水平。n权数实质权数的实质实质在于其结构,即结构比例形式(比重权数)。其更能清晰表明权数之权衡轻重权衡轻重的作用。n权数形式有2种:绝对数形式结构比例形式 kNiNiiikikNiiNiikipwwxwwxM1111NiNiiiiNiiiNiiHwwxwwxM11111111NiwwiwwNwwGNii
9、iNiiNxxxxM1211121 NiNiiiiNiiNiiiwwxwwxx1111(二)算术平均数(二)算术平均数算术平均数算术平均数(Arithmetic mean ),也称均),也称均值(值(mean)。)。由一组数据的总和(由一组数据的总和(总体标志总量总体标志总量)除以)除以该组数据的项数(该组数据的项数(总体单位总量总体单位总量)得到)得到;算术平均数算术平均数=总体标志总量总体标志总量/总体单位总量总体单位总量是最常用的数值平均数;是最常用的数值平均数;根据掌握资料不同,其有多种计算公式。根据掌握资料不同,其有多种计算公式。 1简单算术平均数简单算术平均数对对未分组数据未分组数
10、据,采用简单算术平均数公式。即,采用简单算术平均数公式。即把各项数据直接加总,然后除以总项数。把各项数据直接加总,然后除以总项数。计算公式:计算公式:NxxNii1分组分组举例举例表表 3-2年龄年龄人数(人)人数(人)xf2242510305501合计合计20表表 3-1男性男性女性女性22222222252525252525252525253030303050309 .26205382030.2250303025252525252222n解解:采用简单算术平均法计算,即全体队员的采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁)平均年龄为(单位:周岁)75.31450302522
11、分组数据不能简单平分组数据不能简单平均均 !因为各组变量值!因为各组变量值的次数(权数)不等!的次数(权数)不等!若采用简单平均:若采用简单平均:应采用加权平均。应采用加权平均。两种计算公式结果相同!两种计算公式结果相同!2加权算术平均数加权算术平均数对对单项式分组资料单项式分组资料,应以各标志值出现,应以各标志值出现次数为权数次数为权数加权加权平均平均 。加权算术平均数计算公式:加权算术平均数计算公式:n例例3-1单项式单项式分组资料(表分组资料(表3-2)计算方法为:)计算方法为:fxfffxffffxfxfxxniiniiinnn11212211.22 425 1030 550 14 1
12、05 153826.920 x 3由组距分组资料计算由组距分组资料计算组距分组组距分组资料中,资料中,各组变量值不唯一各组变量值不唯一,是一个,是一个区间区间;计算时,各组变量值通常用计算时,各组变量值通常用组中值(近似)代表组中值(近似)代表;用组中值代替实际值,其用组中值代替实际值,其假定条件假定条件是是各组内数据呈均匀分各组内数据呈均匀分布或对称分布布或对称分布。由于实际情况中该条件未必满足,故计算。由于实际情况中该条件未必满足,故计算结果是结果是近似值近似值;与单项式分组资料一样,采用加权算术平均数计算。与单项式分组资料一样,采用加权算术平均数计算。fxfffxffffxfxfxxni
13、iniiinnn11212211.ffxx举例举例表表3-3 3-3 节能灯泡使用寿命数据节能灯泡使用寿命数据使用寿命使用寿命(小时)(小时) 组中组中值值x数量数量fxf 频率频率f /fxf/f1000以下以下900218000.020 181000-12001100888000.080 881200-1400130016208000.160 2081400-1600150035525000.350 5251600-1800170023391000.230 3911800-2000190012228000.120 2282000以上以上2100484000.040 84合合 计计10015
14、420011542154210015420011niiniiiffxx解:平均使用寿命为解:平均使用寿命为154211niiiniiffxx4比率类型统计变量求平均数比率类型统计变量求平均数(1)比率类型统计变量,指)比率类型统计变量,指平均指标平均指标和和相对指标相对指标。(2)对比率类型变量求平均,涉及)对比率类型变量求平均,涉及个体比率个体比率 和和总总比率比率 两个概念。两个概念。(3)对比率类型变量计算平均数,基本要求是:)对比率类型变量计算平均数,基本要求是:比率类型比率类型变量变量平均值平均值M,等于等于个体比率个体比率的的总比率总比率。简言之:。简言之:先求和,先求和,再对比再
15、对比。(4)根据掌握资料不同,可采用)根据掌握资料不同,可采用三种等价形式三种等价形式: 总比率,加权算术平均,加权调和平均总比率,加权算术平均,加权调和平均NiiNiiba11/iiibax/)/(/111111NiiiNiiNiiNiiiNiiNiixaabbxbaM例如:对例如:对相对数相对数求算术平均数求算术平均数u对对相对数相对数而言,由于各个而言,由于各个相对数的对比基础不同,相对数的对比基础不同,采用简单算术平均不合理,采用简单算术平均不合理,必须加权平均。必须加权平均。权数选择必须符合该相对数权数选择必须符合该相对数本身的计算公式,通常为该本身的计算公式,通常为该相对数的相对数
16、的分母分母指标。指标。对表对表3-4的分组资料:的分组资料: 其中,分母其中,分母b为权数为权数f 表表 3-4企企 业业流通费用流通费用率()率()x=a/b商品商品销售额销售额(万元)(万元)b流通流通费用费用(万元)(万元)a甲甲161600256乙乙104750475丙丙124000480合合 计计103501211%7 .11%10010350121140004750160040001247501016001611niiniiiffxx又如:对又如:对平均数平均数求算术平均数求算术平均数n某商贸公司购入一批水果,分等级收购价格和收购金额如下某商贸公司购入一批水果,分等级收购价格和收购
17、金额如下表。试求这批水果的平均收购价格。表。试求这批水果的平均收购价格。 n解:解:376601.6268/23150qxqx元 千克5算术平均数主要数学性质算术平均数主要数学性质(1)算术平均数与变量值个数乘积,等于各变量值总和。)算术平均数与变量值个数乘积,等于各变量值总和。 (2)各变量值与算术平均数的离差之总和,等于零。)各变量值与算术平均数的离差之总和,等于零。(3)各变量值与算术平均数的离差平方之总和最小。)各变量值与算术平均数的离差平方之总和最小。 (从全(从全部数据看,算术平均数最接近所有变量值)部数据看,算术平均数最接近所有变量值)niixxn10)1niixx(min)12
18、niixx(n性质(性质(3)证明:)证明:(三)调和平均数(三)调和平均数(Harmonic mean)调和平均数,也称倒数平均数。调和平均数,也称倒数平均数。各变量值各变量值倒数倒数(1/xi)的)的算术平均数算术平均数的的倒数倒数。计算公式为:计算公式为:niiiniinnnnnnHxmmxmxmxmmmmmmmmxmxmxx11221121212211.1.111n社会经济统计中所应用的调和平均数,通常是加权社会经济统计中所应用的调和平均数,通常是加权算术平均数的算术平均数的变形变形。n已知各组变量值已知各组变量值 xi 和(和(xi fi)而缺乏)而缺乏 fi 时,加权算术时,加权算
19、术平均数通常可变形为调和平均数形式来计算。平均数通常可变形为调和平均数形式来计算。n回忆回忆3-4求解:求解:7 .11100103501211124801047516256480475256)()(1111niiiiniiiniiniiixfxfxffxx(四)几何平均数(四)几何平均数(Geometric mean)n简单几何平均数简单几何平均数 n个变量值连乘积的个变量值连乘积的n次方根。次方根。n加权几何平均数加权几何平均数n适用于各个变量值之间存在连乘积关系的场合。适用于各个变量值之间存在连乘积关系的场合。主要用于计算现象的主要用于计算现象的平均发展速度平均发展速度(第九章);(第九
20、章);也适用于对某些具有环比性质的也适用于对某些具有环比性质的比率求平均比率求平均(下例)。(下例)。nniinnGxxxxx121.niiikkfnififfffkffGxxxxx121211).(21.举例举例n例例3-5。某企业产品的加工要顺次经过前后衔接的五道。某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为工序。本月该企业各加工工序的合格率分别为88、85、90、92、96,试求这五道工序的平均合,试求这五道工序的平均合格率。格率。n解:本例中各工序的合格率具有环比的性质,企业产解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率
21、之连乘积。所以,所品的总合格率等于各工序合格率之连乘积。所以,所求平均合格率应为:求平均合格率应为:%31.90%9692%90%85885Gx(五)几种平均数大小关系(五)几种平均数大小关系 对同一批数据和权数,三种平均数关系:对同一批数据和权数,三种平均数关系: 调和平均调和平均 几何平均几何平均 算术平均算术平均当且仅当所有观察值全部相等时,等号成立;否当且仅当所有观察值全部相等时,等号成立;否则不等式严格成立。则不等式严格成立。 证明思路:证明思路:首先证明幂平均数随幂值首先证明幂平均数随幂值 k 单调递增变化(可由单调递增变化(可由微分方法证明)。微分方法证明)。根据三类平均数根据三
22、类平均数 k 取值关系,调和平均数(取值关系,调和平均数(k=-1)、几何平均数()、几何平均数(k0)、算术平均数()、算术平均数(k=1)可得到以上结论。可得到以上结论。平均数的应用场合平均数的应用场合n常见的应用场合有:常见的应用场合有:作为统计指标的一种表现形式作为统计指标的一种表现形式作为统计总体分布的位置特征数作为统计总体分布的位置特征数反映一个统计变量所有观察值的一般水平反映一个统计变量所有观察值的一般水平抵消掉随机试验中的偶然因素影响,显示出试验抵消掉随机试验中的偶然因素影响,显示出试验的规律性水平。的规律性水平。 n数据是随机试验的结果。数据是随机试验的结果。n随机试验的个别
23、结果会呈现出或高或低的起伏波动随机试验的个别结果会呈现出或高或低的起伏波动,实际上这是由偶然因素影响造成的。,实际上这是由偶然因素影响造成的。n在进行大量重复试验,将试验结果简单算术平均,在进行大量重复试验,将试验结果简单算术平均,那么随着试验次数的增加,算术平均值就会越来越那么随着试验次数的增加,算术平均值就会越来越逼近一个稳定值,而这个稳定值就是试验的规律性逼近一个稳定值,而这个稳定值就是试验的规律性水平(数学期望值)。水平(数学期望值)。n因此,在统计分析中,常常采用算术平均的手法去因此,在统计分析中,常常采用算术平均的手法去抵消现象中的偶然影响,以期抵消现象中的偶然影响,以期近似地近似
24、地认识现象的规认识现象的规律性水平。律性水平。三、众数与中位数三、众数与中位数(一)众数(一)众数(Mode)n众数是一组数据中众数是一组数据中出现出现频数最多、频率最高频数最多、频率最高的变量的变量值,常用值,常用 Mo 表示。表示。n众数代表最常见、最普遍的状况,可度量现象集中众数代表最常见、最普遍的状况,可度量现象集中趋势。趋势。可测度可测度定性变量定性变量集中趋势,也可度量集中趋势,也可度量定量变量定量变量集中趋势。集中趋势。 在社会经济现象的管理决策中具有广泛应用。在社会经济现象的管理决策中具有广泛应用。n对分布数列求众数,具有对分布数列求众数,具有条件性条件性。存在性存在性: 若分
25、布数列没有明显集中趋势,则若分布数列没有明显集中趋势,则不存在不存在众数;众数;唯一性唯一性: 若分布数列有多个相对集中趋势,则若分布数列有多个相对集中趋势,则有多个有多个众数。众数。 从分布曲线上看,众数就是一个变量分布曲线的最高峰所对应的变量值。(见课本55页图3-1)n为确定众数,通常要编制分布数列。为确定众数,通常要编制分布数列。众数是分布曲线众数是分布曲线最高点最高点对应的标志值。对应的标志值。单项式单项式分布数列中,众数是具有最多次数的标志值,可分布数列中,众数是具有最多次数的标志值,可观观察察得到。如表得到。如表3-2中,众数值中,众数值Mo25,组距式组距式分布数列中,众数需要
展开阅读全文