统计学第四章数据的描述性分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计学第四章数据的描述性分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 第四 数据 描述 分析 课件
- 资源描述:
-
1、第四章数据的描述性分析本章内容一、集中趋势的描述二、离散程度的描述三、分布的偏态与峰度集中趋势的描述数值平均数1.算术平均数2.调和平均数3.几何平均数集中趋势的描述位置平均数1.中位数2.众数对比离散程度的描述绝对指标1.极差与四分位差2.平均差3.标准差与方差相对指标离散系数离散程度的描述数据标准化分布的偏态与峰度原点距中心距分布的偏态与峰度分布的偏态分布的峰度集中趋势 集中趋势(Central Tendency)是一组数据向其中心靠拢的倾向。测定集中趋势就是寻找数据一般水平的代表值或中心值。集中趋势往往使用平均指标来测度 算术平均数 算术平均数(Arithmetic mean)是总体中各
2、个体的某个数量标志的总和与个体总数的比值,一般用符号 表示。x对应的个体总数某数量标志的总和算术平均数 简单算术平均数简单算术平均数加权算术平均数加权算术平均数分组数据分组数据算术平均数的数学性质算术平均数的数学性质 简单算术平均数简单算术平均数nxnxxxxniin121.加权算术平均数加权算术平均数分组niiniiinnnffxffffxfxfxx11212211.某厂某车间某厂某车间2020名工人加工某种零件的产量资料如下:名工人加工某种零件的产量资料如下:-单项式变量分布数列单项式变量分布数列 2020名工人零件生产数量分组资料名工人零件生产数量分组资料按日产量分组(件)x工人人数(人
3、)f总产量(件)xf14151617182485128601288518合计20319加权算术平均数权数组距式组距式加权均值(权数对均值的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组:甲组:考试成绩(考试成绩(X):0 20 100 人数分布(人数分布(F):):1 1 8 乙组:乙组:考试成绩(考试成绩(X):0 20 100 人数分布(人数分布(F):):8 1 1选择-4权数 次数次数f f的作用:当变量值比较大的次数多时,平均数就接近于变量的作用:当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一值大的一方
4、;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。此被称为权数。有时权数也用比重(频率)来表示有时权数也用比重(频率)来表示11niiniiifxxf算术平均数的数学性质算术平均数的数学性质各变量值关于算术平均各变量值关于算术平均数的偏离,在平方的意数的偏离,在平方的意义下达到最小义下达到最小1()0niiixxf21()minniiixxf调和平均数 调和平均数(Harmonic mean)是各变量值倒数的算术平均数的倒数。由于它是根据变量值倒数计
5、算的,所以又称作倒数平均数,通常用 表示。简单调和平均数简单调和平均数加权调和平均数加权调和平均数调和平均数是算术平均数的变形调和平均数是算术平均数的变形 Hx调和平均数 某蔬菜批发市场三种蔬菜的日成交量数据如下,计算三种蔬菜该日的平均批发价格。蔬菜名称批发价格(元)x成交量(公斤)f甲乙丙1.200.500.8015000250008000合计-48000算术平均数算术平均数调和平均数 若已知成交额,未知成交量,资料如下:若已知成交额,未知成交量,资料如下:蔬菜名称蔬菜名称批发价格批发价格(元元)x成交额成交额(元元)m甲甲乙乙丙丙1.200.500.8018000125006400合计合计
6、-36900加权调和平均数加权调和平均数1211121112.1.Hnniiniinnniiiiniimmmmmxmmmmmxxxxx变量值倒数变量值倒数简单调和平均数简单调和平均数niinxnxxxnxH12111.11调和平均数是算术平均数的变形调和平均数是算术平均数的变形1111iiiHnnmletfiiixiinniiiiimx fxxmfx调和平均数是标志值倒数的算术平均数的倒数,它和算术平均数的实际意义是相同的,计算公式也可以互推几何平均数 几何平均数(Geometric mean)是n个变量值连乘积的n次方根。它主要用于计算比率或速度的平均,当所掌握的变量值本身是比率的形式,而且
7、各比率的乘积等于总的比率时,就应采用几何平均法计算平均比率。简单几何平均数简单几何平均数加权几何平均数加权几何平均数Gx简单几何平均数简单几何平均数nniinnxxxxxG121.案例:案例:某水泥厂某水泥厂19951995年的水泥产量为年的水泥产量为100100万吨,万吨,19961996年与年与19951995年年相比增长率为相比增长率为9 9,19971997年比年比19961996相比增长率为相比增长率为6 6,19981998年比年比19971997年相比增长率为年相比增长率为2020,求这三年的年平均增长率,求这三年的年平均增长率319951995(19%)(16%)(120%)(
8、1)yyr简单几何平均数简单几何平均数案例2:一位投资者在1996年初买进一种股票,1996,1997,1998,1999这四年的收益率分别为4.5,2,3.5,5.4,计算该投资者在这四年内的平均收益率r419961241996(1)(1).(1)(1)yrrryr41241(1)(1).(1)rrrr4124(1)(1).(1)1rrrr简单几何平均数简单几何平均数nniinnxxxxxG121.6126ap ppap加权几何平均数加权几何平均数ffniiffffnffGinnxxxxx1.212121.4551419901990(110.2%)(18.7%)(19.6%)(1)yyr初初
9、位置平均数1.中位数2.众数中位数 中位数(Median)是一组数据按大小顺序排列后,处于中间位置的那个变量值,通常用 表示。由未分组数据确定中位数由未分组数据确定中位数由单项数列确定中位数由单项数列确定中位数eM分位数数值型未分组数据的中位数(5个数据的算例)原始数据原始数据:24 22 21 26 20排排 序序:20 21 22 24 26位位 置置:1 2 3 4 5数值型未分组数据的中位数(6个数据的算例)原始数据原始数据:10 5 9 12 6 8排排 序序:5 6 8 9 10 12位位 置置:1 2 3 4 5 6由未分组数据确定中位数由未分组数据确定中位数 对未分组数据资料,
10、需先将各变量值按大小顺序排列,并按公式 确定中位数的位置。21n当一个序列中的项数为奇数时,则处于序列中间位置的变量值就是中位数。例:7、6、8、2、3 当一个序列的项数是偶数时,则应取中间两个数的中点值作为中位数,即取中间两个变量值的平均数为中位数。例:2、5、7、8、11、12 未分组数据的中位数(计算公式)分组数据确定中位数分组数据确定中位数-单项式,组距式单项式,组距式(见分位数)见分位数)由单项数列确定中位数由单项数列确定中位数l按公式 确定中位数的位置l并对照累计次数确定中位数。211niif由单项数列确定中位数由单项数列确定中位数 先计算各组的累计次数,再按公式 确定中位数的位置
11、,并对照累计次数确定中位数。211niif分位数 三个数值可以将变量数列划分为项数相三个数值可以将变量数列划分为项数相等的四部分,这三个数值就定义为四分位数等的四部分,这三个数值就定义为四分位数(Quartiles)(Quartiles)。九个数值可以将变量数列划分为项数相等的十部九个数值可以将变量数列划分为项数相等的十部分,这九个数值就定义为十分位数分,这九个数值就定义为十分位数 (Dectile(Dectile)9999个数值可以将变量数列划分为项数相等的个数值可以将变量数列划分为项数相等的100100部分,这部分,这9999个数值就定义为百分位数个数值就定义为百分位数 (Percenti
12、le)(Percentile)四分位数 第一个四分位数称为下四分位数 第三个四分位数称为上四分位数1.1.集中趋势的测度值之一集中趋势的测度值之一2.2.排序后处于排序后处于25%25%和和75%75%位置上的值位置上的值未分组资料和单项资料的四分位数 先排序,若为单项分组资料,需计算累计频数 再通过公式确定位置:如果四分位数的位置不在某变量值上,必须按比例分摊变量值,以确定四分位数。4)1(34)1(241fQfQfQUML数值型未分组数据的四分位数(7个数据的算例)原始数据原始数据:23 21 30 32 28 25 26排排 序序:21 23 25 26 28 30 32位位 置置:1
13、2 3 4 5 6 7 数值型未分组数据的四分位数(6个数据的算例)原始数据原始数据:23 21 30 28 25 26排排 序序:21 23 25 26 28 30位位 置置:1 2 3 4 5 62、分组资料 先求累积频数 再确定位置 最后依公式求四分位数(也是按比例分摊)UUUfUUMMMfMMLLLfLLifSLQifSLQifSLQ14314214434fQfQuL的位置的位置其中其中为该分位数组的下限;为该分位数组的下限;为总次数;为总次数;为较小累计该分位数所在组前一组的累计次数为较小累计该分位数所在组前一组的累计次数为分位数组的次数;为分位数组的次数;为分位数组的组距。为分位数
14、组的组距。Lf 1LSLfLi以第一四分位数公式说明参数众数 众数(Mode)是一组数据中出现次数最多的那个变量值,通常用 表示。oM由未分组数据确定众数由未分组数据确定众数由单项数列确定众数由单项数列确定众数由组距数列确定众数由组距数列确定众数由未分组数据确定众数由未分组数据确定众数例1:7、6、8、2、3例2:7、6、8、2、3、4、3、2、3例3:7、6、8、2、3、4、3、2、3、2由单项数列确定众数由单项数列确定众数由由组距式数列确定众数确定众数先确定众数组;再用下述公式计算:上限公式下限公式iUMiLMoo212211按成绩分组按成绩分组人数人数5050 以下以下505060606
15、0607070(L)(L)70708080(U)(U)808090909090 以上以上101020203030(f(fm-1m-1)5050(f(fm m)4040(f(fm+1m+1)3030合计合计180180符号含义:(A)L为众数组的下限,U为上限;(B)i为众数组的组距;(C)1=fmfm-1,即众数组的次数与前一组次数之差;2=fm fm+1,即众数组的次数与后一组次数之差。STAT40 50 60 70 80 90 10050 40 30 20 10BCEDx y(L)(U)Mo=L+x=U-yO121211121212oA CF DB ExyiB OA CA C OO D F
16、O EF DxxiMLiix 相似于AF重点考察众数位置和相邻两组次数的关系重点考察众数位置和相邻两组次数的关系众数取值的特点:众数取值的特点:众数的数值始终偏向相邻组中次数较大的组,当相邻两组众数的数值始终偏向相邻组中次数较大的组,当相邻两组的次数相等时,众数则是众数组的组中值。的次数相等时,众数则是众数组的组中值。注意问题注意问题(1 1)优点:不易受极端值的影响。)优点:不易受极端值的影响。(2 2)缺点:未利用所有信息,)缺点:未利用所有信息,缺乏敏感性和不适合代数运算缺乏敏感性和不适合代数运算对比1.众数、中位数和算术平均数的关系众数、中位数和算术平均数的关系确定分布是否确定分布是否
展开阅读全文