第3章统计数据整理与显示统计学陶浪平南京大学出版课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第3章统计数据整理与显示统计学陶浪平南京大学出版课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计数据 整理 显示 统计学 平南 大学 出版 课件
- 资源描述:
-
1、第第3 3章章本本 章章 内内 容容 第一节第一节 数据整理概述数据整理概述 第二节第二节 数据的预处理数据的预处理 第三节第三节 数据分组数据分组 第四节第四节 数据显示数据显示2022-6-3第一节第一节 数据整理概述数据整理概述 一、统计数据整理的含义与要求一、统计数据整理的含义与要求 二、统计数据整理的步骤二、统计数据整理的步骤 三、统计数据的预处理三、统计数据的预处理2022-6-3 统计整理统计整理就是对搜集得到的初始数据进行就是对搜集得到的初始数据进行审核、分组、汇总,使之条理化、系统化,变审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的综合数据的工作过程。成能反映总体
2、特征的综合数据的工作过程。什么是统计整理,它有什么用什么是统计整理,它有什么用?作用:承前启后、积累历史资料作用:承前启后、积累历史资料一、数据整理的含义与要求一、数据整理的含义与要求(一)统计数据整理的含义(一)统计数据整理的含义一、数据整理的含义与要求一、数据整理的含义与要求原始资料综合资料总体单位资料总体资料数据整理统计研究过程统计研究过程数据搜集数据搜集数据整理数据整理数据分析数据分析(二)(二)统计数据整理的意义统计数据整理的意义(三)(三)统计数据整理的要求统计数据整理的要求数据整理原则数据整理原则二、统计数据资料整理的步骤二、统计数据资料整理的步骤 制定制定统计整理方案统计整理方
3、案数据显示(统计图表)数据显示(统计图表)数据处理数据处理(分组和汇总分组和汇总)数据的预处理(审核筛选)数据的预处理(审核筛选)数据的保存与公布数据的保存与公布 统计整理方案统计整理方案是统计整理过程的工作安排。是统计整理过程的工作安排。主要内容:主要内容:一是确定总体资料的处理方法,如何分组,用何一是确定总体资料的处理方法,如何分组,用何种形式整理;种形式整理;二是确定通过整理要得到哪些指标;二是确定通过整理要得到哪些指标;三是确定整理资料的显示形式。三是确定整理资料的显示形式。讨论:要研究某市中学生参加体育活动与身体素质的关讨论:要研究某市中学生参加体育活动与身体素质的关系,从全市抽取系
4、,从全市抽取10001000名中学生进行调查,取得了有关资名中学生进行调查,取得了有关资料。你认为需要用哪些指标,才能达到研究目的?料。你认为需要用哪些指标,才能达到研究目的?第二节第二节 数据的预处理数据的预处理在正式处理之前的前期准备工作,主要包括:在正式处理之前的前期准备工作,主要包括: 数据审核数据审核 数据筛选数据筛选 数据排序数据排序审核内容审核内容原始数据原始数据次级数据次级数据完整性完整性准确性准确性完整性完整性时效性时效性适用性适用性准确性准确性及时性及时性(一)数据审核(一)数据审核原始数据原始数据(raw data)n 审核的内容审核的内容1.完整性审核完整性审核n检查应
5、调查的单位或个体是否有遗漏检查应调查的单位或个体是否有遗漏n所有的调查项目或指标是否填写齐全所有的调查项目或指标是否填写齐全2.准确性审核准确性审核n检查数据是否真实反映客观实际情况,内检查数据是否真实反映客观实际情况,内容是否符合实际容是否符合实际n检查数据是否有错误,计算是否正确等检查数据是否有错误,计算是否正确等(一)(一)数据的审核数据的审核原始数据原始数据(raw data)n审核数据准确性的方法审核数据准确性的方法逻辑检查逻辑检查n从定性角度,审核数据是否符合逻辑,内容是否从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象合理,各项目或数字之间有无相
6、互矛盾的现象n主要用于对分类和顺序数据的审核主要用于对分类和顺序数据的审核计算检查计算检查n检查调查表中的各项数据在计算结果和计算方法检查调查表中的各项数据在计算结果和计算方法上有无错误上有无错误n主要用于对数值型数据的审核主要用于对数值型数据的审核n3.及时性审核及时性审核n填报单位是否按时报送了有关资料n对不报、漏报或迟报的现象要及时查清(一)(一)数据的审核数据的审核原始数据原始数据(raw data)(二)(二)数据的审核数据的审核二手数据二手数据(second hand data)1.1.适用性审核适用性审核n弄清楚数据的来源、数据的口径以及有关的弄清楚数据的来源、数据的口径以及有关
7、的背景材料背景材料n确定数据是否符合自己分析研究的需要确定数据是否符合自己分析研究的需要2.2.时效性审核时效性审核n尽可能使用最新的数据尽可能使用最新的数据确认是否必要做进一步的加工整理确认是否必要做进一步的加工整理 数据排序作用:数据排序作用: 发现数据的变化趋势,找到解决问题的线索;发现数据的变化趋势,找到解决问题的线索;有助于对数据检查纠错,为分类或分组提供依有助于对数据检查纠错,为分类或分组提供依据;有时可直接利用排序结果作分析。据;有时可直接利用排序结果作分析。 数据排序数据排序是按一定顺序将数据排列。是按一定顺序将数据排列。三、数据排序三、数据排序数据排序数字型排序:递增、递减字
8、母型排序:升序、降序汉字型排序:笔画、字母数据排序数据排序 ( (方法方法) )定类数据的排序定类数据的排序字母型数据字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分定距数据和定比数据的排序定距数据和定比数据的排序n递增排序递增排序:设一组数据为x1,x2,xn,递增排序后可表示为:x(1)x(2)x(2)x(n)例如例如: :企业按经济类型分组:企业按经济类型分组:国有企业国有企业 集体企业集体企业 个体企业个体企业 其它企业其它企业考试按考分分组:考试按考分分组:6060分以下分以下 (不及格)
9、(不及格)60607070分分 (及格)(及格)70708080分分 (中等)(中等)80809090分分 (良好)(良好)9090100100分(优秀)分(优秀)第三节第三节 数据分组数据分组一、数据分组的原则和作用一、数据分组的原则和作用(classification) 统计分组统计分组有两个方面的含义,即:有两个方面的含义,即:统计统计分组分组对总体而言对总体而言即将总体区分为性质即将总体区分为性质不同的若干组成部分不同的若干组成部分是是“合合” 即将性质相同的总即将性质相同的总体单位合为一组体单位合为一组是是“分分”对总体单位而言对总体单位而言如何选择分组如何选择分组标标志志?1.符合
10、统计研究的目的和要求 性别、年龄、籍贯、民族、高考入校成绩、身高、体重、爱好 等选哪一个来分组?2.选择最能说明事物本质特征的标志如何划分各组如何划分各组界界限?限?属性分组时:属性分组时:1.1.有时组限是自然形成的或比较明显有时组限是自然形成的或比较明显2.2.如存在属性之间的过渡形态,划分困难如存在属性之间的过渡形态,划分困难如学生与非学生的划分、城乡划分如学生与非学生的划分、城乡划分变量分组时,注意反映组间质的差别变量分组时,注意反映组间质的差别n穷尽原则:使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。n互斥原则:在特定的分组标志下,总体中的任何一个单位的
11、只能归属于某一组,而不能同时或可能归属于几个组。2.2.统计分组的原则统计分组的原则3.3.数据分组的作用数据分组的作用3.3.统计分组的作用统计分组的作用 (1 1)划分社会经济现象的类型,研究其特征和规律性)划分社会经济现象的类型,研究其特征和规律性2533%25422022-6-3划分现象的类型划分现象的类型好人好人坏人坏人男人男人女女人人婴儿婴儿青青年年老人老人 (2 2)研究总体的内部结构和比例关系;)研究总体的内部结构和比例关系;按考分按考分 分分 组组 学生学生 人数人数比重比重% %505060 60 606070 70 707080 80 808090 90 90901001
12、00合合 计计这五个组反映了学生考试成绩的不同类型,统计各组人数后,可以计算出比重,反映出学生成绩的构成情况。揭示现象的内部结构揭示现象的内部结构中国人口规模中国人口规模与结构变化图与结构变化图企业按商品销售额分组企业按商品销售额分组(万元)(万元)企业单位数企业单位数(个)(个)流通费用率流通费用率 ()() 400 400以下以下400 400 500500500 500 600600600 600 800800800 800 10001000 1000 1000以上以上 3 310101515 8 8 7 7 2 213.8413.8413.0913.0912.6612.66 11.94
13、 11.94 11.23 11.23 10.28 10.28某地区45个商业企业销售额和流通费用率分组资料分析:销分析:销售额的规售额的规模和流通模和流通费用率的费用率的关系关系。(3 3)揭示社会经济现象之间的相互依存关系)揭示社会经济现象之间的相互依存关系分析现象间的依存关系分析现象间的依存关系身高与体重有关系吗?身高与体重有关系吗?哇!哇!咦!咦!结论:数据分组结论:数据分组是对总体认识深化的手段,它是一切统计研究是对总体认识深化的手段,它是一切统计研究的基础,应用于统计工作的全过程,是统计研究的基本方法。的基础,应用于统计工作的全过程,是统计研究的基本方法。二、统计分组的种类二、统计分
14、组的种类按分组标志的性质按分组标志的性质不同分不同分 按品质标志分组按品质标志分组按数量标志分组按数量标志分组按分组标志的多少及按分组标志的多少及排列不同分排列不同分 简单分组简单分组复合分组复合分组单项式分组单项式分组组距分组组距分组1.1.简单分组:简单分组: 即对统计总体只按一个标志进分组 例如:例如:企业按经济类型分组企业按经济类型分组国有企业国有企业 集体企业集体企业 个体企业个体企业 其它企业其它企业男生男生女生女生学生按性别分组学生按性别分组2.2.复合分组:复合分组:即对同一总体同时按两个或两个以上标志层叠起来进行的分组。学生按年级、性别分组学生按年级、性别分组一年级一年级二年
15、级二年级男生男生 女生女生男生男生 女生女生例如:例如:统计分组体系:统计分组体系:是根据统计分组的要求,对同一总体进行多是根据统计分组的要求,对同一总体进行多种不同分组而形成的体系,体系中的各种分种不同分组而形成的体系,体系中的各种分组相互联系、相互补充,以加深对总体的认组相互联系、相互补充,以加深对总体的认识识。分组体系有平行分组体系和复合分组体系两种。对教师对教师的分类的分类按性别分类按性别分类男性男性女性女性按职称分类按职称分类按年龄分类按年龄分类高级高级中级中级初级初级青年青年中年中年共计共计7组组 2+3+2 对对同一总体选择两个或两个以上的同一总体选择两个或两个以上的标志分别进行
16、简单分组,就形成平行分组体系。标志分别进行简单分组,就形成平行分组体系。 平行分组体系:平行分组体系: 复合分组体系:复合分组体系: 对对同一总体选择多个复合分组,组同一总体选择多个复合分组,组成的分组体系就是复合分组体系。成的分组体系就是复合分组体系。复合分组与复合分组体系复合分组与复合分组体系 例:例:3.3.按品质标志分组按品质标志分组 品质标志分组品质标志分组就就是用反映事物的属性、性质的标志是用反映事物的属性、性质的标志进行分组。进行分组。国民经济按产业分组:国民经济按产业分组: 第一产业第一产业 第二产业第二产业 第三产业第三产业人口按性别分组:人口按性别分组: 男性男性 女性女性
17、 用文字来用文字来表示各组表示各组性质上的性质上的差别差别品质标志分组一般比较简单品质标志分组一般比较简单,但是有的分组标志的表,但是有的分组标志的表现却较复杂,不易划分各组,如产品按用途分组、商现却较复杂,不易划分各组,如产品按用途分组、商品零售额按城乡分组、工业部门的细分类等,为此有品零售额按城乡分组、工业部门的细分类等,为此有关部门制定了相应的统计分类标准。关部门制定了相应的统计分类标准。 数量标志分组,数量标志分组,即即变量分组变量分组。例如,例如,按考分分组按考分分组(分)(分)用数量来用数量来表示各组表示各组性质上的性质上的差别差别 6060以下以下 60 60 70 70 70
18、70 80 80 80 80 90 90 90 90 1001004.4.按数量标志分组按数量标志分组 即通过数量的变化来区即通过数量的变化来区分各组质的差别,而不是单纯的数量差别。分各组质的差别,而不是单纯的数量差别。 即要以什么样的数量作即要以什么样的数量作为划分标准。是单项式或是组距式?如果是组距为划分标准。是单项式或是组距式?如果是组距式分组还要确定组距、组数、等距或不等距、组式分组还要确定组距、组数、等距或不等距、组限等内容,一般可依据以下原则:限等内容,一般可依据以下原则: 1 1)离散变量)离散变量A A、变量值取值不多、变量值取值不多单项式分组单项式分组B B、变量值取值较多、
19、变量值取值较多组距式分组组距式分组 2 2)连续变量)连续变量组距式分组组距式分组第一,明确分组的目的,第一,明确分组的目的,. . 第二,采用适当的分组形式,第二,采用适当的分组形式,注意:注意: 定义:定义:各组由一个具体的变量值(单项)来表示形成的单项式变量数列。 变量值又称标志值。按数量标志分组,数量标志的表现,就是变量的取值。 适用范围:适用范围:单项式分组一般适用于离散型变量,离散型变量,且变量变量值较少、变量变动范围不大值较少、变量变动范围不大的场合。 缺陷:缺陷:在数据较多的情况下,单项式分组由于组数较多,不便于观察数据分布的特征和规律。(1 1)单项式分组:)单项式分组:己知
20、某车间有己知某车间有2424名工人,他们的日产量(件)名工人,他们的日产量(件)分别是:分别是:2020,2323,2020,2424,2323,2121,2222,2525,2626,2020,2121,2121,2222,2222,2323,2222,2222,2424,2525,2121,2222,2121,2424,23.23.要求根据以上资料编制变量数列。要求根据以上资料编制变量数列。单项分组举例单项分组举例日产量(件)日产量(件)X工人数(人工人数(人) f202122232425263564321合计合计24编制结果如下:编制结果如下:以变量值变动的一定范围(区间)作为一组,表现
21、为“从到”,区间的距离就是组距。这样的分组所形成的变量分配数列叫组距式变量数列组距式变量数列,简称组距数列。各组组距相等各组组距相等(2 2)组距式分组)组距式分组组距式分组中的几个概念组距式分组中的几个概念A.组限组限表示各组界限的变量值(即区间两端的数值)下限:下限:区间最小值上限:上限:区间最大值开口组和闭口组开口组:统计分组中缺上限或缺下限的组闭口组:统计分组中上、下限均齐全的组组限的写法:间断式写法连续式写法:“上限不在上限不在内内”47B.组数组数组数的确定应以能够显示数据的分布特征和规律为目的。斯特杰斯经验公式:式中:N总体单位数数据的个数,对结果用四舍五入的办法取整数即为组数。
22、 NKlg3 . 31?C.C.组距:组距:区间的距离(连续式写法)(连续式写法) 组距=本组上限本组下限(间断式写法)组距=本组上限-前组上限 或=本组下限-前组下限 或=本组上限-本组下限+1(分组标志为离散变量) 斯特杰斯经验公式:其中,d为组距,R表示全距,即最大变量值与最小变量值之差,K为组数NXXKRdlg3 . 31minmaxD.D.等距分组:等距分组:在组距式分组中,每个组的组距均相等。一般在现象性质差异的变动比较均衡条件下使用。优点:易于掌握次数分布的特征;各组次数可以直接比较。 50适用范围:适用范围:(1)变量值分布很不均匀的情况;(2)变量值相等的量具有不同意义的情况
23、;(3)变量值按一定比例发展变化的情况;优点:优点:能够准确地描述偏态分布;能将性质相同的总体单位归为一组。缺点:缺点:由于各组的组距不同,各组次数直接比较是没有意义的。 51E.E.异距分组:异距分组:在组距式分组中,各组组距不尽相等。F.F.组中值组中值 组中值组中值是指组距数列中各组上限和下限之间的中点是指组距数列中各组上限和下限之间的中点数值。数值。2 2下下限限上上限限组组中中值值 注意:注意:组中值用来代表各组标志值的平均水平,组中值用来代表各组标志值的平均水平,假定假定一一组内各个标志值呈组内各个标志值呈均匀分布均匀分布。考生按成绩分组考生按成绩分组 50 50 6060 60
24、60 70 70 70 70 80 80 80 80 90 90 90 90 100 100 5555 7575 656585859595组中值组中值人数人数5 51515181810102 2 首组组中值首组组中值=(=(首组上限首组上限+ +首组假定下限)首组假定下限)/2/2= 首组上限首组上限 相邻组组距相邻组组距/2/2= 末组下限末组下限 + 相邻组组距相邻组组距/2/2末组组中值末组组中值=(=(末组上限末组上限+ +末组假定下限)末组假定下限)/2/250 50 10102 2100 100 + 10 102 2例如:例如:. .首组:首组:末组:末组:按考分分组按考分分组 组
25、中值组中值 50 50 60 55 60 55 60 60 70 65 70 65 70 70 80 75 80 75 80 80 90 85 90 85 90 90 100 95100 955050以下以下100100以上以上4545105105开口组开口组组中值的确定组中值的确定首组假定下限首组假定下限= =首组上限首组上限- -相邻组组距相邻组组距末组假定上限末组假定上限= =末组下限末组下限+ +相邻组组距相邻组组距销售额(万销售额(万元)元)商店数商店数(个)(个)每百元商品销售每百元商品销售额中支付的流通额中支付的流通费(元)费(元)50以下以下501001002002003003
展开阅读全文