第三章-统计数据处理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第三章-统计数据处理课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 统计数据 处理 课件
- 资源描述:
-
1、经济管理类专业应用型本科教材统 计 学 电子工业出社出版 主编 杜家龙第三章 统计数据处理 教学目的 了解统计数据处理的意义、内容和程了解统计数据处理的意义、内容和程序,掌握统计数据分组、编制变量数列、序,掌握统计数据分组、编制变量数列、制作统计表、统计图的方法和技术。能够制作统计表、统计图的方法和技术。能够应用数据处理技术对客观现象的数量特征,应用数据处理技术对客观现象的数量特征,作出基本的统计描述。作出基本的统计描述。重点难点 统计数据预处理,统计分组、编制变统计数据预处理,统计分组、编制变量数列,制作统计表和统计图。量数列,制作统计表和统计图。第一节统计数据处理概述 一、统计数据处理的概
2、念和内容(一)统计数据处理的意义统计数据处理就是对搜集得到的初始数据进行审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的综合数据的工作过程。统计数据处理,是统计由对个别现象的认识上升到对总体现象认识的一个重要阶段,在统计研究工作中起着承先启后的作用,它既是数据搜集的继续和深化,又是数据分析的基础和前提。(二)数据处理的原则和内容 1.数据处理的原则 统计数据处理必须遵循目的性、联系性和简明性三原则。统计数据处理原则目的性原则联系性原则简明性原则2.2.2.统计数据处理的内容统计数据处理的内容统计数据处理的内容统计数据处理的内容统计数据处理的内容统计数据处理的内容确定指标确定指标和分组
3、和分组原始数据原始数据预处理预处理汇总计算汇总计算各指标各指标编制统编制统计表计表系统积累系统积累统计数据统计数据第一,根据统计研究的目的和要求,确定应该计算的指标,并根据分析的需要确定具体的分组;第二,对大量的原始数据进行预处理;第三,对各指标进行汇总,计算出各组单位数、总体单位数以及各组或总体的有关标志值之和;第四,将汇总处理的数据编制成统计表;第五,对统计数据进行系统积累。(三)统计数据预处理 1.数据的审核与筛选 对于通过直接调查取得的原始数据,应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。统计数据预处理筛选
4、审核订正排序 准确性审核主要包括两个方面:一是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。审核数据准确性的方法主要有逻辑检查和计算检查。逻辑检查主要是从定性角度审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象。计算检查是检查调查表中的各项数据在计算结果和计算方法上有无错误。对于第二手数据,除了对其完整性和准确性进行审核外,还应着重审核数据的适用性和时效性。首先应弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合分析研究的需要,是否需要重新加工处理等。此外,还要对数据的时效性进行审核,一般来说,应
5、尽可能使用最新的统计数据。2.数据的订正 第一,对可以肯定的一般错误,即代为更正,并向有关单位核对;第二,对可疑之处或无法代为更正的错误,通知原报单位复查更正;第三,对在个别单位发现的有代表性的重大差错,除通知原报单位更正外,还要通报尚未报送资料的单位,以防止类似错误的发生;第四,对于违反统计法规的,应查明责任,予以适当处理。3.数据的排序 数据排序就是按照一定的顺序将数据排列,以便初步显示数据的一些明显特征和规律,为研究者找到解决问题的线索。此外,排序还有助于对数据的检查纠错,为分组、汇总提供依据。第二节 统计分组 一、统计分组的概念和性质 统计分组的概念 统计数据分组是指根据统计研究的目的
6、和要求,将总体单位或全部数据按照一定的标志划分成若干类型(组),使组内的差异尽可能小,组间的差别尽可能明显,从而使大量无序的、混沌的数据变为有序的、反映总体特征的资料。统计分组的特性 首先,统计分组具有分与合的双重功能,是分与合的对立统一;其次,统计分组的目的是要在同质性的基础上研究总体的内在差异性;第三,统计分组在体现分组标志的组间差异的同时,却可能掩盖了其他标志的组间差异,因此,统计分组存在一定的局限性;第四,统计分组的关键是选择分组标志和划分各组界限。二、统计分组的主要作用 1.划分现象的不同类型 统计分组的最基本作用,就是把复杂自然或社会现象划分为各个性质不同的组成部分,以认识事物质的
7、差别。例如,把社会产品划分为生产资料和消费资料;将国民经济划分为第一产业、第二产业和第三产业等。2.反映总体的内部结构 在统计分组基础上,计算各部分占总体的比重可揭示总体内部结构,表明总体中各部分与整体以及各部分之间存在的数量关系,从而反映事物的构成特征和性质。通过比较总体内部结构的动态变化还可以揭示现象发展变化过程和规律。3.分析现象之间的依存关系 客观现象之间存在着广泛的相互依存关系,根据研究目的,按照一定标志对总体进行分组,然后观察与分组标志相关标志的其它标志的数量变化,可揭示相关事物之间的数量依存关系。如农作物的耕作深度与收成率之间的关系、家庭收入与生活费支出之间的关系、市场商品价格与
8、其需求量之间的关系等等,都可以通过统计分组来研究。三、统计分组的类型 统计数据分组按反映研究对象的特点和分组的形式分类主要有以下类型。(一)按照分组标志的性质不同,可将统计分组分为属性分组与变量分组。1.属性分组 属性分组是按照反映事物属性的品质标志进行的分组。例如,人口按性别、民族、文化程度、职业、婚姻状况等标志分组,工业企业按经济类型、行业、地区等标志分组。2.变量分组 变量分组是指按照数量标志进行的分组。变量分组的组限是指各种不等的变量值。例如,把工业企业按生产能力分为:10亿元以下、10100亿元、100亿元以上三个组,把学生总体按爱好学科数分为1个、2个、3个、3个以上等组。(二)简
9、单分组、复合分组与分组体系 按照分组标志的多少和分组的形式不同,可将统计分组分为简单分组、复合分组与分组体系。1.简单分组 所谓简单分组,就是将总体按一个标志进行的分组。这种分组只能从某一方面去说明总体特征。例如,某地工业企业按规模分组就是一个简单分组:国有企业集体企业股份合作企业联营企业 2.复合分组 复合分组是按照两个或两个以上的标志,重叠起来对总体进行分组。这里所谓重叠,是指在前一次分组结果的内部再进行下一次分组。例如,某地工业企业先按规模标志、再按所有制标志所进行的复合分组;某高校教师按职务、年龄和性别分组。国营经济大型企业 私营经济 其他经济 国营经济中型企业 私营经济 其他经济 国
10、营经济小型企业 私营经济 其他经济 高校教师的复合分组第一标志(职务)第一标志(职务)第二标志(年龄)第二标志(年龄)第三标志(性别)第三标志(性别)高级职称(教授、副教授)45岁以上男女45岁以下男女非高级职称(讲师、助教)45岁以上男女45岁以下男女 3.分组体系 分组体系是按照两个或两个以上相互联系、相互补充的标志,对被研究对象进行平行分组所形成的体系。分组体系可以从不同角度、不同方面对某一现象作出比较全面的说明。例如,我国2009年国民经济和社会发展统计公报中的人口构成统计表(公报表15),就是一个分组体系。表3.1 我国2009年人口数及其构成指标年末人数(万人)比重(%)全国总人口
11、其中:城镇 乡村其中:男性 女性其中:014 1459 60岁及以上 其中:65岁及以上133474621867128868652648222466392097167141130910046.653.451.448.618.569.012.58.5 四、统计分组方法等距分组等距分组不等距分组不等距分组单项式分组单项式分组组距式分组组距式分组分组方法分组方法按品质标志分组按品质标志分组按数量标志分组按数量标志分组 (一)按品质标志分组 按品质标志分组又分简单品质分组和复杂品质分组两种情况。1.简单的品质标志分组 简单的品质分组是指分组标志一经确定,组的名称和组数也就随之确定,而且各单位应分在哪一
12、组也比较明确,不存在组与组之间界限区分困难的分组。例如,人口按性别分为男、女两组,具体到每一个人应该分在哪一组是一目了然的。2.复杂的品质标志分组 复杂的品质分组是指分组标志选定以后组间界限不易划分,存在交叉过渡形态,总体中的各单位归并于何组比较困难的统计分组。为保证各种统计分类的科学性、统一性和完整性,便于各部门掌握和使用,通常由国家统计局会同有关部门制定统一分类目录,在全国范围内实行。如国民经济行业分类目录、商品分类目录等。(二)按数量标志分组 1.数量标志分组的意义 按数量标志分组是指选择反映事物数量差异的数量标志,根据其变异范围区分各组界限,将总体划分为若干个性质不同的组成部分。例如,
13、研究居民家庭贫富状态时,按恩格尔系数(即食品类支出占整个居民家庭消费支出的比重)分组,将其在60以上的划分为贫困家庭;5060的为温饱家庭;4050为小康家庭;40以下的为富裕家庭。2.数量标志分组的方式 根据总体各单位某一数量标志值的变动特征,可供选择的分组方式有单项式分组和组距式分组两种。(1)单项式分组 单项式分组是指按每一个具体变量值对现象总体所进行的分组。如某班学生按年龄分组(见表3.2)。表3.2 某班学生按年龄分组表按年龄分组(岁)人数(人)比例()1718192021510209610.0020.0040.0018.0012.00合计50100.00 单项式分组一般适用于离散型
14、变量,且变量值不多、变动范围较小的情况。(2)组距式分组 组距式分组是指按变量值的一定范围对现象总体所进行的分组。在现象总体的变动范围内,将其划分为若干个区间,各区间内的所有变量值作为一组,其性质相同,组与组之间的性质相异。例如,某校学生家庭收入分组情况统计表就是一个组距式分组表(见表3.3)。组距式分组一般在变量值变动幅度较大的条件下采用。在组距式分组中,涉及到组限、组距、组数、组中值等分组要素。表3.3(a)某校学生家庭收入分组统计表按年收入分组(万元)学生数(人)占总户数比例()3以下34455667788以上90025104360289014406506306.718.832.621.
15、610.84.94.7合计13380100.0表3.3(b)某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110115115120120125125130130135135以上358141064610162820128合计50100 组限组限是用来表示各组之间界限的变量值,是决定事物质量的数量界限。其中,在每一组中最小的变量值为下组限,简称为下限;最大的变量值为上组限,简称为上限。组距式分组中有重叠式组限和非重叠式组限两种组限表示方法。组距组距是指一组变量值的区间长度,也就是每一组的上限与下限之间的距离。即:组距上限下限。组数组数即分组个数。组中值组中值即组距的中
16、点数值,它是各组变量值的代表水平。2下限上限2后一组下限本组下限邻组组距上限重合式组限组的组中值非重合式组限组的组中值缺下限组的组中值邻组组中值邻组组距缺上限组的组中值2邻组组距下限 邻组组中值十邻组组距 五、统计资料的再分组 统计资料的再分组是指把统计分组资料按某种要求重新划定各组界限,再将资料中的单位数或比重分布做出相应的调整。例如,表3.4所示某工业部门劳动生产率的分组资料与研究目的不一致,主要是组数多、组距小,不利于简明地观察问题,需要进行再分组。表3.4某工业部门劳动生产率分组表组号按劳动生产率分组(千元/人)企业数比例(%)职工数比例(%)总产值比例(%)123456789106以
17、下677889910101111121213131414以上11141015209124236.209.4810.7816.2620.0012.9311.545.402.694.729.6612.8313.0016.7819.1210.989.043.821.842.93合 计100100.00100.00 为了与相邻地区同行业的同类指标进行比较,将企业的劳动生产率重新划分为四组,即:人均产值在12.5千元以上的为优秀企业;1012.5千元之间的为良好企业;7.510千元之间的为一般企业;7.5千元以下的为后进企业。其再分组的结果如表3.5所示:表3.5某工业部门劳动生产率再分组表组别按劳动生
18、产率分组(千元/人)企业数比例(%)职工数比例(%)总产值比例(%)ABCD7.5以下7.5101012.512.5以上304023721.0741.6527.1710.1128.9942.4021.93 6.68合 计100100.00100.00 表3.5再分组的步骤如下:第一步 确定再分组的各自范围。即A组包括原第1组、第2组的全部和第3组的一部分;B组包括原第3组的一部分和第4组、第5组的全部;C组包括原第6组、第7组的全部和第8组的一部分;D组包括原第8组的一部分和第9组、第10组的全部。第二步 计算新组各自相连组的比例。可用相连组的部分组距除以相连组的组距之和而求得。其具体计算过程
19、为:如A组在相连组中所占比例0.70.80.75.7B组在相连组中所占比例10.50.5同理C组在相连组中所占比例0.5,D组在相连组中所占比例0.50.5 第三步 确定再分组的对应单位数。即计算各组变量值的区间范围所对应的单位数(此处为企业数比例、职工数比例和总产值比例)。其具体计算过程为:A组企业数比例=1114100.5=30%,用同样方法可得到B组为40,C组为23,D组企业数比例为7。职工数比例和总产值比例的各组对应数可按上述计算过程类推,其结果见表3.5。第三节 频数分布一、频数分布的概念 在分组的基础上,把所有数据或总体单位按组归并、排列,形成所有数据或总体各单位在各组间的分布,
20、称为频数分布,又称为分布数列。例如表3.6是我国2009人口按城乡分组形成的频数分布。表3.6 2009年末我国大陆人口的城乡分布按性别分组人口(万人)f构成(%)f/f总人口城镇乡村1334746218671288100.0 46.6 53.4二、频数分布的种类频数分布按分组标志和分组形式的不同可分成如下类别:频数分布变量分布单项式频数分布组距式频数分布 品质分布等距式分布异距式分布图3.1 频数分布的种类 ()品质频数分布 品质频数分布,简称为品质数列,它是经过属性分组后形成的频数分布,其组别表现为一系列的概念或范畴,如表3.6所示。(二)变量频数分布 变量频数分布,简称为变量数列,它是经
21、过变量分组后形成的分布数列,其组别表现为不同的数值或数域。变量数列又分为单项数列和组距数列。1.单项数列 单项数列是以一个变量值为一组编制的变量频数分布,如表3.7就是一个单项数列。对离散型变量,且变量值项数较少、变动范围较小时,可编制单项数列反映其分布状况。表3.7某高校在校学生年龄分布按年龄分组(岁)学生人数(人)f比重(%)f/f171819202122235418922828313197245.418.822.728.113.0 9.6 2.4合 计1006100.0 2.组距数列 组距数列是以表示一定变动范围的两个变量值构成的组所编制的变量频数分布,如表3.8就是一个组距数列。对于连
22、续型变量或项数较多、变动范围较大的离散型变量,需要用组距数列去反映其分布情况。表3.8某集团公司职工分组表按月工资分组(元)职工人数(人)f比重(%)f/f2000以下20002100210022002200230023002400240025002500以上5072105487368121594.05.78.338.629.29.64.6合 计1262100.0三、累计频数和累计频率 累计频数和累计频率是将变量频数分布中各组频数或频率依次累加而得到的各组累计频数或累计频率。累计的方法有两种:一是向上累计,即将各组频数或频率由变量值低的组依次向变量值高的组累计,它表明从第一组下限开始到本组上限
23、为止的累计频数或累计频率;二是向下累计,即将各组频数或频率由变量值高的组依次向变量值低的组累计,它表明从最末一组的上限开始到本组下限为止的累计频数或频率。如表3.9。表3.9某集团公司职工基本工资分组表按月工资分组(元)职工人数(人)比重(%)向上累计向下累计人数比重%人数比重2000以下20002100210022002200230023002400240025002500以上5072105487368121594.05.78.338.629.29.64.6501222277141082120312624.09.718.056.685.895.4100.0126212121140103554
展开阅读全文