数据整理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据整理课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 整理 课件
- 资源描述:
-
1、第三章第三章 数据整理数据整理 按照研究的目的按照研究的目的,将搜集到的原始数据进将搜集到的原始数据进行行整理整理加工加工,从中提取有用的信息,并搜索其从中提取有用的信息,并搜索其中的数量规律性。中的数量规律性。3.1 数据分组数据分组3.2 次数分配次数分配3.3 统计指标统计指标 3.4 统计表和统计图统计表和统计图3.1 数据分组数据分组 一、统计数据分组的目的及原则一、统计数据分组的目的及原则 分组是将总体所有单位按一定的标准区分为若干部分253342分组的目的:概括数据,清晰条理分组时注意:分组时注意:将具有共性的个体归入同一组将具有共性的个体归入同一组将总体内部个体间的差异通过组别
2、区分开将总体内部个体间的差异通过组别区分开来来 分组的原则:分组的原则:保证总体中的任何一个个体或原保证总体中的任何一个个体或原始数据都能归于某一个组且仅能归于某一个组,即始数据都能归于某一个组且仅能归于某一个组,即保证不重、不漏。保证不重、不漏。统计分组的关键是分组标志的选择统计分组的关键是分组标志的选择1 1、按分组标志的多少不同分:、按分组标志的多少不同分:简单分组:分组仅按一个标志来进行简单分组:分组仅按一个标志来进行 复合分组:分组按两个或两个以上的标志进行,并复合分组:分组按两个或两个以上的标志进行,并且层叠在一起。且层叠在一起。二、统计分组的种类二、统计分组的种类例如:对全国的工
3、业企业进行例如:对全国的工业企业进行简单分组:简单分组:按经济类型分:全民所有制企业、集体所有制企按经济类型分:全民所有制企业、集体所有制企业、城乡个体企业业、城乡个体企业按轻重工业分:重工业、轻工业按轻重工业分:重工业、轻工业按企业规模大小分:大型企业、中型企业、小型按企业规模大小分:大型企业、中型企业、小型企业企业复合分组:复合分组:全民所有制全民所有制集体所有制集体所有制重工业重工业轻工业轻工业重工业重工业轻工业轻工业大型企业大型企业中型企业中型企业小型企业小型企业2 2、按分组标志的性质不同分:、按分组标志的性质不同分:品质分组:按品质标志进行的分组品质分组:按品质标志进行的分组 如人
4、口总体按性别分组、高校教师按职如人口总体按性别分组、高校教师按职称分组。称分组。变量分组:按数量标志进行的分组变量分组:按数量标志进行的分组 如企业按职工人数分如企业按职工人数分-1000-1000人以下、人以下、1000-50001000-5000人、人、50005000人以上人以上三、分组标志与分组体系的选择三、分组标志与分组体系的选择1 1、根据统计研究的目的,在对现象进行分析的基础、根据统计研究的目的,在对现象进行分析的基础上,抓住具有本质性的区别及反映现象内在联系的上,抓住具有本质性的区别及反映现象内在联系的标志来作为分组标志。标志来作为分组标志。2 2、在统计整理中,为了全面认识被
5、研究现象总体,、在统计整理中,为了全面认识被研究现象总体,常常需要运用多个分组标志对总体进行分组,形成常常需要运用多个分组标志对总体进行分组,形成一系列相互联系一系列相互联系、相互补充的分组体系。相互补充的分组体系。四、统计分组方法四、统计分组方法1 1、品质分组的方法、品质分组的方法 分组标志一经确定,组名称和组数也就确定,不分组标志一经确定,组名称和组数也就确定,不存在组与组之间界限区分的困难。存在组与组之间界限区分的困难。复杂的情况下,各组界限不易划分,从这一组到复杂的情况下,各组界限不易划分,从这一组到另一组存在各种过度状态,边缘不清。另一组存在各种过度状态,边缘不清。2 2、变量分组
6、的方法:、变量分组的方法:变量分组的目的并不是单纯确定各组在数量变量分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上变化来区分各组的上的差别,而是要通过数量上变化来区分各组的不同类型和性质。不同类型和性质。单项式分组:单项式分组:是依次将每一个变量值作为一组。是依次将每一个变量值作为一组。(适用于离散型变量且变量取值不多的情况)(适用于离散型变量且变量取值不多的情况)例如,居民家庭人口数,其取值不可能很多,且每一个例如,居民家庭人口数,其取值不可能很多,且每一个取值都可视为一种类型。取值都可视为一种类型。按按家庭人口数分组家庭人口数分组 1 1人人 2 2人人 3 3人人 4 4人
7、人 5 5人人 6 6人人 组距式分组:组距式分组:把整个变量值依次划分为几个区间,把整个变量值依次划分为几个区间,各个变量值按其大小确定所归并的区间,区间的距离各个变量值按其大小确定所归并的区间,区间的距离称组距。称组距。包括等距分组和包括等距分组和不等距分组不等距分组 适用于连续型变量或虽为离散型变量但取值很多,适用于连续型变量或虽为离散型变量但取值很多,不便一一列举的情况。不便一一列举的情况。1 1)连续型变量的组距式分组)连续型变量的组距式分组 如对商店按销售额进行分组如对商店按销售额进行分组 :按按销售额分组销售额分组(万元万元)5050以下;以下;5020050200;200400
8、200400;400600400600600800600800;800800以上以上2 2)离散型变量的组距式分组)离散型变量的组距式分组如对某企业的生产小组按人数分组:如对某企业的生产小组按人数分组:生产小组按人数分组(人)生产小组按人数分组(人)组数组数51011161722组距式分组中的有关问题:组距式分组中的有关问题:(1 1)组距和组中值)组距和组中值 组距两端的数值称为组限,其中:每组的起点组距两端的数值称为组限,其中:每组的起点数值称下限、每组的终点数值称上限。数值称下限、每组的终点数值称上限。离散型变量分组:离散型变量分组:各组的上下限都可以用确定的数各组的上下限都可以用确定的
9、数值(整数)表示。值(整数)表示。连续连续型型变量分组:变量分组:相邻组的上限和下限无法用两相邻组的上限和下限无法用两个确定的数值分别表示,因此上一组的上限同时也个确定的数值分别表示,因此上一组的上限同时也是下一组的下限。是下一组的下限。例如:企业按工人工资对工人进行分组如下:例如:企业按工人工资对工人进行分组如下:500600500600元元 600-700600-700元元 700-800700-800元元如果某工人工资为如果某工人工资为700700元,应将他归并到哪一组?元,应将他归并到哪一组?“上组限不计入上组限不计入”原则:遇到某单位的标志值刚好等于原则:遇到某单位的标志值刚好等于相
10、邻两组上下限时,一般把相邻两组上下限时,一般把此此值归并到作为下限的那值归并到作为下限的那一组。一组。注意注意EXCEL!(2 2)全距:)全距:变量值中最大值与最小值的差数变量值中最大值与最小值的差数 组数组数=全距全距/组距组距 组距组距=上限上限下限下限(3 3)组中值)组中值=(上限(上限+下限)下限)/2/2缺下限的开口组:组距数列的首组出现缺下限的开口组:组距数列的首组出现“*以下以下”邻邻 组组 组组 距距组组 中中 值值=上上 限限-2 2缺缺上限的开口组:组距数列的末组出上限的开口组:组距数列的末组出现现“*以上以上”邻邻组组组组距距组组中中值值=下下限限+2 2合理确定组中
11、值合理确定组中值例如:例如:第一组:第一组:5050人以下人以下 第二组:第二组:5020050200人人按公式按公式(不合理)组中值2525020050252/500)(组中值应定应定下限为下限为0 03.2 次数分配次数分配 数据观察值在各组中的个数称为数据观察值在各组中的个数称为次数次数,各组间的次数,各组间的次数称为称为次数分配次数分配。次数分配次数分配描述了总体的结构和特征。描述了总体的结构和特征。一、品质次数分配的编制一、品质次数分配的编制 按品质标志进行分组,由总体各组的名称及各组的单按品质标志进行分组,由总体各组的名称及各组的单位数(次数)组成。位数(次数)组成。某高校学生的性
12、别分布某高校学生的性别分布 按性别分组按性别分组人数人数比例(比例(%)女生女生544841.2男生男生780458.8合计合计13262100.0Excel演示演示二、变量次数分配的编制二、变量次数分配的编制1、将原始资料按顺序排序、将原始资料按顺序排序2、确定组数与组距、确定组数与组距(1)当)当n较大时,较大时,k取取1020;当;当n50时,时,k取取56;(2)如果数据分布比较均匀、对称,即中间数值次数)如果数据分布比较均匀、对称,即中间数值次数多,大小极端值次数少,考虑用以下公式来确定组数多,大小极端值次数少,考虑用以下公式来确定组数:组数组数1+3.322 log n n 式中,
13、式中,n n 表示总次数,表示总次数,log 表示以表示以10为底的对数。为底的对数。组距组距(观察值中的最大数值观察值中的最小数值)(观察值中的最大数值观察值中的最小数值)/组数组数3、确定组限、确定组限每组区间的界限称为组限。每组区间的界限称为组限。离散型变量,分组时相邻组的组限必须间断。离散型变量,分组时相邻组的组限必须间断。如某省企业按职工人数分组,可分为:如某省企业按职工人数分组,可分为:0-99,100-199,200-299,300-399,900-1000900-1000等;等;连续型变量,相邻组的上、下限采用重叠的方法分连续型变量,相邻组的上、下限采用重叠的方法分组界定。组界
展开阅读全文