SPSS统计分析数据转换与整理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《SPSS统计分析数据转换与整理课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 统计分析 数据 转换 整理 课件
- 资源描述:
-
1、SPSS统计分析数据转换与整理22022-7-19本章主要内容本章主要内容第一节第一节 数据的排序数据的排序第二节第二节 变量计算变量计算第三节第三节 数据选取数据选取第四节第四节 计数计数第五节第五节 分类汇总分类汇总第六节第六节 数据分组数据分组第七节第七节 数据处理的其他功能数据处理的其他功能第八节第八节 统计图统计图52022-7-19 SPSS数据排序的基本操作步骤 (1)选择菜单DataSort Cases (2)将主排序变量从左边的列表中选到Sort by框中,并在Sort Order框中选择按该变量的升序还是降序排序。(3)如果是多重排序,还要一次指定第二、第三排序变量及相应的
2、排序规则。2.数据排序的基本操作62022-7-19在左边的源变量框源变量框中选择排序变量进入Sort by框。如果选择2个以上的变量,观测量的排序结果与排序变量在Sort by框中的顺序有关。列于首位的为第一排序变量。在Sort Order 栏栏内选择排序方式升序与降序72022-7-19 1、数据排序是整行数据排序,而不是只对某列变量排序;2、多重排序中指定排序变量的次序很关键。先指定的变量优先于后指定的变量。多重排序可以在按某个变量值升序(或降序)排序的同时再按其他变量值降序(或升序)排序;3、数据排序后,原有数据的排序次序必然被打乱。说明82022-7-19031 数据排序应用举例n利
3、用居民存款调查数据,通过数据排序功能分别找到城镇户口和农村户口储户一次存款金额的最大值和最小值。92022-7-19第二节 变量计算n数据的转换处理是在原有数据的基础上,计算产生一些含有更丰富信息的新数据。例如根据职工的基本工资、失业保险、奖金等数据,计算实际月收入,这些新变量具有更直观更有效的特点。102022-7-191.变量计算的目的nSPSS变量计算是在原有数据的基础上,根据用户给出的SPSS算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量。(1)变量计算是针对所有个案或指定的部分个案的,每个个案都有自己的计算结果。(2)变量计算的结果应保存到一个指定变量中,该
4、变量的数据类型应与计算结果的数据类型相一致。在变量计算过程中涉及到几个概念:SPSS算术表达式、SPSS条件表达式和SPSS函数。112022-7-19n指出按照什么方法计算变量;nSPSS算术表达式算术表达式(Numeric Expression)是由常量、变量、算术运算符、圆括号、函数等组成的式子。字符型常量应当用引号括起来变量是指那些已存在于数据编辑窗口中的原有变量算术运算符主要包括、*、/、*(乘方)在同一算术表达式中的常量及变量,数据类型应该一致,否则无法计算 2.SPSS算术表达式122022-7-19n在变量计算中通常要求对不同的个案分别按照不同的方法进行计算,于是就需要通过一定
5、的方式来指定个案;nSPSS条件表达式条件表达式是一个对条件进行判断的式子。其结果有两种取值:如果判断条件成立,则结果为真;如果判断条件不成立,则结果为假。条件表达式包括简单条件表达式简单条件表达式和复合条件表达式复合条件表达式。3.SPSS条件表达式132022-7-19(1)简单条件表达式 由关系运算符、常量、变量以及算术表达式等组成的式子。其中关系运算符包括、。(nl35)(2)复合条件表达式 又称逻辑表达式,是由逻辑运算符号、圆括号和简单条件表达式等组成的式子。其中,逻辑运算符号包括&或或AND(并且)、(并且)、|或或OR(或者)、或(或者)、或NOT(非)(非)。NOT的运算优先级
6、最高,其次是AND,最低是OR。可以通过圆括号改变运算的优先级。(nl=35)and not(zc3)142022-7-19nSPSS函数函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称为函数名函数名。执行这些程序段得到的计算结果称为函数值函数值。函数书写的具体形式为:函数名(参数)函数名(参数)4.SPSS函数152022-7-19 其中,函数名是SPSS已经规定好的,参数可以是常量(字符型常量应用引号括起来),也可以是变量或算术表达式。参数可能是一个,也可能是多个,各参数之间用逗号逗号分隔。SPSS函数大致可以分成八大类:算术函数、算
7、术函数、统计函数、分布函数、逻辑函数、字符串函数、统计函数、分布函数、逻辑函数、字符串函数、缺失值函数、日期函数和其他函数缺失值函数、日期函数和其他函数。162022-7-19n(1)选择菜单TransformCompute,弹出Compute Variable对话框如下:5.变量计算的基本操作172022-7-19(2)在Target框中输入存放计算结果的变量名。该变量可以是一个新变量,也可以是已经存在的变量。如果指定存放计算结果的变量为新变量,SPSS会自动创建它;如果指定产生的变量已经存在,SPSS会提问是否以计算结果覆盖原有值。新的变量默认为数值型,用户可以根据需要单击Type&Lab
8、el按钮修改,还可以对新变量加变量名标签。(3)在Numeric Expression框给出SPSS算术表达式。可以手工输入,也可以按窗口的按钮以及函数下拉菜单输入。182022-7-19(4)如果希望对符合一定条件的个案进行变量计算,则单击If按钮,出现下面的窗口,选择Include if case satisfies condition选项,然后输入条件表达式。对不满足条件的个案,将不进行变量值计算,对新变量取值为系统缺失值。192022-7-19 利用职工基本情况数据,依据职称级别计算实发工资,再按职称1至4将实发工资分别上调50,30,20,10。03-2 变量计算的应用举例20202
9、2-7-19第三节 数据选取n数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为抽样抽样。SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止。212022-7-19(1)选取全部数据(All cases)(2)按指定条件选取(If condition is satisfied)SPSS要求用户以条件表达式给出数据选取的条件,SPSS将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案,即条件判断为真的个案将被自动选取出来,而那些条
10、件判断为假的个案则不被选中。1.数据选取的基本方式222022-7-19(3)随机抽样(Random sample of cases),即对数据编辑窗口中的所有个案进行随机筛选,包括如下两种方式:第一,近似抽样(Approximately)近似抽样要求用户给出一个百分比数值,SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案。注:由于SPSS在样本抽样方面的技术特点,抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目,会有小的偏差,因而称为近似抽样。232022-7-19 第二,精确抽样(Exactly)精确抽样要求用户给出两个参数。第一个参数是希望选取的个案数,第二
11、个参数是指定在前几个个案中选取。SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。242022-7-19(4)选取某一区域内的样本(Based on time or case range),即选取数据编辑窗口中样本号在指定范围内的所有个案,要求给出这个范围的上、下界个案号码。这种抽样方法适用这种抽样方法适用于时间序列数据。于时间序列数据。(5)通过过滤变量选取样本(Use filter variable),即依据过滤变量的取值进行样本选取。要求指定一个变量作为过滤变量,变量值为非0或非系统缺失值的个案将被选中。这种方法通常用于排除包含系统缺失值的个案。这种方法通常用于排
12、除包含系统缺失值的个案。252022-7-19说明:说明:(1)完成数据选取后,SPSS以后的分析操作仅针对那些被选中的个案,直到用户再次改变数据的选取为止。(2)采用指定条件选取和随机抽样方法进行数据选取后,SPSS将在数据编辑窗口中自动生成一个名为filter_$的新变量,取值为1或0。1表示本个案被选中,0表示未被选中。该变量是SPSS产生的中间变量,如果删除它则自动取消样本抽样。262022-7-19(1)选择菜单DataSelect cases(2)根据分析需要选择数据选取方法(3)Unselected cases are指定对未选中个案的处理方式Filtered表示在未被选中的个案
13、号码上打一个“/”标记;Deleted表示将未被选中的个案从数据编辑窗口中删除。2.数据选取的基本操作272022-7-19Select Cases对话框282022-7-19 利用021居民储蓄调查数据,根据不同的分析要求采用不同的数据选取方法抽样:(1)如果只希望分析城镇储户的情况,可以通过数据选择功能采用指定条件的抽样方法进行抽样;(2)如果只希望对其中的70的数据进行分析,可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样。数据选取的应用举例292022-7-19第四节 计数n1.计数目的 SPSS实现的计数是对所有个案或满足某条件的部分个案,计算若干变量中有几个变量的值落在指定的
14、区间内,并将计数结果存入一个新变量中的过程。例如对大学毕业班学生的成绩进行综合测评时,可以依次计算每个学生的若干门课程中有几门课程得了优,有几门课程得了良,有几门课程不及格。SPSS实现计数的关键步骤是:指定哪些变量参与计数,计数的结果存入哪个新变量中指定计数区间(尤为关键)302022-7-19 SPSS中的计数区间可以有以下几种描述形式:v单个变量值(单个变量值(Value)v系统缺失值(系统缺失值(System-missing)v系统缺失值或用户缺失值(系统缺失值或用户缺失值(System or user-missing)v给定最大值和最小值的区间(给定最大值和最小值的区间(n thro
15、ugh m)v小于等于某指定值的区间(小于等于某指定值的区间(Lowest through n)v大于等于某指定值的区间(大于等于某指定值的区间(n through highest)2.计数区间312022-7-19 上述后三个计数区间很容易理解。例如例如评价学生成绩,成绩为优的计数区间可以指定为90 through highest,成绩为良的计数区间指定为80 through 89,不及格的计数区间指定为Lowest through 59。前三个计数区间实际上是一些离散的数据点,严格讲并不是区间,但SPSS仍将其归在广义区间的范畴内,目的是方便一些其他的应用。322022-7-19(1)选择
16、菜单TransformCount,出现如下窗口:3.计数的基本操作332022-7-19(2)将参与计数的变量选到Variables框中(3)在Target Variable框中输入存放计数结果的变量名,并在Target Label框中输入相应的变量名标签(4)单击Define Values按钮定义计数区间,出现如下图窗口:342022-7-19 通过单击Add、Change、Remove按钮完成计数区间的增加、修改和删除。352022-7-19(5)如果仅希望对满足某条件的个案进行计数,则单击If按钮并输入相应的SPSS条件表达式。否则,本步可略去。362022-7-19n利用02-1居民储
17、蓄调查数据分析储户收入的总体状况。我们认为如果储户收入今年比去年增加了,且认为今后收入仍会增加,则认为收入状况较好。试分析有多少个储户的收入状况较好。计数的应用举例372022-7-19第五节 分类汇总n1.分类汇总的目的 分类汇总分类汇总是按照某分类变量进行分类汇总计算。例如:某企业希望了解本企业不同学历职工的基本工资上是否存在较大差距。最简单的做法就是分类汇总,即将职工按学历进行分类,分别计算不同学历职工的平均工资,然后可对平均工资进行比较。382022-7-19 再例如,某商厦希望分析假日周内不同职业和不同年龄段的顾客对某商品的“打折促销”反应是否存在较大差异,用以分析不同消费群体的消费
18、心理。最初步的分析可以是分别计算不同职业中不同年龄段顾客的平均消费金额和平均消费金额差异程度(标准差),并对它们进行比较。这个过程也可以通过分类汇总过程完成。392022-7-19 SPSS实现分类汇总涉及两个主要方面:v按照哪个变量(如上例中的学历、职业和年龄段)进行分类v对哪个变量(如上例中的基本工资、消费金额)进行汇总,并指定对汇总变量计算哪些统计量(如上例中的平均工资、平均消费金额和标准差)402022-7-19(1)选择菜单DataAggregate,出现如下所示的窗口:2.分类汇总的基本操作412022-7-19(2)将分类变量选到Break Variable(s)框中(3)将汇总
19、变量选到Summaries of Variable(s)框中(4)单击Function按钮,指定对汇总变量计算哪些统计量。SPSS默认计算均值。422022-7-19(5)指定将分类汇总结果保存到何处。有三种选择:第一,Add Aggregated Variables to working data file,表示将结果存放到当前数据编辑窗口中。第二,Create new data file,表示将结果存放到一个新建立的SPSS数据文件中,可以单击File按钮,重新指定文件名;第三,Replace working data file,表示用分类汇总结果覆盖数据编辑窗口中的数据。一般选择第二种方
20、式,结果比较清晰。432022-7-19(6)单击Name&Label按钮,重新指定结果文件中的变量名或添加变量名标签。SPSS默认的变量名为原变量名后加_统计量统计量名称(如名称(如a_mean)。(7)如果希望在结果文件中保存各分类组的个案数,则选择Number of case选项。于是,SPSS会在结果文件中自动生成一个默认名为N_Break的变量,可以修改该变量名。442022-7-19说明:说明:分类汇总中的分类变量可以是多个,此时的分类汇总称为多重分类汇总多重分类汇总。如上述不同职业和不同年龄段顾客消费的例子即是多重分类汇总的应用。类似于数据的排序,在多重分类汇总中,指定多个分类变
21、量的前后次序是很关键的。第一个指定的分类变量为主分类变量主分类变量(如职业),其他的依次为第二(如年龄段)、第三分类变量等,它们决定了分类汇总的先后次序。452022-7-19 例:利用02-1居民储蓄调查数据,分析城镇储户和农村储户的一次平均存(取)款金额是否有显著的差异。可进行的最初步的分析是按照户口类型对存(取)款金额进行分类汇总。其中分类变量是户口,汇总变量是存(取)款金额,且计算其均值。分类汇总的应用举例462022-7-19第六节 数据分组n1.数据分组的方法 数据分组就是根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。在数据分组的基础上进行的频数分析更能够概括和体现数
22、据的分布特征。为适用于不同的统计分析需要,SPSS提供了以下几种数据分组方法:单项式分组(单变量值分组)单项式分组(单变量值分组)组距分组组距分组472022-7-19 居民家庭按人口数单项式分组居民家庭按人口数单项式分组 按家庭人口数分组按家庭人口数分组(人)(人)居民户数居民户数(户)(户)12345人及以上人及以上合计合计 离散型变量如果离散型变量如果变量值的变动范围不变量值的变动范围不大,可以将一个变量大,可以将一个变量值作为一组,称值作为一组,称单项单项式分组式分组或单变量值分或单变量值分组。如右表:组。如右表:单项式分组482022-7-19 在连续型变量或离散在连续型变量或离散型
23、变量值较多的情况型变量值较多的情况下,可采用组距式分下,可采用组距式分组形式。组形式。n 组距式分组组距式分组就是把全就是把全部变量值划分为几个部变量值划分为几个区间,每一区间的变区间,每一区间的变量值作为一组。如右量值作为一组。如右表:表:按日产零件数分组按日产零件数分组(个)(个)工人数工人数(人)(人)506060707080809090以上以上合计合计组距式分组492022-7-19na.组距组距:区间的距离即为组距。:区间的距离即为组距。nb.组数组数:组数的多少以分组后能恰当反映总体内部的分:组数的多少以分组后能恰当反映总体内部的分布特征和规律为好。布特征和规律为好。nc.确定组距
24、的方法确定组距的方法:(最大值:(最大值-最小值)最小值)组数。组数。nd.根据组距各组的组距是否相等,又可以分为等距分组根据组距各组的组距是否相等,又可以分为等距分组和不等距分组两种方式。和不等距分组两种方式。ne.组限组限:组距两端的数值称为组限,每组的最大值称为:组距两端的数值称为组限,每组的最大值称为上限,用上限,用U(Upper limit)表示,每组的最小值称为下)表示,每组的最小值称为下限,用限,用L(Lower limit)表示。)表示。统计数据时,注意统计数据时,注意“上上组限不在内组限不在内”法则。另外,极端组可采用开放式组距。法则。另外,极端组可采用开放式组距。nf.组中
25、值组中值:每组上、下限之间的中点数值。即:组中值:每组上、下限之间的中点数值。即:组中值=(上限十下限)(上限十下限)2。在组距式分组中涉及到了几个在组距式分组中涉及到了几个关键点关键点:502022-7-19SPSS单项式分组的基本操作步骤:(1)选择菜单TransformAutomatic Recode(2)将分组变量选择到VariableNew Name框中(3)在New Name框后输入存放分组结果的变量名,并单击Add New Name按钮(4)在Recode Starting from框中选择单变量值分组按升序还是按降序进行。Lowest value表示升序;Highest val
展开阅读全文