第二章-描述性统计分析SPSS应用课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第二章-描述性统计分析SPSS应用课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 描述 统计分析 SPSS 应用 课件
- 资源描述:
-
1、第二章描述性统计分析主要内容统计分析和研究的特点统计分析和研究的特点单变量的描述性统计单变量的描述性统计频数分析频数分析描述性分析描述性分析探索性分析探索性分析一、统计分析和研究的特点大量观察、建立数据库描述统计:用统计学来简化数据,描述特征和关系。推论统计:用统计学可以从局部(样本)来推论总体的情况。二、单变量的基本描述技术二、单变量的基本描述技术一般来说,原始的资料往往是杂乱无章一般来说,原始的资料往往是杂乱无章的。零散地分布在问卷和文献中,因此的。零散地分布在问卷和文献中,因此必须对资料进行加工必须对资料进行加工对资料的加工和分析从单变量的分析开对资料的加工和分析从单变量的分析开始。始。
2、单变量的特征包括分布、统计表和统计单变量的特征包括分布、统计表和统计图图分布特征如何?频数频数(Frequency)百分比(百分比(percent)对比值对比值(ratio)累计频数(累计频数(Cumulative Frequency)累计百分比(累计百分比(cumulative percent)基本技术之统计表表号表号在文章中便于查阅、引用。在文章中便于查阅、引用。表头,包括标题、时间和地点表头,包括标题、时间和地点纵栏标题纵栏标题横行标题横行标题总计行总计行(一)定类层次(一)定类层次1.1.频数与频数分布频数与频数分布(1).(1).频数频数(f frequency)requency):
3、也称次数,它是归属各类:也称次数,它是归属各类别的个案数。别的个案数。(2)(2)频数分布频数分布(frequency distribution)(frequency distribution):把各:把各个类别及其相应的频数全部列出,并用表格形个类别及其相应的频数全部列出,并用表格形式表示出来,就是频数分布。这个表格就是频式表示出来,就是频数分布。这个表格就是频数分布表。数分布表。o 频数分布表通过对原始资料的初步简化,可频数分布表通过对原始资料的初步简化,可以简洁明了地反映原始数据的情况。但是因以简洁明了地反映原始数据的情况。但是因为样本规模的不同,通常不能直接用来比较为样本规模的不同,通
4、常不能直接用来比较信息,为什么?信息,为什么?2.百分比百分比(percent):频率:频率社会统计中通常用百分比来表示,绘制的表格一社会统计中通常用百分比来表示,绘制的表格一般是百分比表,但表的最下一行一般要注明频般是百分比表,但表的最下一行一般要注明频数。数。上表上表1中,已婚者与各机关人数的比例分别是:中,已婚者与各机关人数的比例分别是:o 甲机关:甲机关:乙机关:乙机关:甲、乙机关已婚者所占的百分比分别是甲、乙机关已婚者所占的百分比分别是65.0%和和57.1%,11300.650200p22000.571350po 如果只看次数,乙机关已婚者远高于甲机关,如果只看次数,乙机关已婚者远
5、高于甲机关,但从百分比来看,甲机关已婚的比例则较大。但从百分比来看,甲机关已婚的比例则较大。o 频数分布表是不同类别的绝对数量的分布情况,频数分布表是不同类别的绝对数量的分布情况,百分比分布表则是不同类别在总体中的相对数百分比分布表则是不同类别在总体中的相对数量分布,因此,百分比分布除具备频数分布的量分布,因此,百分比分布除具备频数分布的特点外,还可以十分方便地进行不同总体或不特点外,还可以十分方便地进行不同总体或不同类别之间的比较,应用更为广泛。同类别之间的比较,应用更为广泛。o 3.对比值对比值(ratio):不同类别数值之间的比:不同类别数值之间的比值,用值,用x:y的形式表示的形式表示
6、如出生性别比为如出生性别比为105:100,则表示每出生,则表示每出生100个女孩则有个女孩则有105个男孩出生个男孩出生 某班男女生比率为某班男女生比率为3:5(二)定序层次:累积频数和累积频率(二)定序层次:累积频数和累积频率累积频数累积频数(cumulative frequencies):将各有序类别或组的频数逐级累加起来。将各有序类别或组的频数逐级累加起来。累积频率累积频率(cumulative percentages):就是将各有序类别或组的百分比逐渐累加就是将各有序类别或组的百分比逐渐累加起来。起来。作用:使我们容易知道某值以下或以上的次作用:使我们容易知道某值以下或以上的次数或百
7、分比之和数或百分比之和(1)向上累积向上累积:从类别顺序的开始的一方向类别顺序的从类别顺序的开始的一方向类别顺序的最后一方累加频数(由低级向高级水平的加和)最后一方累加频数(由低级向高级水平的加和)(2)向下累积向下累积o 从类别顺序的最后一方向类别顺序的开始的一从类别顺序的最后一方向类别顺序的开始的一方累加频数。(由高级或大数值一方向低级或方累加频数。(由高级或大数值一方向低级或较小数值一方的累加)较小数值一方的累加)如:某校学生的家庭月收入如:某校学生的家庭月收入收入收入(元元)fCfCf500-6991010550700-8996575540900-10991262114751100-1
8、2991583693391300-14991415101811500-16994055040总数总数 550(三三)定距层次定距层次:分组与组距分组与组距1、分组是根据统计研究的需要,将数据按照某种、分组是根据统计研究的需要,将数据按照某种标准化分成不同的组别,分组后再计算出各组标准化分成不同的组别,分组后再计算出各组中出现的频数或频率,形成一张统计分析表。中出现的频数或频率,形成一张统计分析表。(1)组限:每组的范围,)组限:每组的范围,o 包括上限(包括上限(Upper limit)和下限()和下限(lower limits)o 如如100-200,下限就是,下限就是100,上限就是,上限
9、就是200(2)分组遵循的两大原则)分组遵循的两大原则o“不重不漏不重不漏”的原则的原则“不重不重”是指一项数据只能分在其中的某一组,不能是指一项数据只能分在其中的某一组,不能在其他组中重复出现。在其他组中重复出现。“不漏不漏”是指组别能够穷尽,及在所分的全部组别中是指组别能够穷尽,及在所分的全部组别中某项数据都能分在其中的一组,不能遗漏。某项数据都能分在其中的一组,不能遗漏。o“上组界不包括在内上组界不包括在内”的原则的原则(3)组距:是一个组的上限与下限的差)组距:是一个组的上限与下限的差,o 可根据全部数据的最大值和最小值及所分的可根据全部数据的最大值和最小值及所分的组数来确定组数来确定
10、o 组距组距=(最大值最大值-最小值最小值)/组数组数 组距组距=真实上限真实上限-真实下限真实下限(李沛良书李沛良书p41-42)数据的分组,通过数据的分组,通过“transform”“recode”命令命令完成完成(4)组中值:处于一组中间位置的值)组中值:处于一组中间位置的值o 真实上限与真实下限的平均值真实上限与真实下限的平均值 组中值组中值=(上限(上限+下限)下限)/2如,如,100-200,200-300,300-400分组分组数据的组中值:数据的组中值:150,250,350那么那么100-199,200-299,300-399分组分组的组中值是多少?的组中值是多少?基本技术之
11、统计图基本技术之统计图o 饼图饼图条形图条形图o直方图直方图o 直方图是以长条的面直方图是以长条的面积(长与宽的乘积)积(长与宽的乘积)来表示频数或相对频来表示频数或相对频数;条形的长度,即数;条形的长度,即纵轴高度表示单位组纵轴高度表示单位组距所含有的所有频数距所含有的所有频数或相对频数的密度。或相对频数的密度。仅适用于定距及以上仅适用于定距及以上层次的变量层次的变量 o 折线和曲线图折线和曲线图定距变量资料分布常用曲线定距变量资料分布常用曲线o J形曲线U形曲线形曲线峰状曲线峰状曲线对称与不对称曲线对称与不对称曲线o 注意:适用于较低测量层次的统计法,也适注意:适用于较低测量层次的统计法,
12、也适用于较高的层次。用于较高的层次。o 图形也同样:饼图主要是用于定类变量图形也同样:饼图主要是用于定类变量条形图主要是用于定序变量;直方图、折线图条形图主要是用于定序变量;直方图、折线图等主要是用于定距变量等主要是用于定距变量练习:城镇自杀率的分组次数分布练习:城镇自杀率的分组次数分布自杀率自杀率次数次数组中值组中值向上累积次数向上累积次数3-5126-8359-118112-145215-173018-20721-23923-263合计合计229三、集中趋势测量用分布来研究单变量是最全面的分析方法在很多情况下,我们只要了解其大概或分布的主要特征以便简化资料。于是就产生了用某一个典型的变量值
13、或特征值来代表全体变量的问题,这个典型的变量值或特征值就是集中值或集中趋势。统计分析统计分析首先要解决的问题,就是寻求首先要解决的问题,就是寻求一个简单数值以代表搜集所得的资料。一个简单数值以代表搜集所得的资料。下面是一个小故事:一个人到某公司求职,经过调查,得出关于该公司工资的一些数据,如果是你,应该如何选择?挠头的数值挠头的数值公司员工的月薪如下:公司员工的月薪如下:员工员工经理经理副经副经理理职员职员A职员职员B职员职员C职员职员D职员职员E职员职员F职员职员G月薪月薪(元)(元)60004000170013001200110011001100500我们有三种方法选择集中趋势:(1)根据
14、频数:哪个变量值出现次数越多,就选择哪个变量值,比如民主决策的表决机制。(2)根据居中:比如一个城镇居民的生活水平,居中的是小康家庭,那么就用小康家庭来代表该城镇的生活水平。(3)根据平均:用平均数来代表变量的平均水平。关于集中趋势的一个故事n吉斯莫先生有一个小工厂,生产超级小玩意儿。n管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。n现在吉斯莫先生正在接见萨姆,谈工作问题。n吉斯莫:我们这里报酬不错。平均薪金是每周300美元。你在学徒期间每周得75美元,不过很快就可以加工资。n萨姆工作了几天之后,要求见厂长。n萨姆;你欺
15、骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢?n吉斯莫:啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。n吉斯莫:这是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是每周6900元,付给23个人,对吧?n萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。n吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。n萨姆:每周100元又是怎么回事呢?n吉斯莫:
16、那称为众数,是大多数人挣的工资。n吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。n萨姆:好,现在我可懂了。我我辞职!描述集中趋势的统计量描述集中趋势的统计量Mean(均值)Median(中位值)Mode(众值)(一)均值(定距变量)1.对于未分组资料对于未分组资料 例例 求求74、85、69、9l、87、74、69这些数这些数字的算术平均数。字的算术平均数。解解 78.4 NXXNXX769748791698574 2.对于分组资料对于分组资料很显然,算术平均数不仅受各变量值很显然,算术平均数不仅受各变量值(X)大小的影大小的影响,而且受各组单位数响,而且受各组单位数(频数
17、频数)的影响。由于对于总体的影的影响。由于对于总体的影响要由频数响要由频数(f)大小所决定,所以大小所决定,所以 f 也被称为权数。值得也被称为权数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,所以它有两志值在总体中作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对数(频率)。种表现形式:绝对数(频数)和相对数(频率)。PXffXX 例例 求下表求下表(单项数列单项数列)所示数据的算术平所示数据的算术平均数均数。人口数(人口数(X)户数户数(f)频率频率(P)23456785
18、816106410.100.160.320.200.120.080.02合计合计501.00 对于对于组距数列组距数列,要用每一组的组中值权充该,要用每一组的组中值权充该组统一的变量值。组统一的变量值。例例 求下表所示数据的算术平均数求下表所示数据的算术平均数 f X fX间距频数(f)组中值(X)148152152156156160160164164168168172172176176180180184184188188192192196 1 2 51019251712 5 3 0 1 150154158162166170174178182186190194合计 100 3.的性质的性质各变
19、量值与算术平均数的离差之和等于各变量值与算术平均数的离差之和等于0。各变量值对算术平均数的平方和,小于它们对任各变量值对算术平均数的平方和,小于它们对任何他数偏差的平方和何他数偏差的平方和算术平均数受抽样变动影响较小。算术平均数受抽样变动影响较小。分组资料如遇有开放组距时,不经特殊处理分组资料如遇有开放组距时,不经特殊处理不能进行算术平均数的计算。不能进行算术平均数的计算。受极端值影响较大。受极端值影响较大。(二)中位值(定序变量、定距变量)定义:第50百分位数上的值,即有50%的观察点落在这个值之下。根据原始资料求中位值:将各个案由低至高排列起来,居于序列中央位置的个案的值即为中位值。观察总
20、数为奇数:Md=(N+1)/2 当观察总数为偶数:将位于最中央位置的两个数值的平均值作为中位值。1.对未分组资料对未分组资料 n例 求54,65,78,66,43这些数字的中位数。n例、求54,65,78,66,43,38 这些数字的中位数。你会吗?2.对于分组资料:对于分组资料:(1)单项数列单项数列 根据根据N/2在累计频数分布中找到中位数所在组,在累计频数分布中找到中位数所在组,该组变量值就是该组变量值就是。中位数XfF333491252537634717209187989199101100合计合计100(2)组距数列)组距数列(2)组距数列)组距数列按中位数所在组的下限:按中位数所在组
21、的上限:hfFNLMmmd12/hfNFUMmmd2/hfNFUMmmd2/hfNFUMmmd2/例例某年级学生身高如下,求中位数某年级学生身高如下,求中位数组距fF150156331561629121621682537168174347117418020911801867981861921991921981100合计100 解 第一种方法 168 6 17112(厘米)25372/10025372/10025372/100请你用第二种方法来做一下hfFNLMmmd12/3.中位数的性质中位数的性质 (1)各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值总和。(2)中位数不受极端
22、值的影响。(3)分组资料有不确定组距时,仍可求得中位数。(4)中位数受抽样变动的影响较算术平均数略大。4.四分位数 中位数所有单位被等分为两部分,因而被称为二分中位数所有单位被等分为两部分,因而被称为二分位数。类似于求中位数,我们还可求出位数。类似于求中位数,我们还可求出四分位数、十分四分位数、十分位数、百分位数。位数、百分位数。将总体中的各单位分割成相等的四部分,则这三个将总体中的各单位分割成相等的四部分,则这三个分割的变量值就是四分位数。若以分割的变量值就是四分位数。若以Q1、Q2、Q3分别代表分别代表第一、第二、第三四分位数。第一、第二、第三四分位数。Q2 即中位数,即中位数,Q1、Q3
23、的算的算法分别是法分别是333334/3hfFNlQ333334/3hfFNlQ111114/hfFNlQ请从下表中指出第一四请从下表中指出第一四分位数和第三四分位分位数和第三四分位数数X f F 3 3 3 4 9 12 5 25 37 6 34 71 7 20 91 8 7 98 9 1 99 10 1 100 合计合计 100 XfF333491252537634717209187989199101100合计合计100 求出下表中的第一四分位数和第三四分数求出下表中的第一四分位数和第三四分数组距组距fF1501563315616291216216825371681743471174180
24、20911801867981861921991921981100合计合计100(三)众数(Mode)众数只与次数有关,可以用于定类、众数只与次数有关,可以用于定类、定序、定距、定比资料。定序、定距、定比资料。1.对于未分组资料对于未分组资料 直接观察 首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量值相比较)出现的次数(或频数)呈现“峰”值,这些变量值就是众数。2.对于分组资料对于分组资料 单项式:单项式:观察频数分布(或频率分布)组距式:组距式:Lo为众数组下限;为众数组频数与前一组频数之差;为众数组频数与后一组频数之差;ho为众数组组距。oohLM211人口数(人口数(X)
25、户数户数(f)频率频率(P)23456785816106410.100.160.320.200.120.080.02合计合计501.00求下表中的众数求下表中的众数众众数数求下表中的众数求下表中的众数组距组距fF150156331561629121621682537168174347117418020911801867981861921991921981100合计合计100 (1)众数仅受上下相邻两组频数大小的影响,不受极众数仅受上下相邻两组频数大小的影响,不受极端值影响,对开口组仍可计算众数;端值影响,对开口组仍可计算众数;(2)受抽样变动影响大;受抽样变动影响大;(3)众数不唯一确定。众数
展开阅读全文