第四章-SPSS基本统计分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第四章-SPSS基本统计分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 SPSS 基本 统计分析 课件
- 资源描述:
-
1、2022年7月28日星期四1第四章 SPSS基本统计分析描述性统计分析2022年7月28日星期四2SPSS的主要分析工具的主要分析工具Analyze菜单菜单n描述性统计分析Descriptive Statistics菜单n均数间的比较Compare Means菜单n一般线性模型General Linear Model菜单n相关分析Correlate菜单n多元线性回归与曲线拟合 Regression菜单n对数线性模型Loglinear菜单n聚类分析与判别分析Classify菜单n因子分析与对应分析Data Reduction菜单n信度分析与多维尺度分析Scale菜单n非参数检验Nonparame
2、tric Tests菜单2022年7月28日星期四3 描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,包括:Frequencies:频数分析过程,特色是产生频数表Descriptives:数据描述过程,进行一般性的统计描述Explore:数据探察过程,用于对数据概况不清时的探索性分析Crosstabs:列联表分析过程Ratio statistics:比率分析2022年7月28日星期四44.1 频数分析n4.1.1 频数分析的目的和基本任
3、务 1、目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。例如:在问卷数据分析中,通常应首先对本次调查的被调查者的状况,如被访者的总人数、年龄特点、职业特点、性别特征等进行分析和总结。通过这些分析,能够在一定程度上反映样本是否具有总体代表性,抽样是否存在系统偏差等,并以此证明以后相关问题分析的代表性和可信性。这些可以通过频数分析来实现。2022年7月28日星期四5 2、基本任务 (1)频数分析的第一个基本任务是编制频数分编制频数分布表布表。频数(频数(Frequency):即变量值落在某个区间(或某个类别)中的次数百分比(百分比(Per
4、cent):即各频数占总样本数的百分比有效百分比(有效百分比(Valid Percent):即各频数占有效样本数的百分比,这里有效样本数总样本缺有效样本数总样本缺失样本数失样本数累计百分比(累计百分比(Cumulative Percent):即各百分比逐级累加起来的结果。最终取值为100。2022年7月28日星期四6 (2)频数分析的第二个任务是绘制统计绘制统计图图条形图(条形图(Bar Chart):用宽度相同的条形的高度或长短来表示频数分布变化的图形,适用于定序和定类变量的分析。饼图(饼图(Pie Chart):用圆形及圆内扇形的面积来表示频数百分比变化的图形,以利于研究事物内在结构组成等
5、问题。直方图(直方图(Histograms):用矩形的面积来表示频数分布变化的图形,适用于定距型变量的分析。2022年7月28日星期四7注:变量的尺度:a 定类(Category Scale):只能计次b 定序(Ordinal Scale):计次、排序c 定距(Interval Scale):计次、排序、加减d 定比(Ratio Scale):计次、排序、加减、乘除2022年7月28日星期四8n4.1.2 频数分析的基本操作(1)选择菜单AnalyzeDescriptive StatisticsFrequencies。(2)将若干频数分析变量选择到Variable(s)框中。(3)单击Char
6、t按钮选择绘制统计图形,在Chart Values框中选择条形图中纵坐标(或饼图中扇形面积)的含义,其中Frequencies表示频数;Percentages表示百分比。至此,SPSS将自动编制频数分布表并显示到输出窗口中。2022年7月28日星期四9频数分析过程对话框统计量选择对话框统计量选择对话框 2022年7月28日星期四10n4.1.3 SPSS频数分析的扩展功能 1、计算分位数(Percentile Values)分位数是变量在不同分位点上的取值。分位点在0100之间。一般使用较多的是四分位点(Quartiles),即将所有数据按升序排序后平均等分成四份,各分位点依次是25,50,7
7、5。于是四分位数便分别是25,50,75点所对应的变量值。此外,还有八分位数、十六分位数等。SPSS提供了计算任意分位数的功能,用户可以指定将数据等分为n份(Cut points for n equal groups)。还可以直接指定分位点(Percentile)。2022年7月28日星期四11 2、计算其他基本描述统计量 SPSS频数分析还能够计算其他基本统计量,其中包括描述集中趋势(Central Tendency)的基本统计量、描述离散程度(Dispersion)的基本统计量、描述分布形态(Distribution)的基本统计量等。2022年7月28日星期四123、频数分布表格式(For
8、mat)的定义 (1)调整频数分布表中数据的输出顺序(Order by)频数分布表中的内容的输出顺序可以按变量值的升序输出(Ascending values),按变量值的降序输出(Descending values),按频数的升序输出(Ascending counts),按频数的降序输出(Descending counts)。2022年7月28日星期四13 (2)压缩频数分布表(Suppress tables with more than n categories)如果变量取值的个数或取值区间的个数太多,频数分布表将很庞大,此时可以压缩它。SPSS默认,如果变量取值的个数或取值区间的个数大于1
9、0,则不输出相应的频数分布表。应用中可以修改该值。2022年7月28日星期四14n4.1.4 频数分析的应用举例 利用居民储蓄调查数据进行频数分析,有以下两个分析目标:q目标一:分析储户的户口和职业的基本情况。q目标二:分析储户一次存(取)款金额的分布,并对城镇储户和农村储户进行比较。2022年7月28日星期四152022年7月28日星期四16目标二:分析储户一次存(取)款金额的分布,并对城镇储户和农村储户进行比较。1、分析思路:(1)由于存(取)款金额数据为定距型变量,直接采用频数分析不利于对其分布形态的把握,因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。(2)进行数据拆分
10、,并分别计算城镇储户和农村储户的一次存(取)款金额的四分位数,并通过四分位数比较两者分布上的差异。2022年7月28日星期四172、分析过程:(1)数据分组,将存(取)款金额重新分成五组,五组区间分布为,少于500元,5002000元,20003500元,35005000元,5000元以上。分组后进行频数分析并绘制带正态曲线的直方图。(2)利用SPSS的频数分析计算所有样本的存(取)款金额的四分位数;然后,按照户口类型对数据进行拆分(Split file)并重新计算分位数,分别得到城镇户口和农村户口的存(取)款金额的四分位数。2022年7月28日星期四184.2 计算基本描述统计量n4.2.1
11、 基本描述统计量 常见的基本描述统计量有三大类:刻画集中趋势的统计量刻画离中趋势的统计量刻画分布形态的统计量2022年7月28日星期四191、刻画集中趋势的描述统计量 集中趋势是指一组数据向某一中心值靠拢的倾向。(1)均值(Mean):即算术平均数,是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。其计算公式为:11niixxn2022年7月28日星期四20(2)中位数(Median):即一组数据按升序排序后,处于中间位置上的数据值。如评价社会的老龄化程度时,可用中位数。(3)众数(Mode):即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的生产计划时
12、应该运用众数。2022年7月28日星期四21(4)均值标准误差(Standard Error of Mean):描述样本均值与总体均值之间的平均差异程度的统计量。其计算公式为:其中:为总体标准差,n为样本单位数.S E of Meann2022年7月28日星期四222、刻画离散程度的描述统计量 离散程度是指一组数据远离其“中心值”的程度。如果数据都紧密地集中在“中心值”的周围,数据的离散程度较小,说明这个“中心值”对数据的代表性好;相反,如果数据仅是比较松散地分布在“中心值”的周围,数据的离散程度较大,则此“中心值”说明数据特征是不具有代表性的。2022年7月28日星期四23常见的刻画离散程度
13、的描述统计量如下:(1)样本标准差(Standard Deviation:Std Dev):表示变量取值距离均值的平均离散程度的统计量。其计算公式为:标准差值越大,说明变量值之间的差异越大,距均值这个“中心值”的离散趋势越大。211()1niisxxn2022年7月28日星期四24(2)样本方差(Variance):也是表示变量取值离散程度的统计量,是样本标准差的平方。其计算公式为:(3)全距(Range):也称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对差。2211()1niisxxn2022年7月28日星期四253、刻画分布形态的描述统计量 数据的分布形态主要
14、指数据分布是否对称,偏斜程度如何,分布陡峭程度等。刻画分布形态的统计量主要有两种:(1)偏度(Skewness):描述变量取值分布形态对称性的统计量。其计算公式为:3311()/1niiSkewnessxxsn2022年7月28日星期四26 当分布为对称分布时,正负总偏差相等,偏度值等于0;当分布为不对称分布时,正负总偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,为正偏或称右偏;偏度值小于0表示负偏差值大,为负偏或称左偏。偏度绝对值越大,表示数据分布形态的偏斜程度越大。另外,SPSS还计算偏度标准误差(S.E.of Skewness)。2022年7月28日星期四27(2)峰度(
15、Kurtosis):描述变量取值分布形态陡峭程度的统计量。其计算公式为:当数据分布与标准正态分布的陡峭程度相同时,峰度值等于0;峰度大于0表示数据的分布比标准正态分布更陡峭,为尖峰分布;峰度小于0表示数据的分布比标准正态分布平缓,为平峰分布。另外,SPSS还计算峰度标准误差(S.E.of Kurtosis)。4411()/31niiKurtosisxxsn2022年7月28日星期四28n4.2.2 计算基本描述统计量的基本操作(1)选择菜单AnalyzeDescriptive StatisticsDescriptives,出现如下窗口:2022年7月28日星期四29(2)将需计算的数值型变量选
16、择到Variable(s)框中。(3)单击Option按钮指定计算哪些基本描述统计量,出现如下窗口:2022年7月28日星期四30 在上面窗口中,用户可以指定分析多变量时结果输出的次序(Display Order)。其中,Variable list表示按变量在数据窗口中从左到右的次序输出;Alphabetic表示按字母顺序输出;Ascending Means表示按均值升序输出;Descending Means表示按均值降序输出。至此,SPSS便自动计算所选变量的基本描述统计量并显示到输出窗口中。2022年7月28日星期四31n4.2.3 计算基本描述统计量的应用举例 利用居民储蓄调查数据,对一
17、次存(取)款金额变量计算基本描述统计量。有以下分析目标:计算存(取)款金额的基本描述统计量,并分别对城镇储户和农村储户进行比较 分析:首先按照户口对数据进行拆分(Split file),然后计算存(取)款金额的基本描述统计量。2022年7月28日星期四324.3 交叉分组下的频数分析n4.3.1 目的和基本任务 1、目的:交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况,在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完
18、成。2022年7月28日星期四332、基本任务基本任务:(1)根据收集到的样本数据,产生二维或多维交叉列联表;(2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。n4.3.2 交叉列联表的主要内容 编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。例:职工基本情况数据按职称和文化程度编制的二维交叉列联表(见下页表):2022年7月28日星期四34职职 称称 *文文 化化 程程 度度 C Cr ro os ss st ta ab bu ul la at ti io on n1110333.3%33.3%33.3
19、%.0%100.0%25.0%25.0%20.0%.0%18.8%6.3%6.3%6.3%.0%18.8%1300425.0%75.0%.0%.0%100.0%25.0%75.0%.0%.0%25.0%6.3%18.8%.0%.0%25.0%2013633.3%.0%16.7%50.0%100.0%50.0%.0%20.0%100.0%37.5%12.5%.0%6.3%18.8%37.5%00303.0%.0%100.0%.0%100.0%.0%.0%60.0%.0%18.8%.0%.0%18.8%.0%18.8%44531625.0%25.0%31.3%18.8%100.0%100.0%10
20、0.0%100.0%100.0%100.0%25.0%25.0%31.3%18.8%100.0%Count%within 职称%within 文化程度%of TotalCount%within 职称%within 文化程度%of TotalCount%within 职称%within 文化程度%of TotalCount%within 职称%within 文化程度%of TotalCount%within 职称%within 文化程度%of Total高级工程师工程师助理工程师无技术职称职称Total本科专科高中初中文化程度Total2022年7月28日星期四35 上表中的职称变量称为行变量(
21、行变量(Row),文化程度称为列变量(列变量(Column)。行标题和列标题行标题和列标题分别是两个变量的变量值(或分组值)。表格中间是观测频数(观测频数(Observed Counts)和各种百分比百分比。16名职工中,本科、专科、高中、初中的人数分别为4,4,5,3,构成的分布称为交叉列联表的列边缘分布列边缘分布;高级工程师、工程师、助理工程师、无技术职称的人数分别为3,4,6,3,构成的分布称为交叉列联表的行边缘分布行边缘分布;4个本科学历职工中各职称的人数分别是1,1,2等,这些频数构成的分布称为条件分布条件分布,即在行变量(列变量)取值条件下的列变量(行变量)的分布。2022年7月2
展开阅读全文