第五基本统计分析课件1.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第五基本统计分析课件1.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 基本 统计分析 课件
- 资源描述:
-
1、第五基本统计分析内容提要内容提要1、频数分析(重点:统计量含义、相互联系)、频数分析(重点:统计量含义、相互联系)2、描述统计、描述统计3、列联表分析、列联表分析(掌握分析适用条件、作用、结果判定掌握分析适用条件、作用、结果判定)4、多选项问题、多选项问题n多选问题赋值方法(重点掌握)n定义多选变量集合(重点掌握)n多选变量的频次分析(重点掌握)n多选变量的列联表分析(重点掌握)5、探索分析(了解分析工作的作用、掌握假设检验的判断、探索分析(了解分析工作的作用、掌握假设检验的判断/认识茎叶图)认识茎叶图)6、比率分析(了解)、比率分析(了解)SPSS的主要分析工具的主要分析工具Analyze菜
2、单菜单报告报告Rports描述性统计分析描述性统计分析Descriptive Statistics菜单菜单表格表格Tables均数间的比较均数间的比较Compare Means菜单菜单一般线性模型一般线性模型General Linear Model菜单菜单相关分析相关分析Correlate菜单菜单多元线性回归与曲线拟合多元线性回归与曲线拟合 Regression菜单菜单对数线性模型对数线性模型Loglinear菜单菜单聚类分析与判别分析聚类分析与判别分析Classify菜单菜单因子分析与对应分析因子分析与对应分析Data Reduction菜单菜单信度分析与多维尺度分析信度分析与多维尺度分析S
3、cale菜单菜单非参数检验非参数检验Nonparametric Tests菜单菜单时间序列分析时间序列分析Time series SPSS基本统计分析(描述性统计分析)的作用:基本统计分析(描述性统计分析)的作用:分析数据的基本统计特征(如集中度、离散度等);分析数据的基本统计特征(如集中度、离散度等);分析数据的总体分布情况;分析数据的总体分布情况;是下一步的建模和进行正确统计推断的先决条件是下一步的建模和进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在目的而设计的几个模块则集中在Descript
4、ive Statistics菜单中,包括:菜单中,包括:Frequencies:频数分析过程,特色是产生频:频数分析过程,特色是产生频数表(主要针对分类变量)数表(主要针对分类变量)Descriptives:数据描述过程,进行一般性的:数据描述过程,进行一般性的统计描述(主要针对定距型变量)统计描述(主要针对定距型变量)Explore:数据探察过程,用于对数据概况不清:数据探察过程,用于对数据概况不清时的探索性分析时的探索性分析Crosstabs:多维频数分布交叉表分析(列联表:多维频数分布交叉表分析(列联表分析)分析)Ratio statistics:比率分析,用于两个定距型:比率分析,用于
5、两个定距型变量间变量值比率变化分析。变量间变量值比率变化分析。5.1 频数分析5.1.1 5.1.1 频数分析的目的和基本任务频数分析的目的和基本任务 1、目的:基本统计分析往往从频数分析开始。、目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。数据的分布特征是非常有用的。(如:样本是否有(如:样本是否有代表性、抽样是否存在系统性偏差等)代表性、抽样是否存在系统性偏差等)适用对象:主要是定序或分类变量适用对象:主要是定序或分类变量 2、基本任务、基本任务 (1)频数分析的第一个基本任务是编制频数
6、分布表(可选)频数分析的第一个基本任务是编制频数分布表(可选项)。项)。n频数(Frequency):即变量值落在某个区间(或某个类别)中的次数n百分比(Percent):即各频数占总样本数的百分比n有效百分比(Valid Percent):即各频数占有效样本数的百分比,这里有效样本数总样本缺失样本数n累计百分比(Cumulative Percent):即各百分比逐级累加起来的结果。最终取值为100。(2)频数分析的第二个任务是绘制统计图)频数分析的第二个任务是绘制统计图n条形图(Bar Chart):用宽度相同的条形的高度或长短来表示频数分布(或百分比)变化的图形,适用于定序和定类变量的分析
7、。n饼图(Pie Chart):用圆形及圆内扇形的面积来表示频数(或百分比)变化的图形,以利于研究事物内在结构组成等问题。n直方图(Histograms):用矩形的面积来表示频数分布变化的图形,适用于定距型变量的分析。5.1.2 频数分析的基本操作频数分析的基本操作(1)选择菜单)选择菜单AnalyzeDescriptive StatisticsFrequencies。(2)将若干频数分析变量选择到)将若干频数分析变量选择到Variable(s)框框中。中。(3)单击)单击Chart按钮选择绘制统计图形,在按钮选择绘制统计图形,在Chart Values框中选择条形图中纵坐标(或饼框中选择条形
8、图中纵坐标(或饼图中扇形面积)的含义,其中图中扇形面积)的含义,其中Frequencies表示表示频数;频数;Percentages表示百分比。表示百分比。5.1.3 SPSS频数分析的扩展功能频数分析的扩展功能 1、计算分位数(、计算分位数(Percentile Values)分位数是变量在不同分位点上的取值。分位点在分位数是变量在不同分位点上的取值。分位点在0100之间。一般使用较多的是四分位点(之间。一般使用较多的是四分位点(Quartiles),即将所有数据按升序排序后平均等分成四份,各分位点,即将所有数据按升序排序后平均等分成四份,各分位点依次是依次是25,50,75。于是四分位数便
9、分别是。于是四分位数便分别是25,50,75点所对应的变量值。此外,还有八分位点所对应的变量值。此外,还有八分位数、十六分位数等。数、十六分位数等。SPSS提供了计算任意分位数的功能,用户可以指定提供了计算任意分位数的功能,用户可以指定将数据等分为将数据等分为n份(份(Cut points for n equal groups)。还可以直接指定分位点()。还可以直接指定分位点(Percentile)。)。问题2:择业中考虑的主要因素(多选)例如表中第一行中的33.输出单元格中观测值的数目占整列全部观测量数目的百分比通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。即分析两个
10、或两个以上分类变量的分布情况。对不同工作单位性质人员购买商业养老保险的原因进行分析,采用多选项交叉分组下的频数分析。Standardized为标准化剩余,又称Pearson剩余,定义为:7劳动强度 8社会福利(2)利用SPSS的频数分析计算所有样本的存(取)款金额的四分位数;V1 购物影响因素1 1,2,3,4,5 1-交通条件;分别计算其分子、分母的平均数分析变量(Dependent List):数值型变量然后为每个答案设置一个SPSS变量,变量取值为多选项问题中的所有可选答案。峰度大于0表示数据的分布比标准正态分布更陡峭,为尖峰分布;有效百分比(Valid Percent):即各频数占有效
11、样本数的百分比,这里有效样本数总样本缺失样本数例如表中第一行中的33.输出百分位数:输出四分位数,显示25%、50%、75%的百分位数;将数据平均分为所设定的相等等份,可输入2100 的整数,如键入4则输出第25、50、75百分位数自定义百分位数,可输入0100 的整数。离散趋势分布形态栏集中趋势栏输出统计量对话框 2、计算其他基本描述统计量、计算其他基本描述统计量 SPSS频数分析还能够计算其他基本统计频数分析还能够计算其他基本统计量,其中包括描述集中趋势(量,其中包括描述集中趋势(Central Tendency)的基本统计量、描述离散程度)的基本统计量、描述离散程度(Dispersion
12、)的基本统计量、描述分布形)的基本统计量、描述分布形态(态(Distribution)的基本统计量等。)的基本统计量等。Format 对话框对话框控制频数表输出的分类数量。默认为10多变量框中可设定多变量表格输出的格式设置频数表输出的格式设置频数表输出的格式选择频数表中排列顺序按变量升序排列,此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列 (2)multiple variables单选框组:单选框组:如果选择了两个以上变量作频数表,则如果选择了两个以上变量作频数表,则compare variables可以将所有变量的结果可以将所有变量的结果在同一个频
13、数表过程输出结果中显示,便于互在同一个频数表过程输出结果中显示,便于互相比较;相比较;organize output by variables则将结果在不同的频数表过程输出结果中显示则将结果在不同的频数表过程输出结果中显示,每一个变量一张表。,每一个变量一张表。3、频数分布表格式(、频数分布表格式(Format)的定义)的定义 (1)调整频数分布表中数据的输出顺序()调整频数分布表中数据的输出顺序(Order by):频数分布表中的内容的输出顺序):频数分布表中的内容的输出顺序可以可以按变量值的升序输出(按变量值的升序输出(Ascending values)按变量值的降序输出(按变量值的降序输
14、出(Descending values)(以上两类适合分类数量较少的情形)(以上两类适合分类数量较少的情形)按频数的升序输出(按频数的升序输出(Ascending counts)按频数的降序输出(按频数的降序输出(Descending counts)(以上两类适合分类数量较多的情形)(以上两类适合分类数量较多的情形)(3)压缩频数分布表()压缩频数分布表(Suppress tables with more than n categories)如果变量取值的个数或取值区间的个数太如果变量取值的个数或取值区间的个数太多,频数分布表将很庞大,此时可以压缩它。多,频数分布表将很庞大,此时可以压缩它。S
15、PSS默认,如果变量取值的个数或取值区间默认,如果变量取值的个数或取值区间的个数大于的个数大于10,则不输出相应的频数分布表,则不输出相应的频数分布表。应用中可以修改该值。应用中可以修改该值。1、刻画集中趋势的描述统计量(recode,frequency)然后,按照户口类型对数据进行拆分(Split file)并重新计算分位数,分别得到城镇户口和农村户口的存(取)款金额的四分位数。V3 购物影响因素3 同上 同上为便于分析,通常还应指定输出Percentage框中的行百分比(Row)、列百分比(Column)、总百分比(Total)。(5)单击Format按钮指定列联表各单元格的输出排列顺序。
16、对不同年龄段储户储蓄目的进行分析,采用多选项交叉分组下的频数分析。编制交叉列联表是交叉分组下频数分析的第一个任务。(3)为多选项变量集命名,系统会自动在该名字前加字符$。(3)如果做不同组间的比率比较,则将分组变量选择到Group Variable框中。偏度绝对值越大,表示数据分布形态的偏斜程度越大。多选项二分法及其编码(multiple dichotomies method):3、适用对象:一般是考察定距变量;(1)菜单选项AnalyzeDescriptive StatisticsCrosstabs,出现窗口如下:限选:如在11种工作种类中,选你喜欢的,最多可选4种(Var1-Var4);P
17、ercentages表示百分比。适用于两定类变量的方法:Nominal框中列出的方法属该类方法。时间序列分析Time series为进行多选项分析,首先定义名为set1的多选项变量集,其中包括q13a、q13b、q13c三个变量,然后对多选项变量集进行频数分析;5.1.4 频数分析的应用举例频数分析的应用举例 利用居民储蓄调查数据进行频数分析,有利用居民储蓄调查数据进行频数分析,有以下两个分析目标:以下两个分析目标:q目标一:分析储户的户口和职业的基本情况。q目标二:分析储户存取款金额的分布,并对城镇储户和农村储户进行比较。目标二:分析储户存款金额的分布,并对城镇储目标二:分析储户存款金额的分
18、布,并对城镇储户和农村储户进行比较。户和农村储户进行比较。1、分析思路:、分析思路:(1)由于存(取)款金额数据为定距型变量,)由于存(取)款金额数据为定距型变量,直接采用频数分析不利于对其分布形态的把握直接采用频数分析不利于对其分布形态的把握,因此考虑依据第三章中的数据分组功能对数,因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。(据分组后再编制频数分布表。(recode,frequency)(2)进行数据拆分,并分别计算城镇储户和农)进行数据拆分,并分别计算城镇储户和农村储户的一次存(取)款金额的四分位数,并村储户的一次存(取)款金额的四分位数,并通过四分位数比较两者分布上
19、的差异。通过四分位数比较两者分布上的差异。2、分析过程:、分析过程:(1)数据分组,将存(取)款金额重新分成五)数据分组,将存(取)款金额重新分成五组,五组区间分布为,少于组,五组区间分布为,少于500元,元,5002000元,元,20003500元,元,35005000元,元,5000元以上。分组后进行频数分析并绘元以上。分组后进行频数分析并绘制带正态曲线的直方图。制带正态曲线的直方图。(2)利用)利用SPSS的频数分析计算所有样本的存的频数分析计算所有样本的存(取)款金额的四分位数;然后,按照户口类(取)款金额的四分位数;然后,按照户口类型对数据进行拆分(型对数据进行拆分(Split fi
20、le)并重新计算)并重新计算分位数,分别得到城镇户口和农村户口的存(分位数,分别得到城镇户口和农村户口的存(取)款金额的四分位数。取)款金额的四分位数。5.2 计算基本描述统计量5.2.1 基本描述统计量基本描述统计量适用对象:定距数据适用对象:定距数据常见的基本描述统计量有三大类:常见的基本描述统计量有三大类:n刻画集中趋势的统计量n刻画离中趋势的统计量n刻画分布形态的统计量1、刻画集中趋势的描述统计量、刻画集中趋势的描述统计量 集中趋势是指一组数据向某一中心值靠拢集中趋势是指一组数据向某一中心值靠拢的倾向。的倾向。(1)均值()均值(Mean):即算术平均数,是反映):即算术平均数,是反映
21、某变量所有取值的集中趋势或平均水平的指标某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。其计算公式为。如某企业职工的平均月收入。其计算公式为:11niixxn均值适用条件:均值适用条件:定距变量;单峰或基本对称分布情况下适用(为什么?)(2)中位数()中位数(Median):即一组数据按升序):即一组数据按升序排序后,处于中间位置上的数据值。如评价排序后,处于中间位置上的数据值。如评价社会的老龄化程度时,可用中位数。社会的老龄化程度时,可用中位数。中位数特点:中位数特点:位置平均数,不受极端值影响,适用于任意分布类型数据;定序和定价数据都适用;样本量很小时,中位数不稳定;问
22、题2:择业中考虑的主要因素(多选)Dichotomies表示以多选二分法编码,并在counted value中输入用哪个数值来表示选中该选项。3发展前途 4地理区位由“茎”和“叶”两部分构成,其图形是由数字组成的2 交叉列联表的主要内容(1)均值(Mean):即算术平均数,是反映某变量所有取值的集中趋势或平均水平的指标。2、然后对综合变量的各种取值进行分析。75的计算公式是3*4/16=0.(1)频数分析的第一个基本任务是编制频数分布表(可选项)。但大多数情况下,观测频数分散在列联表的各个单元格中,不容易直接发现行列变量之间的关系强弱程度,此时就要借助非参数检验方法。(2)选择和计算检验统计量
23、多变量框中可设定多变量表格输出的格式(6)单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系,窗口如下,其中,Chi-Square为卡方检验。例如:购买商业保险的原因(P126)当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关;例如:购买商业保险的原因(P126)补充:多选项问题的分析指标被称为观察到的(或实测的)显著性水平。(2)将若干频数分析变量选择到Variable(s)框中。多选问题赋值方法(重点掌握)(3)众数()众数(Mode):即一组数据中出现次数最多):即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的的数据
24、值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数。生产计划时应该运用众数。众数特点:众数特点:出现频数最高的数,不受极端值影响,但是不容易确定;适用于任意类型数据,特别是单峰对称分布;仅使用频数最高这一信息,信息损失较大;2、刻画离散程度的描述统计量、刻画离散程度的描述统计量 离散程度是指一组数据远离其离散程度是指一组数据远离其“中心值中心值”的程度。的程度。如果数据都紧密地集中在如果数据都紧密地集中在“中心值中心值”的周的周围,数据的离散程度较小,说明这个围,数据的离散程度较小,说明这个“中心值中心值”对数据的代表性好;相反,如果数据仅是比对数据的代表性好;相反,如果数据仅是比较松
25、散地分布在较松散地分布在“中心值中心值”的周围,数据的离的周围,数据的离散程度较大,则此散程度较大,则此“中心值中心值”说明数据特征是说明数据特征是不具有代表性的。不具有代表性的。常见的刻画离散程度的描述统计量如下:常见的刻画离散程度的描述统计量如下:(1)全距()全距(Range):也称极差,是数据的最):也称极差,是数据的最大值(大值(Maximum)与最小值()与最小值(Minimum)之间的绝对离差。)之间的绝对离差。特点:特点:易受极端值影响;不能反映中间数据分布;一般是作预备性检查。(2)方差()方差(Variance):也是表示变量取值):也是表示变量取值离散程度的统计量,是各变
展开阅读全文