第三章描述性统计分析37课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第三章描述性统计分析37课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 描述 统计分析 37 课件
- 资源描述:
-
1、第3章 描述性统计分析描述性统计和推断性统计n统计描述q单变量统计描述:描述单个变量之分布q双变量统计描述:描述两个变量之相关n统计推论q参数估计q假设检验统计量n统计分析往往是从了解数据的基本特征开始的。统计上,需要把样本数据所含信息进行概括、融合和抽象,从而得到反映样本数据的综合指标,这些指标称为统计量。描述性统计分析指标n统计量可分为两类q一类表示数据的中心位置,例如均值、中位数、众数等q一类表示数据的离散程度,例如方差、标准差、极差等用来衡量个体偏离中心的程度。描述单变量分布的三种方式n用数字呈现一个变量的分布n用表格呈现一个变量的分布n用图形呈现一个变量的分布nFrequencies
2、nDescriptivenExplore1、Frequenciesn即适用于分类变量,也适用于连续变量n能够产生统计值n能够产生统计表(频数表)n能够产生统计图(饼图、条图和直方图)3.1 频率分析 n频率分析主要通过频率分布表、条形图和直方图,以及集中趋势和离散趋势的各种统计量来描述数据的分布特征SPSS频率分析n步骤1:点击Frequencies,弹出对话框步骤2:从左侧变量框,选择分析变量步骤3:点击“OK”,自动出现频数分析nFrequencies的三个操作选项带有正态曲线的直方图按变量值升序排按频数降序排设置多变量表输出格式在同一表中输出多个变量 的统计结果每个表中只输出一个变量的统
3、计结果3.2 中心趋势的描述n均值n均值标准误差n中位数n众数均值n均值即数据的算术平均数,是数据中心趋势的主要度量指标,n设变量有n个测量值 ,则算术均值为:12,nxxx均值的特点n最常用的中心位置度量n 受极端值影响n 例:1,3,5,7,9 和 1,3,5,7,14均值标准误差(S.E.mean)n均值标准误差(Standard Error of Mean,S.E.mean)就是描述这些样本均值与总体均值之间平均差异程度的统计变量。中位数n重要的中心位置度量n在递增排序后的数据列中q 若数据个数为奇数,中位数是正中央的数q 若数据个数是偶数,中位数是正中央的两数的平均值.n不受极端值的
4、影,例如:1,5,7,3,9众数n发生频数最高的数据值n不受极端值的影响n众数可能不存在n可能有多个众数(单峰,双峰,多峰)n可用于定量或定性数据3.3 离散趋势的描述n仅仅根据数据的中心趋势指标进行决策是不够的。例如,如果一个国家的不同家庭收入差距很少;而另一个国家的家庭收入差距很大,既存在大量的贫困家庭,也存在许多十分富有的家庭,那么即使这两个国家的中等收入家庭的收入完全一样,其家庭收入情况仍然完全不同。例子n假设我们有以下的三组观测值:q观测A:11,12,13,16,16,17,18,21q观测B:14,15,15,15,16,16,16,17q观测C:11,11,11,12,19,2
5、0,20,20n这三组观测值的均值都是15.5,那么这三组数据是否相似呢?离散趋势离散趋势的描述 n极差(全距)(range)n方差(Variance)n标准差(S.d.)n分位数(Percentage)极差n极差=最大值-最小值n受极端值影响较大方差和标准差n方差n标准差四分位数(Quartiles)n四分位数是将一组个案由小到大(或由大到小)排序后,用3个点将全部数据分为四等份,与3个点上相对应的变量为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数)、Q3(第三四分位数)。n其中Q3到Q1之间的距离的一半又称为四分位差,记为Q。四分位差越小,说明中间的数据越集中;四分位差越大,
6、则意味着中间部分的数据越分散。3.4 分布的形状n偏度(Skewness)是描述数据分别形态的,它是描述某变量取值分布对称性的统计量。n峰度(Kurtosis)是描述某变量所有取值分布形态陡缓程度的统计量。偏度(Skewness)q当偏度大于0时,分布为正偏或右偏,布图形在右边拖尾,分布图有很长的右尾,尖峰偏左q当偏度小于0,分布为负偏或左偏,即分布图形在左边拖尾,分布图有很长的左尾,峰尖偏右 q当偏度为0,分布对称 峰度(Kurtosis)n峰度n 3,分布为高峰度,即比正态分布的峰要陡峭;0.05 数据服从正态分布Sig.0.05 接受方差相同的假设Sig.0.05 拒绝方差相同的假设茎叶
7、图茎叶图分为3大部分:频数(Frequency)茎(Stem)和叶(Leaf)。茎表示数值的整数部分,叶表示数值的个数部分。每行的茎和叶组成的数字相加再乘以茎宽(Stem Width),即茎叶所表示的是实际值的近似值。正态概率图斜线是正态分布标准线,散点是实际数据的取值,散点图组成的曲线越接近直线,表示数据分布越接近正态分布。离散正态概率图散点随机落在中间横线周围,不能拒绝正态分布。箱图箱子中间的黑粗线为中位数箱子上框为上四分位数(75),下框为下四分位数(25)n箱子上下两个细线分别为去掉极端值以后的最大值和最小值n细线外面的圆圈和星号为极端值交叉列联表分析n交叉分组下的频数分析又称列联表分
8、析。通过前面的频数分析能够掌握单个变量的数据分布情况,在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。交叉列联表分析2、基本任务:(1)根据收集到的样本数据,产生二维或多维交叉列联表;(2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。n5.3.2 交叉列联表的主要内容 编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。例:职工基本情况数据按职称和文化程度编制的二维交叉列联表
9、(见下页表):职职 称称 *文文 化化 程程 度度 C Cr ro os ss st ta ab bu ul la at ti io on n1110333.3%33.3%33.3%.0%100.0%25.0%25.0%20.0%.0%18.8%6.3%6.3%6.3%.0%18.8%1300425.0%75.0%.0%.0%100.0%25.0%75.0%.0%.0%25.0%6.3%18.8%.0%.0%25.0%2013633.3%.0%16.7%50.0%100.0%50.0%.0%20.0%100.0%37.5%12.5%.0%6.3%18.8%37.5%00303.0%.0%100
10、.0%.0%100.0%.0%.0%60.0%.0%18.8%.0%.0%18.8%.0%18.8%44531625.0%25.0%31.3%18.8%100.0%100.0%100.0%100.0%100.0%100.0%25.0%25.0%31.3%18.8%100.0%Count%within 职称%within 文化程度%of TotalCount%within 职称%within 文化程度%of TotalCount%within 职称%within 文化程度%of TotalCount%within 职称%within 文化程度%of TotalCount%within 职称%wi
11、thin 文化程度%of Total高级工程师工程师助理工程师无技术职称职称Total本科专科高中初中文化程度Totaln 上表中的职称变量称为行变量(Row),文化程度称为列变量(Column)。行标题和列标题分别是两个变量的变量值(或分组值)。表格中间是观测频数(Observed Counts)和各种百分比。16名职工中,本科、专科、高中、初中的人数分别为4,4,5,3,构成的分布称为交叉列联表的列边缘分布;高级工程师、工程师、助理工程师、无技术职称的人数分别为3,4,6,3,构成的分布称为交叉列联表的行边缘分布;4个本科学历职工中各职称的人数分别是1,1,2等,这些频数构成的分布称为条件
12、分布,即在行变量(列变量)取值条件下的列变量(行变量)的分布。n 在交叉列联表中,除了频数外还引进了各种百分比。例如表中第一行中的33.3,33.3,33.3分别是高级工程师3人中各学历人数所占的比例,称为行百分比(Row percentage),一行的百分比总和为100;表中第一列的25.0,25.0,50.0分别是本科学历4人中各职称人数所占的比例,称为列百分比(Column percentage),一列的列百分比总和为100,表中的6.3,6.3,12.5等分别是总人数16人中各交叉组中人数所占的百分比,称为总百分比(Total percentage),所有格子中的总百分比之和也为100
13、。n交叉分组下的频数分析的基本操作(1)菜单选项AnalyzeDescriptive StatisticsCrosstabs,出现窗口如下:n(2)如果进行二维列联表分析,则将行变量选择到Row(s)框中,将列变量选择到Column(s)框中。如果Row(s)和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析,则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的,也可以是逐层叠加的,可通过Previous或Next按钮确定控制变量间的层次关系。n(3)选择Display clustered bar charts
14、选项,指定绘制各变量交叉分组下频数分布条形图。Suppress tables表示不输出列联表,在仅分析行列变量间关系时可选择该选项。(4)单击Cells按钮指定列联表单元格中的输出内容,窗口如下:(5)单击Format按钮指定列联表各单元格的输出排列顺序。Ascending表示以行变量取值的升序排列,是SPSS默认项;Descending表示以行变量取值的降序排列。(6)单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系,窗口如下,其中,Chi-Square为卡方检验。卡方统计检验n零假设是:行和列变量之间彼此独立,不存在显著的相关关系。n相伴概率小于显著性水平0.05,应拒
展开阅读全文