调查资料的统计分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《调查资料的统计分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 调查 资料 统计分析 课件
- 资源描述:
-
1、第十一章 调查资料的统计分析第一节第一节 统计分析概述统计分析概述第二节第二节 单变量统计分析单变量统计分析 一、频数分布与频率分布一、频数分布与频率分布 二、集中趋势分析二、集中趋势分析 三、离散趋势分析三、离散趋势分析第三节第三节 双变量统计分析双变量统计分析 一、交互分类一、交互分类 二、相关分析二、相关分析 三、回归分析三、回归分析第四节第四节 推论统计推论统计 第一节 统计分析概述一、统计分析的含义与作用运用统计学的方法,对调查所得资料的数量特征进行描述,运用统计学的方法,对调查所得资料的数量特征进行描述,并用各种数学模型揭示调查资料中所隐含的关系、规律及并用各种数学模型揭示调查资料
2、中所隐含的关系、规律及发展趋势。发展趋势。1 1为社会调查研究提供一套精确的形式化语言为社会调查研究提供一套精确的形式化语言2 2使抽样调查成为可能使抽样调查成为可能3 3有助于揭示社会现象的规律有助于揭示社会现象的规律4 4有助于较精确地预测社会现象的发展趋势有助于较精确地预测社会现象的发展趋势含义作用二、统计分析的特点二、统计分析的特点统计分析要以定性分析为基础统计分析要以定性分析为基础根据研究目的制定具体的统计分析计划根据研究目的制定具体的统计分析计划统计分析的内容统计分析的内容集中趋势分析离散趋势分析相关分析回归分析区间估计假设检验描述统计描述统计推论统计推论统计用最简单的概括用最简单
3、的概括形式反映出大量形式反映出大量数据资料所容纳数据资料所容纳的基本信息的基本信息从样本调查中所从样本调查中所得的数据资料来得的数据资料来推断总体的情况推断总体的情况基本方法基本方法基本内容基本内容第二节 单变量统计分析一、频数分布与频率分布一、频数分布与频率分布 所谓频所谓频数分布,就是数分布,就是指一组数据中指一组数据中取取不同值不同值的个的个案的案的次数分布次数分布情况,它一般情况,它一般以频数表的形以频数表的形式表达。式表达。某班有某班有2525名学生,其年龄情况如下:名学生,其年龄情况如下:2020,1919,1818,1919,1818,2020,2121,1717,1818,18
4、18,1919,1919,2020,1919,1919,1717,1818,2020,1919,1919,2121,2121,1919,2020,1919。年龄年龄 (岁岁 )学生人数学生人数171819202125105325合计合计该班学生的年龄分布表该班学生的年龄分布表例如 频数分布表的作用 一是简化资料,即将调查所得到的一长串一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来;原始数据,以一个十分简洁的统计表反映出来;二是从频数分布表中,可以更清楚地了解二是从频数分布表中,可以更清楚地了解调查数据的众多信息。调查数据的众多信息。所谓频率分布,则是指一组数据中不
5、同取值的不同取值的频数相对于总数的比率分布频数相对于总数的比率分布情况,这种比率通常以百分比的形式表达,频率分布情况以频率表的形式出现。频率分布表除具备频数分布表的优点外,还能反频率分布表除具备频数分布表的优点外,还能反映各类所占的比重,便于不同总体或不同类别之映各类所占的比重,便于不同总体或不同类别之间的比较。这种分布的应用更为普遍。间的比较。这种分布的应用更为普遍。例如年龄年龄 (岁岁 )百分比百分比1718192021820402012100合计合计某班学生的年龄分布某班学生的年龄分布SPSS操作例操作例二、集中趋势分析二、集中趋势分析所谓所谓集中趋势分析集中趋势分析,指的是用一个典型值
6、或代表值,指的是用一个典型值或代表值来反映一组数据的一般水平,或向这个典型值集中来反映一组数据的一般水平,或向这个典型值集中的情况。的情况。最常见的集中趋势统计量平均数平均数众数众数中位数中位数 平均数平均数 (算术平均数)用总体各单位数值之和除以总体单(算术平均数)用总体各单位数值之和除以总体单位总数的商。平均数又称为均值或均数。位总数的商。平均数又称为均值或均数。计算公式及应用举例由原始数据计算平均数。设总体单位总数为n,总体各单位的数值为xi(i=1,2,n),则计算公式为:nxXni1由单值分组资料计算平均数。首先要将每一个组的量值乘以所对应的频数;然后将各组的数之和全部相加,最后除以
7、单位总数,得出平均数。其计算公式为:11miimixfXf由组距分组资料求平均数。先计算出各组的组中值Xm,然后再按照单值分组资料计算平均数的公式计算。11mm iimixfXf 注:注:组中值组中值是各组变量范围内的一个中间数值,一般由是各组变量范围内的一个中间数值,一般由各组的上限和下限进行简单平均计算,各组的上限和下限进行简单平均计算,即:组中值即:组中值=(上限(上限+下限)下限)2 2 若为开口组,其组中值按下列公式计算:若为开口组,其组中值按下列公式计算:缺下限的最小组组中值缺下限的最小组组中值=上限上限-邻组组距邻组组距2 2 缺上限的最大组组中值缺上限的最大组组中值=下限下限+
8、邻组组距邻组组距2 2例题例1 某班10名学生的年龄分别为20岁、21岁、19岁、19岁、20岁、20岁、21岁、22岁、18岁、20岁,求他们的平均年龄。例2 调查某年级150名学生的年龄,得到下列结果(右表),求平均年龄。(19.33)年龄(岁)人数(f)合计 15017181920212210255040205例3 调查某厂100名职工的收入情况如下(右表),求他们的平均收入。(212)收入(元)职工数(人)100140140180180220 220260 260-3001010402020合计100 例:某单例:某单位职工月位职工月工资资料工资资料如下表,如下表,试求该单试求该单位职
9、工月位职工月平均工资。平均工资。(833.3元元/人人)按月工资额按月工资额 分组分组 组组/元元组中值组中值 X/X/元元职工人数职工人数 f/f/人人各组职工工各组职工工 资额资额 X f/X f/元元600600以下以下600-800600-800800-1000800-10001000-12001000-120012001200以上以上 500500 700 700 900 9001100110013001300120120250250360360 80 80 60 60 60 000 60 000175 000175 000324 000324 000 88 000 88 000 7
10、8 000 78 000合合 计计 870 870725 000725 000中位数中位数把一组数据按值的大小顺序排列起来,处于中央把一组数据按值的大小顺序排列起来,处于中央位置的那个数值叫中位数。中位数通常用位置的那个数值叫中位数。中位数通常用MeMe表示,表示,它将整个数据资料一分为二,其中一半的数值比它将整个数据资料一分为二,其中一半的数值比它大,而另一半的数值比它小。当数据为偶数个它大,而另一半的数值比它小。当数据为偶数个时,取中间两数的平均数。时,取中间两数的平均数。中位数的作用:中位数的作用:不受极端数值的影响不受极端数值的影响321521N元520eM5.321621N元5602
11、600520eM日产量(件)日产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)10111213147010038015010070170550700800合计合计800Xf计算该企业该日全部工人日产量的中位数。计算该企业该日全部工人日产量的中位数。中位数的位次:中位数的位次:5.40021800eM 为中位数所在组的组距。式中,假定中位数所在组的频数在该组内是均匀分布的。组距数列计算中位数:组距数列计算中位数:ifSfLMemm121mSmfi采用公式计算中位数的近似值:采用公式计算中位数的近似值:为数据的个数(总次数);L为中位数所在组的下限值;为中位数所在组以前各
12、组的累积频数;为中位数所在组的频数;ACiXB个次数或频数,式中的C点AB区域即整个中位数所在的组内,次数分布是均匀的,依次分布着mf个次数或频数。12mSf1mS再假定AC区域内,次数分布也是均匀的,且依次分布着是中位数所在的位置,为中位数所在组以前各组的累积频数。区域中的次数分布区域中的次数分布的距离到的距离到ABACBACAmmfSfi12XifSfXmm12XLMe 例、设某车间例、设某车间50名工人日加工零件数分组表如下:名工人日加工零件数分组表如下:按零件数分组按零件数分组(个个)频数频数(人人)频率频率(%)105110361101155101151208161201251428
13、125130102013013561213514048合计合计50100计算该车间计算该车间50名工人日加工零件数的中位数。名工人日加工零件数的中位数。)(21.12351416250120个eM众数众数 众数是一组数据中出现次数最多众数是一组数据中出现次数最多(即即频数最高频数最高)的那个数值。通常用的那个数值。通常用M M表示。表示。众数的求法由单值分组资料求众数。由于单值分组资料中已将各标志值及其所对应的频数都一一列出,故只需采用直接直接观察的方法观察的方法就可求得众数。具体做法是,首先在频数一栏中找出最大找出最大的频数的频数,假定为 fm;然后根据fm找到它所对应的标志值 Xm,则众数
14、即为 Xm。由组距分组资料求众数。由组距分组资由组距分组资料求众数。由组距分组资料求众数的常用的方法是组中值法。料求众数的常用的方法是组中值法。用组中值法求众数分为三步:用组中值法求众数分为三步:首先通过直接观察找出最高的频数;首先通过直接观察找出最高的频数;然后根据最高的频数找到它所对应的组;然后根据最高的频数找到它所对应的组;最后求出该组的最后求出该组的组中值组中值即是众数。即是众数。求众数往往要求数据具备一定的条件,即只有当总体单位数目较多且其数据有明显的集中趋当总体单位数目较多且其数据有明显的集中趋势时才能计算众数势时才能计算众数。调查某年级150名学生的年龄,得到下列结果。首先我们在
15、人数(频数)一栏中找出最大的频数50,再从50找到所对应的年龄19岁。则资料中的众数为19岁。例如 年龄(岁)人数(f)17181920212210255040205 合计 150某厂100名职工的收入情况,首先在职工数一栏中,找到最大的频数40;然后找到40所对应的组:180220;最后计算该组的组中值,计算结果为200元。因此,该例中的众数为200元。收入(元)职工数(人)100140140180180220 220260 260-3001010402020合计100 众数、中位数和均值都是对数据集中趋势的测度,众数、中位数和均值都是对数据集中趋势的测度,1、均值均值由全部数据计算,包含了
16、全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差;受极端值的影响较大。2、中位数中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。3、众数众数是一组数据分布的峰值,是一种位置的代表,与数据出现的次数有关,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。但具有不唯一性。4、对接近正态的分布数据,常用均值均值描述数据的集中趋势;对偏态分布,常用众数众数或中位数中位数描述数据的集中趋势。5、均值、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数中位数或众数众数进行
17、描述,而对定类尺度数据,只能用众数众数进行描述。众数、中位数和均值的应用场合众数、中位数和均值的应用场合数据分布形状数据分布形状 Shape表明数据是如何表明数据是如何分布分布的的偏态偏态Skew Skew 与与 对称对称SymmetrySymmetry左偏左偏:均值均值 中位数中位数对称对称(零偏度零偏度):均值:均值 =中位数中位数右偏的右偏的左偏的左偏的对称的对称的均值均值=中位数中位数=众数众数均值均值 中位数中位数 众数众数众数众数 中位数中位数 均值均值三、离散趋势分析 离散趋势(又称离中趋势)分析指的是用一个特定的数值来反映一组数据相互之间的离散程度。作用:作用:它与集中趋势一起
18、,分别从两个不同的侧它与集中趋势一起,分别从两个不同的侧面描述和揭示一组数据的分布状况,共同反映出面描述和揭示一组数据的分布状况,共同反映出资料分布的全面特征;同时,它还对集中趋势的资料分布的全面特征;同时,它还对集中趋势的统计量(如平均数、众数、中位数)的代表性作统计量(如平均数、众数、中位数)的代表性作出补充说明。出补充说明。某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:78 79 80 81 82 X80 数学系:65 72 80 88 95 X80 政治系:35 78 89 98 100 X80如果仅以集中趋势统计量(平均数)来衡量,那么,三个系代如果仅以集中趋势统
19、计量(平均数)来衡量,那么,三个系代表队的水平一样高,不存在什么差别。表队的水平一样高,不存在什么差别。但从直观上不难发现,三个代表队中五名队员的成绩相互之间但从直观上不难发现,三个代表队中五名队员的成绩相互之间的差跟程度(离散程度)很不一样。的差跟程度(离散程度)很不一样。中文系成绩十分接近;数学系成绩比较分散;而政治系队成绩中文系成绩十分接近;数学系成绩比较分散;而政治系队成绩则相差十分悬殊。则相差十分悬殊。8080分对中文系队同学的代表性最高,而对政治系队同学的代表分对中文系队同学的代表性最高,而对政治系队同学的代表性最低。性最低。离散趋势的各种统计量,一方面揭示出数离散趋势的各种统计量
20、,一方面揭示出数据相互分离的程度;另一方面又对相应的集中据相互分离的程度;另一方面又对相应的集中趋势统计量的代表性作出判断。趋势统计量的代表性作出判断。结论集中趋势统计量的代表性与所对应的离散集中趋势统计量的代表性与所对应的离散趋势统计量是反比关系,即趋势统计量是反比关系,即离散趋势统计离散趋势统计量越大,则所对应的集中趋势统计量的代量越大,则所对应的集中趋势统计量的代表性就越小表性就越小;反之,则越大。;反之,则越大。离散趋势统计量全距标准差异众比率四分位差离散系数对应众数平均数中位数对应对应 1 1全距全距n也叫极距,它是一组数据中最大值与最小值之差。也叫极距,它是一组数据中最大值与最小值
21、之差。n全距是离散趋势统计量中最简单的一种。全距是离散趋势统计量中最简单的一种。n在原始数据资料条件下,只需将全部数据按大小在原始数据资料条件下,只需将全部数据按大小顺序排列,然后用最大值减去最小值即可。顺序排列,然后用最大值减去最小值即可。全距的意义在于,一组数据的全距越大,在一定程全距的意义在于,一组数据的全距越大,在一定程度上说明这组数据的离散趋势越大,而集中趋势统度上说明这组数据的离散趋势越大,而集中趋势统计量的代表性越低。反之,一组数据的全距越小,计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散趋势越小,集中趋势统计量则说明这组数据的离散趋势越小,集中趋势统计量的代表
22、性就越高。的代表性就越高。由于全距仅仅依靠两个极端值,因而带有很大的偶然由于全距仅仅依靠两个极端值,因而带有很大的偶然性,它对于大量的处于两个极端值之间的数值分布情性,它对于大量的处于两个极端值之间的数值分布情况以及在中心点周围的集中情况,都无法提供任何况以及在中心点周围的集中情况,都无法提供任何信息,比较粗糙。信息,比较粗糙。2 2、四分位差、四分位差 四分位差是先将一组数据按大小排列四分位差是先将一组数据按大小排列成序,然后将其四等分,去掉序列中最高成序,然后将其四等分,去掉序列中最高的四分之一和最低的四分之一,仅就中间的四分之一和最低的四分之一,仅就中间的一半数值来测定序列的全距。的一半
23、数值来测定序列的全距。四分位差的符号通常用四分位差的符号通常用Q Q表示。表示。Q=Q3Q=Q3Q1Q1 而而Q1 Q1、Q3Q3分别表示第一个四分分别表示第一个四分位点和第三个四分位点。位点和第三个四分位点。例:位分组资料计算四分位差例:位分组资料计算四分位差 某班某班7 7位同学的成绩依次为:位同学的成绩依次为:55,61,72,80,83,88,9255,61,72,80,83,88,92。计算。计算其四分位差。其四分位差。Q1=(N+1)/4=2Q1=(N+1)/4=2;Q2=2(N+1)/4=4Q2=2(N+1)/4=4;Q3=3(N+1)/4=6Q3=3(N+1)/4=6 Q=(Q
24、3-Q1)/2=(88-61)/2=13.5Q=(Q3-Q1)/2=(88-61)/2=13.5 四分位差是指舍去资料中的数值最高的四分位差是指舍去资料中的数值最高的25%25%数据和数值最低数据和数值最低的的25%25%数据,仅就属于中间的数据,仅就属于中间的50%50%数据求其量数作为离散量数。数据求其量数作为离散量数。四分位差能够避免次数分配数列中两端极端数值的影响,中四分位差能够避免次数分配数列中两端极端数值的影响,中间部分数列分配愈集中,标志值的差异愈小,四分位差也愈间部分数列分配愈集中,标志值的差异愈小,四分位差也愈小。小。3标准差 标准差:一组数据对其平均数的偏差平方的算术平均数
25、的平方根。它是用得最多、也是最重要的离散趋势统计量。通常用符号 来表示,其计算公式根据资料的形式不同而稍有差别。公式由原始数据计算标准差21()nixXn由单值分组资料计算标准差21()mijiixxff(f f为为X X所对应的频数)所对应的频数)由组距分组资料计算标准差。其方法与上述单值分组资料计算标准差的方法相似,唯一不同的是需要先计算出各组的组中值,然后采用下述公式:2()miXX fn元558527905750600520480440X元62.10956008055587505584402221NXXNii标准差计算例标准差计算例单项数列单项数列 :某村社会救助款额发放资料如表所示,
展开阅读全文