资料审核与初步统计PPT课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《资料审核与初步统计PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资料 审核 初步 统计 PPT 课件
- 资源描述:
-
1、第十二章 调查资料的审核与整理 l资料的审核 l资料的整理 l统计表 第一节 资料的审核 资料的审核l资料的审核是资料处理的第一步工作。它是指研究者对所收集的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。其目的是使得原始资料具有较好的准确性、完整性和真实性,从而为后续资料整理录人与统计分析工作打下较好的基础。l资料的审核工作包含两方面的内容:一是检查出问卷资料中的问题;二是重新向被调查者核实。l资料的审核工作有两种不同的做法: 边收集边审核 集中审核 第二节 资料的整理 一、资料整理资料整理是根据研究目的将经过审核的资料进行分类汇总,使资料更加条理
2、化和系统化,为进一步深入分析提供条件。二、定性资料的整理 l整理笔记与建立档案 l资料的编码 编码类型:开放式编码 、轴心式编码 选择式编码 三、定量资料的整理 l资料的编码(见下表一) l资料的录入(见下表二)l数据清理 有效范围清理 逻辑一致性清理 l数据质量抽查 编码手册列问题号码变量名称内容说明1-6a1期刊年月编号91年6月第二个个案为9106027a2性别1.男 2.女8-9a3年龄如实填写10a4学历1.小学以下 2.中学3.高中 4.中专 5.大专 6.大学 7.硕士 8博士 9.其他11-13a5身高cm14-15a6职业1.工人 2. 农民3.党政机关公务员 4. 私营企业
3、主 5.离退休人员 6, 教师医生7.公安,司法,军人 8. 企业白领9专业技术人员 10其他16a7婚姻状况1. 未婚 2离婚3. 丧偶 4.其他表一择偶标准调查数据登录表表个案编号A1A2A3A4A5A6A71-678-91011-1314-1516052592100113551760310526921002224616504205279210031277177305289210041286167092.0529921005231815812105309210062247155101.06表二第三节 统计表 一、统计表的结构 l从外表形式上看,统计表由总标题、横行标题、纵栏标题、指标数值四
4、部分组成。l总标题是表的名称;横行标题在表的左端,它代表所说明的对象;纵栏标题在表的上方,它代表统计指标的名称。它们分别对横行或纵栏内的统计值作出说明。 二、统计表的种类 l1.简单表某村历年人均收入某村历年人均收入 年份1977197819791980收入202840452.简单分组表 是总体仅按一个标志进行分组,即运用简单分组形成的表格。某村各户年人均收入统计表某村各户年人均收入统计表年人均收入村百分比()6080801201201605911203842合计20 3.复合分组表是总体按两个以上标志进行层叠分组的统计表,它又称为交互分类表,它能表现两个分组标志之间的关系。 某村家庭规模和经
5、济情况统计表某村家庭规模和经济情况统计表 经济水平家庭规模大小合计高低30501201015060合计80130210第十三章 资料的统计分析 统计分析方法是一种定量分析。它是进行科学预测的重要方法。统计分析的特点:l(1)统计分析要以定性分析为基础;l(2)统计分析方法必须和其他分析结合运用; 统计分析有一套专门的方法和技术。 观观察察调调查查实实验验12 22 99 86 489如何使用各种统如何使用各种统计表与统计图来计表与统计图来描述一组数据的描述一组数据的分组与分布情况分组与分布情况如何通过一组数如何通过一组数据计算一些特征据计算一些特征数,简缩数据,数,简缩数据,进一步显示与描进一
6、步显示与描述一组数据的全述一组数据的全貌(集中情况、貌(集中情况、分散情况、分布分散情况、分布特征)特征)数据如数据如何分组何分组收集方法收集方法原始数据原始数据表达形式表达形式作作 用用分析过程(图示)主要内容主要内容l单变量描述统计 l单变量推论统计 l相关与回归分析 l双变量统计分析l多变量统计分析第一节、单变量描述统计 l由一种变量的全部分数或观察值组成由一种变量的全部分数或观察值组成的一组或一批数据称为一个分布。单的一组或一批数据称为一个分布。单变量数据的描述统计就是对其分布情变量数据的描述统计就是对其分布情况进行说明。单变量描述统计包括集况进行说明。单变量描述统计包括集中量数分析、
7、离散量数分析。中量数分析、离散量数分析。一.频数分布与频率分布 l频数分布(Frequency Distribution),就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。 l频率分布(percentages distribution),是一组数据中不同取值的频数相对于总数的比率分布情况.常以百分比的形式来表达. 编制频数分布表,画出频数分布图编制频数分布表,画出频数分布图 某中学初三甲班某中学初三甲班60人期中英语考试分数人期中英语考试分数 82609393897285976877769856457776614660518943756989608074746785
8、8755877191746488578491606159637879889687895289857656545890案例案例某中学初三甲班某中学初三甲班6060人英语期中考试成绩人英语期中考试成绩累积频数(频率)分布表累积频数(频率)分布表 上上 限限 以以 下下 累累 积积 下下 限限 以以 上上 累累 积积 组组 别别 频频 数数f 频频 率率 % 频频 数数f 频频 率率 % 频频 数数f 频频 率率 % 90 100 8 13 66 100 8 13 80 90 16 27 52 87 24 40 70 80 13 22 36 60 37 62 60 70 11 10 23 38 48
9、 8 50 60 9 15 12 20 57 95 40 50 3 5 3 5 60 100 合合 计计 60 100 二、集中量数分析 l集中量数就是代表数据分布集中趋势的量数。l集中量数分析指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。 l最常见的集中量数有算术平均数(简称平均数,也称为均值)、众数和中位数三种。 中位数中位数(Md d)l中位数中位数(M Md d),又称中数,是频数分,又称中数,是频数分布上布上50%50%处的数值,即将观察总数一处的数值,即将观察总数一分为二的变量值。在这个值的两边各分为二的变量值。在这个值的两边各有相同
10、个数的数据。当数据的个数为有相同个数的数据。当数据的个数为偶数时,取分布偶数时,取分布50%50%(最中心)处的(最中心)处的两个数据的平均数作为中数。两个数据的平均数作为中数。中位数中位数(Md d)l中位数中位数(M Md d),又称中数,是频数分,又称中数,是频数分布上布上50%50%处的数值,即将观察总数一处的数值,即将观察总数一分为二的变量值。在这个值的两边各分为二的变量值。在这个值的两边各有相同个数的数据。当数据的个数为有相同个数的数据。当数据的个数为偶数时,取分布偶数时,取分布50%50%(最中心)处的(最中心)处的两个数据的平均数作为中数。两个数据的平均数作为中数。几何平均数几
11、何平均数(MMg g) 是是n n个数据的连乘积开个数据的连乘积开n n次方的根。次方的根。常用作速率的集中量数,如学龄儿童人常用作速率的集中量数,如学龄儿童人数的增加率、学校经费的增加率、阅读数的增加率、学校经费的增加率、阅读能力的进步率等。能力的进步率等。 Mg=xxxnn12算术平均数算术平均数l通常称平均数,又称均数或均值。英文为通常称平均数,又称均数或均值。英文为MeanMean,故以故以M M表示。如果是由变量表示。如果是由变量X X计算得来的就记为计算得来的就记为 (读(读X X杠),现在一般都杠),现在一般都 以表示样本的平均数,以表示样本的平均数,以以U U 表示总体的平均数
12、。表示总体的平均数。l算术平均数就是各个变量值相加求和再除以变量算术平均数就是各个变量值相加求和再除以变量的总次数的总次数。xXXXXXNn12 XNXX= = =算术平均数的计算方法算术平均数的计算方法l1 1、用原始数据计算平均数、用原始数据计算平均数 。当一组数据。当一组数据个数不多时,可直接用原始数据来计算。个数不多时,可直接用原始数据来计算。l如某实验小组如某实验小组1010人的实验成绩为人的实验成绩为1111,1313,1515,1616,1616,1616,1717,1818,1818,2020。其平。其平均数为:均数为: 11 13 15201016010X= = = =161
13、6l2 2、用频数分布表求平均数、用频数分布表求平均数 。如果样本的。如果样本的数据很多,达到数十个或数百个,则需编数据很多,达到数十个或数百个,则需编制频数分布表,用频数分布表求平均数。制频数分布表,用频数分布表求平均数。 fXNcX= =X Xc c 为各组的组中值,为各组的组中值,f f 为各组的频数,为各组的频数,N N 为总次数(为总次数( ) Xcff某中学初三甲班某中学初三甲班6060人英语期中考试成绩人英语期中考试成绩平均数、标准差计算表平均数、标准差计算表 组组 别别 ( 1) 组组 中中 值值Xc( 2) 频频 数数f( 3) fXc( 4) fXc2( 5) 90 100
14、 94.5 8 756 71442 80 90 84.5 16 1352 114244 70 80 74.5 13 968.5 72153.25 60 70 64.5 11 709.5 45762.75 50 60 54.5 9 490.5 26732.25 40 50 44.5 3 133.5 5940.75 合合 计计 60 4410 336275 4 4 1 06 0X= = =73.5 73.5 73.5 73.5 73.573.5中位术与平均数的比较(1)平均数要求计算所有的数值,而中位数只用到数值的相对位置,一般说来平均数利用了更多的信息,更全面和准确. (2)平均数容易受到极端值
15、的影响,中位数则不会受到这种影响.平均数是一种比中位数更为稳定的量度,它随样本的变化比较少.(3)当资料是定序,定类测量或者是有开口组的定居测量时,中位数能够拟补不足. 三.离散量数分析 l离散(中)量数分析 指的是用一个特别的数值来反映一组数据相互之间的离散(中)程度.即各组数据相对于平均数的差异程度(离中程度)。差异程度小,平均数的代表性高;差异程度大,代表性低。l它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况.共同反映出资料分布的全面特征,同时它还对现各集中量数的代表性做出补充说明.l常见的离散量数统计量有全距,标准差,异众比率,和四分位差. 示例:某三个班各选5名同学
16、参加测试.他们的成绩分别如下中文系:78, 79, 80, 81. 82 X = 80数学系:65, 72, 80, 88, 95 X = 80外语系:35, 78, 89, 98, 100 X = 80 如果仅以集中量数来衡量,这三个队的水平一样高,但是很明显.这80分对中文系队的同学代表性最高,而对外语系的同学代表性最低. 1.全距(R)l全距也叫极差,它是一组数据中,最大值与最小值之差. l它是表示数据分布离散程度最简单的方式,即一组数据中最大数与最小数差,故称两极差。R=Xmax-Xmin当数据较多时,应用频数分布表求全距。其方法为:最大组与最小组的组中值之差或最大组上限与最小组下限之
17、差。R=Xcmax-XcminR=Umax-LminlR= 98R= 98(最大值)(最大值) 43 43(最小值)(最小值) l = 55 = 55 1.求全距求全距 步步 骤骤l视数据资料的性质和数据多少而定。视数据资料的性质和数据多少而定。组数不宜太多,如太多不能明显表示组数不宜太多,如太多不能明显表示出分布的主要趋势。但也不宜太少,出分布的主要趋势。但也不宜太少,太少则把很多不同事实归于一组,其太少则把很多不同事实归于一组,其分配的主要特征将因此而被蒙蔽。分配的主要特征将因此而被蒙蔽。2. 2. 定定组组数数n 分组参考表分组参考表 n50 8010015020030050010002
18、0005000分组数9111214161822303956l组距就是每一组的间距,即每组组距就是每一组的间距,即每组所包含的单位。组距以所包含的单位。组距以“i i”表示。表示。3、求求组组距距 全 距组 数R 1组距i = i= 9.3 i5516i =i =本例组数为本例组数为6,组距,组距一般地,为计算方便,组距取一般地,为计算方便,组距取10为宜为宜 l组限是分组的界限,其底数为下限组限是分组的界限,其底数为下限(L L),其顶数为上限其顶数为上限(U U)。组限的写法有很多,。组限的写法有很多,有的用上下限表示,有的用组中值表示。如有的用上下限表示,有的用组中值表示。如以以“10”1
19、0”为组距,一般多用首尾相接,间隔为组距,一般多用首尾相接,间隔为为1010的形式表示。即的形式表示。即60706070,70807080,80908090。其中每组上限即为下一组的下限,通常将组其中每组上限即为下一组的下限,通常将组下限包含在本组中,而不包含在上限所在的下限包含在本组中,而不包含在上限所在的组。因为分组的实际界限应是这一组的精确组。因为分组的实际界限应是这一组的精确界限,如界限,如“8090”8090”这一组的精确界限为这一组的精确界限为“79.589.4999”79.589.4999”。 4. 定组限定组限组中值组中值XC = 精确下限精确下限L + 组距i2如以如以10为
20、组距,则为组距,则”8090”一组的组中值为:一组的组中值为:组中值组中值 = 79.5 + = 84.5 Xc1 02 某中学初三甲班某中学初三甲班60人英语期中考试成绩频数分布表人英语期中考试成绩频数分布表 组组 别别 ( 1 ) 组组 中中 值值Xc( 2 ) 划划 记记 ( 3 ) 频频 数数 f( 4) 9 0 1 0 0 9 4 .5 8 8 0 9 0 8 4 .5 1 6 7 0 8 0 7 4 .5 1 3 6 0 7 0 6 4 .5 11 5 0 6 0 5 4 .5 9 4 0 5 0 4 4 .5 3 合合 计计 6 0 2.标准差l标准差:一组数据对其平均数的偏差平
21、方的算术平均数的平方根。一般以S(或 来表示 )l式中S(样本统计值)为标准差,X为各学生的成绩分数, 为学生成绩的平均数,x为各学生成绩分数的离差,n为学生(数据)数。 XXn2xn2SXl例例1:某校三个系各选:某校三个系各选5名同学,参加智力竞赛,他们名同学,参加智力竞赛,他们的成绩分别如下:的成绩分别如下:l中文系:中文系:78 79 80 81 82l数学系:数学系:65 72 80 88 95l英语系:英语系:35 78 89 98 100l平均成绩平均成绩 =80 l标准差:一组数据对其平均数的偏差平方的算术平均标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。数的平方根
22、。lS(中文系)(中文系)=1.414(分)(分)lS(数学系)(数学系)=10.8(分)(分)lS(英语系)(英语系)=23.8(分)(分)XXn2SX例2.l例:有某生三次数学考试的成绩分别为例:有某生三次数学考试的成绩分别为70、57、45,三次考试的班平均为三次考试的班平均为70、55、42,标准差分别为,标准差分别为8、4、5。如何看待该生的三次考试成绩的地位。如何看待该生的三次考试成绩的地位?l(如果仅从原始分数看,肯定认为第一次最好,其如果仅从原始分数看,肯定认为第一次最好,其实不然,要计算出各次的标准分数,才能说明问实不然,要计算出各次的标准分数,才能说明问题。)题。)l Z1
23、=(7070)/8=0 Z2=(5755)/4=0.5 Z3=(4542)/5=0.6 l这说明,原始分数为这说明,原始分数为70,其位置正在平均线上,而,其位置正在平均线上,而原始分数为原始分数为57的,其位置在平均线上的,其位置在平均线上0.5处,而原始处,而原始分数为分数为45的,其位置在平均线上的,其位置在平均线上0.6处。处。 3.异从比率 是指非众数的次数与总体内全部总体单位的比率。异众比率越小,众数的代表性越大。 4.四分位差把一组数据按大小排列成序列,然后分成四个数据数目相等的段落,各段落分界点上的数,叫四分位数。(即每组占25)舍去资料中数值最高的25和最低的25,仅就中间5
24、0数据求其量数作为离中量数,就是四分位差。 四分位差之间的间距越小,中位数的代表性越大。(1)对定序类资料计算四分位差。 Q=Q3-Q1 (2)对定距类资料计算四分位差。l使用说明使用说明:众数与异众比率配合;中位数与四分位差配合;平均数与标准差配合。四、相对差异(离散或离中)量数 1.离散系数 离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数进行比较,或者对两个不同总体中的同一离散量数进行比较。 离散系数的定义是:标准差与平均数的比值,用百分比表示。 CV=S/XCV = = 100 100 CV = = 100100 SXl例例1:一项调查得到下列结果,某市
25、人均平均收入为:一项调查得到下列结果,某市人均平均收入为92元,元,标准差为标准差为17元,人均住房面积元,人均住房面积7.5平方米,标准差为平方米,标准差为1.8平方平方米。试比较该市人均收入和人均住房情况哪一个差异程度比米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。较大。l解解人均收入的离散系数为人均收入的离散系数为lCV=S/ 100%=18.5%l人均住房面积的离散系数为lCV=1.8/7.5 100%=24%l例2:对广州和武汉两地居民生活质量调查发现,广州居民平均收入为680元,标准差为120元;武汉居民平均收入为360元,标准差为80元。问广州居民相互之间的差异程度,
展开阅读全文