第十四章统计分析方案课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第十四章统计分析方案课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十四 统计分析 方案 课件
- 资源描述:
-
1、目录第一节统计分析概述第一节统计分析概述第二节描述统计与推断统计第二节描述统计与推断统计第三节单变量统计分析第三节单变量统计分析第四节双变量统计分析第四节双变量统计分析第五节多变量统计分析简介第五节多变量统计分析简介重点问题统计分析概述描述统计和推断统计单变量统计分析双变量统计分析多变量统计分析第一节统计分析概述统计分析就是统计分析就是运用统计学原理和方法运用统计学原理和方法处理调查所获得处理调查所获得的数据资料,的数据资料,简化简化和描述数据资料、和描述数据资料、揭示变量之间的揭示变量之间的统计关系统计关系,并进而,并进而推断总体推断总体的一整套程序和方法。的一整套程序和方法。一、统计分析的
2、目的简化和描述数据简化和描述数据 用样本推断总体,如平均数、百分比等用样本推断总体,如平均数、百分比等发现变量之间的统计关系发现变量之间的统计关系 二、统计分析的过程数据预处理数据预处理就是在统计分析之前对清理后的数据做预备性处理。就是在统计分析之前对清理后的数据做预备性处理。数据统计分析数据统计分析就是调用统计软件中的各种统计程序对数据进行分析,就是调用统计软件中的各种统计程序对数据进行分析,包括包括单变量单变量、双变量、多变量统计分析,以及制作统计、双变量、多变量统计分析,以及制作统计图、统计表等一系列工作。图、统计表等一系列工作。三、统计分析的层次描述统计和推断统计描述统计和推断统计(按
3、照统计分析性质按照统计分析性质)描述统计是运用样本统计量描述样本统计特征的统计分描述统计是运用样本统计量描述样本统计特征的统计分析方法。描述统计是相对于推断统计而言的,即凡是析方法。描述统计是相对于推断统计而言的,即凡是只只涉及样本而不涉及总体特征的统计分析方法涉及样本而不涉及总体特征的统计分析方法都属于描述都属于描述统计的范畴。统计的范畴。推断统计则是以概率理论为基础,推断统计则是以概率理论为基础,运用样本统计量推断运用样本统计量推断总体的统计分析方法总体的统计分析方法。两者密不可分两者密不可分单变量、双变量、多变量统计分析单变量、双变量、多变量统计分析(按统计分析涉及变量多少)(按统计分析
4、涉及变量多少)1 1、单变量统计分析,、单变量统计分析,只能进行描述性研究只能进行描述性研究。只涉及一个变。只涉及一个变量,如平均数、百分比、标准差等。量,如平均数、百分比、标准差等。2 2、只有双变量统计分析、特别是多变量统计分析,才能进、只有双变量统计分析、特别是多变量统计分析,才能进行解释性研究。只有涉及两个或两个以上变量,才有可能分行解释性研究。只有涉及两个或两个以上变量,才有可能分析它们之间的关系(包括相关关系和因果关系)。析它们之间的关系(包括相关关系和因果关系)。3 3、常用的双变量统计分析方法,包括列联表分析与、常用的双变量统计分析方法,包括列联表分析与X X2 2检验、检验、
5、各种双变量相关分析、二元回归分析等等。各种双变量相关分析、二元回归分析等等。当一项统计分析涉及三个或三个以上变量(其中至少有一个当一项统计分析涉及三个或三个以上变量(其中至少有一个因变量)时,则称为多因变量)时,则称为多变量或多元统计分析变量或多元统计分析。第二节描述统计与推断统计一、描述统计及其内容一、描述统计及其内容描述统计是相对推断统计而言的,就是关于样本的统描述统计是相对推断统计而言的,就是关于样本的统计分析方法,计分析方法,它的分析结果是样本统计量它的分析结果是样本统计量。描述统计。描述统计的内容,包括单变量、双变量和多变量等几种层次的的内容,包括单变量、双变量和多变量等几种层次的统
6、计分析。统计分析。二、推断统计与抽样分布推断统计是运用样本统计量对推断统计是运用样本统计量对总体进行推断总体进行推断的一种统的一种统计分析方法。由于社会调查的最终目的是研究调查对计分析方法。由于社会调查的最终目的是研究调查对象的总体,因此,它是社会调查中经常使用的统计方象的总体,因此,它是社会调查中经常使用的统计方法。法。推断统计的推断统计的必备前提必备前提是,样本数据必须来自是,样本数据必须来自随机抽样随机抽样调查。调查。所谓抽样分布,是指在一个总体中重复抽取许多大小所谓抽样分布,是指在一个总体中重复抽取许多大小一样的样本的统计量(如平均数、方差、标准差)而一样的样本的统计量(如平均数、方差
7、、标准差)而形成的分布。形成的分布。需要指出的是,样本的抽样分布只是一种理论分布,需要指出的是,样本的抽样分布只是一种理论分布,而不是一种实际的分布。从理论上建立这样一种分布,而不是一种实际的分布。从理论上建立这样一种分布,目的就是运用它来由样本统计量推断总体。目的就是运用它来由样本统计量推断总体。三个重要分布为了讨论正态总体下的抽样分布,先引入由正态分布导出的统计中的三个重要分布,即 分布,分布,分布。 1、 分布设 是来自总体 的样本,则称统计量 (1)服从自由度为 的 分布,记为2tF2nXXX,211 , 0N222212nXXXn2 n22 n2 其它,0, 0,2212122yey
8、nyfynn yf此处,自由度是指(1)式右端包含独立变量个数分布的概率密度为的图形如图63所示。(2)图632、 分布t设 , ,且 独立1 , 0 NX nY2YX,服从自由度为 的 分布ntnYXt 则称随机变量(10) ntt 记为t分布又称为学生氏(student)分布 nt分布的概率密度函数为 ,1221212nntnnntht(11 )图65中画出了 的图形。 的图形关于 对称,当 充分大时,其图形类似于标准正态变量概率密度的图形。事实上,利用 函数的性质可得 故当 足够大时, 分布近似于 分布。 但对于较小的 , 分布与 分布相差较大(见附表 3 与附表 2 ) th th0t
9、n 2221limtnethnt1 , 0Nnt1 , 0N(12)图65 其它,00,12222212112221212111ynynnnynnnnynnnnF3. 分布 ,12nU,22nVVU,设且 独立,21nVnUF 21,nnF则称随机变量服从自由度为 的 分布.,21nnFF记为(16)21,nnF的概率密度为(17)12211,1,nnFnnF容易证明等式:(20)利用这个等式,查附录表,可以计算当995. 0,99. 0,975. 0,95. 0F时的 的值.211. 074. 415 ,10110, 505. 095. 0FF例如F分布的上 分位点有表格可查(见附表 5 )
10、(一)参数估计(一)参数估计人们通常把样本计算出来的统计值成为样本统计量,简人们通常把样本计算出来的统计值成为样本统计量,简称称统计量统计量,而把总体统计值成为,而把总体统计值成为参数参数。所谓参数估计,。所谓参数估计,就是就是运用统计量对总体参数进行推断或估计的统计运用统计量对总体参数进行推断或估计的统计过过程与统计方法。程与统计方法。参数估计包括:参数估计包括:(1 1)点值估计)点值估计(2 2)区间估计)区间估计三、推断统计的两种基本形式三、推断统计的两种基本形式1、点值估计、点值估计 ,就是选择一个最适当的样本统计量,就是选择一个最适当的样本统计量来直接代表总体的参数值。来直接代表总
11、体的参数值。如果一个统计量在参数的点值估计中符合如果一个统计量在参数的点值估计中符合无偏性、无偏性、一致性、有效性、充分性一致性、有效性、充分性,则可保证其点值估计,则可保证其点值估计的相对误差较小。的相对误差较小。点值估计的点值估计的最大缺陷是不知道估计的误差到底有最大缺陷是不知道估计的误差到底有多大多大。所以,常用的是区间估计。所以,常用的是区间估计。2、区间估计、区间估计区间估计是用一个数值区间表示未知总体参数落入该区间估计是用一个数值区间表示未知总体参数落入该区间的概率或可能性有多大的一种统计方法,是从点区间的概率或可能性有多大的一种统计方法,是从点估计值和抽样标准误差出发,按给定的概
12、率值建立包估计值和抽样标准误差出发,按给定的概率值建立包含待估计参数的区间。含待估计参数的区间。()置信区间与置信水平()置信区间与置信水平置信区间是指进行区间估计时,在某一概率水平置信区间是指进行区间估计时,在某一概率水平下总体参数所处的数值区间。区间的上、下限下总体参数所处的数值区间。区间的上、下限(端点)称为临界值,所确定的(端点)称为临界值,所确定的概率水平概率水平称为称为置置信水平信水平或置信度,以概率或置信度,以概率表示,表示,称为显著称为显著性水平性水平,表示该区间估计的不可靠性程度,即估,表示该区间估计的不可靠性程度,即估计参数位于该区间时可能犯错误的概率。计参数位于该区间时可
13、能犯错误的概率。()区间估计的原理区间估计的理论基础是区间估计的理论基础是抽样分布抽样分布。区间估计的核心问。区间估计的核心问题是把样本统计量与总体参数之间的关系转换成抽样题是把样本统计量与总体参数之间的关系转换成抽样分布来处理。分布来处理。由于抽样分布一定条件下趋近由于抽样分布一定条件下趋近正态分布正态分布,借助抽样分,借助抽样分布的平均数、标准差及其正态分布的统计特性可以对布的平均数、标准差及其正态分布的统计特性可以对样本统计量与总体参数之间的关系作出概率意义上的样本统计量与总体参数之间的关系作出概率意义上的估计与推断。估计与推断。在在95%95%的置信水平条件下,总体平均数的的置信水平条
14、件下,总体平均数的置信区间置信区间在在99%99%的置信水平条件下,总体平均数的的置信水平条件下,总体平均数的置信区间置信区间196. 1NSX158. 2NSX假设检验假设检验假设检验:是以抽样分布原理为基础,假设检验:是以抽样分布原理为基础,检验调查样本中检验调查样本中的统计特性是否在总体中同样存在的一种统计方法的统计特性是否在总体中同样存在的一种统计方法,它,它是是推断统计推断统计中最重要也是最常用的方法。中最重要也是最常用的方法。首先是事先对总体的参数或分布形式作出一个假设。首先是事先对总体的参数或分布形式作出一个假设。然后利用样本信息判断关于总体性质假设是否合理。然后利用样本信息判断
15、关于总体性质假设是否合理。即判断总体的真实情况与假设是否存在显着的系统性即判断总体的真实情况与假设是否存在显着的系统性差异。差异。假设检验亦称显著性检验。假设检验亦称显著性检验。事实上,许多研究报告或论文就只有统计描述而没有事实上,许多研究报告或论文就只有统计描述而没有假设检验,但是,必须明确,假设检验,但是,必须明确,有无假设检验的研究结有无假设检验的研究结论,其解释或使用的范围是不同的论,其解释或使用的范围是不同的。不经过假设检验不经过假设检验的研究结论,只能适用于已调查的对象或样本的研究结论,只能适用于已调查的对象或样本(在普(在普遍调查中不存在假设检验问题,因为样本等于总体),遍调查中
16、不存在假设检验问题,因为样本等于总体),而不能推断总体而不能推断总体;只有在样本统计量基础上经过假设只有在样本统计量基础上经过假设 检验后,才能说样本中发现的现象或规律有多大把握检验后,才能说样本中发现的现象或规律有多大把握在总体中存在或不存在。在总体中存在或不存在。需要明确,并不是所有调查数据多能进行假设检验,需要明确,并不是所有调查数据多能进行假设检验,只有通过只有通过随机抽样调查随机抽样调查得来的数据才有资格进行假设得来的数据才有资格进行假设检验。检验。假设检验假设检验假设检验的过程提出假设:使用证伪的原理建立对立假设。提出假设:使用证伪的原理建立对立假设。虚无假设(虚无假设(H H0
17、0):是假设在样本中观察到的事实或变量之:是假设在样本中观察到的事实或变量之间的关系在总体中并不存在,即关于间的关系在总体中并不存在,即关于“不存在不存在”假设假设备择假设备择假设:它与虚无假设:它与虚无假设针锋相对针锋相对的假设,即存在。的假设,即存在。构造适当的统计量,并根据样本统计量的具体数值构造适当的统计量,并根据样本统计量的具体数值规定显著水平,建立检验规则规定显著水平,建立检验规则做出判断做出判断 . .假设检验的本质假设检验的本质就是要判断虚无假设是否正确就是要判断虚无假设是否正确若拒绝虚无假设,则意味着接受备择假设若拒绝虚无假设,则意味着接受备择假设虚无假设与备择假设. .备择
18、假设(备择假设(H H1 1):如果虚无假设错误则是必然正确):如果虚无假设错误则是必然正确的陈述,即与虚无假设相互排斥的假设。的陈述,即与虚无假设相互排斥的假设。表述:逻辑上与虚无假设相反或对立,不能同时成立。表述:逻辑上与虚无假设相反或对立,不能同时成立。表示:参数表示:参数 或或 或或 某个值。某个值。一、集中量数分析一、集中量数分析所谓集中量数分析,是指用一个具体的所谓集中量数分析,是指用一个具体的统计量统计量反映一反映一组数据向组数据向该统计量集中趋势的统计方法该统计量集中趋势的统计方法,它所表示的,它所表示的是一组数据是一组数据集中的程度或水平集中的程度或水平。集中量数有平均数、。
19、集中量数有平均数、中位数、众数、四分位数、百分位数以及倒数平均数、中位数、众数、四分位数、百分位数以及倒数平均数、几何平均数等。其中,常用的集中量数是几何平均数等。其中,常用的集中量数是平均数、中平均数、中位数和众数位数和众数。第三节 单变量统计分析数据分布的集中性大学生毕业生的平均初始收入是多少?大学生毕业生的平均初始收入是多少?某地区的居民平均年收入是多少?某地区的居民平均年收入是多少?集中性测量:一种将群体描述为一个整体的有用集中性测量:一种将群体描述为一个整体的有用方法是找到一个单独的数字,能够平均地或者典方法是找到一个单独的数字,能够平均地或者典型的代表一个数据集。型的代表一个数据集
20、。代表值常常位于数据分布的中部代表值常常位于数据分布的中部包括众数、中位数、均值包括众数、中位数、均值集中性的描述指标集中性的描述指标1.1.平均值(均值)平均值(均值) 1 1)定义:称算数平均数,是把一个变量的所有观测值)定义:称算数平均数,是把一个变量的所有观测值相加之和再除以观测值数目得到的数值。相加之和再除以观测值数目得到的数值。 2 2)计算:)计算: X bar X bar 或者或者 X X一杠;一杠;西格玛,累加符号西格玛,累加符号 3 3)特点:)特点:大体位于观察值中部,用于度量重心的平衡点大体位于观察值中部,用于度量重心的平衡点对变量的每一个观察值都加以利用的优点对变量的
21、每一个观察值都加以利用的优点有计算麻烦,对个别极端值敏感的缺点有计算麻烦,对个别极端值敏感的缺点X11=11=+=nniinXXXXnnn个观测值的和()例题例题1. 某次考试中,5位同学的得分分别为85分、74分、90分、65分、78分,则这5位同学的平均分数为:11=11=+=nniinXXXXnnn个观测值的和()=(85+74+90+65+78)/5=78.4分例题例题如果从调查中获得的是如下5个分组的资料:考试分数考试分数人数人数65分274分478分285分390分3合计14=(65*2+74*4+78*2+85*3+90*3)/14=79.07分NXffXfX例题例题考试分数考试
22、分数人数人数65-74分475-84分485-100分2合计10如果从调查中获得的是如下5个分组的资料:=((1/2(65+74)*4+1/2(75+84)*4+1/2(85+100)*2/10)=78.1分2下限上限组中值NXffXfX集中性的描述指标集中性的描述指标2.2.中位数中位数 1 1)定义:又称中数、中点数,指位于按顺序排列的一)定义:又称中数、中点数,指位于按顺序排列的一组数据中央位置的数值。是一个变量分布的中间点,组数据中央位置的数值。是一个变量分布的中间点,就是一半观测值比它小,一半观测值比它大的那个数就是一半观测值比它小,一半观测值比它大的那个数值。值。 2 2)方法:)
展开阅读全文