数据分析推论统计课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据分析推论统计课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 推论 统计 课件
- 资源描述:
-
1、 2 推论统计推论统计预备知识预备知识一、抽样分析一、抽样分析二、参数估计二、参数估计三、假设检验的基本概念三、假设检验的基本概念四、四、t t检验检验五、五、F F检验检验六、六、检验检验七、示例七、示例2 2第1页,共43页。管理研究和社会研究绝大部分都采用管理研究和社会研究绝大部分都采用样本样本研究研究,从较大的研究对象总体中抽样收集数据。,从较大的研究对象总体中抽样收集数据。最终目的是从样本来判断样本所在的总体的特最终目的是从样本来判断样本所在的总体的特性。性。统计推断是一套有清晰逻辑程序的统计计算,统计推断是一套有清晰逻辑程序的统计计算,对于从样本观测值得出的发现(对于从样本观测值得
2、出的发现(findings),findings),作出是作出是否适用于总体的判断。发现亦即研究的结果,这些否适用于总体的判断。发现亦即研究的结果,这些结果不外乎以下几个方面的内容:结果不外乎以下几个方面的内容:第2页,共43页。假设中的自变量和因变量之间有无关联?假设中的自变量和因变量之间有无关联?这种关联的趋向和形式如何?这种关联的趋向和形式如何?这种关联的强度如何?这种关联的强度如何?这种关联是否是因果这种关联是否是因果 自变量的属性值变化引起因变量的属性值变化,说自变量的属性值变化引起因变量的属性值变化,说明两变量间存在关联。明两变量间存在关联。关联强度的判断则是指观测值中有多大比例的因
3、关联强度的判断则是指观测值中有多大比例的因变量属性值可以从自变量的属性值来解释。变量属性值可以从自变量的属性值来解释。统计技术用统计显著性来检验所观测到的关联是统计技术用统计显著性来检验所观测到的关联是随机性的还是系统性的原因。随机性的还是系统性的原因。第3页,共43页。自变量和因变量之间存在关联并非表明自变自变量和因变量之间存在关联并非表明自变量就是因,因变量就是果,因果辨析一般属于实量就是因,因变量就是果,因果辨析一般属于实证研究之后机理分析的内容。证研究之后机理分析的内容。数据分析的主要内容主要围绕变量间关联的数据分析的主要内容主要围绕变量间关联的存在性、趋向和形式、强度和统计显著性四个
4、方存在性、趋向和形式、强度和统计显著性四个方面。描述统计已涉及到存在性、趋向和形式的内面。描述统计已涉及到存在性、趋向和形式的内容,推论统计则主要回答统计显著性问题。容,推论统计则主要回答统计显著性问题。第4页,共43页。2 推论统计推论统计(inferential statistics)预备知识预备知识 正态分布与有关的分布正态分布与有关的分布定义定义1 1 设连续型随机变量设连续型随机变量X X的密度函数为的密度函数为称称X X服从正态分布,记作服从正态分布,记作X XN N(,2 2).其中其中,均为常数,均为常数,0.0.NoImagex e21f(x)222)(x第5页,共43页。当
5、当=0,0,2 2=1=1时,我们称时,我们称X X服从标准正态分布,即服从标准正态分布,即X X N N(0,1(0,1).标准正态分布的密度和分布函数分别为:标准正态分布的密度和分布函数分别为:x x d du ue e2 21 1与与(x x)x x e e2 21 1(x x)x x2 2u u2 2x x2 22 2第6页,共43页。定理定理 1 1 设设 定义定义 设设X X1 1,X X2 2,X Xn n为相互独立的随机为相互独立的随机变量,它们都服从标准正态变量,它们都服从标准正态N(0,1)N(0,1)分布,则称分布,则称随机变量随机变量服从自由度为服从自由度为n n的的
6、分布,记作分布,记作Y Y (n).(n).第7页,共43页。定理定理 2 2 设设X X1 1,X X2 2,X Xn n独立,同独立,同N N(,2 2)分布,)分布,记记 )X X(X X1 1n n1 1S S ,X Xn n1 1X X2 2n n1 1i ii i2 2n n1 1i ii i 则(则(1 1)(3 3)与与S S2 2 相互独立相互独立.)n nN N(,X X2 2)1n(S)1n(222(2 2)2 2第8页,共43页。定义定义2 2 设设X XN(0,1)N(0,1),Y Y (n),n),且且X X与与Y Y相互独立,记相互独立,记 则则T T服从自由度为
7、服从自由度为n n的的t t分布,又称为学生分布,又称为学生(student(student)分布,记作)分布,记作T Tt t(n n)n nY YX XT T 2第9页,共43页。定理定理3 3 设设X X1 1,X X2 2,X Xn n独立,同独立,同N N(,2 2)分)分布,记布,记 )X X(X X1 1n n1 1S S ,X Xn n1 1X X2 2n n1 1i ii i2 2n n1 1i ii i)1(ntnSXT则则第10页,共43页。定理定理4 4 设设X X1 1,X X2 2,X Xn n独立,同独立,同N N(1 1,2 2)分布,分布,Y Y1 1,Y Y
8、2 2,YYm m独立,同独立,同N N(2 2,2 2)分布,)分布,且它们相互独立,记且它们相互独立,记 )X X(X X1 1n n1 1S S ,X Xn n1 1X X2 2n n1 1i ii i2 2X Xn n1 1i ii i)m m1 1n n1 1(2 2m mn n1 1)S S(m m1 1)S S(n nY YX X令令T T)Y Y(Y Y1 1m m1 1S S ,Y Ym m1 1Y Y2 2Y Y2 2X X2 2m m1 1j jj j2 2Y Ym m1 1j jj j则当则当1 12 2时时 T Tt t(n+mn+m-2).-2).第11页,共43页
9、。定义定义 3 3 设设 X X ,Y Y ,X X与与Y Y独立,则称随机变量独立,则称随机变量服从自由度为服从自由度为(n(n1 1,n,n2 2)的的F F分布,记作分布,记作F FF F(n n1 1,n,n2 2)(n n1 1)(n n2 22 21 1n nY Yn nX XF F第12页,共43页。一、抽样分析一、抽样分析 样本统计值(样本统计值(sample statistics):描述样本分布情况的特描述样本分布情况的特性值。性值。总体参数值(总体参数值(population parameter):描述总体分布情况描述总体分布情况的特性值。的特性值。样本统计值是否能代表总体
10、参数值样本统计值是否能代表总体参数值,怎样才能代表参数值,怎样才能代表参数值,这正是推论统计解决问题的出发点。这正是推论统计解决问题的出发点。统计值和参数值两者的关系可以通过统计值和参数值两者的关系可以通过“抽样分布抽样分布”(sampling distribution)这个概念连通起来。统计值的分布这个概念连通起来。统计值的分布情况就是抽样分布。情况就是抽样分布。统计推论可分为参数估计(统计推论可分为参数估计(parameter estimation)和假和假设检验。设检验。第13页,共43页。二、参数估计二、参数估计 参数估计分为点估计(参数估计分为点估计(point estimation
11、)和区间估计和区间估计(interval estimation)1、点估计、点估计 常用的点估计方法有矩法和极大似然估计(常用的点估计方法有矩法和极大似然估计(MaximumLikelihood Estimation)。样本均值样本均值 样本方差样本方差 参数是概率分布的特征值,各种概率分布有不同的特征参数是概率分布的特征值,各种概率分布有不同的特征值,最常用到的参数有平均数值,最常用到的参数有平均数和方差和方差2。n n1 1i ii iX Xn n1 1X X212)(11XXnSnii第14页,共43页。2 2、区间估计、区间估计 估计偏差(估计偏差(bias)无偏估计:设无偏估计:设
12、是未知参是未知参数的一个估计量,若有数的一个估计量,若有 则称则称 是是的无偏估计量。的无偏估计量。抽样误差:每次估计值和长期估计的平均值抽样误差:每次估计值和长期估计的平均值(long-run average value)之间的随机误差称作抽样之间的随机误差称作抽样误差。误差。抽样误差的一个很有用的特点是它符合正态抽样误差的一个很有用的特点是它符合正态分布。分布。)x x,x x,(x xn n2 21 1)x x,x x,(x xn n2 21 1)x x,x x,(x xE E(n n2 21 1第15页,共43页。点估计值给出了参数的一个近似值且是随机点估计值给出了参数的一个近似值且是
13、随机的,它跟随着样本的抽取而随机变化,估计值本的,它跟随着样本的抽取而随机变化,估计值本身既没有反映这种近似的精确度,又没有给出误身既没有反映这种近似的精确度,又没有给出误差范围。为了弥补这些不足,人们希望估计出一差范围。为了弥补这些不足,人们希望估计出一个范围,并知道这个范围包含参数真值的可靠程个范围,并知道这个范围包含参数真值的可靠程度。这样的范围通常以区间的形式给出,同时还度。这样的范围通常以区间的形式给出,同时还要给出该区间包含参数真值的可靠程度。这种形要给出该区间包含参数真值的可靠程度。这种形式的估计称为区间估计。式的估计称为区间估计。第16页,共43页。定义对于参数定义对于参数,如
14、果有两个统计量,如果有两个统计量和,对给定的和,对给定的(,),有(,),有则称是则称是的一个区间估计或置信区间,的一个区间估计或置信区间,为为置信水平(置信度)。置信水平(置信度)。),(21nxxx),(21nxxx1)(P,一个正态总体的参数的区间估计一个正态总体的参数的区间估计已知方差已知方差,对均值,对均值的区间估计的区间估计未知方差未知方差,对均值,对均值的区间估计的区间估计 对方差的区间估计对方差的区间估计第17页,共43页。三、假设检验的基本概念三、假设检验的基本概念 1 1、对立假设、对立假设 2 2、显著性试验、显著性试验 3 3、甲种误差和乙种误差、甲种误差和乙种误差 4
15、 4、单边检验和双边检验、单边检验和双边检验 5 5、自由度、自由度 6 6、参数检验和非参数检验、参数检验和非参数检验第18页,共43页。根据样本提供的信息判断总体是否具有预先根据样本提供的信息判断总体是否具有预先指定的特性。指定的特性。进行假设检验的基本思想:某种带有概率性质进行假设检验的基本思想:某种带有概率性质的反证法。基于的原则是:小概率事件在一次观察的反证法。基于的原则是:小概率事件在一次观察中可以认为基本上不会发生。中可以认为基本上不会发生。小概率事件:小概率事件:通常把概率不超过通常把概率不超过0.050.05的事件当的事件当作作“小概率事件小概率事件”,有时把概率不超过,有时
16、把概率不超过0.010.01的事的事件当作件当作“小概率事件小概率事件”.第19页,共43页。假设检验的步骤:假设检验的步骤:提出假设提出假设H H;备选假设;备选假设H H构造统计量,并由样本算出其具体值构造统计量,并由样本算出其具体值求出在求出在H H下,统计量的分布,构造对下,统计量的分布,构造对H H不利的小概率事件不利的小概率事件给定显著性水平给定显著性水平,确定临界值,从而,确定临界值,从而得出得出H H的否定域。的否定域。得出结论。若统计量得出结论。若统计量否定域,则拒绝否定域,则拒绝H H,承认备选假设承认备选假设H H;若统计量否定域,则接若统计量否定域,则接受受H H第20
展开阅读全文