研究生-统计学讲义-第4讲第4章-正态性检验和方差齐性检验课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《研究生-统计学讲义-第4讲第4章-正态性检验和方差齐性检验课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 研究生 统计学 讲义 正态性 检验 方差 课件
- 资源描述:
-
1、第三节第三节 正态性、方差齐性检验、变量变换、正态性、方差齐性检验、变量变换、t 检验检验 一、正态性检验一、正态性检验1正态性检验的意义正态性检验的意义正态分布具有两大特征:一是对称,二是正态峰,如正态分布具有两大特征:一是对称,二是正态峰,如图,分布不对称即偏态,分布偏度如图中两实线所示图,分布不对称即偏态,分布偏度如图中两实线所示,其中一条频数集中在小值一端,峰偏左,长尾向右,其中一条频数集中在小值一端,峰偏左,长尾向右称为正偏态或左偏态;另一条频数集中在大值一端,称为正偏态或左偏态;另一条频数集中在大值一端,峰在右,长尾向左称为负偏态或右偏态。峰在右,长尾向左称为负偏态或右偏态。分布的
2、峰度如图分布的峰度如图4-54-5中的两条实线所示,一条中的两条实线所示,一条“高、高、瘦瘦”,峰态尖峭而尾部伸展,为尖峭峰;另一条,峰态尖峭而尾部伸展,为尖峭峰;另一条“矮、矮、胖胖”,峰顶平阔且尾部短促,为平阔峰。尖峭峰与平,峰顶平阔且尾部短促,为平阔峰。尖峭峰与平阔峰都不同于正态峰。阔峰都不同于正态峰。描述对称的统计量常用偏度系数(描述对称的统计量常用偏度系数(coefficient of skewness),描述正态峰的统计量常用峰度系数),描述正态峰的统计量常用峰度系数(coefficient of kurtosis),计算公式为:),计算公式为:niixxsn133)()1(1ni
3、ixxsn144)()1(1Skewness=Kurtosis=偏度偏度s=0表示正态;偏度系数表示正态;偏度系数s0,表示数据分布有,表示数据分布有长尾拖在右边为正偏态;偏度系数长尾拖在右边为正偏态;偏度系数s0表示数据分布表示数据分布有长尾拖在左边为负偏态。偏度系数的绝对值愈大,有长尾拖在左边为负偏态。偏度系数的绝对值愈大,表示数据分布形态的偏斜程度愈大。表示数据分布形态的偏斜程度愈大。峰度系数峰度系数k=0,表示数据分布与正态分布的陡缓峭程,表示数据分布与正态分布的陡缓峭程度相同;峰度系数度相同;峰度系数k0,表示比正态分布峰高,为尖,表示比正态分布峰高,为尖峭峰;峰度系数峭峰;峰度系数
4、k0表示比正态分布峰低为平阔峰。表示比正态分布峰低为平阔峰。H0:总体服从正态分布;:总体服从正态分布;H1:总体不服从正态分布。:总体不服从正态分布。用统计软件不方便时,否定正态性的方法最简单的是用统计软件不方便时,否定正态性的方法最简单的是将均数与中位数及标准差进行比较,均数与中位数两将均数与中位数及标准差进行比较,均数与中位数两者不等且相差较大时,分布不对称;标准差大于均数者不等且相差较大时,分布不对称;标准差大于均数时,表示数据分散,曲线时,表示数据分散,曲线“矮、胖矮、胖”,峰平阔,与正,峰平阔,与正态峰度不同,可以判定不符合正态分布。态峰度不同,可以判定不符合正态分布。t 检验或方
5、差分析对正态性的要求:检验或方差分析对正态性的要求:(1)当变量)当变量x 值有正有负时,一般用值有正有负时,一般用 3S +3S范范围内是否包括了该批数据的最小值与最大值作出判断,围内是否包括了该批数据的最小值与最大值作出判断,当最小值与最大值均在此范围之间时,可采用当最小值与最大值均在此范围之间时,可采用 t检检验或方差分析作统计推断。验或方差分析作统计推断。(2)医药指标的测定值通常为正值,反映数据分布情)医药指标的测定值通常为正值,反映数据分布情况的频数曲线左侧况的频数曲线左侧50%的数据只可能在的数据只可能在0,范围内范围内变化,而标准差变化,而标准差S是频数分布曲线上拐点到均数的距
6、离,是频数分布曲线上拐点到均数的距离,故故S,由于存在抽样误差,由于存在抽样误差,S 可能大于可能大于 ,也可也可能略小于能略小于2S,但一般不会小于,但一般不会小于2S很多。若很多。若 2S或略或略小于小于2S时,可用时,可用 t 检验或方差分析法;若检验或方差分析法;若 远小于远小于2S时,则不用时,则不用 t 检验或方差分析法作统计推断。检验或方差分析法作统计推断。XXXXXXX例例4.4 判断例判断例 3.1 资料的数据文件血糖的正态性。资料的数据文件血糖的正态性。H0:总体服从正态分布,总体服从正态分布,H1:总体不服从正态分布。总体不服从正态分布。使用使用SPSS打开数据文件打开数
7、据文件L1101.sav以后,可用以后,可用1-Sample K-S Test法(柯尔莫哥诺夫法(柯尔莫哥诺夫-斯米尔诺夫检验)斯米尔诺夫检验)二、二、方差齐性检验方差齐性检验 总体方差相等(即差异无统计学意义),称为方差总体方差相等(即差异无统计学意义),称为方差齐性(齐性(homogeneity of variance).方差齐性检验(方差齐性检验(test for homogeneity of variance)是)是利用理论上来自正态分布的总体的各样本信息,来推断利用理论上来自正态分布的总体的各样本信息,来推断它们的总体方差是否相等。它们的总体方差是否相等。方差齐性检验主要用于:方差齐
8、性检验主要用于:两组或多组间变异度的两组或多组间变异度的比较;比较;两个或多个样本均数间比较时,须先进行方两个或多个样本均数间比较时,须先进行方差齐性检验,若方差齐,可用差齐性检验,若方差齐,可用 t 检验或方差分析,否检验或方差分析,否则可用变量变换的方法,使之方差齐后再用则可用变量变换的方法,使之方差齐后再用 t 检验或检验或方差分析,或用对方差没有特别要求的方差分析,或用对方差没有特别要求的 t 检验或其他检验或其他非参数的统计方法。非参数的统计方法。二、预备知识二、预备知识F 分布与分布与 2分布分布 总体方差相等(即差异无统计学意义),称为方差总体方差相等(即差异无统计学意义),称为
9、方差齐性(齐性(homogeneity of variance)。方差齐性检验)。方差齐性检验(test for homogeneity of variance)是利用理论上来自)是利用理论上来自正态总体的各样本信息,来推断它们的总体方差是否正态总体的各样本信息,来推断它们的总体方差是否相等。我们先介绍两个检验统计量的分布相等。我们先介绍两个检验统计量的分布-F分布和分布和 2分布。分布。(1)F分布分布 数理统计中定义:如果随机变量数理统计中定义:如果随机变量X1、X2分分别服从自由度为别服从自由度为df1,df2的的 2分布,则称随机变量分布,则称随机变量 2211/dfXdfXF=服从自
10、由度为服从自由度为df1,df2的的F分布(分布(F-distribution)。)。F分布(分布(F-distribution)有两个自由度,第一自由度为)有两个自由度,第一自由度为分子自由度分子自由度df1;第二自由度为分母自由度;第二自由度为分母自由度df2,且位置,且位置不能更换。不能更换。F分布曲线偏向左边,随着自由度分布曲线偏向左边,随着自由度df1,df2的同时增大的同时增大,F分布曲线趋向于对称。分布曲线趋向于对称。)1,1(F)12,8(F)2,5(F不同配对自由度的不同配对自由度的 F 分布分布 F分布曲线偏向左边,随着自由度分布曲线偏向左边,随着自由度df1,df2的同时
11、增大,的同时增大,F分布曲线趋向于对称。我们用分布曲线趋向于对称。我们用F(df1,df2)表示自由度表示自由度为为df1,df2 时,检验水准时,检验水准的的F界值,界值,本书附表本书附表6 录用了按录用了按P(F F(df1,df2)=编制的编制的F界界值表,表中横标目为分母的自由度值表,表中横标目为分母的自由度df2,纵标目为分子,纵标目为分子的自由度的自由度df1,表中数字表示,表中数字表示F 的界值的界值F(df1,df2);附;附表表6右上角插图中阴影部分,表示右上角插图中阴影部分,表示 F 分布曲线下,界分布曲线下,界值值F(df1,df2)右侧面积占总面积的百分数,意义是:从右
12、侧面积占总面积的百分数,意义是:从正态总体作随机抽样,得到统计量正态总体作随机抽样,得到统计量F值大于界值值大于界值 F(df1,df2)的概率的概率P(F F(df1,df2)=。例如:查附。例如:查附表表6,界值,界值F0.05(5,10)=3.33,它表示自由度,它表示自由度df1=5,df2=10 时,时,F F 值大于值大于3.33的概率为的概率为0.05,即,即P(F 3.33)=0.05;显然;显然P(F12.1)=0.01,P(F 12.1)=0.99。因一般都按组成。因一般都按组成统计量统计量F的分子大于分母计算的分子大于分母计算 F 值。所以附表值。所以附表4中中F界界值都
13、大于值都大于1。从附表从附表6最后一列看的出来,最后一列看的出来,随机变量取值的单侧随机变量取值的单侧 P 界值(即单侧界值(即单侧时的界值)与同侧的双侧时的界值)与同侧的双侧2P界值界值(即双侧(即双侧时的界值)相等,时的界值)相等,F 分布具有倒数性质:分布具有倒数性质:),(211dfdfFF(1),(df2,df1)利用利用 F 分布的倒数性质可以求得单侧分布的倒数性质可以求得单侧 F 界值表中界值表中没有列出的没有列出的 F 界值,也可以求得按组成统计量界值,也可以求得按组成统计量 F 的的分子小于分母时分子小于分母时F分布的界值。例如,查附表分布的界值。例如,查附表6,F0.05(
14、2,5)=5.786,F 界值表中没有列出界值表中没有列出F0.95(5,2),利用利用 F 分布的倒数性质可得分布的倒数性质可得F0.95(5,2)=1/F0.05(2,5)=1/5.79=0.173 F 分布用于方差分析和两样本比较时的方差齐性检分布用于方差分析和两样本比较时的方差齐性检验的重要依据是下面的性质:验的重要依据是下面的性质:如果分别从两个正态总体如果分别从两个正态总体N(1,1)和)和N(2,2)中,随机抽取样本含量为中,随机抽取样本含量为n1,n 2的两个样本,算出样的两个样本,算出样本均数和方差分别为本均数和方差分别为 1,S和和 2,S,则统计量,则统计量XX22222
15、121/ssF=服从自由度为服从自由度为df1=n1-1,df2=n2-1的的 F 分布。分布。F分子的自由度分子的自由度df1=1时,单侧时,单侧F界值界值=双侧双侧t界值的平界值的平方,即单侧方,即单侧F(1,df)=双侧双侧t 2(df)。(2).2分布分布 数理统计中定义:如果数理统计中定义:如果u1,u2,.,un是是n个独立的标准正态变量,则称随机变量个独立的标准正态变量,则称随机变量 2=u12+u22+.+un2 (4-25)服从自由度为服从自由度为df=n的的 2分布(分布(2-distribution)。)。卡方分布的均数是卡方分布的均数是n1或自由度或自由度df,卡方总体
16、方差,卡方总体方差等于等于2(n1)或或df 2分布曲线偏向左边,随自由度分布曲线偏向左边,随自由度df的不同而不同,的不同而不同,自由度越小越偏,自由度相当大时,自由度越小越偏,自由度相当大时,2分布曲线接近分布曲线接近正态分布曲线。正态分布曲线。附表附表4 列出自由度从列出自由度从1 到到 500的卡方分布一些重要累积分布函数的卡方分布一些重要累积分布函数值范围从值范围从0.995到到0.005,表的左边列出的自由度确定不同的,表的左边列出的自由度确定不同的分布例如下图中,自由度分布例如下图中,自由度df=3,=3,并且,并且Var()=6 32 2 2 2 Var=variance 2分
17、布的规律可从附表分布的规律可从附表4得到。附表得到。附表4 4为单侧为单侧 2界值界值表,表中横标目为自由度表,表中横标目为自由度df,纵标目为概率,纵标目为概率P,表中数,表中数字表示自由度为字表示自由度为df时,时,水准下的水准下的 2界值界值 2(df);附表;附表右上角插图中阴影部分,表示右上角插图中阴影部分,表示 2分布曲线下,界值分布曲线下,界值 2(df)右侧面积占总面积的百分数右侧面积占总面积的百分数,表示从正态总体作,表示从正态总体作随机抽样,得到统计量随机抽样,得到统计量 2值大于界值值大于界值 2(df)的概率为的概率为。单侧单侧的界值的界值 2(df)可由附表可由附表4
18、直接查出;直接查出;求双侧求双侧的的 2界值时:需用界值时:需用/2值查附表值查附表4,得出右,得出右侧的侧的 2界值,由于界值,由于 2分布不对称,另一侧的分布不对称,另一侧的 2界值,需界值,需用(用(1-/2)查附表)查附表4得出。例如,直接查附表得出。例如,直接查附表2,得单,得单侧侧 2界值界值 20.05(5)=11.07,它表示自由度,它表示自由度df=5时,时,2值值大于大于11.07的概率为的概率为0.05,P(23时,可认为不满足时,可认为不满足方差齐性的条件。方差齐性的条件。四四.样本方差与已知总体方差比较样本方差与已知总体方差比较 记已知的(或规定记已知的(或规定的)总
19、体方差为的)总体方差为20。按(式。按(式4-28)计算检验统计量)计算检验统计量 2(2分布见第十章),可检验分布见第十章),可检验H0:2=20是否成立,是否成立,若由样本算得的若由样本算得的 2 2(n1)界值界值,则,则P,按,按水准拒水准拒绝绝H0;否则不能拒绝;否则不能拒绝H0。2=(n-1)s2/2=(n-1)s2/20,df=n-1(4-28)【例【例4.6】某剂型药物正常生产过程中,含碳量某剂型药物正常生产过程中,含碳量(%))服从均数为服从均数为1.408,方差为,方差为0.0482的正态分布。今从某的正态分布。今从某班产品中随机抽取班产品中随机抽取5件,测得其含碳量(件,
20、测得其含碳量(%)为)为1.32,1.55,1.36,1.40和和1.44,判断该班生产该剂型药物含,判断该班生产该剂型药物含碳量的波动性是否超标?碳量的波动性是否超标?解:样本方差解:样本方差S2=0.0882。20=0.0482 H0:2 0.0482;H1:2 0.0482 。=0.05。检验统计量检验统计量 2=(n-1)s2/20=(5-1)0.0882/0.0482=13.5;以自由度;以自由度df=n-1=4查查 2界值表(附表界值表(附表4),得,得 20.01(51)=13.28,P t0.018),P0.01,拒绝,拒绝H0,可认为人工培植人参中,可认为人工培植人参中M物质
21、的含物质的含量与野生人参不同。量与野生人参不同。也可用可信区间推断,本例,差值的也可用可信区间推断,本例,差值的95%可信区间为可信区间为(-22.2129,-20.0538),不包含),不包含0(如果(如果H0成立,则差成立,则差值的均数应为值的均数应为0),所以,按),所以,按=0.05水准,可认为人工水准,可认为人工培植人参中培植人参中M物质含量与野生人参不同。物质含量与野生人参不同。B.SPSS 软件计算软件计算 操作过程:操作过程:Analyze Compare Means One-Sample T Test,将,将M物质的含量物质的含量x选入选入Test variable s(检验
展开阅读全文