1、第五章第五章 方差分析(一)方差分析(一)n第一节第一节 方差分析原理方差分析原理n (一个性质、两个分布、三个假定)(一个性质、两个分布、三个假定)n第二节第二节 单向分组数据单向分组数据n (各组观察值个数有相同和不相同之分)(各组观察值个数有相同和不相同之分)n第三节第三节 多向分组数据多向分组数据 n (含两向分组、三向分组实例)(含两向分组、三向分组实例)n第四节第四节 三个假定与数据转换三个假定与数据转换*n (正态性、可加性、同质性)(正态性、可加性、同质性)第五章要点提示第五章要点提示 方差分析是本课程的重点,它与试验研究联系最为密切。学习时要方差分析是本课程的重点,它与试验研
2、究联系最为密切。学习时要从完全随机设计(单向分组)的试验数据着手,结合显著性检验的知识,从完全随机设计(单向分组)的试验数据着手,结合显著性检验的知识,深刻理解方差分析原理的全部内涵,即一个性质、两个分布和深刻理解方差分析原理的全部内涵,即一个性质、两个分布和 三个假定三个假定(某些情况下作数据转换的必要性);(某些情况下作数据转换的必要性); 区分区分LSR法多重比较与法多重比较与t-test的异的异同点;同点; 重点掌握单因素随机区组和拉丁方试验结果的方差分析法,能熟重点掌握单因素随机区组和拉丁方试验结果的方差分析法,能熟练地运用字母法标记多重比较结果。练地运用字母法标记多重比较结果。 涉
3、及教材内容:第六章第一、二、五节,第十二章第五、六、七节。涉及教材内容:第六章第一、二、五节,第十二章第五、六、七节。 作业布置:作业布置:教材教材第六章第四节内容自习第六章第四节内容自习;教材教材P131P131135 135 T1、 T3、 T4、 T11、 T12、T13、 T20 、T21 、 T22 ,教材教材P268P268269 269 T7、 T8、 T13。第一节第一节 方差分析原理方差分析原理 方差分析方差分析(analysis of variance),缩,缩写词原为写词原为ANOVA, 现在也用现在也用AOV。 它是对多个样本平均数进行假设测它是对多个样本平均数进行假设
4、测验的方法验的方法, 因为对三个以上的平均数差因为对三个以上的平均数差异进行比较时异进行比较时, 采用只能就一个或两个采用只能就一个或两个样本平均数差异进行显著性测验的方法样本平均数差异进行显著性测验的方法已不敷应用,例如:已不敷应用,例如: 例例5.1 某水产研究所为了比较某水产研究所为了比较 k=4种种不同配合饲料对鱼的饲喂效果,选取了不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼条件基本相同的鱼20尾,随机分成尾,随机分成4组组 ,投喂不同饲料,一个月后每个处理各得投喂不同饲料,一个月后每个处理各得n= 5个增重观察值,且个增重观察值,且T=550.8, =27.54, 试予分析。试
5、予分析。解解 本例本例需要分析两个方面的问题需要分析两个方面的问题:鱼经不同饲料投喂后增重是否鱼经不同饲料投喂后增重是否 有显著差异(即存在本质差别)?有显著差异(即存在本质差别)?若有显著差异的话若有显著差异的话, 在哪些饲料之间在哪些饲料之间? 如果按第三章的方法如果按第三章的方法, 直接进行显著直接进行显著性检验性检验, 就要就要孤立地对以下孤立地对以下6个两两差个两两差数做数做t-test,即:即:顺序顺序 t t24.74 t26.28 t27.96 A1 31.18 6.44 4.9 3.22 A4 27.96 3.22 1.68 A2 26.28 1.54 A3 24.74 第一
6、节第一节 方差分析原理方差分析原理 把一份完整的原始数据部分地撇开,把一份完整的原始数据部分地撇开, 孤立地对两两差数进行孤立地对两两差数进行t-test,其消极后其消极后果佛克伦这样描述过:果佛克伦这样描述过: 从同一总体中抽样从同一总体中抽样, 每次抽两个样本每次抽两个样本得得1和和2后求算后求算 t 值值, 若指定它超过某若指定它超过某值的概率为值的概率为5%的话的话, 该值就是两尾表中该值就是两尾表中查得的临界值查得的临界值 t0.05 再以相同的样本容再以相同的样本容量每次抽三个样本量每次抽三个样本, 用用最大的样本和最大的样本和最小的样本求算最小的样本求算 t 值值, 此时它超过此
7、时它超过“t0.05 ”的概率上升到的概率上升到14.3% ( 即即“t0.05 ” = t0.143)继续以相同的容量每次抽继续以相同的容量每次抽四个样本四个样本,仍以仍以最大的和最大的和最小的求算最小的求算t 值值, 则则上升到上升到26.5%( 即即 “t0.05 ”= t0.265 )以此以此类推类推5个样本个样本40%以上。以上。 比如本例针对药剂比如本例针对药剂A1与药剂与药剂A3的两两差的两两差数数6.44 (最大最大 最小最小) 进行的进行的t-test: F= S大大2 / S小小2 =41.67/415.97/4 F0.05 Se2 = (SS1 + SS2) / (1+2
8、) = 57.64/8 S 1-2 =Se2 ( 1/n1 + 1/n2 ) = 1.70 t =( 1- 2 ) (1-2) S1- 2 = 6.44 1.70 = 3.8 “t0.05”=2.306 由于撇开由于撇开A、B孤立地进行,否定孤立地进行,否定HO的把握不到的把握不到80%。第一节第一节 方差分析原理方差分析原理一、数据整理一、数据整理 根据方差分析的先决条件,在根据方差分析的先决条件,在“三个三个假定假定”成立的前提下,对右表继续整理:成立的前提下,对右表继续整理: C= T 2/nk = 550.8 2/20 = 15169.03SST =(Y ) 2 = Y 2 C =31
9、.92 +28.52 15169 = 199.67dfT = nk 1= 5 4 1 = 19二、平方和、自由度的分解二、平方和、自由度的分解Y = (Yt) + ( t ) 两边同时平方,得两边同时平方,得: (Y )2 = (Y t) 2 + ( t ) 2 +2 (Y t) ( t )由同一处理重复观察值的由同一处理重复观察值的累加:累加: (Y)2=(Yt) 2 + (t ) 2 +2 ( t ) (Y t) = 0(Y )2=(Y t) 2 + n ( t ) 2再把全部处理观察值的再把全部处理观察值的累加,得:累加,得:(Y )2=(Yt) 2 + n ( t ) 2即:即: SS
10、T = (组内组内) SSe + (组间组间) SSt 其中其中 SSt = n ( t ) 2 = Tt 2 /n C = (155.9 2 +131.4 2 +123.7 2 +139.8 2 )/ 5 15169.03 = 114.27于是于是SSe = SST SSt = 199.67 114.27 = 85.4 = SS1 + SS2 + SS3 +SS4 = 41.67 +5.43 +15.97+22.33 dft = k 1= 3 dfe= dfT dft =193 = df1 + df2 + df3 +df4= 4 +4 +4+4 = 16第一节第一节 方差分析原理方差分析原理
11、三、列三、列ANOVA表,进行表,进行F-test 变异来源变异来源 DF SS MS F F 0.01 处理处理 3 114.27 38.09 7.13 * 5.29 误差误差 16 85.4 5.34 总总 19 199.67 ( F值右上角标一个值右上角标一个 * 达到达到0.05, 标两个标两个 * 达到达到0.01 ) 这里进行的这里进行的F-test与第三章与第三章(Ho:大大2 小小2 )的相同之处是都做右尾测验的相同之处是都做右尾测验, 查的是同一张查的是同一张F临界值表;不同之处是固定用误差方差临界值表;不同之处是固定用误差方差Se 2作作分母分母(Ho:t2 e2 ), 而
12、不论其相对大小。而不论其相对大小。 显然显然, F值越大值越大, 说明处理效应引起的数据说明处理效应引起的数据变变异不仅在量的方面所占比重较大异不仅在量的方面所占比重较大, 而且相对于而且相对于误差引起的变异来讲显得越重要、越突出误差引起的变异来讲显得越重要、越突出; 本本例例F-test结果显示极显著结果显示极显著, 表明原始数据的总变表明原始数据的总变异主要由不同的饲料种类引起异主要由不同的饲料种类引起, 各处理之间至各处理之间至少有两个存在着少有两个存在着(极极)显著差异。显著差异。 以上一、二、三就是以上一、二、三就是R.A.Fisher创建的方差创建的方差分析法,其原理归纳如下分析法
13、,其原理归纳如下:平方和与自由度的可加性;平方和与自由度的可加性; SST 综合了全部观察值的变异量综合了全部观察值的变异量, 它汇总了它汇总了各变异来源各变异来源 (SOV) 导致原始数据和全试验平均导致原始数据和全试验平均数数 ( ) 出现差异的分量出现差异的分量, 包括包括可控因素分量和可控因素分量和误差分量两类误差分量两类; “可加性可加性” 证实前者就是观察证实前者就是观察值按可控因素分组后算得的组间平方和值按可控因素分组后算得的组间平方和 ( 可控可控因素可以是试验因素因素可以是试验因素, 也可以是象单位组那样也可以是象单位组那样的其它系统因素的其它系统因素 ) 。 试验设计有几个
14、可控因素试验设计有几个可控因素, 数据就会有几种数据就会有几种可能的分组方式可能的分组方式, 也就可以算出几个组间也就可以算出几个组间SS, 而而本属于组内本属于组内SS的误差分量在平方和分解时总是的误差分量在平方和分解时总是由由SST 减去所有可控因素减去所有可控因素SS得到得到, 因此它又被称因此它又被称为为“剩余平方和剩余平方和”。 自由度的剖分与平方和的剖分一一对应自由度的剖分与平方和的剖分一一对应。依据依据F分布进行整体测验;分布进行整体测验; 只确定可控因素分量和误差分量的相对只确定可控因素分量和误差分量的相对重要程度是否达到显著水平。重要程度是否达到显著水平。第一节第一节 方差分
15、析原理方差分析原理四、多重比较四、多重比较 R.A.Fisher 创建的方差分析法并没有明确创建的方差分析法并没有明确(极极)显著差异究竟存在于哪些显著差异究竟存在于哪些 “组平均数组平均数”之间之间, F值值(极极)显著所包含的信息只有通过显著所包含的信息只有通过对对C2n= k(k-1)/2个两两差数进行多次连续性个两两差数进行多次连续性测验才能完全揭露出来,这就是多重比较。测验才能完全揭露出来,这就是多重比较。 多重比较不论用哪一种方法多重比较不论用哪一种方法, 区别于多区别于多 次孤立的次孤立的 t-test 或者说体现其或者说体现其“连续性连续性” 特征特征之处有两个之处有两个, 一
16、是必须使用同一个共用的标一是必须使用同一个共用的标准误准误, 记为记为“SE”), 本例本例SEMSe / n 5.345 =1.033 (10g); 二是所依据的抽样分二是所依据的抽样分布由计算布由计算MSe即即Se2的自由度的自由度dfe决定决定, 并根据并根据两两差数秩次距两两差数秩次距“k”的不同而有所修正。如的不同而有所修正。如本例本例k = 2、3、4,测验时依据,测验时依据dfe=16的的 t 分分布并在布并在k = 3和和4时修正为时修正为SSR分布如右。分布如右。顺序顺序 t t24.74 t26.28 t27.96 A1 31.18 6.44 4.9 3.22 A4 27.
17、96 3.22 1.68 A2 26.28 1.54 A3 24.74 -3.9-3.9-2.9-2.9-1.9-1.9-0.9-0.90.10.11.11.12.12.13.13.1=16,k =2 SSR= t2=16,k =3=16,k =4 3.23 3.15 3.00 第一节第一节 方差分析原理方差分析原理 附表附表6 列出了各自由度对应的列出了各自由度对应的t 分布曲线分布曲线再按再按9 种秩次距修正出来的种秩次距修正出来的SSR分布当两尾分布当两尾概率取概率取0.05和和0.01时临界值,记为时临界值,记为SSR0.05和和SSR0.01,其中,其中k =2的那一条因为实际就是的
18、那一条因为实际就是 t分布曲线压缩横坐标刻度所得分布曲线压缩横坐标刻度所得, 所以表中列所以表中列出的出的SSR0.05和和SSR0.01就分别等于附表就分别等于附表3所列所列t0.05 和和t0.01的的2 倍倍; 其它其它k3的的SSR分布随分布随着着P的递增的递增, 对对 t 分布的修正幅度加大分布的修正幅度加大, 因此因此表中列出的表中列出的SSR0.05和和SSR0.01也就随之递增。也就随之递增。 多重比较测验两两差数的显著性时不是多重比较测验两两差数的显著性时不是将它除以将它除以SE转换成转换成SSR(也是标准化变量也是标准化变量!)后再与后再与SSR0.05 和和SSR0.01
19、 比大小比大小, 而是先将而是先将SSR0.05和和SSR0.01乘以乘以SE算出算出“显著尺显著尺”LSR,再将它们直接和相应秩次距的两两差数比再将它们直接和相应秩次距的两两差数比大小大小, 超过超过LSR0.05标标*, 超过超过LSR0.01 标标*。顺序顺序 t t24.74 t26.28 t27.96 A1 31.18 6.44 * 4.9 * 3.22 * A4 27.96 3.22 ns 1.68 ns A2 26.28 1.54 ns A3 24.74 -3.9-3.9-2.9-2.9-1.9-1.9-0.9-0.90.10.11.11.12.12.13.13.1=16,k =
20、2 SSR= t2=16,k =3=16,k =4 3.23 3.15 3.00 第一节第一节 方差分析原理方差分析原理 按照两两差数在三角梯形表中的排列规按照两两差数在三角梯形表中的排列规律,本例多重比较过程列表如下:律,本例多重比较过程列表如下: LSR0.05= SE SSR0.05 LSR0.01= SE SSR0.01 顺序顺序 t t24.74 t26.28 t27.96 A1 31.18 6.44 * 4.9 * 3.22 * A4 27.96 3.22 ns 1.68 ns A2 26.28 1.54 ns A3 24.74 SE = 1.033 综合包括多重比较在内的方差分析
21、综合包括多重比较在内的方差分析全过程,其原理可归纳为:全过程,其原理可归纳为: 一个性质一个性质(SS、DF的可加性的可加性) 两个分布两个分布(F分布和分布和SSR分布分布) 本例根据本例根据SSR分布进行的多重比较分布进行的多重比较叫叫新复极差测验新复极差测验, 简称简称SSR-test 。因为因为不能缺少不能缺少 F-test 显著的前提,属于显著的前提,属于Fishers protected multipe comparisons.此前产生的此前产生的复极差测验复极差测验 (简称简称q-test、又又称称SNK测验测验) 却可以不经过却可以不经过F-test, 原因原因是是q-test
22、算算LSR时要改查时要改查q 值表值表(附表附表5), 所依据的所依据的q分布是按极差抽样分布原理分布是按极差抽样分布原理要保证各比较都是同一显著水平要保证各比较都是同一显著水平, 因因而对而对 t 分布修正幅度随秩次距分布修正幅度随秩次距k的递增的递增而加大的速度要比而加大的速度要比SSR分布快分布快, 所以秩所以秩次距次距k3 时时q0.05和和q0.01 比相应的比相应的SSR0.05和和SSR0.01大。大。 第二节第二节 单向分组数据单向分组数据 单向分组数据指观察值仅按一个方单向分组数据指观察值仅按一个方向分组的数据。如例向分组的数据。如例5.1中将全部供试单中将全部供试单位位(试
23、验材料试验材料)随机地分成若干组,然后随机地分成若干组,然后各组给以不同处理,即同组供试单位受各组给以不同处理,即同组供试单位受相同处理,不同组受不同处理,这样所相同处理,不同组受不同处理,这样所得的全部观察值在设计上称为得的全部观察值在设计上称为完全随机完全随机试验数据试验数据,而实际研究中下例,而实际研究中下例5.2那样的那样的调查结果也属此类。调查结果也属此类。一、各组观察值个数相等一、各组观察值个数相等 例例5.2 抽测抽测 5个不同品种个不同品种(k = 5)各各5头母猪头母猪(n = 5)的窝产仔数,结果如右表的窝产仔数,结果如右表所示,所示,T = 265,试检验不同品种的母猪,
24、试检验不同品种的母猪平均窝产仔数差异是否显著。平均窝产仔数差异是否显著。 1、数据整理、数据整理 C = T 2/nk = 265 2/25 = 2809SST =(Y ) 2 = Y 2 C =82 +132 +132 2809 = 136dfT = nk 1= 5 5 1 = 24第二节第二节 单向分组数据单向分组数据2、平方和、自由度的分解、平方和、自由度的分解SSt = n ( t ) 2 = Tt 2 /n C = 73.2 = (51 2 +41 2 +60 2 +48 2 +65 2 )/ 5 2809于是于是 SSe = SST SSt = 13673.2 =62.8 dft
25、= k 1= 4 dfe= dfT dft =244= 203、列、列ANOVA表,进行表,进行F-test 假设是假设是Ho:t2 e2 而不是而不是Ho:t2 =e2 (和(和 Ho:1= 2= 3= 4= 5效果一样)效果一样) SOV DF SS MS F F 0.01 品种品种 4 73.2 18.3 5.83* 4.43 误差误差 20 62.8 3.14 总总 24 1364、多重比较、多重比较 SE=MSe / n =3.145 = 0.793 再根据附表再根据附表6的的SSR进而算得显著尺:进而算得显著尺:K SSR0.05 SSR0.01 LSR0.05 LSR0.012.
26、95 4.02 2.339 3.1883.10 4.22 2.458 3.3463.18 4.33 2.522 3.4345 3.25 4.40 2.577 3.489第二节第二节 单向分组数据单向分组数据本例的多重比较结果以三角梯形表表述如下:本例的多重比较结果以三角梯形表表述如下: t 0.01 t 8.2 t 9.6 t 10.2 t 12.013.0 A 4.8* 3.4* 2.8* 1.012.0 A 3.8* 2.4 1.8 10.2 AB 2.0 0.6 9.6 AB 1.4 8.2 B t 13.0 12.0 10.2 9.6 8.2第二节第二节 单向分组数据单向分组数据本例的
27、多重比较结果以三角梯形表表述如下:本例的多重比较结果以三角梯形表表述如下: t 0.05 t 8.2 t 9.6 t 10.2 t 12.013.0 a 4.8* 3.4* 2.8* 1.012.0 ab 3.8* 2.4 1.8 10.2 bc 2.0 0.6 9.6 bc 1.4 8.2 c t 13.0 12.0 10.2 9.6 8.2第二节第二节 单向分组数据单向分组数据 单向分组数据的观察值也可以是单向分组数据的观察值也可以是交交叉试验叉试验的数据。即在同一试验中给试验的数据。即在同一试验中给试验单位安排处理时分期进行、交叉反复两单位安排处理时分期进行、交叉反复两次以上所获得的试验
28、结果。这种试验设次以上所获得的试验结果。这种试验设计方法能较好地消除试验动物个体(即计方法能较好地消除试验动物个体(即试验单位)以及试验时期间的差异对试试验单位)以及试验时期间的差异对试验数据影响,特别是能够利用较少的试验数据影响,特别是能够利用较少的试验动物获得尽可能多的观察值个数。由验动物获得尽可能多的观察值个数。由于系同一批试验动物分期安排不同处理,于系同一批试验动物分期安排不同处理,所得观察值个数必然相等。所得观察值个数必然相等。 例例5.3 研究新配方饲料对奶牛产奶研究新配方饲料对奶牛产奶量(量(kg)的影响,设置对照饲料)的影响,设置对照饲料A1和和新和和新配方饲料配方饲料A2两个
29、处理,采用两个处理,采用 2 2交叉设交叉设计,用条件相近的计,用条件相近的10头奶牛分两期获得了头奶牛分两期获得了20个原始数据,并算得个原始数据,并算得二水平差值二水平差值 d如右如右表,试完成其方差分析过程。表,试完成其方差分析过程。 第二节第二节 单向分组数据单向分组数据1、数据整理、数据整理 C = ( d ) 2/nk = 1.8 2/10 = 0.324 SST = d 2C = 75.116 =(1.7 ) 2 +(2.2 ) 2 +1.0 20.324 dfT = nk 1= 5 2 1 = 92、平方和、自由度的分解、平方和、自由度的分解SSt = Tt 2 /n C =
30、60.516 = (11.4) 2 +13.2 2/ 5 0.324SSe = SST SSt = 75.11660.516 =14.6 dft = k 1= 1 dfe= dfT dft =91= 83、列、列ANOVA表,进行表,进行F-testSOV DF SS MS F F 0.01 处理处理 1 60.516 60.52 33.16* 4.43 误差误差 8 14.600 1.83 总总 9 75.116第二节第二节 单向分组数据单向分组数据例例5.4 研究饲喂尿素对奶牛产奶量(研究饲喂尿素对奶牛产奶量(kg)的影响,设置尿素配合饲料的影响,设置尿素配合饲料A1和和对照和和对照饲料饲
31、料A2两个处理,采用两个处理,采用 2 3交叉设计,交叉设计,用条件相近的用条件相近的6头奶牛分三期获得了头奶牛分三期获得了18个个原始数据,并算得原始数据,并算得二水平差值二水平差值 d如右表,如右表,完成其方差分析的结果如下。完成其方差分析的结果如下。 (和例(和例5.3一样,无需多重比较)一样,无需多重比较)ANOVA表:表:SOV DF SS MS F F 0.01 处理处理 1 1.6748 1.6748 1.60ns 7.71 误差误差 4 4.1727 1.0432 总总 5 17.72第二节第二节 单向分组数据单向分组数据二、各组观察值个数不相等二、各组观察值个数不相等 例例5
32、.5 5个不同品种猪的育肥试验,后个不同品种猪的育肥试验,后期期30天增重(天增重(kg)分别得到)分别得到6、6、5、4、4个共个共25头猪的观察值(如下表),试头猪的观察值(如下表),试比较不同品种间的增重有无显著性差异比较不同品种间的增重有无显著性差异。 1、数据整理、数据整理 k = 5 T = 460.5 ni=25 C= T 2/ ni = 460.5 2/25 = 8482.41SST = (Y ) 2 = Y 2 C = 21.52 +16.02 8482.41 = 85.34 dfT = ni 1= 25 1 = 24可加性原理可加性原理与前面例与前面例5.1、例、例5.2一
33、样一样 : SST = 组间组间 SS t + 组内组内 SS e dfT = 组间组间 df t + 组内组内 df e 由于各组观察值个数由于各组观察值个数 ni 不全相等,不全相等,方差分析过程部分计算公式随之改变,方差分析过程部分计算公式随之改变,须注意其须注意其与前面例与前面例5.1、例、例5.2的区别的区别!第二节第二节 单向分组数据单向分组数据2、平方和、自由度的分解、平方和、自由度的分解SSt = ( Tt 2 / ni ) C = 46.5 = (1212 /6+103 2 /6+91.5 2/5+78.5 2 /4 +66.5 2 /4 ) 8482.41于是于是 SSe
34、= SST SSt = 85.3446.5 =38.84 dft = k 1 = 4 dfe = dfT dft = 244 = 203、列、列ANOVA表,进行表,进行F-test 假设是假设是Ho:t2 e2 而不是而不是Ho:t2 =e2 (和(和 Ho:1= 2= 3= 4= 5效果一样)效果一样) SOV DF SS MS F F 0.01 品种品种 4 46.5 11.63 5.99* 4.43 误差误差 20 38.84 1.94 总总 24 85.344、多重比较、多重比较 SE= MSe / no =1.944.96 = 0.625 按按dfe = 20查得查得SSR临界值后
35、比较如下临界值后比较如下:P LSR 顺序顺序 t 0.05 0.01 0.05 0.01 B1 20.2 a A2.95 4.02 B4 19.6 a AB3.10 4.22 B3 18.3 ab ABC3.18 4.33 B2 17.2 b BC5 3.25 4.40 B5 16.6 b C第二节第二节 单向分组数据单向分组数据 组次数平均数组次数平均数 no 的另一种计算公式的另一种计算公式: 6 (6+5+4+4) 6 (6+5+4+4) 5(6+6+4+4) 4 (6+6+5+4) 4( 6+6+5+4 ) 4 4 4 4 4 no= = 4.96 6 + 6 + 5 + 4 + 4
36、 本例说明本例说明取样调查得到的数据取样调查得到的数据观察结果可按单向分组数据的模型进行方差分观察结果可按单向分组数据的模型进行方差分析析, 而不论各组取样获得的观察值个数是否相同(而不论各组取样获得的观察值个数是否相同(参见例参见例5.1)。)。 实际应用中,某些实际应用中,某些完全随机试验完全随机试验设计即使各处理的小区个数相同,但因为自设计即使各处理的小区个数相同,但因为自然条件限制或其它原因导致个别小区无法得到观察值时,就可以参照本例按各组然条件限制或其它原因导致个别小区无法得到观察值时,就可以参照本例按各组观察值个数不同的观察值个数不同的数据结构数据结构进行分析。进行分析。 由于取样
37、观察所依据的原理是以概率论中定义的由于取样观察所依据的原理是以概率论中定义的“随机试验随机试验”为出发点,因此,为出发点,因此,试验统计中讲授试验统计中讲授取样调查结果取样调查结果决不算决不算“离题离题”,也就是说,对教材名称中的,也就是说,对教材名称中的“试验试验”一词要全面理解,这是本课程简称一词要全面理解,这是本课程简称“试验统计试验统计”比简称比简称“生物统计生物统计”好的理由之一。好的理由之一。 至于动物试验研究中按交叉设计得到的数据,其方差分析因为是用二水平差至于动物试验研究中按交叉设计得到的数据,其方差分析因为是用二水平差值值 d 进行的,分析模型的数据结构也属于单向分组数据模式
38、。进行的,分析模型的数据结构也属于单向分组数据模式。第三节第三节 多向分组数据多向分组数据 试验统计过程中,象前面三例那样只需按不同试验处理试验统计过程中,象前面三例那样只需按不同试验处理( 即一个可控因素即一个可控因素 )对数据进行分组是很不够的,因为对数据进行分组是很不够的,因为农业及生物学领域农业及生物学领域所进行的试验研究由于受自所进行的试验研究由于受自然条件的制约,导致试验所得各观察值出现差异的然条件的制约,导致试验所得各观察值出现差异的可控因素决不仅仅局限于试验可控因素决不仅仅局限于试验因素因素。如在实施了局部控制的试验方案设计中,各单位组之间的差别就反映了系。如在实施了局部控制的
39、试验方案设计中,各单位组之间的差别就反映了系统因素效应,此时的试验数据除了要按不同试验处理分组之外,还必须按不同的统因素效应,此时的试验数据除了要按不同试验处理分组之外,还必须按不同的单位组进行分组。单位组进行分组。 由于区组可以不止一个方向,这就产生了由于区组可以不止一个方向,这就产生了两向甚至三向分组数据两向甚至三向分组数据的分析问题,的分析问题,前者最典型的是随机区组试验数据,后者则以拉丁方试验结果为代表,两者都是前者最典型的是随机区组试验数据,后者则以拉丁方试验结果为代表,两者都是经典试验设计与统计分析内容;并且和完全随机试验一样,可以是单因素试验,经典试验设计与统计分析内容;并且和完
40、全随机试验一样,可以是单因素试验,也可以是复因素试验。鉴于复因素试验要专门安排一章来讲授,本节只介绍单因也可以是复因素试验。鉴于复因素试验要专门安排一章来讲授,本节只介绍单因素随机区组和拉丁方试验数据的方差分析。素随机区组和拉丁方试验数据的方差分析。 例例5.6 为了比较为了比较5种不同中草药饲料添加剂对猪增重的效果,从种不同中草药饲料添加剂对猪增重的效果,从4头母猪所产头母猪所产仔猪中,每窝选出性别相同、体重相近的仔猪各仔猪中,每窝选出性别相同、体重相近的仔猪各5头,共头,共20头,组成头,组成4个单位组,个单位组,各单位组的每头仔猪随机饲喂不同的饲料添加剂。观察值为平均日增重(各单位组的每
41、头仔猪随机饲喂不同的饲料添加剂。观察值为平均日增重(g),),其结果如下表,试进行方差分析其结果如下表,试进行方差分析。第三节第三节 多向分组数据多向分组数据 SST = 处理处理 SS t + 区组区组 SS r + 剩余剩余 SS e dfT = 处理处理 df t + 区组区组 df r + 剩余剩余 df e SSt = Tt 2 /n C = (825 2 +925 2 +1065 2 +737 2 +1137 2) / 4 C = 27267.2 SSr = Tr 2 / kC = (1152 2 +1047 2 +1267 2 +1223 2) / 5 C = 5530.15 S
42、Se = SST SSt SSr = 35890.9527267.2 5530.15 = 3093.6 dft = k 1= 4 dfr = 4 1= 3 dfe= dfT dft dfr =194 3= 12一、数据整理一、数据整理 n = 4 k = 5 nk = 20 (随机单位组)随机单位组) C = T 2/nk = 4689 2/20 = 1099336.05 SST =(Y ) 2 = Y 2 C = 2052 +1682 +2822 1099336.05 = 35890.95dfT = nk 1= 4 5 1 = 19 二、二、 SST、 dfT 的分解的分解第三节第三节 多向
43、分组数据多向分组数据三、列三、列ANOVA表,进行表,进行F-test(假设是假设是Ho:t2 e2 而不是而不是Ho:t2 =e2 )SOV DF SS MS F F 0.01区组区组 3 5530.15 1843.38 7.15* 5.95处理处理 4 27267.2 6816.8 26.44* 5.41误差误差 12 3093.6 257.8 总总 19 35890.95 总有人用单位组总有人用单位组SS、DF算算MS并进行并进行F-test,这样做不妥当:单位组之间的差,这样做不妥当:单位组之间的差异是试验设计时实行局部控制、转化系统异是试验设计时实行局部控制、转化系统因素效应收到的效
44、果,只参与因素效应收到的效果,只参与SST、dfT 的的分解以控制试验误差;一个单位组安排分解以控制试验误差;一个单位组安排了试验方案的一个完整重复,单位组数就了试验方案的一个完整重复,单位组数就是重复次数,但是重复次数,但“重复区组重复区组”只是构成了估只是构成了估计抽样误差的必要条件,不能提供其自身计抽样误差的必要条件,不能提供其自身( 区组之间区组之间 )差异是否显著的信息。差异是否显著的信息。四、多重比较四、多重比较 SE=MSe / n =257.84 = 8.028 再根据附表再根据附表5的的q进而算得显著尺:进而算得显著尺:k 2 3 4 5q0.05 3.08 3.77 4.2
45、0 4.51q0.01 4.32 5.04 5.50 5.84LSR0.05 24.73 30.27 33.72 36.21LSR0.01 34.68 40.64 44.15 46.88 顺序顺序 t 0.05 0.01 A5 284.25 a A A3 266.25 a A A2 231.25 b B A1 206.25 c BC A4 184.25 c C第三节第三节 多向分组数据多向分组数据 例例5.7 为了研究为了研究5种不同温度对蛋鸡产蛋量的影响,将种不同温度对蛋鸡产蛋量的影响,将5栋鸡舍的温度分别栋鸡舍的温度分别设设为为A、B、C、D、E,把各栋鸡舍鸡群(,把各栋鸡舍鸡群(5群)群
46、),每群产蛋期(每群产蛋期(5期)分别设置成期)分别设置成单位组,采用单位组,采用55拉丁方设计,其试验结果(个)如下,试予分析拉丁方设计,其试验结果(个)如下,试予分析。解解 拉丁方试验在两个方向都应用了局部控制,使得纵横两向皆成区组。拉丁方试验在两个方向都应用了局部控制,使得纵横两向皆成区组。 其结果的分解原理构成三向分组:其结果的分解原理构成三向分组:SST = SS t + SS r + SS c + SS e 即包括了三个可控因素,比随机区组法:即包括了三个可控因素,比随机区组法: SST = SS t + SS r + SS e 多一个可控因素;比完全随机法多两个:多一个可控因素;
47、比完全随机法多两个: SST = SS t + SS e 。 自由度的分解也是如此。自由度的分解也是如此。第三节第三节 多向分组数据多向分组数据一、数据整理一、数据整理 n = k = 5 nk = 25 C = T 2/nk = 549 2/25 = 12056.04 SST = Y 2 C = 100.96 = 232 +212 +19212056.04 dfT = nk 1= 5 5 1 = 24 三、列三、列ANOVA表,进行表,进行F-testSOV DF SS MS F F 0.01行行 4 27.36列列 4 22.16温度温度 4 33.36 8.34 5.56* * 5.41
48、误差误差 12 18.08 1.50 总总 24 100.96 不要试图对横行区组(行)或纵行区组不要试图对横行区组(行)或纵行区组(列(列)进行)进行F-test !二、二、 SST、 dfT 的分解的分解 SSt = Tt 2 /n C = 33.36 = (116 2 +114 2 +105 2 +113 2 +101 2) / 5 C SSr = Tr 2 / kC = 27.36 = (108 2 +105 2 +116 2 +116 2 +104 2) / 5 C SSc= Tc 2 / kC = 22.16 = (109 2 +108 2 +119 2 +107 2 +106 2
49、) / 5 CSSe = SST SSt SSr SSc= 18.08= 100.96 33.3627.36 22.16 dft = k 1= dfr = dfc= n 1= 4 dfe= dfT dft dfr dfc = 244 4 4 = 12第三节第三节 多向分组数据多向分组数据四、多重比较四、多重比较 SE=MSe / n =1.505 = 0.55 再根据附表再根据附表5的的q进而算得显著尺:进而算得显著尺: k 2 3 4 5q0.05 3.08 3.77 4.20 4.51q0.01 4.32 5.04 5.50 5.84LSR0.05 1.69 2.07 2.31 2.48L
50、SR0.01 2.38 2.77 3.03 3.21 顺序顺序 t 0.05 0.01 A 23.2 a A B 22.8 a A D 22.6 a A C 21.0 ab A E 20.2 b A 多向分组数据不能象单向分组数据那样多向分组数据不能象单向分组数据那样有各组观察值个数相同和各组观察值个数有各组观察值个数相同和各组观察值个数不相同两种数据结构,因为试验设计决定不相同两种数据结构,因为试验设计决定了其数据中了其数据中各组观察值个数必须相同各组观察值个数必须相同。 即使试验实施后因为不可抗拒的原因使即使试验实施后因为不可抗拒的原因使得个别小区观察值缺失而导致该组观察值得个别小区观察值