生物统计学:方差分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《生物统计学:方差分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 统计学 方差分析 课件
- 资源描述:
-
1、什么是方差分析?(一个例子)表8-1 该饮料在五家超市的销售情况超市无色粉色橘黄色绿色1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8【例例8.18.1】某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超级市场上收集了前一时期该饮料的销售情况,见表8-1。试分析饮料的颜色是否对销售量产生影响。什么是方差分析?(例子的进一步分析)
2、1.检验饮料的颜色对销售量是否有影响,也就是检验四种颜色饮料的平均销售量是否相同2.设 1 1为无色饮料的平均销售量,2 2粉色饮料的平均销售量,3 3为橘黄色饮料的平均销售量,4 4为绿色饮料的平均销售量,也就是检验下面的假设H H0 0:1 1 2 2 3 3 4 4 H H1 1:1 1,2 2,3 3,4 4 不全相等不全相等3.检验上述假设所采用的方法就是方差分析一、3组以上数据采用t检验的缺点:1.检验过程烦琐 2.无统一的试验误差,误差估计的精确性和检验的灵敏性低3.推断的可靠性低,检验的 I 型错误率大由于上述原因,多个平均数的差异显著性检验不宜用 t 检验,须采用方差分析法。
3、ANOVA 由英国统计学家R.A.Fisher首创,为纪念Fisher,以F命名,故方差分析又称 F 检验(F test)。用于推断多个总体均数有无差异 这种方法是将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比值,就能检验各样本所属总体平均数是否相等。“方差分析法是一种在若干能相互比较的资料组中,把产生变异的原因加以区分开来的方法与技术”,方差分析实质上是关于观测值变异原因的数量分析。几个常用术语:1.试验指标(experimental index)为衡量试验结
4、果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目称为试验指标。由于试验目的不同,选择的试验指标也不相同。在畜禽、水产试验中常用的试验指标有:日增重、产仔数、产奶量、产蛋率、瘦肉率、某些生理生化和体型指标(血糖含量、体高、体重)等。2.试验因素(experimental factor)试验中所研究的影响试验指标的因素叫试验因素。如研究如何提高猪的日增重时,饲料的配方、猪的品种、饲养方式、环境温湿度等都对日增重有影响,均可作为试验因素来考虑。当试验中考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上的因素对试验指标的影响时,则称为两因素或多因素试验。试验因素常用大写字母A、
5、B、C、等表示。3.因素水平(level of factor)试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。如比较3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素的3个水平;研究某种饲料中4种不同能量水平对肥育猪瘦肉率的影响,这4种特定的能量水平就是饲料能量这一试验因素的4个水平。因素水平用代表该因素的字母加添足标1,2,来表示。如 A1、A2、,B1、B2、,等。4.试验处理(treatment)事先设计好的实施在试验单位上的具体项目叫试验处理,简称处理。在单因素试验中,实施在试验单位上的具体项目就是试验因素的某一水平。例如进行饲料的比较试验时,实施在试验单位(某种
6、畜禽)上的具体项目就是喂饲某一种饲料。所以进行单因素试验时,试验因素的一个水平就是一个处理。在多因素试验中,实施在试验单位上的具体项目是各因素的某一水平组合。例如进行3种饲料和3个品种对猪日增重影响的两因素试验,整个试验共有33=9个水平组合,实施在试验单位(试验猪)上的具体项目就是某品种与某种饲料的结合。所以,在多因素试验时,试验因素的一个水平组合就是一个处理。5.试验单位(experimental unit)在试验中能接受不同试验处理的独立的试验载体叫试验单位。在畜禽、水产试验中,一只家禽、一头家畜、一只小白鼠、一尾鱼,即一个动物;或几只家禽、几头家畜、几只小白鼠、几尾鱼,即一组动物都可作
7、为试验单位。试验单位往往也是观测数据的单位。6.重复(repetition)在试验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂4头猪,就说这个处理(饲料)有4次重复。1 方差分析的基本原理与步骤 本节结合单因素试验结果的方差分析介绍其原理与步骤。一、线性模型与基本假定 假设某单因素试验有k个处理,每个处理有n次重复,共有nk个观测值。这类试验资料的数据模式如表1所示。表1 k个处理每个处理有n个观测值的数据模式 表中 表示第i个处理的第j个观测值 (i=1,2,k;j=1,2,n);表示第i个处理n个观测值的和;表示
8、全部观测值的总和;表示第i个处理的平均数;表示全部观测值的总平均数;可以分解为ijx.1niijjxx111.knkijiijixxx1././niijijxxnxn11././knijijxxknxknijx (1)表示第i个处理观测值总体的平均数。为了看出各处理的影响大小,将 再进行分解,令 (2)(3)则 (4)其中 表示全试验观测值总体的平均数;ijiijx11kiikiiijiijxii ai 是 第 i 个 处理的效应(treatment effects)表示处理i对试验结果产生的影响。显然有 (5)ij是试验误差,相互独立,且服从正态分布N(0,2)。(4)式叫做单因素试验的线性
9、模型(linear model)亦称数学模型。在这个模型中Xii表示为总平均数、处理效应i、试验误差ij之和。10kii 由ij 相 互独立且服从正态分布 N(0,2),可知各处理Ai(i=1,2,k)所属总体亦应具正态性,即服从正态分布N(i,2)。尽管各总体的均数 可以不等或相等,2则必须是相等的。所以,单因素试验的数学模型可归纳为:效应的可加 性(additivity)、分布的正态性(normality)、方差的同质性(homogeneity)。这也是进行其它类型方差分析的前提或基本假定。i 若将表(1)中的观测值 xij(i=1,2,k;j=1,2,n)的数据结构(模型)用样本符号来表
10、示,则 (6)与 (4)比较可知.()()ijiijiiijxxxxxxxteijiijx (4)、(6)两式告诉我们:每 个 观 测 值 都包含处理效应(i-或 ),与误差(或 ),故kn个观测值的总变异可分解为处理间的变异和处理内的变异两部分。.ixxijix.ijixx二、平方和与自由度的剖分 在方差分析中是用样本方差即均方(mean squares)来度量资料的变异程度的。表1中全部观测值的总变异可以用总均方来度量。总变异处理间变异处理内变异总平方和(总df)处理间平方和(处理间df)处理内平方和(处理内df)(一)总平方和的剖分(一)总平方和的剖分 在表在表6-1中,反映全部观测值总
11、变异的总中,反映全部观测值总变异的总平方和是各观测值平方和是各观测值xij与总平均数的离均差平与总平均数的离均差平方和,记为方和,记为SST。即。即2.11()knTijijSSxx22111122112211111(.)(.)(.)(.)2(.)(.)(.)(.)2(.)(.)(.)knknijiijiijijkniiijiijiijkknkniiijiijiiijijxxxxxxxxxxxxxxnxxxxxxxx因为 其中 所以 (7)(7)式中,为各处理平均数与总平均数的离均差平方和与重复数n的乘积,反映了重复 n 次的处理间变异,称为处理间平方和,记为SSt,即.1()0nijijxx
12、222.11111()()()knkknijiijiijiijxxnxxxx21(.)kiinxx21(.)ktiiSSnxx (7)式中,为 各处 理内离均差平方和之和,反映了各处理内的变异即误差,称为处理内平方和或误差平方和,记为SSe,即于是有 SST=SSt+SSe (8)这个关系式中三种平方和的简便计算公式如下:2.11()knijiijxx2.11()kneijiijSSxx (9)其中,C=/kn称为矫正数。(二)总自由度的剖分 在计算总平方和时,资料中的各个观测值要受 这一条件的约束,故总自由度等于资料中观测值的总个数减1,即kn-1。总自由度记为dfT,即dfT=kn-1。2
13、112.11knTijijktiiSSxCSSxCneTtSSSSSSkinjijxx110.)(2xdfTkn-1;dftk-1;dfekn-k 因为 所以 (10)综合以上各式得:(11)1(1)()(1)(1)nkknkkkk n Ttedfdfdf11TteTtdfkndfkdfdfdf 各部分平方和除以各自的自由度便得到总均方、处理间均方和处理内均方,分别记为 MST(或 )、MSt(或 )和MSe(或 )。即 (12)总均方一般不等于处理间均方加处理内均方。2TS2tS2eS2/TTTTMSSSSdf2/ttttMSSSSdf2/eeeeMSSSSdf 【例1】某水产研究所为了比较
14、四种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果列于下表。表2 饲喂不同饲料的鱼的增重(单位:10g)这是一个单因素试验,处理数这是一个单因素试验,处理数k=4,重复数,重复数n=5。各项平方和及自由度计算如下:。各项平方和及自由度计算如下:矫正数矫正数 总平方和总平方和 22./550.8/(4 5)15169.03Cxnk222231.927.928.5TijSSxCC 15368.715169.03199.67222221.1(155.9131.4123.7139.8)515283.3 15169.03 114.
15、27tiSSxCnC处理间平方和处理内平方和199.67114.2785.40eTtSSSSSS 总自由度 处理间自由度 处理内自由度 用SSt、SSe分别除以dft和dfe便得到处理间均方MSt及处理内均方MSe。因为方差分析中不涉及总均方的数值,所以不必计算之。15 4 119Tdfnk 14 13tdfk 19316eTtdfdfdf/114.27/338.09/85.40/165.34ttteeeMSSSdfMSSSdf三、期望均方三、期望均方方差分析的一个基本假定是要求各处理观测值总方差分析的一个基本假定是要求各处理观测值总体的方差相等,体的方差相等,即即 (i=1,2,k)表示第)
16、表示第i个处理观测值总体的方差。个处理观测值总体的方差。如果所分析的资料满足这个方差同质性的要求,如果所分析的资料满足这个方差同质性的要求,那么各处理的样本方差那么各处理的样本方差S21,S22,S2k 都是都是2的无偏估计(的无偏估计(unbiased estimate)量。)量。S2i(i=1,2,k)是由试验资料中第是由试验资料中第i个处理的个处理的n个个观测值算得的方差。观测值算得的方差。2222212,ki 显然,各S2i的合并方差 (以各处理内的自由度n-1为权的加权平均数)也是2的无偏估计量,且估计的精确度更高。很容易推证处理内均方MSe就是各 的合并。2eS2iS2221222
17、221121212.)1()1()(估计ekkkkkiiijeeeSdfdfdfSdfSdfSdfdfdfdfSSSSSSnkSSnkxxdfSSMS 其中SSi、dfi(i=1,2,k)分别表示由试验资料中第i个 处理的n个观测值算得的平方和与自由度。这就是说,处理内均方MSe是误差方差2的无偏估计量。试验中各处理所属总体的本质差异体现在处理效应 的差异上。我们把 称为效应方差,它也反映了各处理观测值总体平均数 的变异程度,记为 。i22/(1)()/(1)iiakki2221iak 四、四、F分布与分布与F检验检验 (一)(一)F分布分布 设想我们作这样的抽样试验,即在一正设想我们作这样的
18、抽样试验,即在一正态总体态总体N(,2)中随机抽取样本含量为)中随机抽取样本含量为n的的样本样本k个,将各样本观测值整理成个,将各样本观测值整理成 表表1 的形式。的形式。此时所谓的各处理没有真实差异,各处理只此时所谓的各处理没有真实差异,各处理只是随机分的组。因此,由(是随机分的组。因此,由(12)式算出的)式算出的 和和 都是误差方差都是误差方差 的估计量。以的估计量。以 为为分母,分母,为分子,求其比值。统计学上把两为分子,求其比值。统计学上把两个均方之比值称为个均方之比值称为F值。即值。即 2tS2eS22eS2tS (14)F具有两个自由度:若在给定的k和n的条件下,继续从该总体进行
19、一系列抽样,则可获得一系列的F值。这些F值所具有的概率分布称为 F 分布(F distribution)。F分布密度曲线是随自由度df1、df2的变化而变化的一簇偏态曲线,其形态随着df1、df2的增大逐渐趋于对称,如图1所示。22/teFSS121,(1)tedfdfkdfdfk n图1F分布的取值范围是(0,+),其平均值 =1。用 表示F分布的概率密度函数,则其分布函数 为:(15)因而F分布右尾从 到+的概率为:(16)F()f FF F()()()FF FP FFf F dFF()1()()FP FFF Ff F dF 附表4列出的是不同 df1 和 df2 下,P(F )=0.05
20、和P(F )=0.01时的F值,即右尾概率=0.05和=0.01时的临界F值,一般记作 ,。FF120.05(,)df dfF120.01(,)df dfF (二)F检验 附表4是专门为检验 代表的总体方差是否比 代表的总体方差大而设计的。若实际计算的F值大于 ,则 F 值在=0.05的水平上显著,我们以95%的可靠性(即冒5%的风险)推断 代表的总体方差大于 代表的总体方差。这种用F值出现概率的大小推断两个总体方差是否相等的方法称为 F检验(F-test)。2tS2eS120.05(,)df dfF2tS2eS 在方差分析中所进行的F 检验目的在于推断处理间的差异是否存在,检验某项变异因素的
21、效应方差是否为零。因此,在计算F 值时总是以被检验因素的均方作分子,以误差均方作分母。应当注意,分母项的正确选择是由方差分析的模型和各项变异原因的期望均方决定的。在单因素试验结果的方差分析中,无效假设为H0:1=2=k,备择假设为 HA:各i不全相等,或H0:=0,HA:0;F=MSt/MSe,也就是要判断处理间均方是否显著大于处理内(误差)均方。如果结论是肯定的,我们将否定H0;反之,不否定H0。22 反过来理解:如果H0是正确的,那么MSt与MSe都是总体误差2的估计值,理论上讲F值等于1;如果H0是不正确的,那么 MSt之期望均方中的就不等于零,理论上讲 F 值就必大于1。但是由于抽样的
22、原因,即使H0正确,F值也会出现大于1的情况。所以,只有F值大于1达到一定程度时,才有理由否定H0。实际进行F检验时,是将由试验资料所算得的F值与根据df1=dft (大均方,即分子均方的自由度)、df2=dfe(小均方,即分母均方的自由度)查附表4所得的临界F值 ,相比较作出统计推断的。若F ,即P0.05,不能否定H0,统计学上,把这一检验结果表述为:各处理间差异不显著,在F值的右上方标记“ns”,或不标记符号;120.05(,)df dfF120.01(,)df dfF120.05(,)df dfF 若 F ,即0.01P0.05,否定H0,接受HA,统计学上,把这一检验结果表述为:各处
23、理间差异显著,在F值的右上方标记“*”;若F ,即P0.01,否定H0,接受HA,统计学上,把这一检验结果表述为:各处理间差异极显著,在 F 值 的 右上方标记“*”。120.05(,)df dfF120.01(,)df dfF120.01(,)df dfF 对于【例1】:因为 F=MSt/MSe=38.09/5.34=7.13*;根据 df1=dft=3,df2=dfe=16 查附表4,得F0.01(3,16);因为 FF0.01(3,16)=5.29,P0.01 表明四种不同饲料对鱼的增重效果差异极显著,用不同的饲料饲喂,增重是不同的。表3 表2资料方差分析表 在方差分析中,通常将变异来源
24、、平方和、自由度、均方和F值归纳成一张方差分析表,见表3。在实际进行方差分析时,只须计算出各项平方和与自由度,各项均方的计算及F检验可在方差分析表上进行。五、多重比较统计上把多个平均数两两间的相互比较称为多重比较(multiple comparisons)。多重比较的方法甚多,常用的有最小显著差数法(LSD法)和 最小显著极差法(LSR法)(一)最小显著差数法 (LSD法,least significant difference)此法的基本作法是:1、F检验显著2、计算出显著水平为的3、与 其比较。LSD.ijxxLSD 若 LSD时,则 与 在水平上差异显著;反之,则在水平上差异不显著。.i
25、jxx.ix.jx (17)式中:为在F检验中误差自由度下,显著水平为的临界t值,为均数差异标准误,由(18)式算得。(18).()eijaa dfxxLSDtS)(edft.ijxxS.2/ijxxeSMSn其中 为F检验中的误差均方,n为各处理的重复数。eMS 当显著水平=0.05和0.01时,从t值表中查出 和 ,代入(17)式得:(19)0.05()edft0.01()edft.0.050.05()0.010.01()eijeijdfxxdfxxLSDtSLSDtSLSD法步骤:(1)列出平均数的多重比较表 比较表中各处理按其平均数从大到小自上而下排列;(2)计算最小显著差数 和 ;(
展开阅读全文