第八章方差分析与回归分析1课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第八章方差分析与回归分析1课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 方差分析 回归 分析 课件
- 资源描述:
-
1、第八章第八章 方差分析与回归分析方差分析与回归分析单因素方差分析单因素方差分析回归分析的基本概念回归分析的基本概念一元线性回归模型的建立与检验一元线性回归模型的建立与检验方差分析的概念与基本思想方差分析的概念与基本思想消费者对四个行业的投诉次数消费者对四个行业的投诉次数 观测值观测值零售业零售业旅游业旅游业航空公司航空公司家电制造业家电制造业12345766494034683929455631492134404451657758四个行业之间的服务质量是否有显著差异?四个行业之间的服务质量是否有显著差异?一、一、方差分析的概念与基本思想 1.问题的提出问题的提出分析四个行业之间的服务质量是否有显
2、著差异作出这种判断最终被归结为检验这四个行业被投诉次数的均值是否相等?均值相等均值不全相等服务质量没有没有显著差异服务质量有显著差异例题例题8.2 在饲料养鸡增肥研究中,某饲料研究所提出三种配方:A1以鱼粉为添加料,A2以槐树粉为添加料,A3以苜蓿粉添加料。为比较三种饲料的效果,特选24只相似的雏鸡随机分为三组,每组用一种饲料喂养,60天后测其体重,获得数据如下表饲料A鸡重/gA11073 1009 1060 1001 1002 1012 1009 1028A21107 1092 990 1109 1090 1074 1122 1001A31093 1029 1080 1021 1022 10
3、32 1029 1048比较三种饲料的增重效果是否一致利用样本比较三个总体均值是否相等 直观上看该问题可以用两个总体均值差异显著性检验解决,但细想想还是存在一定问题,因为这样的比较能增大犯错误的概率。为解决这类问题,英国统计学家R.A.Fisher于1924年提出了解决此类问题的通用方法-方差分析法。2.2.方差分析的概念方差分析的概念试验指标试验指标:试验结果。试验结果。可控因素可控因素:在影响试验结果的众多因素中,可人为控制在影响试验结果的众多因素中,可人为控制 的因素。的因素。单因素试验单因素试验:如果在一项试验中只有一个因素改变,其如果在一项试验中只有一个因素改变,其 它的可控因素不变
4、,则该类试验称为单因它的可控因素不变,则该类试验称为单因 素试验。素试验。水平水平可控因素所处的各种各种不同的状态。每个可控因素所处的各种各种不同的状态。每个 水平又称为试验的一个处理。水平又称为试验的一个处理。随机误差随机误差因素的同一水平因素的同一水平(总体总体)下,样本各观察值之下,样本各观察值之间的差异这种差异可以看成是随机因素的影响,称为间的差异这种差异可以看成是随机因素的影响,称为随机误随机误差差 系统误差系统误差因素的不同水平因素的不同水平(不同总体不同总体)下,各观察值之下,各观察值之间的差异间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由这种差异可能是由于抽样的随机
5、性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为造成的,称为系统误差系统误差数据的误差用平方和数据的误差用平方和(sum of squares)表示,称为方差组内方差组内方差(within groups)因素的同一水平(同一个总体)下样本数据的方差比如,零售业被投诉次数的方差组间方差组间方差(between groups)因素的不同水平(不同总体)下各样本之间的方差比如,四个行业被投诉次数之间的方差1.若不同行业对投诉次数不同行业对投诉次数没有影响没有影响,则组间误差中只包含随机误差,没有系统误差。这时,组间
6、误差与组内误差组间误差与组内误差经过平均后的数值就应该很接近,它们的比值就会接近比值就会接近12.若不同行业对投诉次数有影响有影响,在组间误差中除了包含随机误差外,还会包含有系统误差,这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于之间的比值就会大于13.当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响 判断行业对投诉次数是否有显著影响,实际上也就是检验被投诉次数的差异主要是由于什么原因所引起的。如果这种差异主要是系统误差,说明不同行业对投诉次数有显著影响3.方差分析的思路方差分析的思路4.4.方差分析的基本思想方差分析的基本
7、思想 试验指标的变化可以用指标值的方差反映,导致指标值发生变化的原因有两方面:一是可控因素,二是不可控因素。方差分析就是将指标值的方差分解成组间方差与组内方差,然后依据概率比较组间方差与组内方差的大小关系,从而决定引起指标值的变化的主要原因。5.5.方差分析的基本假定方差分析的基本假定不同因素对试验指标值的影响作用是加性效应,即试验指标值的变化是各种因素所起作用的累加;试验指标服从正态分布;试验数据是随机的,并且可控因素不同水平的试验数据具有方差齐性。二:单因素方差分析的统计模型二:单因素方差分析的统计模型 1.1.单因素方差分析的数据结构单因素方差分析的数据结构因素-水平试验数据和平均1A2
8、AaA11xjx112x1rx21x22xjx22rx1ax2axjx2arx1T2TaTax2x1xTx1111j,.ijraraiiijiijijijixAiTTTxxTxTxrar其中 是因素 第 水平下第 次重复试验结果 2.2.单因素方差分析的统计模型单因素方差分析的统计模型 在方差分析统计模型下,方差分析要解决的问题转化为下列假设检验问题:012112:0;:,aaHH 不全为零对试验指标影响明显。因素,说明;接受对试验指标影响不明显,说明因素接受AHAH1021,2,1,2,(0,),;ijijiijijiiijxxiajrNAiA试验数据 满足且相互独立其中 为总体平均,为因素
9、 的第 个水平 下,试验指标的主效应为随机因素对试验指标值的影响。三、单因素方差分析的原理三、单因素方差分析的原理 1.试验数据离差平方和分解21122111211()()()()arTijijarrAiiijiareijiijSSxxSSxxrxxSSxx总离差平方和组间离差平方和组内离差平方和离差平方和分解式离差平方和分解式11()()0ariijiijxxxxTAeSSSSSS11()()arijiiijxxxx22111()()aariijiiijAer xxxxSSSSAeSSASS其中反映因素 不同水平引起的试验指标值的变化;反映没有控制因素引起的试验指标值的变化。11112112
10、2()()()()arararijijijiijijiiixxxxxxxx211211()ijiararijijixxxx221111()()ararTijijjijiiixxSSxxxx222111111()ijararaeijiiijijiSSxxxTr2221111()ararTijijijijTSSxxxar2221111()araAiiijiTSSxxTrar00(1)(1,(1)(1)(1,(1)(1,(1)(1,(1);.Aea rSSFF aa raSSF aa rP FF aa rFF aa rHH所以有对于给定的小概率,存在使得故当时,拒绝反之,接受2.方差分析原理方差分析
11、原理02222(1)(1)eTHSSSSara r如果试验数据满足单因素方差分析的模型,且统计假设成立,记 为共同均值,则有2(1)AeaSSSS且与相互独立2ASS1(1)1(,).AeTTAeAAAeeeAAeefafa rfarfffSSMSfSSMSfMSFF ffMS引入记号,称为组间离差平方和自由度;,称为组内离差平方和自由度;,称为总离差平方和自由度;显然有,称为组间均方差;,称为组内均方差;又叫均方误。显然有记号及其含义记号及其含义在实际应用中,方差分析结果以方差分析表形式给出。单因素方差分析表方差来源方差来源平方和平方和自由度自由度均方均方F F临界值或临界值或SigSig组
12、间组间SSAa-1SSA/(a-1)MSAMSe组内组内SSea(r-1)SSea(r-1)总和总和SSTar-10.05(,)Sig0.01(,)SigAeAeFFffFFff如果在检验水平下,或,就均值差异显著,用“”表示;如果在检验水平下,或,就均值差异极显著,用“”表示。例题例题8.2 在饲料养鸡增肥研究中,某饲料研究所提出三种配方:A1以鱼粉为添加料,A2以槐树粉为添加料,A3以苜蓿粉添加料。为比较三种饲料的效果,特选24只相似的雏鸡随机分为三组,每组用一种饲料喂养,60天后测其体重,获数据如下表,试以此数据判定不同饲料是否有差异?饲料A鸡重/g-1000A1 73 9 60 1 2
13、 12 9 281943763610024A2107 92 -10 109 90 74 122 158534222560355A3 93 29 80 21 22 32 29 4835412531620984113350517791363iT2iT21rijjx果无差异。三种饲料对鸡的增肥效解:建立统计假设:0H21)18(32132312496.2821508.966004.3787608.9660241133850517704.378762411339136322eATATeATfffSSSSSSSSSS计算有关量方差分析表方差来源平方和自由度均方F临界值临界值组间9660.0822830.
14、043.59*3.47组内28215.96211343.62总和37876.0423 四、单因素方差分析模型参数的估计四、单因素方差分析模型参数的估计 当方差分析结果为否定原假设时,就需要估计模型的有关参数,下面就讨论方差分析模型参数的估计。2211111,2,1,2,(0,),;,111ijiijijiiijiarrarijiijijijjijxiajrNAiAxxxarrar 单因素方差分析的模型为且相互独立其中 为总以平均效应,为因素 的第 个水平 下,试验指标的均值为随机因素对试验指标值的影响。需要估计的参数有。不难证明这些参数的极大似然估计量为:221111()arijeijxSSa
15、rar五、多重比较法拒绝H0,接受H1,表示总体均数不全相等哪两个平均数之间相等?哪两个平均数之间不等?需要进一步作多重比较。多重比较。方差分析结果 不拒绝H0,表示拒绝总体均数相等的证据不足,分析终止。常用多重比较法east significant difference,简称,简称LSD法法(1)2ijijxxexxLSDta rSMSSrq法法(又称又称SNK(student-Newman-Keuls)检验法检验法)q测验方法是将r个平均数由大到小排列后,根据所比较的两个处理平均数的差数是几个平均数间的极差分别确定最小显著极差LSR值的。(,)/eEEeLSRqa f SSMSra其中 表
16、示与比较的两个均值之间的跨度。,(,1,2,),ijijijLSDx x i ja ijxxLSDi jxxLSDi j以为两均值比较的最小显著差。如果表示两个样本均值。当时,就认为第水平间均值差异显著;当时,就认为第水平间均值差异不显著。,(,1,2,),ijijijLSRx xi ja ijxxLSRi jxxLSRi j以为两均值比较的最小显著差。如果表示两个样本均值。当时,就认为第水平间均值差异显著;当时,就认为第水平间均值差异不显著。Tukey法法(又称又称honestly significant difference,简称,简称HSD)(,(1)2ijijxxexxHSDqa a
17、rSMSSr,(,1,2,),ijijijHSDx x i ja ijxxHSDi jxxHSDi j以为两均值比较的最小显著差。如果表示两个样本均值。当时,就认为第水平间均值差异显著;当时,就认为第水平间均值差异不显著。Bonferroni法法Bonferroni法法是根据所比较的两个处理平均数的个数k,将检验水平 缩小k倍做为真实比较水平 ,确定是几个平均数间的极差分别确定最小显著差数LSD值的。(1)2ijijxxexxLSDta rSMSSr。水平间均值差异不显著时,就认为第当水平间均值差异显著;时,就认为第当表示两个样本均值。如果著差。为两均值比较的最小显以jiLSDxxjiLSDx
18、xjirjixxLSDjijiji,),2,1,(,多重比较法选择1.试验事先确定比较的标准,凡是与对照相比较,或与预定要比较的对象比较,一般可选用最小显著差数法LSDa法;2.根据否定一个正确的H0和接受一个不正确的H0的相对重要性来决定。参考以下观点:根据试验的侧重点选择。三种方法的显著尺度不相同,LSD法最低,HSD法次之,SNK法最高。故对于试验结论事关重大或有严格要求时,用SNK法,一般试验可采用HSD法。当比较次数不多时,Bonferroni法的效果较好;但当比较次数较多(例如在10次以上)时,则由于其检验水准选择得过低,结论偏于保守。例题例题8.3试以LSD法测验各种药剂处理的苗
19、高平均数之间的差异显著性。2 8.172.02()4ijxxScmr(m-1)=12时,t0.05(12)=2.179,t0.01(12)=3.055故 LSD0.05=2.1792.02=4.40 LSD0.01=3.0552.02=6.17处理苗高平均数差异显著性0.050.050.010.01D29aa B23ba bA18cb cC14cc 双因素方差分析背景双因素方差分析背景 双因素方差分析的类型双因素方差分析的类型若把品种看成影响产量的因素A,肥料则是影响产量的因素B。对因素A、因素B和二者互作同时进行分析,就属于双因素方差分析。在实际问题的研究中,有时需要考虑两个因素对实验结果的
20、影响。如研究小麦产量问题,除了关心品种对产量的作用之外,我们还想了解化肥的使用对产量的作用,有时甚至要考虑品种与肥料的相互促进作用。如果不同品种、不同施肥量对产量作用存在显著的差异,就需要分析原因。选择合适的品种,决定恰当的施肥量,以达到增产的目的。双因素方差分析双因素方差分析的类型 无交互作用的双无交互作用的双因素方差分析因素方差分析 有交互作用的双有交互作用的双因素方差分析因素方差分析 假定因素A和因素B的效应之间是相互独立的,不存在相互关系 假定因素A和因素B的结合会产生出一种新的效应(交互效应)交互作用的概念交互作用的概念有人在研究油菜产量受氮肥与磷肥影响问题时,获得如下试验数据。显然
21、512-470-2-10=30既不是单纯氮肥引起的产量变化,也不是单纯磷肥引起的产量变化,这就是交互作用。氮肥 磷肥06047047215480512不考虑交互作用的双因素方差分析不考虑交互作用的双因素方差分析 因素B 数据因素A 双因素不考虑交互作用方差分析的数据结构双因素不考虑交互作用方差分析的数据结构 双因素不考虑互作方差分析试验数据具有下列结构模式。1B2BbB1AaA2AjTjx 1T11x ix iT21x12xbx1 1x axbx2 2T 2x2 T1 T1ax2ax aT x2 x1 x T22xabxbTabxabTxTTxTaTxxTbTxxTjBiAxbjjaiiaib
22、jijjjaiijjiibjijiij 111111如下:验结果,其它记号含义次水平交叉位置的试第水平与因素第是因素其中 双因素不考虑交互作用方差分析的统计模型双因素不考虑交互作用方差分析的统计模型的影响。随机因素对试验指标值为用个水平对试验指标的作的第为因素标的作用个水平对试验指的第为因素为总以平均效应,其中且相互独立满足试验数据ijjiijijjiijijjBiAbjaiNxx;,2,1,2,1),0(2该形式称为双因素不考虑交互作用方差分析的统计模型。在方差分析统计模型下,方差分析要解决的问题转化为下列假设检验问题:不全为零不全为零bbaaHHHH,:;0:,:;0:2121212021
23、112110指标影响明显对试验,说明因素;接受对试验指标影响不明显,说明因素接受对试验指标影响明显;说明因素,;接受对试验指标影响不明显,说明因素接受BHBHAHAH21201110 双因素不考虑交互作用方差分析原理双因素不考虑交互作用方差分析原理试验数据离差平方和分解 aibjijTxxSS112)(总离差平方和 aibjjiijebjjaibjjBaiiaibjiAxxxxSSxxaxxSSBxxbxxSSA1121211212112)()()()()(组内离差平方和离差平方和因素离差平方和因素的试验指标值的变化。反映没有控制因素引起标值的变化;不同水平引起的试验指反映因素标值的变化;不同
24、水平引起的试验指反映因素其中易证明有eBAeBATSSBSSASSSSSSSSSS)1)(1(,1(),1)(1(,1()1)(1(,1()1()1)(1(,1()1(,)1)(1(,)1()1()1(,2220102222222010babFbaaFbabFSSSSaFbaaFSSSSbFSSSSSSCochranbaSSHHbSSaSSabSSHHeBBeAAeBAeBAT,存在对于给定的相互独立。所以有与定理得解式和于是,由离差平方和分是否成立,总有无论统计假设为共同均值,于是有成立,则且统计假设分析的模型,素不考虑交互作用方差如果试验数据满足双因.;)1)(1(,1(;)1)(1(,1
25、()1)(1(,1()1)(1(,1(20201010HHbabFFHHbaaFFbabFFPbaaFFPBABA反之,接受时,拒绝故当反之,接受时,拒绝故当使得;又叫均方误。,称为随机误差均方差方差;均称为因素均方差;称为因素显然有和自由度。称为随机误差离差平方度;称为总离差平方和自由离差平方和自由度;称为因素引入记号eeeBBBAAAeBATeTBAfSSMSBfSSMSAfSSMSffffbafabfBAbfaf)1)(1(1,1,1),(),(eBeBBeAeAAffFMSMSFffFMSMSF显然有双因素不考虑交互作用方差分析表方差来源方差来源平方和平方和自由度自由度均方均方F临界值
展开阅读全文