第九章方差分析及回归分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第九章方差分析及回归分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九 方差分析 回归 分析 课件
- 资源描述:
-
1、1第九章 方差分析及回归分析 (续)2一般地,对一个单因素试验,假设因子有s个水平,n个对象参与了试验。假定对应于因子第j个水平的组中有 个试验对象,响应变量数据为jn12,1,2,jjjn jXXXjs,。2(0,),1,2,1,2,ijjijijijjXNinjs单因子方差各独立,分析模型122221122111212122212:,:,:,sssssnnn sA NANANXXXXXXXXX 通常假定3012112:.:,.,ssHH 不全相等。检验假设111 ssjjjjjnnnn记总平均, 其中,1,2,.,jjjAjs水平 的效应1 122.0ssnnn此时有12212.0(0,)
2、,1,2,1,2,模型为:各独立, ijjijijijjssXinnjsnn假设等价于012112:0:,ssHH 不全为零。4 012112012112:,:0:,由此,对 不全相等。(或等价地写为不全为零) ssssHHHH(1)()(1,)AESsFSnsWFF sns检验统计量为;在给定水平 时,检验拒绝域为 AS1AASSsAESSESEESSnsTS方差来源平方和自由度均方F比因素As-1误差n-s总和n-1单因素试验方差分析表5 例1 设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下
3、面的记录:(=0.05)药物x治愈所需天数y15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,66这里药物是因子,共有5个水平,这是一个单因子方差分析问题,要检验的假设是“所有药物的效果都没有差别”。 0123451125:,.,HH 解:检验假设不全相等。(1)()(1,)AESsFSnsWFF sns检验统计量为;在给定水平 时,检验拒绝域为 721234513145125,6,30,1047, .30, .31, .37, .16965.42jnsijjisnnnnnnTXTTTTT方差分析表方差来源平方和自由度均方F
4、比因素A36.466749.1167 3.90误差58.5000252.3334总和94.9667290.050(4,25)2.76FH。拒绝,认为疗效有显著差异。8未知参数的估计221;(2)(3).(4).EjjjjjjSXnsXXX()的估计的估计;的估计;的估计。容易证明,以上估计均为相应参数的无偏估计。220(,)(,)()jkjkjkHNNjk当拒绝时,进一步比较和的差异,可以作的区间估计。211(. ),(. )jkjkjkjkE XXD XXnn因为2.()jkEXXSns且与相互独立。2(. )()(. )()() ()(11)(11)jkjkjkjkEjkEjkXXXXSn
5、st nsnnSnn故2()1.()(11)jkjkEjkXXtnsSnn得的水平为的置信区间9213125321(1,2,3,4,5)0.95jjj 例求例中未知参数的点估计,并求,的置信度为的置信区间。222.33345.63337.5,5,4.3333,5.1667,6.16671.8667,0.6333,1.3,0.4666,0.5334EjjSXns解:的估计; 的估计;的估计分布为:;的估计分布为:0.025(25)2.0595,(11)0.8819EjktSnn查表得1312350.95(1.3504,4.983)(0.6837,4.3163)( 3.6497,0.0171),的
6、置信度为的置信区间分别为:,131235说明 与 , 与,与 的差异都显著。103 一元线性回归分析 确定性关系:确定性关系: 当自变量给定一个值时,就确定应变量的值当自变量给定一个值时,就确定应变量的值与之对应。与之对应。 如:在自由落体中,物体下落的高度如:在自由落体中,物体下落的高度h与下与下落时间落时间t之间有函数关系:之间有函数关系: 21h =g t2变量与变量之间的关系 确定性关系相关关系11例1:人的体重y与身高x之间存在着一定的关系。一般来说,身高越高则体重也越重,但高度相同的人,体重不一定完全相同.例3:消费y 和收入x是有关的,一般来说,收入高的人消费也相对比较高。但同样
7、收入的人,消费不会完全相同. 例2:人的脚掌的长度x与身高y两者也有一定联系,通常脚掌长的人身高也较高,但同样脚掌长度的人身高并不完全相同. 相关关系:相关关系: 12这种变量之间既有关联但又不存在确定性数值对应的相互关系,称为相关关系。 相关关系可以归结为两点:相关关系可以归结为两点:一是变量之间存在着关系;一是变量之间存在着关系;二是这种关系又是非确定的,或者说二是这种关系又是非确定的,或者说只存在统计规律性。只存在统计规律性。回归分析回归分析研究相关关系的最基本,应用研究相关关系的最基本,应用最广泛的方法。最广泛的方法。13Y|X|()()Y XYxYFy xFy xxYx由于 是随机变
8、量,对于 的每个确定值, 有相应的分布,记其分布函数为。因此如果掌握了随着 的取值而变化的规律,也就完全掌握了 与 之间的关系了。(一)一元线性回归现在,我们需要研究两变量x 和Y 之间的相关关系。这里, x (自变量)(自变量)通常是可以控制和可以测量的“普普通通” ” 变量变量,Y (响应变量)(响应变量)的值不能根据x 的值完全确定,而遵循一定的分布而取值遵循一定的分布而取值,是随依赖于x 的一个随机变量。14Yx( )( )( )( )然而这样做,实际中往往很难实现。作为一种近似,往往考察 的数学期望(假设存在),其值随 的取值而定,它是 的函数,将其记为,称为。于是将讨论与 相关关系
9、问题转换为讨关于 的回归函数论与 的关系问题了。YE YxxxYxE Yxx当自变量取确定的x时,若随机变量Y 的期望E(Y)存在,其值与x有关,记为 .回归问题的本质是研究 , 以此来反映Y与X之间的关系,而不是研究Y与X之间的直接关系,这一点应严加区别。( )x( )x15在实际问题中,回归函数(x)一般是未知的,需要根据试验数据去估计。121122,.,( ,)1,2,., ,( ,),(,),.,(,).对于 取定一组不完全相同的值设分别在 处对 作独立观察得到样本,对应的样本观察值niiinnxx xxxYx Yinx yxyxy由此来推断(x),这样的问题称为Y 关于x 的回归问题
10、.1617 描述两个定量变量间关系的一个最直观 的方法是绘制两变量的散点图。散点图 包括横轴和纵轴。横轴(x轴)代表一 个变量,纵轴(y轴)代表另一个变量。 图中的点表示两个变量的一对观测值。 散点图图( ,)( )将每对观察值在直角坐标系中描出它相应的点(称为散点图),可以粗略看出的形式。iix yx1819为了解释散点图,首先要看它的整体轮廓。它的轮廓可以反映出两个变量间关系的方向、线性关系和关系的强弱。散点图的最大优点是它没有丢失任何数据信息并简化了数据,并且易于制作和解释。20正相关、负相关关系:正相关、负相关关系:若两个变量的变化趋向相一致,则称两个变量是正相关;若一个变量有向上的趋
11、向,而另一个变量有向下的趋向,则称这两个变量呈负相关。21 用散点图可显示两个定量变量间关系的方向、线性关系以及关系的强弱程度。如果散点图中的点都在一条直线的附近,则称变量间呈强线性关系;若点较为分散的落在一条直线周围,则称变量间呈弱线性关系散点图有助于粗略了解这两个变量之间的关系。若此关系近似是线性关系,则称此问题为一元线性回归问题。2220,YabxN2a, (,其中, 是随机误差,不可观测。回归系数)为三个未知参数。bxy2从而(,)YN abx x( )( )( )( )并关于 的回归函数称为。那么估计的问题称为求一元线性回归问题。E YabxExYabxx231122,( ,),(,
12、),.,(,),对 的一组不全相同的值 得到样本则nnxx Yx Yx Y2,1,2,., ,0,1,2,.,,相互独立,iiiiYabxinNin24一元线性回归要解决的问题:(1) , a b的估计;2(2)的估计;(3)线性假设的显著性检验;(4)b回归系数 的置信区间;(5)( )xabx回归函数的点估计和置信区间;(6)Y的观察值的点预测和区间预测。25(二)求回归函数的估计,即求a,b的估计 现在的问题是:选择一条直线y = a+bx 去拟合n 个样本点。即求a,b, 使得y =a+bx 最接近于所给出的n 个数据对。 (1) a、 b的计算xy2621i,引入:;其中, 为 取
13、时的样本观测值。niiiiQ a byabxyxx,min,a ba bQ a bQ a b求估计,使。112()02()0.,, niiiniiiiQyabxaQyabx xbxy27112111()(*)()().整理得, nniiiinnniiiiiiinax byx axbx y28112211,1记:nnxyxyaXYBbxy则 (*)式可以写成:(X X)B=X Y-1B=(X X) X Y29121()(.,)()得的最小二乘估计为:,niixyinxxiiayxbxxyySbSxxa b112111(),()().nniiiinnniiiiiiinax byx axbx y21
14、22111211()0ninnniiiinniiiiiiinxnxxnxxxx正规方程系数行列式30 在误差为正态分布假定下,最小二乘估计等价于极大似然估计。2212211,exp2niiniL a bya bx 事实上,似然函数21,niiiL a byabx对最大化等价于对最小化,即最小二乘估计。31,.,/的最小二乘估计: xyxxaayxb bSSb( )给定 ,的估计为:经验回归函数。xxabaxxbx()方程: 关于 的(经验)回归方程,其图形称为回归直线。Yyabxyxb xx3222222221( ,);12 a( ,();1()3 Ya(,();4Cova、(, )。xxxx
15、xxxxbN bSxN anSxxbxN abxnSxbS(2) a、 b的评价331,xyxxxxiiibSSSxx Y证明:因为/,( )性质:分别是的无偏估计,从而。a ba bE Yabx11( )( )()xxiixxiiiiE bSxx E YSxxabx211xxiixxiiibSxx xbSxxb aYxb因为,所以( )( )( )E aE YxE b()abxxba34例2 K.Pearson收集了大量父亲身高与儿子身高的资料。其中十对如下:父亲身高x(吋)60626465666768707274儿子身高y(吋)63.665.2 6665.5 66.9 67.1 67.4
16、68.370.1 70求Y关于x的线性回归方程。35267.01,66.8,44794,44842.4,171.6,79.72.经计算得:iiiixxxyiyxxx ySS,35.9768,0.4646故的最小二乘估计: a bab35.97680.4646 .67.01 0.4646(66.8).yxyx回归方程:或写成:121()(.(),)解 :的 最乘 估 计 为,小 二:niix yinx xiiayx bxxyySbSxxab36备注:“回归一词”是英国统计学家F.Galton 在1886 年研究遗传现象时引进的。他和他的学生英国著名统计学K.Pearson 研究了儿子身高y 与父
17、母亲平均身高x 之间的关系。他们收集了1078 对夫妇与儿子(每对夫妇只取一个成年儿子)的身高数据,并用一条直线描述y 与x 之间的关系:人们通常的看法是,双亲的身体高,其子身体也高;父母亲的身高偏矮,儿子的身高也偏矮。但Galton 的研究发现,如果双亲平均身高属高个类(高于1078 对夫妇平均身高),其子比他们更高的概率就比较小,即儿子以较大的概率比双亲个子矮;反过来,如果双亲平均身高属矮个类,儿子则以较大的概率比双亲个子高。所以平均身高偏高或偏矮的夫妇,其子的身高都有“向中心(父母辈的平均身高)回归”的现象。基于这一事实,Galton 把他们所求出的描述儿子身高与双亲身高关系的直线叫做回
18、归直线。虽然“回归”这一现象并没有普遍性,但人们习惯上一直沿用这个术语。 33.730.516yx37(三)误差方差 的估计 误差方差估计的意义: (a)误差方差的大小对模型的好坏有很大的影响。(b)自变量对因变量影响的大小是同误差对因变量的影响相比较的。(c)如果自变量对因变量的影响不能显著的超过误差对因变量的影响,就很难从这样的模型中提炼出有效的、有足够精度的信息。 222注意到() )( )EyabxE 38222(1),(2)22则.( 是的无偏估计(n2)可以证明)eyyxeyebSQnQQS22111,2, ,(),iiinneiiiiieyyinQeyyQ a b定义:残差,残差
展开阅读全文