直线回归与相关课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《直线回归与相关课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 直线 回归 相关 课件
- 资源描述:
-
1、第八章第八章 直线回归和相关直线回归和相关第一节第一节 回归和相关的概念(掌握)回归和相关的概念(掌握)第二节第二节 直线回归(掌握)直线回归(掌握)第三节第三节 直线相关(掌握)直线相关(掌握)第四节第四节 直线回归与相关的内在关直线回归与相关的内在关系和应用要点(理解)系和应用要点(理解)第五节第五节 协方差分析协方差分析第一节第一节 回归和相关的概念回归和相关的概念1.1.函数关系与统计关系函数关系与统计关系 函数关系函数关系(完全相关)是确定性关系,即一个变数的(完全相关)是确定性关系,即一个变数的任一变量必与另一变数的一个确定值相对应。任一变量必与另一变数的一个确定值相对应。不包不包
2、括误差的干扰,常见于物理学、化学等理论科学。括误差的干扰,常见于物理学、化学等理论科学。统计关系统计关系(不完全相关)(不完全相关)是非确定性的关系,即一个是非确定性的关系,即一个变数的取值受到另一变数的影响,两者之间既有关变数的取值受到另一变数的影响,两者之间既有关系,但又不存在完全确定的函数关系。系,但又不存在完全确定的函数关系。例如,作物的产量与施肥量的关系,两类变数因受误例如,作物的产量与施肥量的关系,两类变数因受误差的干扰而表现为统计关系,在生物学中常见。差的干扰而表现为统计关系,在生物学中常见。2.2.自变数与依变数自变数与依变数 有统计关系的两个变数,分别用符号有统计关系的两个变
3、数,分别用符号Y Y和和X X表示。统计关系分表示。统计关系分因果关系因果关系和和相关关相关关系系两种。两种。如果两个变数并非因果关系,而是共如果两个变数并非因果关系,而是共同变化,则为同变化,则为相关关系相关关系。相关关系中并没。相关关系中并没有自变数和依变数之分。有自变数和依变数之分。如玉米穗长与穗重的关系。如玉米穗长与穗重的关系。两个变数间的关系若有因果关系,并定两个变数间的关系若有因果关系,并定义以义以X X表示自变数,表示自变数,Y Y表示依变数。表示依变数。如施肥量与产量的关系,施肥量是是自如施肥量与产量的关系,施肥量是是自变数(变数(X X);产量是依变数();产量是依变数(Y
4、Y)。)。3 3回归分析和相关分析回归分析和相关分析 回归分析回归分析是建立是建立X X与与Y Y之间的数学关系式,之间的数学关系式,用于预测;用于预测;相关分析相关分析研究研究X X与与Y Y两个随机变量之间的两个随机变量之间的共同变化规律,例如当共同变化规律,例如当X X增大时增大时Y Y如何变化,如何变化,以及这种共变关系的强弱。以及这种共变关系的强弱。原则上原则上Y Y含有试验误差,而含有试验误差,而X X不含试验不含试验误差时着重回归分析;误差时着重回归分析;Y Y和和x x均含有试验均含有试验误差时着重相关分析。误差时着重相关分析。但讨论但讨论X X为非随机变量的情况,所得到为非随
5、机变量的情况,所得到的参数估计式也可用于的参数估计式也可用于X X为随机变量的情为随机变量的情况。况。4 4两个变数资料的散点图两个变数资料的散点图 对对x、y进行考察的简便方法是将进行考察的简便方法是将n对观察值对观察值(x1,y1)、(x2,y2)、(xn,yn)于同一直于同一直角坐标平面上制作散点图:角坐标平面上制作散点图:X和和Y的相关的性质(正或负)和密切程度;的相关的性质(正或负)和密切程度;X和和Y的关系是直线型的还是非直线型的;的关系是直线型的还是非直线型的;是否有一些特殊的点表示其他因素的干扰等。是否有一些特殊的点表示其他因素的干扰等。图图9.1A 单株的生物产量(单株的生物
6、产量(X)和稻谷产量()和稻谷产量(Y)图图9.1B 每平方米土地上每平方米土地上 的总颖花数(的总颖花数(X)和结实率(和结实率(Y)图图9.1C 最高叶面积指数(最高叶面积指数(X)和)和每亩稻谷产量(每亩稻谷产量(Y)从中可以看出:从中可以看出:图图9.1A和和9.1B都是直线型的,但方向相反;前都是直线型的,但方向相反;前者表示两个变数的关系是正的,后者表示关系者表示两个变数的关系是正的,后者表示关系是负的。是负的。图图9.1B的各个点几乎都落在一直线上,图的各个点几乎都落在一直线上,图9.1A则较为分散;因此,图则较为分散;因此,图9.1B中中X和和Y相关的密相关的密切程度必高于图切
7、程度必高于图9.1A。图图9.1C中中X和和Y的关系是非直线型的;的关系是非直线型的;第二节第二节 直线回归直线回归一、一、一元正态线性回归统计模型和基本假定一元正态线性回归统计模型和基本假定 直线回归模型中,直线回归模型中,Y Y 总体的每一个值由以下三部总体的每一个值由以下三部分组成:分组成:回归截距回归截距,回归系数回归系数,Y Y变变数的随机误差数的随机误差。总体直线回归的数学模型:相应的样本线性组成为:iiixy),0(2NIDi回归分析时的假定回归分析时的假定:(1)(1)Y Y 变数是随机变数,而变数是随机变数,而X X 变数则是没有误差的固定变数,至变数则是没有误差的固定变数,
8、至少和少和Y Y 变数比较起来变数比较起来X X 的误差小到可以忽略。的误差小到可以忽略。(2)(2)在任一在任一X X 上都存在着一个上都存在着一个Y Y 总体总体(可称为条件总体可称为条件总体),它是作,它是作正态分布的,其平均数正态分布的,其平均数 是是X X 的线性函数:的线性函数:的样本估计值,与X 的关系就是线性回归方程 (3)所有的Y 总体都具有共同的方差 ,而直线回归总体具有 。试验所得的一组观察值(xi,yi)只是 中的一个随机样本。(4)随机误差 相互独立,并作正态分布,具有 。二、二、参数参数和和的估计的估计 和和是参数,是参数,只能根据有限的观察只能根据有限的观察数据求
9、出相应的估计值数据求出相应的估计值a a和和b b,并得到,并得到y yi i的估计的估计值:值:为为残差平方和SSe(Q)使残差平方和达到最小的直线为回归线 iibxayniiiyy12)(SSe对a、b的一阶偏导数等于的一阶偏导数等于0 niiiebxaySS12)(00bSSaSSeeniiiiniiibxayxbxay110)()2(0)(2(为X的校正平方和 为Y的总校正平方和 为校正交叉乘积和 xbyaxxyyxxnxxnyxyxbniiniiininiiiniiniiniii1211212111)()(/)()()(niixxxSS12)(niiixyyyxxSP1)(则:a样本
10、回归截距回归截距,是回归直线与y轴交点的纵坐标;b b样本回归系数,回归系数,表示x 改变一个单位,y平均改变的数量;b 的符号反映了x影响y的性质,b的绝对值大小反映了x 影响y 的程度;回归估计值,回归估计值,是当x在在其研究范围内取某一个值时,x的估计值xxySSSPb y a0,b0,b0 a0 x 直线回归方程的图象 由下式可看到:当x以离均差(x-)为单位时,回归直线的位置仅决定于 和b;当将坐标轴平移到以(,)为原点时,回归直线的走向仅决定于b,所以一般又称b为回归斜率(regression slope)。xyxy 在实际计算时,可采用以下公式:SSSSx x=x=x2 2-(-
11、(x)2 2/n/nSSSSy y=y2-(y)2/nSPxy=xy-xy/n三、三、直线回归方程的计算直线回归方程的计算 例例9.19.1一些夏季害虫盛发期的早迟和春季一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续温度高低有关。江苏武进连续9 9年测定年测定3 3月月下旬至下旬至4 4月中旬平均温度累积值(月中旬平均温度累积值(x x,旬旬度)和水稻一代三化螟盛发期(度)和水稻一代三化螟盛发期(y,以,以5月月10日为日为0)的关系,得结果于表)的关系,得结果于表9.19.1。试。试计算其直线回归方程。计算其直线回归方程。首先由表首先由表9.19.1算得回归分析所必须的算得回归分析
12、所必须的6 6个一级个一级数据(即由观察值直接算得的数据数据(即由观察值直接算得的数据):n=9n=9x=35.5+34.1+44.2=333.7x=35.5+34.1+44.2=333.7xx2 2=35.5=35.52 2+34.1+34.12 2+44.2+44.22 2=12517.49=12517.49y=12+16+(-1)=70y=12+16+(-1)=70yy2 2=12=122 2+16+162 2+(-1)+(-1)2 2=794=794xy=(35.5xy=(35.512)+(34.112)+(34.116)+16)+44.2 +44.2(-1)=2436.4(-1)=2
13、436.4表表9.1 9.1 累积温和一代三累积温和一代三化螟盛发期的关系化螟盛发期的关系x累积温累积温 y盛发期盛发期35.5 1234.1 1631.7 940.3 236.8 7 40.2 331.7 1339.2 944.2 -1然后,由一级数据算得然后,由一级数据算得5 5个二级数据:个二级数据:SSSSx x=x=x2 2-(-(x)2 2/n=12517.49-(333.7)/n=12517.49-(333.7)2 2/9/9 =144.6356 =144.6356SSSSy y=y2-(y)2/n=794-(70)2/9=249.5556SPxy=xy-xy/n=2436.4-
14、(333.770)/9=-159.0444X=x/n=333.7/9=37.0778Y=y/n=70/9=7.7778因而有:因而有:b=SPxy/SSx=-159.0444/144.6356 =-1.0996 天天/(旬(旬度)度)a=ya=ybx=7.7778-(-1.0996bx=7.7778-(-1.099637.0778)=48.5485(37.0778)=48.5485(天天)故得表故得表9.1资料的回归方程为:资料的回归方程为:=48.5485-1.0996x 上述方程的意义为上述方程的意义为:当当3 3月下旬至月下旬至4 4月中旬的积温(月中旬的积温(x x)每提高)每提高1
15、1旬旬度时,度时,一代三化螟的盛发期平均将提早一代三化螟的盛发期平均将提早1.11.1天;天;若积温为若积温为0 0,则一代三化螟的盛发期将在,则一代三化螟的盛发期将在6 6月月27-2827-28日日(x=0 x=0时,时,y=48.5;y=48.5;因因y y是以是以5 5月月1010日为日为0 0,故,故48.548.5为为6 6月月27-2827-28日)。日)。由于由于x x变数的实测区间为变数的实测区间为31.731.7,44.244.2,当,当x x31.731.7或或44.244.2时,时,y y的变化是否还符合的变化是否还符合y=48.5-1.1xy=48.5-1.1x的的规
16、律,观察数据中未曾得到任何信息。规律,观察数据中未曾得到任何信息。X,y四、直线回归方程的图示四、直线回归方程的图示 3月下旬至4月中旬旬平均温度累积值图 旬平均温度累积值和一代三化螟盛发期的关系五、直线回归的偏离度估计五、直线回归的偏离度估计 表示了实测点与回归直线偏离的程度,因而偏表示了实测点与回归直线偏离的程度,因而偏差平方和又称为差平方和又称为离回归平方和离回归平方和。其自由度为n-2(用了用了a a和和b b两个统计数)两个统计数)所以,所以,离回归均方为离回归均方为 离回归标准误为离回归标准误为 表示了回归直线与实测点偏差的程度,即回归方程的偏离度。niiiyy12)(Q=(y-y
17、)Q=(y-y)2 2=SS=SSy y-(SP-(SPxyxy)2 2/SS/SSx x =SS =SSy y-b(SP-b(SPxyxy)=SS =SSy y-b-b2 2(SS(SSx x)=y =y2 2-ay-bxy-ay-bxy 例例9.29.2 试计算由表试计算由表9.19.1资料获得的回归方程的估资料获得的回归方程的估计标准误。计标准误。由例由例9.1算好的有关数据可直接得到:算好的有关数据可直接得到:Q=249.5556-(-159.0444)2/144.6356=74.6670 sy/x=Q/(n-2)1/2=(y-y)2/(n-2)1/2=3.266(天)(天)统计意义是
18、:在统计意义是:在y3.266天范围内约有天范围内约有68.27%个观察点,在个观察点,在y6.532天范围内约有天范围内约有95.45%个观察点等。个观察点等。六、直线回归的显著性检验和区间估计六、直线回归的显著性检验和区间估计直线回归的变异来源直线回归的变异来源(一)一元回归的方差分析(一)一元回归的方差分析)()()(yyyyyynininiiiiiiininiiiiiyyyyyyyyyyyyyy111221122)(2)()()()()(0)SP()()()()()()(112111xxyniniiiiniiiiniiiiiniiiSbSbxxbxxyybxbbxbxxbyyxbabx
19、abxayyyyynininiiiiiyyyyyy111222)()()(即:SSy =SSe +SSR y的总校正平方和 残差平方和 回归平方和自由度:n-1 n-2 1y y的总变异程度的总变异程度 y y与与x x间存在直线关系间存在直线关系所引起的所引起的y y的变异程度的变异程度 除除y y与与x x存在直线关系存在直线关系以外的原因,以外的原因,包括随机误差所引起包括随机误差所引起的的y y的变异程度的变异程度)2/(nSSSSMSMSFeReR回归和离回归的方差比遵循df1=1,df2=n-2 的F分布F-检验 H0:=0。若F F0.01(1,7),拒绝拒绝H H0 0,差异极
20、显著。,差异极显著。即应认为回归方程有效。即应认为回归方程有效。3958.167/667.748886.174F(二)一元回归的(二)一元回归的t检验检验 H0:=0HA:0 (双侧检验)(双侧检验)HA:0(或(或 0)(单侧检验)(单侧检验)Sb为回归系数标准误为回归系数标准误;自由度为;自由度为n-2 exbbMSSSbSbt/对例对例9.1中的中的 作作t-检验检验:H0:=0667.102nSSMSeexebSSMSbSbt/0486.46356.144/667.10/0996.1查表,t0.01(7)=3.499 t,差异极显著,应拒绝H0,即 0,或X与Y有着极显著的线性关系。(
21、三)两个回归系数比较时的假设测验 H0:对 HA:021021212121/22xxyxxybbbbSSsSSssss22)()(/2221212nnQQsxy 例 测定两玉米品种叶片长宽乘积(x)和实际叶面积(y)的关系,得表9.4结果,试测验两回归系数间是否有显著差异。表9.4 玉米叶片长宽乘积和叶面积关系的计算结果 由表9.4可得:品 种nSSxSSySPbQ七叶白2213518246585139424830.697181420石榴子1810708225168637436520.69447 42051.112)(182)(2242014202xys/这一结果是完全不显著的,所以应接受H0
22、:即认为叶片长宽乘积每增大1cm2,叶面积平均要增大的单位数在七叶白和石榴子两品种上是一致的,其共同值为:0.0092107082251.11135182451.1121bbs0.30.00920.694470.69718t212121xxSSSSSPSPb0.695981070822135182474365294248322(cm/cm)(四)直线回归的区间估计 1直线回归的抽样误差 在直线回归总体 中抽取若干个样本时,由于 、各样本的a、b 值都有误差。因此,由 =a+bx给出的点估计的精确性,决定于 和a、b的误差大小。比较科学的方法应是考虑到误差的大小和坐标点的离散程度,给出一个区间估
23、计,即给出对其总体的 、等的置信区间。)(2,XN2y 2xys/XY/2回归截距的置信区间 样本回归截距a ,而 和b的误差方差分别为:。故根据误差合成原理,a的标准误为:由 是遵循 的t 分布的。总 体 回归截距有95可靠度的置信区间为:L1=a-t 0.05 ,L2=a+t0.05 /22/2/222xxyxxyxybyaSSxnsSSxsnsxsss21xby yxxybxyySSssnss2/22/2,asa/)(2 nasas 3回归系数的置信区间 可推得总体回归系数 的95%可靠度的置信区间为:L1=b-t 0.05 ,L2=b+t 0.05 4条件总体平均数 的置信区间 由 ,
24、故 的标准误为:条件总体平均数 的95%置信区间为:L1=-t 0.05 ,L2=+t0.05 XY/)(xxbyyy xxyxxyxybyySSxxnsxxSSsnsxxsss2/22/2/222)(1)()(XY/y y ysysbsbs 5条件总体观察值Y Y 的预测区间 yi=+ei,)(xxby2/22/2/2/222xyxxyxyxybyysxxSSsnssxxsss)()(xxySSxxns2/)(11 保证概率为0.95的Y 的预测区间为:L1=-t0.05 ,L2=+t0.05 (923)6置信区间和预测区间的图示 首先取若干个等距的x 值(x 取值愈密,作图愈准确),算得与
25、其相应的 、和 、的值;然后再由 和 算得各x上的L1和L2,并标于图上;最后将各个L1和L2分别连成曲线即可。y y ysysy ysysyst 0.05yst 0.05ysty 0.05ysty 0.05 例9.10 试制作例9.1资料的y估计值包括和y在内有95%可靠度的置信区间图。表9.6 例9.1资料的置信区间和y y的预测区间的计算y XY/ysyst 0.05ysyst 0.051L2L(2)(3)(4)(6)(7)(8),(1)x的95置信区间计算y的95预测区间计算(5)L1,L23032343637384042444615.613.411.29.07.96.84.62.40
展开阅读全文