一元回归及相关分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《一元回归及相关分析课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一元 回归 相关 分析 课件
- 资源描述:
-
1、第七章 一元回归及相关分析第一节 回归和相关的概念 第二节 一元线性回归分析第三节 一元线性相关分析n引言 这一章研究的对象:n由一个变数 两个或多个变数,因为在实际生产实践和科学实验中所要研究的变数往往不止一个,例如:n研究温度高低和作物发育进度快慢的关系,就有温度和发育进度两个变数;n研究每亩穗数、每穗粒数和每亩产量的关系,就有穗数、粒数和产量三个变数。第一节 回归和相关的概念1.函数关系与统计关系 2.自变数与依变数 3.回归分析和相关分析4.两个变数资料的散点图 函数关系 有精确的数学表达式 (确定性的关系)直线回归分析 一元回归分析 变量间的关系 因果关系 曲线回归分析(回归分析)多
2、元回归分析 多元线性回归分析 统计关系 多元非线性回归分析 (非确定性的关系)简单相关分析 直线相关分析 相关关系 复相关分析 (相关分析)多元相关分析 偏相关分析n函数关系是一种确定性的关系,例如圆面积与半径的关系为 。其不包含误差的干扰。n统计关系是一种非确定性的关系。例如,作物的产量与施肥量的关系,两类变数受误差的干扰表现为统计关系。2RSn因果关系:两个变数间的关系若具有原因和反应(结果)的性质。n相关关系:呈现一种共同变化的特点,则称这两个变数间存在。n回归分析:计算回归方程为基础的统计分析方法。为Y 依X 的回归方程(regression equation of Y on X)。n
3、相关分析:计算相关系数为基础的统计分析方法。计算表示Y 和X 相关密切程度的统计数,并测验其显著性。n这个统计数在两个变数为直线相关时称为相关系数(correlation coefficient),记为r;在多元相关时称为复相关系数(multiple correlation),记作Ry12m;在两个变数曲线相关时称为相关指数(correlation index),记作R。)(xfy n一般规则:n当两个变数中Y 含有试验误差而X 不含试验误差时着重进行回归分析;而当Y 和X 均含有试验误差时则着重去进行相关分析。n4.两个变数资料的散点图n对具有统计关系的两个变数的资料进行初步考察的简便而有效
4、的方法,是将这两个变数的n对观察值(x1,y1)、(x2,y2)、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上,获得散点图(scatter diagram)。n根据散点图可初步判定双变数X 和Y 间的关系,包括:X 和Y 相关的性质(正或负)和密切程度;X 和Y 的关系是直线型的还是非直线型的;是否有一些特殊的点表示着其他因素的干扰等。n例如图9.1是水稻方面的3幅散点图,图9.1A是单株的生物产量(X)和稻谷产量(Y),图9.1B是每平方米土地上的总颖花数(X)和结实率(Y),图9.1C是最高叶面积指数(X)和每亩稻谷产量(Y)。从中可以看出:图9.1A和9.1B都是直线型的,但
5、方向 相反;前者Y 随X 的增大而增大,表示两个变数的关系是正的,后者Y 随X 的增大而减小,表示关系是负的。图9.1A的各个点几乎都落在一直线上,图9.1B则较为分散;因此,图9.1A中X 和Y 相关的密切程度必高于图9.1B。图9.1C中X 和Y 的关系是非直线型的;大约在x(67)时,Y 随X 的增大而增大,而当x(67)时,Y 随X 的增大而减小。x,生物产量(g)水稻单株生物产量与稻谷产量的散点图 x,每m2颖花数(万)水稻每m2颖花数和结实率的散点图x,最高叶面积指数水稻最高叶面积指数和亩产量的散点图第二节 一元线性回归分析一、直线回归方程二、直线回归的假设测验和区间估计一、直线回
6、归方程(一)直线回归方程式 (91)n回归截距(regression intercept):a是x=0时的值,即回归直线在y 轴上的截距。n回归系数(regression coefficient):b是x 每增加一个单位数时,平均地将要增加(b0时)或减少(b0时)的单位数。bxay 时,分别对a和b 求偏导数并令其为0,可得正规方程组(normal equations):得 最小为)()(2121bxayyyQnnxyxbxayxban2xbya(92)xSSSPxxyyxxxnxyxnxyb22)()()(112)(xxbybxxbyy)(93)(94)将(92)代入(91)可得:y a0
7、,b0,b0 a0 x 直线回归方程的图象n由(94)可看到:当x以离均差(x-)为单位时,回归直线的位置仅决定于 和b;当将坐标轴平移到以(,)为原点时,回归直线的走向仅决定于b,所以一般又称b为回归斜率(regression slope)。xyxyn(二)直线回归方程的计算n例9.1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表9.1。试计算其直线回归方程。n首先由表9.1算得回归分析所必须的6个一级数据(即由观察值直接算得的数据):x累积温y盛发期35.534
8、.131.740.336.840.231.739.244.212169273139-1 表9.1 累积温和一代三化螟盛发期的关系 x2x y2 yyxn=9 =35.5+34.1+44.2=333.7 =35.52+34.12+44.22=12517.49 =12+16+(-1)=70=122+162+(-1)2=794 =(35.512)+(34.116)+44.2(-1)=2436.4然后,由一级数据算得5个二级数据:nxx22)(nyy22)(nyxyxxnxyny SSx=12517.49-(333.7)2/9=144.6356=794-(70)2/9=249.55562436.4-(
9、333.770)/9=-159.0444333.7/9=37.077870/9=7.7778*SSy=SP=xSSSP/xby 因而有:b=-159.0444/144.6356=-1.0996天/(旬度)a=7.7778-(-1.099637.0778)=48.5485(天)n故得表9.1资料的回归方程为:n上述方程中回归系数和回归截距的意义为:当3月下旬至4月中旬的积温(x)每提高1旬度时,一代三化螟的盛发期平均将提早1.1天;若积温为0,则一代三化螟的盛发期将在6月2728日(x=0时,=48.5;因y是以5月10日为0,故48.5为6月2728日)。n由于x变数的实测区间为31.7,44
10、.2,当x31.7或44.2时,y的变化是否还符合=48.5-1.1x的规律,观察数据中未曾得到任何信息。=48.5485-1.0996xy n所以,在应用=48.5-1.1x于预测时,需限定x的区间为31.7,44.2;如要在x31.7或44.2的区间外延,则必须有新的依据。n(三)直线回归方程的图示n直线回归图包括回归直线的图象和散点图,它可以醒目地表示x 和y 的数量关系。n方法:制作直线回归图时,首先以x为横坐标,以y为纵坐标构建直角坐标系(纵、横坐标皆需标明名称和单位);然后取x坐标上的一个小值x1代入回归方程得 ,取一个大值x2代入回归方程得 ,连接坐标点(x1,)和(x2,)即成
11、一条回归直线。如例9.1资料,以x1=31.7代入回归方程得 =13.69;y 1y 2y 1y 2y 1n以x2=44.2代入回归方程得 =-0.05。在图9.3上确定(31.7,13.69)和(44.2,-0.05)这两个点,再连接之,即为 =48.5485-1.0996x的直线图象。注意:此直线必通过点(,),它可作为制图是否正确的核对。最后,将实测的各对(xi,yi)数值也用坐标点标于图9.3上。y 2y xy x,3月下旬至4月中旬旬平均温度累积值图 旬平均温度累积值和一代三化螟盛发期的关系 n图9.3的回归直线是9个观察坐标点的代表,它不仅表示了例9.1资料的基本趋势,也便于预测。
12、如某年3月下旬至4月中旬的积温为40旬度,则在图9.3上可查到一代三化螟盛发期的点估计值在5月1415日,这和将x=40代入原方程得到 =48.5485-(1.099640)=4.6是一致的。因为回归直线是综合9年结果而得出的一般趋势,所以其代表性比任何一个实际的坐标点都好。当然,这种估计仍然有随机误差,下文再作讨论。y n(四)直线回归的估计标准误nQ 就是误差的一种度量,称为离回归平方和(sum of squares due to deviation from regression)或剩余平方和。n建立回归方程时用了a 和b 两个统计数,故Q 的自由度 2 nn 得 =SSy-b(SP)=
13、SSy-b2(SSx)=y2-ay-bxy222nyynQsxyxySSSPSSyyQ22)()(95)(96A)(96B)(96C)(96D)n(五)直线回归的数学模型和基本假定n直线回归模型中,Y 总体的每一个值由以下三部分组成:回归截距 ,回归系数 ,Y变数的随机误差 。n总体直线回归的数学模型:n N(0,)。相应的样本线性组成为:jjjXY(97)j2jjjebxay(98)n回归分析时的假定:n(1)Y 变数是随机变数,而X 变数则是没有误差的固定变数,至少和Y 变数比较起来X 的误差小到可以忽略。n(2)在任一X 上都存在着一个Y 总体(可称为条件总体),它是作正态分布的,其平均
展开阅读全文