书签 分享 收藏 举报 版权申诉 / 58
上传文档赚钱

类型一元回归及相关分析课件.ppt

  • 上传人(卖家):ziliao2023
  • 文档编号:5584689
  • 上传时间:2023-04-25
  • 格式:PPT
  • 页数:58
  • 大小:741KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《一元回归及相关分析课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    一元 回归 相关 分析 课件
    资源描述:

    1、第七章 一元回归及相关分析第一节 回归和相关的概念 第二节 一元线性回归分析第三节 一元线性相关分析n引言 这一章研究的对象:n由一个变数 两个或多个变数,因为在实际生产实践和科学实验中所要研究的变数往往不止一个,例如:n研究温度高低和作物发育进度快慢的关系,就有温度和发育进度两个变数;n研究每亩穗数、每穗粒数和每亩产量的关系,就有穗数、粒数和产量三个变数。第一节 回归和相关的概念1.函数关系与统计关系 2.自变数与依变数 3.回归分析和相关分析4.两个变数资料的散点图 函数关系 有精确的数学表达式 (确定性的关系)直线回归分析 一元回归分析 变量间的关系 因果关系 曲线回归分析(回归分析)多

    2、元回归分析 多元线性回归分析 统计关系 多元非线性回归分析 (非确定性的关系)简单相关分析 直线相关分析 相关关系 复相关分析 (相关分析)多元相关分析 偏相关分析n函数关系是一种确定性的关系,例如圆面积与半径的关系为 。其不包含误差的干扰。n统计关系是一种非确定性的关系。例如,作物的产量与施肥量的关系,两类变数受误差的干扰表现为统计关系。2RSn因果关系:两个变数间的关系若具有原因和反应(结果)的性质。n相关关系:呈现一种共同变化的特点,则称这两个变数间存在。n回归分析:计算回归方程为基础的统计分析方法。为Y 依X 的回归方程(regression equation of Y on X)。n

    3、相关分析:计算相关系数为基础的统计分析方法。计算表示Y 和X 相关密切程度的统计数,并测验其显著性。n这个统计数在两个变数为直线相关时称为相关系数(correlation coefficient),记为r;在多元相关时称为复相关系数(multiple correlation),记作Ry12m;在两个变数曲线相关时称为相关指数(correlation index),记作R。)(xfy n一般规则:n当两个变数中Y 含有试验误差而X 不含试验误差时着重进行回归分析;而当Y 和X 均含有试验误差时则着重去进行相关分析。n4.两个变数资料的散点图n对具有统计关系的两个变数的资料进行初步考察的简便而有效

    4、的方法,是将这两个变数的n对观察值(x1,y1)、(x2,y2)、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上,获得散点图(scatter diagram)。n根据散点图可初步判定双变数X 和Y 间的关系,包括:X 和Y 相关的性质(正或负)和密切程度;X 和Y 的关系是直线型的还是非直线型的;是否有一些特殊的点表示着其他因素的干扰等。n例如图9.1是水稻方面的3幅散点图,图9.1A是单株的生物产量(X)和稻谷产量(Y),图9.1B是每平方米土地上的总颖花数(X)和结实率(Y),图9.1C是最高叶面积指数(X)和每亩稻谷产量(Y)。从中可以看出:图9.1A和9.1B都是直线型的,但

    5、方向 相反;前者Y 随X 的增大而增大,表示两个变数的关系是正的,后者Y 随X 的增大而减小,表示关系是负的。图9.1A的各个点几乎都落在一直线上,图9.1B则较为分散;因此,图9.1A中X 和Y 相关的密切程度必高于图9.1B。图9.1C中X 和Y 的关系是非直线型的;大约在x(67)时,Y 随X 的增大而增大,而当x(67)时,Y 随X 的增大而减小。x,生物产量(g)水稻单株生物产量与稻谷产量的散点图 x,每m2颖花数(万)水稻每m2颖花数和结实率的散点图x,最高叶面积指数水稻最高叶面积指数和亩产量的散点图第二节 一元线性回归分析一、直线回归方程二、直线回归的假设测验和区间估计一、直线回

    6、归方程(一)直线回归方程式 (91)n回归截距(regression intercept):a是x=0时的值,即回归直线在y 轴上的截距。n回归系数(regression coefficient):b是x 每增加一个单位数时,平均地将要增加(b0时)或减少(b0时)的单位数。bxay 时,分别对a和b 求偏导数并令其为0,可得正规方程组(normal equations):得 最小为)()(2121bxayyyQnnxyxbxayxban2xbya(92)xSSSPxxyyxxxnxyxnxyb22)()()(112)(xxbybxxbyy)(93)(94)将(92)代入(91)可得:y a0

    7、,b0,b0 a0 x 直线回归方程的图象n由(94)可看到:当x以离均差(x-)为单位时,回归直线的位置仅决定于 和b;当将坐标轴平移到以(,)为原点时,回归直线的走向仅决定于b,所以一般又称b为回归斜率(regression slope)。xyxyn(二)直线回归方程的计算n例9.1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表9.1。试计算其直线回归方程。n首先由表9.1算得回归分析所必须的6个一级数据(即由观察值直接算得的数据):x累积温y盛发期35.534

    8、.131.740.336.840.231.739.244.212169273139-1 表9.1 累积温和一代三化螟盛发期的关系 x2x y2 yyxn=9 =35.5+34.1+44.2=333.7 =35.52+34.12+44.22=12517.49 =12+16+(-1)=70=122+162+(-1)2=794 =(35.512)+(34.116)+44.2(-1)=2436.4然后,由一级数据算得5个二级数据:nxx22)(nyy22)(nyxyxxnxyny SSx=12517.49-(333.7)2/9=144.6356=794-(70)2/9=249.55562436.4-(

    9、333.770)/9=-159.0444333.7/9=37.077870/9=7.7778*SSy=SP=xSSSP/xby 因而有:b=-159.0444/144.6356=-1.0996天/(旬度)a=7.7778-(-1.099637.0778)=48.5485(天)n故得表9.1资料的回归方程为:n上述方程中回归系数和回归截距的意义为:当3月下旬至4月中旬的积温(x)每提高1旬度时,一代三化螟的盛发期平均将提早1.1天;若积温为0,则一代三化螟的盛发期将在6月2728日(x=0时,=48.5;因y是以5月10日为0,故48.5为6月2728日)。n由于x变数的实测区间为31.7,44

    10、.2,当x31.7或44.2时,y的变化是否还符合=48.5-1.1x的规律,观察数据中未曾得到任何信息。=48.5485-1.0996xy n所以,在应用=48.5-1.1x于预测时,需限定x的区间为31.7,44.2;如要在x31.7或44.2的区间外延,则必须有新的依据。n(三)直线回归方程的图示n直线回归图包括回归直线的图象和散点图,它可以醒目地表示x 和y 的数量关系。n方法:制作直线回归图时,首先以x为横坐标,以y为纵坐标构建直角坐标系(纵、横坐标皆需标明名称和单位);然后取x坐标上的一个小值x1代入回归方程得 ,取一个大值x2代入回归方程得 ,连接坐标点(x1,)和(x2,)即成

    11、一条回归直线。如例9.1资料,以x1=31.7代入回归方程得 =13.69;y 1y 2y 1y 2y 1n以x2=44.2代入回归方程得 =-0.05。在图9.3上确定(31.7,13.69)和(44.2,-0.05)这两个点,再连接之,即为 =48.5485-1.0996x的直线图象。注意:此直线必通过点(,),它可作为制图是否正确的核对。最后,将实测的各对(xi,yi)数值也用坐标点标于图9.3上。y 2y xy x,3月下旬至4月中旬旬平均温度累积值图 旬平均温度累积值和一代三化螟盛发期的关系 n图9.3的回归直线是9个观察坐标点的代表,它不仅表示了例9.1资料的基本趋势,也便于预测。

    12、如某年3月下旬至4月中旬的积温为40旬度,则在图9.3上可查到一代三化螟盛发期的点估计值在5月1415日,这和将x=40代入原方程得到 =48.5485-(1.099640)=4.6是一致的。因为回归直线是综合9年结果而得出的一般趋势,所以其代表性比任何一个实际的坐标点都好。当然,这种估计仍然有随机误差,下文再作讨论。y n(四)直线回归的估计标准误nQ 就是误差的一种度量,称为离回归平方和(sum of squares due to deviation from regression)或剩余平方和。n建立回归方程时用了a 和b 两个统计数,故Q 的自由度 2 nn 得 =SSy-b(SP)=

    13、SSy-b2(SSx)=y2-ay-bxy222nyynQsxyxySSSPSSyyQ22)()(95)(96A)(96B)(96C)(96D)n(五)直线回归的数学模型和基本假定n直线回归模型中,Y 总体的每一个值由以下三部分组成:回归截距 ,回归系数 ,Y变数的随机误差 。n总体直线回归的数学模型:n N(0,)。相应的样本线性组成为:jjjXY(97)j2jjjebxay(98)n回归分析时的假定:n(1)Y 变数是随机变数,而X 变数则是没有误差的固定变数,至少和Y 变数比较起来X 的误差小到可以忽略。n(2)在任一X 上都存在着一个Y 总体(可称为条件总体),它是作正态分布的,其平均

    14、数 是X 的线性函数:XY/XXY(99)的样本估计值,与X 的关系就是线性回归方程(91)。n(3)所有的Y 总体都具有共同的方差 ,而直线回归总体具有 。试验所得的一组观察值(xi,yi)只是 中的一个随机样本。n(4)随机误差 相互独立,并作正态分布,具有 。XY/),(2 XN2),(2 XN)(0,2 Nn二、直线回归的假设测验和区间估计n(一)直线回归的假设测验 1回归关系的假设测验 (1)t 测验 H0:=0 对 HA:0 xxyxybSSsxxss/2/2)(910)n遵循 的t分布,故由t 值即可知道样本回归系数b来自 =0总体的概率大小n(2)F 测验当仅以表示y资料时(不

    15、考虑x 的影响),y变数具有平方和SSy 和自由度 当以表示y资料时(考虑x的影响),则SSy将分解成两个部分,即:bsbt22)()(yyyyyy)()()(yyyyyyyy222(911)2 n2)(yy1 nn将 记作U n回归和离回归的方差比遵循 的F分布 0)(yyyy222)()()(yyyyyy2)(yy xySSSPQSSyyU22)()()/(/)(22nQSSSPFx112 n2因为 得n(二)直线回归的区间估计 1直线回归的抽样误差n在直线回归总体 中抽取若干个样本时,由于 ,各样本的a、b 值都有误差。因此,由 =a+bx给出的点估计的精确性,决定于 和a、b的误差大小

    16、。比较科学的方法应是考虑到误差的大小和坐标点的离散程度,给出一个区间估计,即给出对其总体的 、等的置信区间。)(2,XN2y 2xys/XY/2回归截距的置信区间 n由(92),样本回归截距a ,而 和b的误差方差分别为:。故根据误差合成原理,a的标准误为:n由 是遵循 的t 分布的。总 体 回归截距有95可靠度的置信区间为:L1=a-t 0.05 ,L2=a+t0.05 /22/2/222xxyxxyxybyaSSxnsSSxsnsxsss21xby yxxybxyySSssnss2/22/2,(917)asa/)(2 nasas(918)3回归系数的置信区间 由(911)可推得总体回归系数

    17、 的95%可靠度的置信区间为:L1=b-t 0.05 ,L2=b+t 0.05 4条件总体平均数 的置信区间 n由 ,故 的标准误为:条件总体平均数 的95%置信区间为:L1=-t 0.05 ,L2=+t0.05 (921)XY/)(xxbyyy xxyxxyxybyySSxxnsxxSSsnsxxsss2/22/2/222)(1)()(XY/y y ysys(920)bsbs(919)n5条件总体观察值Y Y 的预测区间 将(94)代入(98)yi=+ei,)(xxby2/22/2/2/222xyxxyxyxybyysxxSSsnssxxsss)()(xxySSxxns2/)(11(922)

    18、n保证概率为0.95的Y 或y 的预测区间为:L1=-t0.05 ,L2=+t0.05 (923)6置信区间和预测区间的图示 n首先取若干个等距的x 值(x 取值愈密,作图愈准确),算得与其相应的 、和 、的值;然后再由 和 算得各x上的L1和L2,并标于图上;最后将各个L1和L2分别连成曲线即可。y y ysysy ysysyst 0.05yst 0.05ysty 0.05ysty 0.05 例9.10 试制作例9.1资料的y估计值包括和y在内有95%可靠度的置信区间图。表9.6 例9.1资料的置信区间和y y的预测区间的计算y XY/ysyst 0.05ysyst 0.051L2L(2)(

    19、3)(4)(6)(7)(8),(1)x的95置信区间计算y的95预测区间计算(5)L1,L23032343637384042444615.613.411.29.07.96.84.62.40.2-2.02.211.751.371.131.091.121.351.722.172.665.24.13.22.72.62.63.24.15.16.310.4,9.3,8.0,6.3,5.3,4.2,1.4,-1.7,-4.9,-8.3,20.817.514.411.710.59.47.86.55.34.33.952.723.533.463.433.463.533.693.924.219.38.88.38.

    20、28.18.28.38.79.39.96.3,4.6,2.9,0.8,-0.2,-1.4,-3.7,-6.3,-9.1,-11.9,24.922.219.517.216.015.012.911.19.57.9 一代三化螟盛发期估计及其 95%置信限 n画出 的图像,依次标出n(x,L1)和(x,L2)坐标点,n再连接各(x,L1)得 线,n连接各(x,L2)得 线。连n接各(x,L2)得 线。和 n 所夹的区间即包括 n在内有95可靠度的置信区间。n称(x,)的连线 ,(x,)n的连线 。其所夹的区间即n为y的95的预测区间或预测带。3月下至4月中旬平均温度累积值 例9.1资料的y y 估计值

    21、及其95%置信带y CDABABCDXY/1LGH2LEFAB-15-10-5051015202528303234363840424446第三节 一元线性相关分析一、相关系数和决定系数二、相关系数的假设测验三、直线回归和相关的应用要点一、相关系数和决定系数n(一)相关系数n(X,Y)总体没有相关,则落在象限、的点是均匀分散的,因而正负相消,=0。NYXYX1)(n当(X,Y)总体呈正相关时,落在象限、的点一定比落在象限、的多,故 一定为正;同时落在象限、的点所占的比率愈大,此正值也愈大。NYXYX1)()(n当(X,Y)总体呈负相关时,则落在象限、的点一定比落在象限、的为多,故 一定为负;且落

    22、在象限、的点所占的比率愈大,此负值的绝对值也愈大。NYXYX1)(n 的值可用来度量两个变数直线相关的相关程度和性质。但是,X 和Y 的变异程度、所取单位及N的大小都会影响其大小。n这些因素的影响是可以消去的。方法就是将离均差转换成以各自的标准差为单位,使成为标准化离差,再以N 除之。n可定义双变数总体的相关系数为:NYXYX1)(n (933)n(933)的已与两个变数的变异程度、单位和N大小都没有关系,是一个不带单位的纯数,因而可用来比较不同双变数总体的相关程度和性质。n相关系数是两个变数标准化离差的乘积之和的平均数。NYYXXYXN1122)()()(YXYXYXYXn样本的相关系数 r

    23、 (934)n因为:在回归分析时分成了两个部分:一部分是离回归平方和Q ,另一部分是回归平方和U =(SP)2/SSx。n因此,又可有定义:yxSSSSSPyyxxyyxxr22)()()(2)(yySSy2)(yy2)(yyyxyxySSSSSPSSSSSPyyyySSUr/)()()(222nr 的取值区间是-1,1。双变数的相关程度决定于|r|,|r|越接近于1,相关越密切;越接近于0,越可能无相关。nr 的显著与否还和自由度有关,越大,受抽样误差的影响越小,r 达到显著水平的值就较小。正的r 值表示正相关,负的r 值表示负相关。而相关系数r的正或负和回归系数b是保持一致。(二)决定系数

    24、 n决定系数(determination coefficient)定义为由x不同而引起的y 的平方和 占y总平方和SSy=的比率;也可定义为由y不同而引起的x 的平方和 占x总平方和SSx=的比率,其值为:(935)2)(yyU2)(yy2)(xxU2)(xxxyyxSSSSSPSSSSSPr/)(/)(222yxSSSSSP2)(n所以决定系数即相关系数r 的平方值。n决定系数和相关系数的区别在于:除掉|r|=1和0的情况外,r2总是小于|r|。这就可以防止对相关系数所表示的相关程度作夸张的解释。例如,r=0.5,只是说明由x 的不同而引起的y 变异(或由y 的不同而引起的x 变异)平方和仅

    25、占y 总变异(或 x 总变异)n平方和的r2=0.25,即25%,而不是50%。n r 是可正可负的,而r2则一律取正值,其取值区间为0,1。因此,在相关分析由r 的正或负表示相关的性质,由r2 的大小表示相关的程度。n(三)相关系数和决定系数的计算二、相关系数的假设测验n(一)的假设测验n测验一个样本相关系数 r 所来自的总体相关系数是否为0,所作的假设为H0:对HA:0。n在的总体中抽样,r的分布随样本容量n的不同而不同。nr的抽样误差:0 021nrsr2(936)n当 时:n 或 (937)n此 t 值遵循 的t分布,由之可测验 H0:。n对于同一资料,线性回归的显著性等价于线性相关的

    26、显著性。n将(937)移项,即可得到自由度和显著水平一定时的临界 r 值:0 rsrt 21rnr22 n0n三、直线回归和相关的应用要点n(1)回归和相关分析要有学科专业知识作指导。n(2)要严格控制研究对象(X 和Y)以外的有关因素,即要在 X 和Y 的变化过程中尽量使其它因素保持稳定一致。n(3)直线回归和相关分析结果不显著,并不意味着X和Y 没有关系,而只说明X 和Y 没有显著的线性关系,它并不能排除两变数间存在曲线关系的可能性。n(4)一个显著的r 或b 并不代表X 和Y 的关系就一定n是线性的,因为它并不排斥能够更好地描述X 和Y 的各种曲线的存在。n(5)在X 和Y 的一定区间内,用线性关系作近似描述是允许的,它的精确度至少要比仅用描述y变数有显著提高。n(6)一个显著的相关或回归并不一定具有实践上的预测意义。n(7)为了提高回归和相关分析的准确性,两个变数的样本容量n(观察值对数)要尽可能大一些,至少应有5对以上。

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一元回归及相关分析课件.ppt
    链接地址:https://www.163wenku.com/p-5584689.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库