书签 分享 收藏 举报 版权申诉 / 51
上传文档赚钱

类型直线相关与回归Linearcorrelationandregression课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4641887
  • 上传时间:2022-12-28
  • 格式:PPT
  • 页数:51
  • 大小:228.01KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《直线相关与回归Linearcorrelationandregression课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    直线 相关 回归 Linearcorrelationandregression 课件
    资源描述:

    1、 前面介绍的统计方法都只涉及前面介绍的统计方法都只涉及单一变量单一变量,即或,即或进行进行两组或多组比较两组或多组比较,所比较的仍然是,所比较的仍然是同一变量同一变量,而且是以讨论各组间该变量的而且是以讨论各组间该变量的相差是否显著相差是否显著为中为中心环节。心环节。医学领域里常可在一个统一体中遇到医学领域里常可在一个统一体中遇到两个或多个两个或多个变量之间存在着相互联系、相互制约的情况变量之间存在着相互联系、相互制约的情况.如如:同一批水样的同一批水样的浊度浊度与与透光率透光率,同一批人的,同一批人的年龄年龄与与血压血压以及以及身长、体重与胸围身长、体重与胸围等。等。在统计方法中通常是用相关

    2、与回归的方法来研究在统计方法中通常是用相关与回归的方法来研究不同变量之间不同变量之间的这种的这种相互依存相互依存和和互为消长互为消长的关系。的关系。相关与回归即有相关与回归即有区别又有联系区别又有联系,表达事物或现象,表达事物或现象间的在数量方面间的在数量方面相互关系的密切程度用相关系数相互关系的密切程度用相关系数;说明说明一变量依另一变量的消长而变动的规律用回一变量依另一变量的消长而变动的规律用回归方程。归方程。函数关系:函数关系:确定。例如园周长与半径:确定。例如园周长与半径:y=2r。一一对应关系。一一对应关系。回归关系:不确定。例如血压和年龄的关系回归关系:不确定。例如血压和年龄的关系

    3、。具有相同年龄的人,血压不一定相同。但在一定具有相同年龄的人,血压不一定相同。但在一定年龄范围内的人,其血压会在一定范围内波动。年龄范围内的人,其血压会在一定范围内波动。年龄与血压之间有一定的趋势。年龄与血压之间有一定的趋势。相关相关-变量间的互依关系变量间的互依关系直线相关直线相关(linear correlation)也叫简单相关也叫简单相关(simple correlation),用于双变量正态分布资,用于双变量正态分布资料。料。为判断两事物数量间有无相关,可先将两组变量为判断两事物数量间有无相关,可先将两组变量中一对对数值在普通方格纸上作散点图中一对对数值在普通方格纸上作散点图1.Po

    4、sitive correlation,2.Perfect positive correlation,3.Negative correlation,4.Perfect negative correlation,5.6.7.Zero correlation,8.Non-linear correlation一、直线相关系数一、直线相关系数相关分析是用相关系数(相关分析是用相关系数(r)来表示两个变量间相)来表示两个变量间相互的直线关系,并判断其密切程度的统计方法。互的直线关系,并判断其密切程度的统计方法。又称积差相关系数(又称积差相关系数(coefficient of productmoment c

    5、orrelation),或),或 Pearson 相相关系数(软件中常用此名称)说明相关的密切程关系数(软件中常用此名称)说明相关的密切程度和方向的指标。度和方向的指标。r-样本相关系数样本相关系数 -总体相关系数总体相关系数相关系数:说明具有直线关系的两变量间,相关系数:说明具有直线关系的两变量间,相关相关方向与密切程度方向与密切程度的统计指标。的统计指标。相关系数相关系数 r 没有单位,在没有单位,在-1+1范围变动,范围变动,符号符号表示相关的方向,大小表示相关的程度。表示相关的方向,大小表示相关的程度。r 0,正相关;,正相关;rr0。椭圆范围内各点的排列愈接近其长轴,相关愈密椭圆范围

    6、内各点的排列愈接近其长轴,相关愈密切,当所有点都在长轴上时,切,当所有点都在长轴上时,r=1(见图(见图2),称),称为完全正相关。为完全正相关。负相关负相关见图见图3,各点分布亦呈椭圆形,各点分布亦呈椭圆形,Y随随X的的增加而减少,增加而减少,X也随也随Y的增加而减少的增加而减少,此时,此时0r-1。各点排列愈接近其长轴,相关愈密切,当所。各点排列愈接近其长轴,相关愈密切,当所有点都在长轴上时,有点都在长轴上时,r=1(见图(见图4),称为完全负),称为完全负相关。相关。生物现象中,完全正相关或完全负相关甚为少见。生物现象中,完全正相关或完全负相关甚为少见。无相关无相关见图见图5、6和和7,

    7、X不论增加或减少,不论增加或减少,Y的的大小不受其影响;反之亦然。此时大小不受其影响;反之亦然。此时r=0。另外,。另外,须注意有时须注意有时虽然各点密集于一条直线,但该直线虽然各点密集于一条直线,但该直线与与X轴或轴或Y轴平行,即轴平行,即X与与Y的消长互不影响的消长互不影响,这,这种情况仍为无相关。种情况仍为无相关。非线性相关非线性相关见图见图8,图中各点的排列不呈直线,图中各点的排列不呈直线趋势,呈某种曲线形状,此时趋势,呈某种曲线形状,此时r0,称为,称为非线性非线性相关相关。|r|=0.7,高度相关;高度相关;0.4=|r|0.7,中度相关;中度相关;|r|0.05P0.05,就,就

    8、接受假设,认为此接受假设,认为此r r很可能是从此总体中取得的。很可能是从此总体中取得的。因此判断两变量间无显著关系;因此判断两变量间无显著关系;如果取得如果取得r r值的概率值的概率P0.05P0.05或或P0.01P0.01,就在,就在=0.05=0.05或或=0.01=0.01水准上拒绝检验假设,认为该水准上拒绝检验假设,认为该r r不是来自不是来自=0=0的总体,而来自的总体,而来自00的另一个总的另一个总体,因此判断两变量间有显著关系。体,因此判断两变量间有显著关系。1 1建立检验假设,建立检验假设,H H0 0:=0=0,H H1 1:00,=0.05=0.052 2计算相关系数的

    9、计算相关系数的r r的的t t值:值:2202112rrr ntrrn20.9070 1527.7651(0.9070)rt 3 3查查t t值表作结论值表作结论=n-2=15-2=13=n-2=15-2=13根据专业知识知道凝血酶浓度与凝血时间之根据专业知识知道凝血酶浓度与凝血时间之间不会呈正相关,故宜用单侧界限,查间不会呈正相关,故宜用单侧界限,查t t值表得值表得t t0.01,130.01,13=2.650=2.650今今t tr rtt0.01,130.01,13,P0.01P|r|r|-P P -相关不显著;相关不显著;r,|r|r|-PP-在在水准上相关显著;水准上相关显著;今:

    10、今:r=-0.9070 r=-0.9070,=15-2=13=15-2=13,查附表界值,查附表界值,得:得:r r0.05,130.05,13=0.441 r=0.441 r0.01,130.01,13=0.592=0.592 现现rrrr0.01,130.01,13,P0.01,P0,Y随随X的的增大增大而而增大(减少增大(减少而而减少)减少)斜上斜上;b0,Y随随X的的增大增大而而减小(减少减小(减少而而增加)增加)斜下斜下;b=0,Y与与X无直线关系无直线关系 水平水平。b越大,表示越大,表示Y随随X变化越快,直线越陡峭。变化越快,直线越陡峭。最小二乘法原则最小二乘法原则(least

    11、squares(least squares method)method):使各散点到:使各散点到直线的纵向距离的平方和最小。即:直线的纵向距离的平方和最小。即:最小。最小。2YYXXXYllnXXnYXXYXXYYXXb/)()(222XbYa根据前面的相关分析以及医学上有关凝血的机理,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(系。因此可进一步作由凝血酶浓度(X X)推算凝)推算凝血时间(血时间(Y Y)的回归方程。步骤如下:)的回归方程。步骤如下:1 1列回归计算表,计算列回

    12、归计算表,计算X X、YY、XX2 2、YY2 2、XYXY。2 2计算计算 、(X-X)(X-X)2 2、(X(XX)(Y-Y)X)(Y-Y)=X/n=15.1/15=1.01=X/n=15.1/15=1.01 =Y/n=222/15=14.80=Y/n=222/15=14.80(X-)(X-)2 2=X=X2 2-(X)-(X)2 2/n=0.2093/n=0.2093(X-)(Y-)=XY-X(X-)(Y-)=XY-XY/n=-1.7800Y/n=-1.7800XXYYXXY3 3计算回归系数计算回归系数b b和截距和截距a a。本例本例b=-1.7800/0.2093=-8.5045b

    13、=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.3895a=14.80-(-8.5045)(1.01)=23.38954 4列出回归方程,绘制回归直线列出回归方程,绘制回归直线 2()()()XX YYbXXaYbX23.3895-8.5045X Y 在凝血酶浓度的实测范围内在凝血酶浓度的实测范围内,即,即X=0.8X=0.8到到X=1.2X=1.2之之间,任选两个间,任选两个X X值(值(一般选相距较远且直角坐标一般选相距较远且直角坐标系上容易读出者系上容易读出者),代入此回归方程,即得相应),代入此回归方程,即得相应的两个的两个Y Y值,

    14、就可画出该直线。值,就可画出该直线。须注意回归直线必通过(须注意回归直线必通过()点,并穿过观察)点,并穿过观察点群,直线上下各有一些点散布着,否则计算有点群,直线上下各有一些点散布着,否则计算有误。误。,X Yl总体回归系数的估计:例题总体回归系数的估计:例题216页页/2,2.22()2()by xbxxy xxyyyxxbtSSSlyySnlyyll样本回归系数的标准误样本回归系数的标准误剩余标准差剩余标准差参差平方和参差平方和l1.由于抽样误差的存在,每次抽样所得到的样本由于抽样误差的存在,每次抽样所得到的样本回归系数有所不同。那么,用它来估计总体回归回归系数有所不同。那么,用它来估计

    15、总体回归系数也会不同。为了说明回归方程的稳定性,要系数也会不同。为了说明回归方程的稳定性,要对总体的回归系数进行估计。对总体的回归系数进行估计。l2.可信度相同时,回归系数的标准误越小,可信可信度相同时,回归系数的标准误越小,可信区间就越小,回归方程就稳定。区间就越小,回归方程就稳定。(一)样本回归系数的假设检验(一)样本回归系数的假设检验 b0b0原因:原因:由于抽样误差引起,总体回归系数由于抽样误差引起,总体回归系数=0=0 存在回归关系,总体回归系数存在回归关系,总体回归系数 0 0样本回归系数的假设检验亦样本回归系数的假设检验亦用用t t检验检验。H H0 0:=0=0即即Y Y的变化

    16、与的变化与X X无关;无关;H H1 1:00即即Y Y的变化与的变化与X X有关;有关;分母分母S Sb b是样本回归系数是样本回归系数b b的标准误,计算公式为:的标准误,计算公式为:Sy.x为各观察值为各观察值Y距回归线的标准差(剩余标准距回归线的标准差(剩余标准差),即当差),即当X的影响被扣去以后的影响被扣去以后Y方面的变异,方面的变异,0,2bbbbbtnSS.2()Y XbSSXX2.()2Y XYYSn2222()()()()()XX YYYYYYXX根据数理统计的理论,同一批资料计算所得根据数理统计的理论,同一批资料计算所得tr与与tb是相同的,即是相同的,即tr=tb。处理

    17、资料时可用检验相关显。处理资料时可用检验相关显著性代替其回归显著性。著性代替其回归显著性。由于由于 r在在=0.01水准上显著,故可判断样本回归系水准上显著,故可判断样本回归系数数-8.5045与与0的相差有显著性,说明存在凝血时的相差有显著性,说明存在凝血时间随凝血酶浓度变化而变化的回归关系。间随凝血酶浓度变化而变化的回归关系。(二)两样本回归系数相差的假设检验(二)两样本回归系数相差的假设检验若有两个可以比较的样本,它们的回归系数分别为若有两个可以比较的样本,它们的回归系数分别为b1与与b2,经检验都为显著,回归系数的标准误分别为,经检验都为显著,回归系数的标准误分别为Sb1和和Sb2。b

    18、1与与b2相差的显著性也可用相差的显著性也可用t检验法检验,检验法检验,其计算公式为:其计算公式为:12121212()0bbbbbbbbtSS1212222112211()()bbcbbSSXXXX124nnS2C为两样本回归系数的合并方差为两样本回归系数的合并方差 221122212()()(2)(2)cYYYYSnn2222()()()()()XX YYYYYYXX实例:两样本回归系数实例:两样本回归系数t检验的步骤。检验的步骤。同一批白蛋白于同一批白蛋白于38与与25条件下,不同时间条件下,不同时间(分)的凝固百分比,问由此而得的两样本回归(分)的凝固百分比,问由此而得的两样本回归系数

    19、相差是否显著?系数相差是否显著?白蛋白在两种温度下各不同时间的凝固百分比白蛋白在两种温度下各不同时间的凝固百分比时间(分)时间(分)2538Y1Y237.212618.43093044124053154966185881.5合计合计63202.6286.5凝固百分比(凝固百分比(%)X1H0:1-2=0 H1:1-20=0.012计算计算t值值 12121212()0bbbbbbbbtSS124nn221122212()()(2)(2)cYYYYSnn2222()()()()()XX YYYYYYXX1212222112211()()bbcbbSSXXXXlr1=0.998(P0.01)b1=

    20、3.389 l(Y1-1)2=5.7927 n1=6lr2=0.996(Pttt0.01,80.01,8,故故P0.01Pb1,说明随着时间,说明随着时间的增加,蛋白质在的增加,蛋白质在38时凝固百分比的增加量比时凝固百分比的增加量比在在25时高。时高。l1.描述两变量间的依存变化的数量关系。描述两变量间的依存变化的数量关系。l2.利用回归方程进行预测预报。利用回归方程进行预测预报。l3.用易得指标估计不易得指标。用易得指标估计不易得指标。l4.利用回归方程进行统计控制(逆估计)。利用回归方程进行统计控制(逆估计)。1作回归分析要有实际意义:作回归分析要有实际意义:不要把毫无关联的两个事物或现

    21、象用来作回归分不要把毫无关联的两个事物或现象用来作回归分析。析。如儿童身高的增长与小树的增长,作相关分析是如儿童身高的增长与小树的增长,作相关分析是没有实际意义的;由儿童身高推算小树高的回归没有实际意义的;由儿童身高推算小树高的回归方程则更无实际意义,即使算得的方程则更无实际意义,即使算得的r、b是显著的。是显著的。2对相关分析的作用要正确理解。对相关分析的作用要正确理解。相关分析只是以相关分析只是以相关系数相关系数来描述两个变量间相来描述两个变量间相互关系的密切程度和方向,并不能阐明两事物或互关系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质。而且相关并不一定就是现象间存在联系的本

    22、质。而且相关并不一定就是因果关系,切不可单纯依靠相关系数或回归系数因果关系,切不可单纯依靠相关系数或回归系数的显著性的显著性“证明证明”因果关系之存在。要证明两事因果关系之存在。要证明两事物间的因果关系,必须凭籍专业知识从理论上加物间的因果关系,必须凭籍专业知识从理论上加以阐明。以阐明。3相关与回归的区别和联系:相关与回归的区别和联系:(1)相关表示两变量间的相互关系,是双方向相关表示两变量间的相互关系,是双方向的。而回归则表示的。而回归则表示Y随随X而变化,这种关系是单而变化,这种关系是单方向的。方向的。一般地,一般地,先求出相关系数先求出相关系数r并对其进行假设检验,并对其进行假设检验,如

    23、果如果r显著并有进行回归分析之必要,再建立回显著并有进行回归分析之必要,再建立回归方程。归方程。(2)回归系数与相关系数的正负号都由两变量离)回归系数与相关系数的正负号都由两变量离均差积之和的符号决定,所以均差积之和的符号决定,所以同一资料的同一资料的b与其与其r的符号相同的符号相同。假设检验等价假设检验等价:tr=tb(3)回归系数有单位,形式为应变量单位)回归系数有单位,形式为应变量单位/自变量自变量单位;相关系数没有单位。单位;相关系数没有单位。(4)相关系数的范围在)相关系数的范围在-1+1之间,回归系数无之间,回归系数无限制。限制。(5)用回归解释相关:决定系数)用回归解释相关:决定

    24、系数(coefficient of determination)XXYYrb ll222XYXYXXXX YYYYSSSSSSlllrlllSSSS总剩回总总4适合作相关和回归分析的资料有两种:适合作相关和回归分析的资料有两种:(1)变量)变量X是选定的,变量是选定的,变量Y是从正态分布的总体是从正态分布的总体中随机抽取的,宜作回归分析。中随机抽取的,宜作回归分析。(2)两变量)两变量X、Y(或(或X1、X2)都是从正态分布)都是从正态分布的总体中随机抽取的,即是正态双变量中的随机的总体中随机抽取的,即是正态双变量中的随机样本。若需要由一个变量推算另一个变量可作回样本。若需要由一个变量推算另一

    25、个变量可作回归分析;若只需说明两变量间的相互关系可作相归分析;若只需说明两变量间的相互关系可作相关分析。关分析。如果变量(一个或两个)呈明显偏态时,如果变量(一个或两个)呈明显偏态时,须经过适当的变量代换(如对数代换等),使资须经过适当的变量代换(如对数代换等),使资料接近正态分布后再做相关与回归分析;或采用料接近正态分布后再做相关与回归分析;或采用秩相关法秩相关法;5 5在回归分析中,在回归分析中,由由X X推算推算Y Y与由与由Y Y推算推算X X的回归方程是不的回归方程是不同的,不可混淆同的,不可混淆。必须正确选定自变量与应变量。一般说,事物的原因作必须正确选定自变量与应变量。一般说,事物的原因作自变量自变量X X,当事物的因果关系不很明确时,选误差较小,当事物的因果关系不很明确时,选误差较小的即的即个体变异小的变量作自变量个体变异小的变量作自变量X X,以推算应变量,以推算应变量Y Y。6 6回归方程的适用范围有其限度,一般仅适用于自变量回归方程的适用范围有其限度,一般仅适用于自变量X X的原数据范围内,而的原数据范围内,而不能任意外推不能任意外推。在这些观察值的范围之外,两变量间是否也呈同样的直在这些观察值的范围之外,两变量间是否也呈同样的直线关系?线关系?

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:直线相关与回归Linearcorrelationandregression课件.ppt
    链接地址:https://www.163wenku.com/p-4641887.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库