书签 分享 收藏 举报 版权申诉 / 50
上传文档赚钱

类型《回归与相关》课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:5104678
  • 上传时间:2023-02-11
  • 格式:PPT
  • 页数:50
  • 大小:618.52KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《《回归与相关》课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    回归与相关 回归 相关 课件
    资源描述:

    1、 直线回归与相关 linear regression and correlation回归分析与相关分析回归分析与相关分析双变量间关系双变量间关系:年龄年龄身高、肺活量身高、肺活量体重、药物体重、药物剂量与动物死亡率等剂量与动物死亡率等。(1)依存关系依存关系:应变量:应变量(dependent variable)Y随自变量随自变量(independent variable)X变化而变化。变化而变化。回归分析回归分析(2)互依关系互依关系:应变量应变量Y与自变量与自变量 X间间的彼此关系的彼此关系 相关分析相关分析双变量计量资料:双变量计量资料:每个个体有两个变量值每个个体有两个变量值 总体:总

    2、体:无限或有限对变量值无限或有限对变量值 样本:样本:从总体随机抽取的从总体随机抽取的n n对变量值对变量值(X1,Y1),(X2,Y2),(Xn,Yn)目的:目的:研究研究X X和和Y Y的数量关系的数量关系 方法:方法:回归与相关回归与相关 简单、基本简单、基本直线回归、直线相关直线回归、直线相关“一因一果一因一果”,即一个自变量与一个依变量一元,即一个自变量与一个依变量一元回归分析;回归分析;研究研究“多因一果多因一果”,即多个自变量与一个依变,即多个自变量与一个依变量的回归分析称为多元回归分析。量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归一元回归分析又分为直线

    3、回归分析与曲线回归分析两种;分析两种;多元回归分析又分为多元线性回归分析与多元多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。非线性回归分析两种。(linear regression 线性回归线性回归)1直线回归的概念:直线回归的概念:直线回归是分析直线回归是分析两变量间两变量间线性依存变化的线性依存变化的 数量关系。数量关系。2.“回归回归”的由来的由来7570656075706560height of fatherheight of son儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:。也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个

    4、子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。33.730.516YX目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。3.:确定。例如确定。例如 园周长与半径:园周长与半径:y=2r:不确定。例如血压和年龄的关系,:不确定。例如血压和年龄的关系,直线回归直线回归的任务就是找出一条最能描述变量的任务就是找出一条最能描述变量间非确定性数量关系的一条直线,此直线为间非确定性数量关系的一条直线,此直线为回归直线,相

    5、应的直线方程称为回归直线,相应的直线方程称为直线回归方程直线回归方程(linear regression equation)。对资料的要求:对资料的要求:自变量自变量 x正态总体中的随机变量或指定变正态总体中的随机变量或指定变量量 因变量因变量 y服从正态分布的随机变量服从正态分布的随机变量1.51.51.61.61.71.71.81.81.91.92 22.12.12.22.22.32.32.42.42.52.52.62.62.72.72.82.82.92.930303232343436363838404042424444 体重(体重(kg),),x肺活量(肺活量(),YL十名女中学生体重与

    6、肺活量散点图十名女中学生体重与肺活量散点图/(,Y XY XXa b 4.直线回归方程的表达式为截矩;为斜率;均为总体参数)用样本数据建立的方程失Y=a+bX,Y是的一个样本估计值,称预测值,分别是 和 的样本估计值.a为常数项,是截矩;b为回归系数,即直线的斜率。为回归直线在为回归直线在 y 轴上的截距轴上的截距a 0a=0a 0b=0b 0,Y随随X的的增大增大而而增大(减少增大(减少 而而减少)减少)斜上;斜上;b0,Y随随X的的增大增大而而减小(减少减小(减少 而而增加)增加)斜下;斜下;b=0,Y与与X无直线关系无直线关系 水平水平。b越大,表示越大,表示Y随随X变化越快,直线越陡峭

    7、。变化越快,直线越陡峭。5直线回归方程参数的计算直线回归方程参数的计算 y=a+bx 最小二乘法原则最小二乘法原则 (least square method):使各实际:使各实际散点(散点(Y)到直线()到直线()的纵向距离的平方和最小。)的纵向距离的平方和最小。即使即使 (残差或剩余值)最小。(残差或剩余值)最小。2YYYYi (Y的估计值)=a+bXi Yi估计值i残差i=Yi 估计值i残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离 。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。XXXYllnXXnYXXYXXYYXXb/)()(2

    8、22XbYaniiiniiibXaYYYYYQ12122)()(例:用某饲料喂养例:用某饲料喂养12只大白鼠,得出大白鼠的进只大白鼠,得出大白鼠的进食量与体重增加量结果,试作直线回归分析食量与体重增加量结果,试作直线回归分析。(1).由原始数据作散点图,观察两变量间的趋势图 12-1 12只大白鼠进食量与体重增重量散点图图 12-1 12只大白鼠进食量与体重增重量散点图51015202530130180230280330380进食量(g),X体重增加量(g),Y序号 进食量(g)X 体重增加量(g)Y 2X 2Y XY(1)(2)(3)(4)(5)(6)1 305.7 23.6 93452.4

    9、9 556.96 7214.52 2 188.6 14.7 35569.96 216.09 2772.42 3 277.2 19.2 76839.84 368.64 5322.24 4 364.8 27.7 133079.04 767.29 10104.96 5 285.3 18.9 81396.09 357.21 5392.17 6 244.7 16.1 59878.09 259.21 3939.67 7 255.9 17.2 65484.81 295.84 4401.48 8 149.8 12.9 22440.04 166.41 1932.42 9 268.9 18.3 72307.21

    10、334.89 4920.87 10 247.6 17.7 61305.76 313.29 4382.52 11 168.8 13.7 28493.44 187.69 2312.56 12 200.6 15.6 40240.36 243.36 3129.36 合计 2957.9(X)215.6(Y)770487.13)(2X 4066.9)(2Y 55825.2(XY)12只大白鼠的进食量(只大白鼠的进食量(g)与体重增加量)与体重增加量(g)测量结果测量结果(2).计算X、Y的均数X、Y,离均差平方和lXX、lYY与离均差积和lXYab(3).(4).Y =2+0.0648X(5).按求得的直

    11、线回归方程,在X实际范围内任意取两点(X1,Y1),(X2,Y2),相连即得回归直线。Y =Y+b(x-x)6.回归系数的假设检验回归系数的假设检验建立样本直线回归方程,只是完成了统计分析两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有?0 YYYYYYY回归部分)(YY)(YY 总情况Y剩余部分)(YY 实测点),(YXPYX X222()()()()()()YYYYYYYYYYYYSSSSSS总剩回总剩回可有数学证明得到:即同样有:222222()()()()()()()XXYYXYXYXlXXXnYlYYYnXYlXXYYXYnSSblSSSS

    12、SS回剩总回推断总体回归系数推断总体回归系数 是否为是否为0,确定所求得的回归方程是否成确定所求得的回归方程是否成 立立。|b-0|bt=,=n-2 S b S b S yxS b=,_ (x-x)2 _ S b 为样本回归系数标准误为样本回归系数标准误S yx 为剩余标准差为剩余标准差方差分析法12SSMSFnSSMS回回回回剩剩剩剩;,t检验法 r-0 rt r=,S r 1-r 2 n-2_ =n-2 (y-y)2 Syx=n-2=l yy-b l xy (y-)2 =(y-y)2-(x x)(y y)2(x x)2同一组资料作直线相关与回归时同一组资料作直线相关与回归时 tb 与与 t

    13、r 等值等值t b=回归系数的标准误b为总体回归系数 的估计值,其误差为Sb 的95的可信区间为 S yxS b=,_ (x-x)2 _ 决定系数:回归平方和与总平方和之比,大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。22222/(1)/(2)/XYXXXYYYXY YYlSSllRSSlllMSSSRFRnMSSS回总回回回总剩=剩1.总体回归线的总体回归线的95%置信带置信带即 的可信区间Y第二节第二节 直线回归的应用直线回归的应用标准估计误差标准估计误差各实际值Y与估计值 有一定的误差,称为估计误差,即各实际点与回归线纵轴方向的离散程度,即标准估计误差 2

    14、222XXYYXXYYYY2.个体Yi 值的范围预测iiiiiiiii95 的可信区间与的可信区间与 个体个体 Yi 的预测范围有关数据的预测范围有关数据编编号号X XY YY_hatY_hat均数均数标准误标准误个值个值标准误标准误均数均数下限下限均数均数上限上限个值个值下限下限个值个值上限上限1 113 13 3.543.543.471 3.471 0.1271 0.1271 0.2344 0.2344 3.1602 3.1602 3.7824 3.7824 2.8977 2.8977 4.0449 4.0449 2 211 11 3.013.013.193 3.193 0.0832 0.

    15、0832 0.2138 0.2138 2.9892 2.9892 3.3966 3.3966 2.6697 2.6697 3.7161 3.7161 3 39 9 3.093.092.915 2.915 0.0713 0.0713 0.2095 0.2095 2.7401 2.7401 3.0889 3.0889 2.4020 2.4020 3.4270 3.4270 4 46 6 2.482.482.497 2.497 0.1271 0.1271 0.2344 0.2344 2.1858 2.1858 2.8080 2.8080 1.9233 1.9233 3.0705 3.0705 5 5

    16、8 8 2.562.562.775 2.775 0.0832 0.0832 0.2138 0.2138 2.5716 2.5716 2.9790 2.9790 2.2521 2.2521 3.2985 3.2985 6 610 10 3.363.363.054 3.054 0.0713 0.0713 0.2095 0.2095 2.8793 2.8793 3.2281 3.2281 2.5412 2.5412 3.5662 3.5662 7 712 12 3.183.183.332 3.332 0.1031 0.1031 0.2223 0.2223 3.0799 3.0799 3.5843 3

    17、.5843 2.7882 2.7882 3.8760 3.8760 8 87 7 2.652.652.636 2.636 0.1031 0.1031 0.2223 0.2223 2.3839 2.3839 2.8883 2.8883 2.0922 2.0922 3.1800 3.1800 Y图9-1 8名正常儿童的年龄与尿肌酐含量区间图2.02.22.42.62.83.03.23.43.63.84.05791113年龄(岁)X尿肌酐含量(mmol/24h)Y直线回归方程的应用直线回归方程的应用*描述两变量的依存数量关系;描述两变量的依存数量关系;*利用回归方程进行预测:由易测的变量值估利用回归

    18、方程进行预测:由易测的变量值估算难算的变量值(由算难算的变量值(由 x 估计估计 y););X:汽车流量:汽车流量(辆辆/小时小时),y:NOx(mg/M3)y=-1.674 +0.0001838 x *利用回归方程进行控制:即利用回归方程进行利用回归方程进行控制:即利用回归方程进行 逆估计(由逆估计(由 y 估计估计 x)。)。(linear correlation)简单相关简单相关(simple correlation),用于,用于双变量双变量正正态分布资料。态分布资料。进行直线相关分析的基本任务在于根据进行直线相关分析的基本任务在于根据x x、y y的实际观测值计算表示两个相关变量的实际

    19、观测值计算表示两个相关变量x x与与y y线线性相关程度和性质的统计指标性相关程度和性质的统计指标相关系数相关系数r r,并进行显著性检验。并进行显著性检验。直线相关是直线相关是研究两变量研究两变量 x、y 之间协同之间协同变化的线性关系变化的线性关系的分析方法。的分析方法。1.51.51.61.61.71.71.81.81.91.92 22.12.12.22.22.32.32.42.42.52.52.62.62.72.72.82.82.92.930303232343436363838404042424444 体重(体重(kg),),x肺活量(肺活量(),YL十名女中学生体重与肺活量散点图十名

    20、女中学生体重与肺活量散点图2对资料的要求对资料的要求 x、y 都是正态分布资料的随机变量。都是正态分布资料的随机变量。3相关系数相关系数(correlation coefficient,r):-1 r 1描述两个变量直线相关的描述两个变量直线相关的方向与方向与 密切程度密切程度的指标。的指标。正相关正相关 负相关负相关0 r 1 -1 r 0r=1 r=-1完全正相关完全正相关 完全负相关完全负相关r 0 r 0 r 0零相关零相关 零相关零相关 零相关零相关_ (x-x)(y-y)l xyr=_ _ (x-x)2 (y-y)2 l xx l yy _ (x)(y)l xy=(x-x)(y-y

    21、)=xy-n_ (x)2l xx=(x-x)2=x 2-n_ (y)2l yy=(y-y)2=y 2-n_10名女中学生的体重名女中学生的体重(x)与肺活量与肺活量(y)的直线相关计算的直线相关计算编号编号 X Y X2 Y2 XY(1)(2)(3)(4)(5)(6)1 35 1.60 1225 2.5600 56.00 2 37 1.60 1369 2.5600 59.20 3 37 2.40 1369 5.7600 88.80 4 40 2.10 1600 4.4100 84.00 5 40 2.60 1600 6.7600 104.00 6 42 2.50 1764 6.2500 105

    22、.00 7 42 2.65 1764 7.0225 111.30 8 43 2.75 1849 7.5625 118.25 9 44 2.75 1936 7.5625 121.0010 45 2.20 2025 4.8400 99.00 405 23.15 16501 55.2875 946.55 _ _ (x-x)2 (y-y)2 l xx l yy 计算:计算:_ (x-x)(y-y)l xyr=_ (x)(y)l xy=(x-x)(y-y)=xy-n _ _ 8.975 (x)2l xx=(x-x)2=x 2-n _ 98.5 (y)2l yy=(y-y)2=y 2-n _1.69525

    23、r=8.97598.5 1.69525=0.69454相关系数的假设检验相关系数的假设检验检验检验 r 是否来自总体相关系数是否来自总体相关系数 =0 的的 总体,总体,推断两变量的相关关系是否成立。推断两变量的相关关系是否成立。S r 为相关系数的标准误为相关系数的标准误 检验假设:检验假设:H0:0,H1:0,=0.05 r-0 rt=,S r 1-r 2 n-2_ =n-2t=0.6945(1-0.69452)/(10-2)=2.730 =n 2=10 2=8P 0.05结论:可认为该地女中学生的体重与肺活量结论:可认为该地女中学生的体重与肺活量 有正相关关系有正相关关系 区别:区别:1

    24、)意义)意义 直线回归反映两变量的依存关系;直线回归反映两变量的依存关系;直线相关反映两变量的相互关系。直线相关反映两变量的相互关系。2)对资料的要求)对资料的要求 直线回归:自变量是正态总体的随机变量直线回归:自变量是正态总体的随机变量 或指定变量,或指定变量,y 一定是正态总体的随机变量;一定是正态总体的随机变量;直线相关:两变量均为正态总体的随机变量。直线相关:两变量均为正态总体的随机变量。联系:联系:1)同一组资料的)同一组资料的 r 与与 b 的正负符号是一致的正负符号是一致 的;的;2)同一组资料的)同一组资料的 r 和和 b 的假设检验结果是的假设检验结果是 一致的,即一致的,即

    25、 t r=t b。3)两变量间有相关关系,不一定有因果关)两变量间有相关关系,不一定有因果关 系;但两变量间有因果关系,一定有相关系;但两变量间有因果关系,一定有相关 关关 系。系。1.进行相关与回归时先绘制散点图,还进行相关与回归时先绘制散点图,还 要观察有无异常点。要观察有无异常点。2.回归与相关的应用仅限于原实测数据回归与相关的应用仅限于原实测数据 的范围内使用。的范围内使用。第四节第四节 Spearman 秩相关秩相关 适用资料:适用资料:不服从双变量正态分布不服从双变量正态分布 总体分布类型未知总体分布类型未知 原始数据用等级表示原始数据用等级表示 等级相关系数等级相关系数 rs(即(即Spearman Correlation Coefficient)反映两变量间相关的密切程度与方向反映两变量间相关的密切程度与方向。23366 92110.9051818sdrnn 注意:相同秩次较多时应校正注意:相同秩次较多时应校正 rs 。3233()6()()62()62XYsXYnnTTdrnnTnnTTx(或TY)(t3t)/12

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:《回归与相关》课件.ppt
    链接地址:https://www.163wenku.com/p-5104678.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库