书签 分享 收藏 举报 版权申诉 / 46
上传文档赚钱

类型双变量回归与相关课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4680176
  • 上传时间:2022-12-31
  • 格式:PPT
  • 页数:46
  • 大小:1.87MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《双变量回归与相关课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    变量 回归 相关 课件
    资源描述:

    1、第一节 直 线 回 归函数关系与回归关系函数关系与回归关系 函数关系函数关系当一个变量取一定值时,另一个当一个变量取一定值时,另一个变量有确定值与之相对应,称这变量有确定值与之相对应,称这种关系为确定性的函数关系。种关系为确定性的函数关系。回归关系1、现现象之间确实存在数量上的依存象之间确实存在数量上的依存 关系。关系。2、现现象之间这种依存关系是不严格象之间这种依存关系是不严格 的,即无法用数学公式表示。的,即无法用数学公式表示。3、当变量、当变量 x 取某个值时,变量取某个值时,变量 y 取取 值可能有几个观测点分布在直线值可能有几个观测点分布在直线 周围周围一、直线回归的概念一、直线回归

    2、的概念回归模型回归模型多元回归多元回归一元回归一元回归线性线性回归回归非线性非线性回归回归线性线性回归回归非线性非线性回归回归二、直线回归方程二、直线回归方程 的求法的求法 直线回归的任务就是要找出一个变量随另一个变直线回归的任务就是要找出一个变量随另一个变量变化的数量依存关系,我们把这样的方程叫做量变化的数量依存关系,我们把这样的方程叫做直线回归方程直线回归方程。YabX 是由自变量是由自变量 X X 推算应变量推算应变量 Y Y 估计值估计值 a a是回归直线在是回归直线在Y Y 轴上的截距;轴上的截距;b b为样本的回归系数,即回归直线斜率为样本的回归系数,即回归直线斜率 表示当表示当X

    3、 X变动一个单位时,变动一个单位时,Y Y平均变动平均变动b b个个 单位。单位。Y 残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。YYY原则:最小二乘法(least sum of squares),即可保证各实 测点至直线的纵向距离的平方和最小直线回归方程的求法 2YYXXXYllnXXnYXXYXXYYXXb/)()(222XbYa图7-1 母血与新生儿脐带血TSH水平散点图2.53.03.54.04.55.05.50.00.20.40.60.81.01.21.41.61.82.02.

    4、2母血TSH水平(mU/L)X新生儿脐带血TSH水平(mU/L)YXYX尿肌酐含量如表9-1,估计尿肌酐含量对其年龄的直线回归方程.公式公式 ,n2bbSbSbt0 Sb为回归系数的标准误为回归系数的标准误XXXYXXXYblSSS.2 SY.X为为Y的剩余标准差的剩余标准差扣除扣除X的影响后的影响后Y的变异程度。的变异程度。22nYYsXY2222XXYYXXYYYYYYYYYY回归部分)(YY)(YY 总情况Y剩余部分)(YY 实测点),(YXPYX X回剩总回剩总同样有:即所以有因为等式两边平方后再求和SSSSSSYYYYYYYYYYYYYYYY222)()()(:,0)(2,)()()

    5、(反映除反映除 x 以外的其他因素对以外的其他因素对 y 取值的影响,也称为不可解取值的影响,也称为不可解释的平方和或剩余平方和释的平方和或剩余平方和 SSSS残残反映由于反映由于 x 与与 y 之间的线性关之间的线性关系引起的系引起的 y 的取值变化,也称的取值变化,也称为可通过回归解释的平方和为可通过回归解释的平方和 SSSS回回 SSSS总总反映应变量反映应变量 n 个观察值与其个观察值与其均值总离差平方和均值总离差平方和离差平方和分解离差平方和分解(三个平方和意义)(三个平方和意义)SS总总2)(YY,Y的的离离均均差差平平方方和和(total sum of squares),未未考考

    6、虑虑X与与Y的的回回归归关关系系时时Y的的总总变变异异。1 n SS剩剩2)(YY,为为剩剩余余平平方方和和(residual sum of squares),X对对Y的的线线性性影影响响之之外外的的一一切切因因素素对对Y的的变变异异,即即总总变变异异中中,无无法法用用X解解释释的的部部分分。SS剩剩越越小小,回回归归效效果果越越好好。2 n SS回回2)(YY,为为回回归归平平方方和和(regression sum of squares),由由于于X与与Y的的直直线线关关系系而而使使Y变变异异减减小小的的部部分分,即即总总变变异异中中,可可以以用用X解解释释的的部部分分。SS回回越越大大,回

    7、回归归效效果果越越好好。1 222222.()()()()22YYXYXYXXXXY XYYYYYYSSSSSSSSllSSblb llSSYYSMSnn剩总回总回剩剩公式可写成:2222XXYYXXYYYYF检验(见教材检验(见教材P153)1.1.建立假设建立假设 H0:=0 =0 H1:00对0这一假设是否成立还可进行如下t检验 0bbbtS,2n Y XbXXSSl 2nSSSXY残 2.t 检验(见教材P153)见教材P15302,2/0YnStY见教材P154),()2(2/)2(2/YnYnStYStY见教材P154置信区间、预测区间、回归方程置信区间、预测区间、回归方程bxay

    8、预测上限预测上限预测下限预测下限例9-4 回归方程的应用回归方程的应用 相关相关 -变量间的协同变化关系变量间的协同变化关系 直线相关直线相关(linear correlation):简单相关:简单相关(simple correlation),用于,用于双变量双变量正态分正态分布资料。布资料。回归回归 -变量间的数量依存关系变量间的数量依存关系 第二节第二节 直线相关直线相关 为了研究父亲与成年儿子为了研究父亲与成年儿子身高之间的关系,卡尔身高之间的关系,卡尔.皮皮尔逊测量了尔逊测量了1078对父子的对父子的身高。把身高。把1078对数字表示对数字表示在坐标上,如图。用水平在坐标上,如图。用水

    9、平轴轴X上的数代表父亲身高,上的数代表父亲身高,垂直轴垂直轴Y上的数代表儿子的上的数代表儿子的身高,身高,1078个点所形成的个点所形成的图形是一个散点图。它的图形是一个散点图。它的形状象一块橄榄状的云,形状象一块橄榄状的云,中间的点密集,边沿的点中间的点密集,边沿的点稀少,其主要部分是一个稀少,其主要部分是一个椭圆。椭圆。YYXXXYlllYYXXYYXXr22r无单位,无单位,-1 r 1。r 值为正值为正 正相关正相关,为负为负 负相关;负相关;(与回归系数(与回归系数b b的符号相同)的符号相同)二、相关系数意义与计算二、相关系数意义与计算相关系数意义相关系数意义 r rr rr rr

    10、 r0.30.3时时,没没有有关关系系;0.30.30.50.5时时,称称低低度度相相关关;0.50.50.8 t 0.05(29)2.045,由由t所推断的所推断的P值小于值小于0.05,按,按=0.05水准拒绝水准拒绝,接受,接受,认为临认为临产妇产妇2424小时内尿中雌三醇浓度与产儿体重之间有正相关关系。小时内尿中雌三醇浓度与产儿体重之间有正相关关系。r 检验(通过查r界值表)必须先对必须先对 r作 作 z变换变换 rz1tanh 或 或 )1()1(ln21rrz zrtanh 或 或 1122zzeer 公式中公式中 tanh 为双曲正切函数;为双曲正切函数;tanh-1为反双曲正切

    11、函数,为反双曲正切函数,r 的取值范围的取值范围-1r1,相应的相应的 z值范围值范围-z +。按正态近似原理,按正态近似原理,z的 的 1 可信区间为:可信区间为:3,3(2/2/nuznuz)相关分析与回归分析相关分析与回归分析相关分析相关分析就是描述两种现象间相互关系。就是描述两种现象间相互关系。回归分析回归分析是指针对具有相关关系的现象,选是指针对具有相关关系的现象,选择一个合适的数学模型(称为回归择一个合适的数学模型(称为回归方程式),用来近似地表达两个变方程式),用来近似地表达两个变量数量依存关系。量数量依存关系。1.意义意义:相关反映两变量的相互关系,是一种双向变:相关反映两变量

    12、的相互关系,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量变化,是一种单向关系。的改变会引起另一个变量变化,是一种单向关系。2.应用:研究两个变量的相互关系用相关分析。研究两应用:研究两个变量的相互关系用相关分析。研究两个变量依存关系用回归分析。个变量依存关系用回归分析。3.计算公式计算公式4.相关系数相关系数r与回归系数与回归系数b:r与与b的绝对值反映的意义的绝对值反映的意义不同。不同。r的绝对值越大,表明两变量关系越密切,相关的绝对值越大,表明两变量关系越密切,相关程度越高。程度越高。b的绝对值越大,回归

    13、直线越陡,说明当的绝对值越大,回归直线越陡,说明当X变化一个单位时,变化一个单位时,Y平均变化就越大。反之也是一样。平均变化就越大。反之也是一样。5.取值范围取值范围6.单位单位 r 无单位,无单位,b 有单位有单位1.方向一致方向一致:r 与与 b 的正负号一致。的正负号一致。2.假设检验等价假设检验等价:tr=tb 3.YYXXllbr 4.用回归解释相关用回归解释相关 决定系数决定系数(coefficient of determination)总剩总总回SSSSSSSSSSllllllrYYXXXYYYXXXY222 5.5.相关分析是回归分析的基础和前提;回归分析是相关分析的深入和继续

    14、。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式 才有意义。1根据分析目的选择变量及统计方法 直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y没有主次之分;直线回归则进一步地用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析。直线回归与相关应用的注意事项直线回归与相关应用的注意事项2进行相关、回归分析前应绘制散点图第一步(1)散点图可考察两变量是否有直线趋势;(2)可发现异常

    15、点(outlier)。散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。3资料的要求 直线相关分析要求 X与Y 服从双变量正态分布;直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;对于双变量正态分布资料,根据研究目的可选择由 X 估 计 Y 或者由 Y 估计 X,一般情况

    16、下两个回归方程不相同)。y=a+bx x=c+dy y=a+bx x=c+dy 反应两变量关系密切程度或数量上影响大小统计量应该是回归系数或相关系数绝对值,而不是假设检验P值。P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量取值范围。4结果解释及正确应用 等级相关系数等级相关系数 r rs s(即即Spearman Correlation CoefficientSpearman Correlation Coefficient)反反映两变量间相关密切程度与方向。映两变量间相关密切程度与方向。表表7-3 等

    17、级相关系数计算表等级相关系数计算表8929.077)106(6161332nndrs注意:相同秩次较多时应校正注意:相同秩次较多时应校正 rs然后按前面介绍的然后按前面介绍的PearsonPearson相关系数相关系数的计算方的计算方法求解;当相同秩次较多时,计算反而更简单,法求解;当相同秩次较多时,计算反而更简单,且结果与校正结果相同。且结果与校正结果相同。分别将分别将X X与与Y Y从小到大编秩,从小到大编秩,若遇相同值取平均秩次;若遇相同值取平均秩次;SpearmanSpearman等级相关系数另一种计算方法等级相关系数另一种计算方法结婚公式结婚公式据英国据英国星期日泰晤士报星期日泰晤士

    18、报22日报道:英国伦敦大学统计学教授丹尼斯日报道:英国伦敦大学统计学教授丹尼斯林林利经多年研究得出了一个利经多年研究得出了一个“婚姻公式婚姻公式”,每个人都可据此算出自己的适婚年龄。,每个人都可据此算出自己的适婚年龄。这个名为这个名为“幸福婚姻幸福婚姻”的公式为的公式为M=Y1/2.718(XY)。其中,。其中,M代表一个代表一个人的适婚年龄,人的适婚年龄,Y指的是他(她)开始找对象的年龄,指的是他(她)开始找对象的年龄,X则是他(她则是他(她)预期停止找预期停止找对象的年龄,对象的年龄,1/2.718是一个风险系数,因为每个人如果不结婚而接着找对象的是一个风险系数,因为每个人如果不结婚而接着

    19、找对象的话都会有一种对象越找越差的风险。举例来说,假设汤姆从话都会有一种对象越找越差的风险。举例来说,假设汤姆从18岁开始找对象,同岁开始找对象,同时他希望自己在时他希望自己在40岁时停止找对象,那么汤姆的适婚年龄就是:岁时停止找对象,那么汤姆的适婚年龄就是:181/2.718(4018)26岁。岁。林德利称,经研究,一般而言,男士结婚的最佳年龄是林德利称,经研究,一般而言,男士结婚的最佳年龄是32岁,女士则是岁,女士则是27岁。岁。因为,多数人找对象始于因为,多数人找对象始于16岁;但预期停止年龄不同,男性往往为岁;但预期停止年龄不同,男性往往为60岁,女性岁,女性则多为则多为46岁。不过,林德利承认,为了能有较强的可操作性,公式没把人们所住岁。不过,林德利承认,为了能有较强的可操作性,公式没把人们所住地区、收入和外表等因素计算在内,因此,该公式仅作参考,其目的是让人们别地区、收入和外表等因素计算在内,因此,该公式仅作参考,其目的是让人们别错过幸福。错过幸福。谢谢聆听!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:双变量回归与相关课件.ppt
    链接地址:https://www.163wenku.com/p-4680176.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库