书签 分享 收藏 举报 版权申诉 / 77
上传文档赚钱

类型医学精品课件:11-多重线性回归分析(一附院).ppt

  • 上传人(卖家):罗嗣辉
  • 文档编号:5253833
  • 上传时间:2023-02-26
  • 格式:PPT
  • 页数:77
  • 大小:5.43MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《医学精品课件:11-多重线性回归分析(一附院).ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    医学 精品 课件 11 多重 线性 回归 分析 一附院
    资源描述:

    1、11 11 多重线性回归分析多重线性回归分析n身高身高:不仅受到:不仅受到遗传因素遗传因素的影响,而且还受到的影响,而且还受到营养状营养状况况、体育锻炼情况体育锻炼情况、居住环境因素居住环境因素的作用;的作用;n血压血压:除了与:除了与年龄年龄有关外,还与有关外,还与家族史家族史、饮食习惯饮食习惯、劳动强度劳动强度等因素有关。等因素有关。生物医学研究领域中多因素相互作用现象非常普遍生物医学研究领域中多因素相互作用现象非常普遍问题:问题:在影响疾病众多因素中,哪些是主要因素?在影响疾病众多因素中,哪些是主要因素?各个因素作用有多大?各个因素作用有多大?由于涉及到的自变量由于涉及到的自变量 X 的

    2、增多,变量间的关系的增多,变量间的关系变的复杂变的复杂?多重线性回归:多重线性回归:是研究一个因变量和多个自变量是研究一个因变量和多个自变量之间线性关系的统计学分析方法。之间线性关系的统计学分析方法。目的目的:用回归方程的方式定量地描述一个因变量用回归方程的方式定量地描述一个因变量Y 和和多个自变量多个自变量X1、X2、X3、Xp 之间之间 的线性依存关的线性依存关系系。回归分析回归分析1个因变量个因变量Y1个自变量个自变量X 2个以上自变量个以上自变量XY是数值是数值变量变量Y是分类是分类型变量型变量两个因变量两个因变量(结局分类变量(结局分类变量+时间)时间)生存分析生存分析Cox回归回归

    3、简单回归简单回归Simple regression Logistic 回归回归Logistic regression 多重回归多重回归Multiple regression 常用的回归分析中分类:常用的回归分析中分类:曲线回归线性回归线性回归 自变量自变量X 因变量因变量Y 统计方法统计方法单因单果单因单果1个个1个个简单线性相关简单线性相关simple linear correlation简单线性回归简单线性回归simple linear regression多因单果多因单果多个多个1个个多重相关多重相关multiple correlation多重回归多重回归multiple regress

    4、ion多因多果多因多果多个多个多个多个典则相关典则相关cononical correlation多元回归多元回归multivariate regression单因单果单因单果(扣除其它变量影响扣除其它变量影响)1个个1个个部分偏相关部分偏相关partial correlation概念区分:概念区分:11.1 11.1 多重线性回归的概述多重线性回归的概述例例12-1:试对大气污染一氧化氮(:试对大气污染一氧化氮(NO)的浓度和汽)的浓度和汽车流量、气温、气湿、风速等的关系进行回归分析。车流量、气温、气湿、风速等的关系进行回归分析。n 车流量、气温、气湿、风速车流量、气温、气湿、风速4因素是否都

    5、对空气中因素是否都对空气中NO的浓度有影响?的浓度有影响?n 如何定量地描述这种影响?如何定量地描述这种影响?n 哪个因素对哪个因素对NO的影响最大?哪个因素影响的最小?的影响最大?哪个因素影响的最小?n 如何利用这些影响因素去预测空气中如何利用这些影响因素去预测空气中NO的浓度?如的浓度?如何预测?效果如何?何预测?效果如何?n 如果想在控制气温、气湿和风速的条件下,如何定如果想在控制气温、气湿和风速的条件下,如何定量地描述量地描述NO浓度与车流量的关系?浓度与车流量的关系?多重线性回归多重线性回归拟回答以下问题:拟回答以下问题:1.多重线性回归适用条件多重线性回归适用条件u仅适用于仅适用于

    6、1个应变量个应变量 y和和多个自变量多个自变量 x。u要求要求1个应变量个应变量 y和和该组因变量该组因变量 x 间满足间满足线性线性、独立性独立性、正态性正态性、方差齐性方差齐性的要求。的要求。u注意样本中的极端值,必要时可剔除或进行变注意样本中的极端值,必要时可剔除或进行变量变换。量变换。多重线性回归多重线性回归(multiple linar regression)称称 为为y 的预测值,指对于某个确定的预测值,指对于某个确定x的群体,的群体,y 平平均值的估计。均值的估计。b0:常数项常数项(constant),截距,截距(intercept);即所有自变;即所有自变量量x 取值均为取值

    7、均为0时,时,y的平均估计值。的平均估计值。bi:变量:变量xi的偏回归系数的偏回归系数(partial regression coefficient),是总体参数是总体参数i 的估计值;的估计值;指在方程中其它自变量固定指在方程中其它自变量固定不变的情况下,不变的情况下,xi 每增加或减少一个计量单位,反应每增加或减少一个计量单位,反应变量变量Y 平均变化平均变化 bi个单位。个单位。2.模型的基本结构:模型的基本结构:ppXbXbXbbY.22110ppYXXX.22110回归系数的标准化:回归系数的标准化:问题:对问题:对NO浓度的贡献,哪个因素作用的大一点,浓度的贡献,哪个因素作用的大

    8、一点,哪个小一些?哪个小一些?2.求求标准化偏回归系数标准化偏回归系数:用标准化的数据进行回归模型的拟合,算出它的方程,用标准化的数据进行回归模型的拟合,算出它的方程,此时所获得的偏回归系数此时所获得的偏回归系数b,叫叫。iiiiSXXX1.自变量数据的标准化:自变量数据的标准化:ppXbXbXbbY.22110b无单位,可用来比较各个自变量对反应变量的贡献大小无单位,可用来比较各个自变量对反应变量的贡献大小n未标准化的回归系数未标准化的回归系数(偏回归系数):用来构建回归(偏回归系数):用来构建回归方程,即方程中各自变量的斜率。方程,即方程中各自变量的斜率。n标准化的回归系数标准化的回归系数

    9、:用于综合评价各解释变量对因变:用于综合评价各解释变量对因变量量Y的贡献大小,标准化的回归系数越大,说明的贡献大小,标准化的回归系数越大,说明X对对Y 的影响幅度越大。的影响幅度越大。比较:比较:3.多重线性回归分析的基本步骤:多重线性回归分析的基本步骤:估计估计b0、b1、b2、bP最小二乘法最小二乘法回归方程和系数回归方程和系数 的假设检验的假设检验列出回归方程,统计应用列出回归方程,统计应用方差分析和方差分析和 t 检验检验ppXbXbXbbY.22110预测和控制、影响因素分析预测和控制、影响因素分析关联趋势的图形考察关联趋势的图形考察u确定变量筛选的方法确定变量筛选的方法u数据预处理

    10、:强影响点用多重共线性数据预处理:强影响点用多重共线性u模型诊断:残差分析是否适合该模型(模型诊断:残差分析是否适合该模型(Line)建模准备建模准备散点图、散点图矩阵、散点图、散点图矩阵、重叠重叠/三维散点图三维散点图回归参数的估计:回归参数的估计:最小二乘估计最小二乘估计(least square estimation)两个自变量时回归平面示意图两个自变量时回归平面示意图v用最小二乘法拟合直用最小二乘法拟合直线,使得线,使得反应变量观测反应变量观测值值Yi与与回归方程求得估回归方程求得估计值计值 之间的之间的残差残差(样(样本点到直线的垂直距离本点到直线的垂直距离)平方和平方和达到最小。达

    11、到最小。.Y 通过通过SPSS等统计软件等统计软件,拟合,拟合X1、X2、X3、X4关于空关于空气中气中NO浓度的多重线性回归方程,得:浓度的多重线性回归方程,得:43621035.01055.6004.0116.0142.0XXXXY 还需要解决的三个问题:还需要解决的三个问题:n就总体而言,这种回归关系是否存在?即总体回归方程就总体而言,这种回归关系是否存在?即总体回归方程是否成立?是否成立?n回归方程的效果如何?也即这四个变量能解释反应变量回归方程的效果如何?也即这四个变量能解释反应变量Y的百分比是多少?的百分比是多少?n四个自变量是否对反应变量四个自变量是否对反应变量Y的影响都有意义?

    12、的影响都有意义?统计推断统计推断假设检验假设检验假设检验假设检验回归方程的假设检验回归方程的假设检验(model test):):回归系数的假设检验:回归系数的假设检验:目的:检验求得的回归方程在总体中是目的:检验求得的回归方程在总体中是否成立,即是否至少有一个否成立,即是否至少有一个i 0;方法:单因素方差分析。方法:单因素方差分析。目的:即检验各个偏回归体系数目的:即检验各个偏回归体系数i是是否为否为0;方法:方法:t 检验。检验。统计推断:统计推断:(1)回归方程的假设检验:回归方程的假设检验:总的来说,若该回归方程成立,则这些回归系数里总的来说,若该回归方程成立,则这些回归系数里面至少

    13、有一个不为面至少有一个不为0,只要有一个不为,只要有一个不为0,这个方程,这个方程来说总的就是成立的。来说总的就是成立的。ppXbXbXbbY.22110H0:1=2=3=i=0H1:至少有一个:至少有一个 i 0(2)对各个回归系数进行假设检验)对各个回归系数进行假设检验 问题:问题:通过假设检验方程总的来说成立,通过假设检验方程总的来说成立,1.即至少有即至少有1个个i 不为不为0,但到底哪些为,但到底哪些为0,哪些不为,哪些不为0?2.再者,即使总体回归系数为零,也可能得到样本再者,即使总体回归系数为零,也可能得到样本 偏回归系数不为偏回归系数不为0的情况。的情况。方法:方法:t 检验检

    14、验回归方程的解释回归方程的解释:这这3个因素对空气中个因素对空气中NO浓度浓度(污染污染)的影响有多大?的影响有多大?1.确定系数确定系数(coefficient of determination,R2)2.复相关系数复相关系数(multiple correlation coefficient,R)1.确定系数确定系数(coefficient of determination,R2)或或决定决定系数系数:回归平方和与总平方和之比。回归平方和与总平方和之比。u反映了一组自变量反映了一组自变量X对回归效果的贡献,即对回归效果的贡献,即Y 的总变异的总变异中回归关系所能解释的百分比(中回归关系所能解

    15、释的百分比(variance account formula,VAF););u反映了回归模型的拟合效果,可作为反应拟合优度反映了回归模型的拟合效果,可作为反应拟合优度(goodness of fit)的指标)的指标。本题:本题:787.0081.0064.02总回归SSSSR总残差总回归SSSSSSSSR122.复相关系数复相关系数(multiple correlation coefficient,R)定义:为确定系数定义:为确定系数R2的算术平方根。的算术平方根。u反映了随机变量反映了随机变量Y与一组自变量与一组自变量X对(对(X1,X2,Xp)之间的线性相关程度,即之间的线性相关程度,即Y

    16、 和该组自变量的密切程度。和该组自变量的密切程度。本题:本题:887.0787.0总回归SSSSR总回归SSSSR【电脑实现电脑实现】SPSS1.数据录入数据录入多重线性回归分析:多重线性回归分析:2.SPSS过程过程【Method】(自变量的选入方法)(自变量的选入方法)1.Enter(强行进入法)(强行进入法)2.Stepwise(逐步法)(逐步法)3.Remove(强制剔除法)(强制剔除法)4.Backward(向后法)(向后法)5.Forward(向前法)(向前法)自变量筛选方法的选择:自变量筛选方法的选择:【Statistics】Regression Coefficients:回归系

    17、数:回归系数nEstimate:非标准化及标准化回归系数:非标准化及标准化回归系数、标准误,及其显、标准误,及其显著性检验结果(著性检验结果(t值和值和P值)。值)。nConfidence intervals:非标准化回归系数的:非标准化回归系数的95%可信区间。可信区间。nModel fit:模型拟合优度检验,给出复相关系数:模型拟合优度检验,给出复相关系数R,决定系,决定系数数R2,调整,调整R2及方差分析结果及方差分析结果 nR squared change:每剔出或引入一个自变量所引趋同的:每剔出或引入一个自变量所引趋同的R2的变化量及相应的的变化量及相应的F值和值和P值。值。nDes

    18、criptives:输出每个变量的均数、标准差,样本容量,:输出每个变量的均数、标准差,样本容量,相关系数及单侧检验相关系数及单侧检验P值的矩阵。值的矩阵。nPart and partial correlations:简单相关系数及偏相关系数。:简单相关系数及偏相关系数。nCollinearity diagnostics:输出共线性诊断的统计量。:输出共线性诊断的统计量。Residuals:用于选择输出残差诊断的信息:用于选择输出残差诊断的信息All cases:给出所:给出所有观察单位的残差、标准化残差和预测值。有观察单位的残差、标准化残差和预测值。3.结果及结果输出:结果及结果输出:决定系

    19、数越大,说明构建的回归方程越好 Enter:强制引入法:强制引入法 未标准化的未标准化的 回归系数及标准误回归系数及标准误回归系数回归系数的的t t检验检验标准化的标准化的回归系数回归系数4321035.0000006.0004.0116.0142.0 xxxxy11.2 11.2 自变量筛选自变量筛选收集资料时,涉收集资料时,涉及的自变量很多及的自变量很多n有些可能存在较大的测量误差;有些可能存在较大的测量误差;利用利用自变量筛选自变量筛选的准则和方法,产生的准则和方法,产生“最优变量最优变量”子集,从而建立子集,从而建立预测效果的最优模型预测效果的最优模型。n有些自变量对反应变量无影响或影

    20、有些自变量对反应变量无影响或影响甚微;响甚微;n有的变量可能与其它的自变量存在有的变量可能与其它的自变量存在高度的相关性高度的相关性共线性共线性1:设为入选标准;:设为入选标准;2设为剔除标准设为剔除标准自变量筛选的常用方法:自变量筛选的常用方法:后退法(后退法(backward regression)前进法前进法(forward regression)逐步法逐步法(stepwise regression)最优子集回归法最优子集回归法(optimun subsets regression)【Method】(自变量的选入方法)(自变量的选入方法)1.Enter(强行进入法)(强行进入法)2.St

    21、epwise(逐步法(逐步法)3.Remove(强制剔除法)(强制剔除法)4.Backward(向后法)(向后法)5.Forward(向前法)(向前法)自变量筛选方法的选择:自变量筛选方法的选择:M Mo od de el l S Su um mm ma ar ry yd d.808a.653.637.035801.851b.725.698.032640.887c.787.755.0293871.593Model123RR SquareAdjustedR SquareStd.Error ofthe EstimateDurbin-WatsonPredictors:(Constant),车流量(X

    22、1)a.Predictors:(Constant),车流量(X1),风速(X4)b.Predictors:(Constant),车流量(X1),风速(X4),气温(X2)c.Dependent Variable:NO(Y)d.3.结果及结果输出:结果及结果输出:决定系数越大,说明构建的回归方程越好。STEPWISE:逐步回归方程的决定系数:逐步回归方程的决定系数A AN NO OV VA Ad d.0531.05341.376.000a.02822.001.08123.0592.02927.623.000b.02221.001.08123.0643.02124.687.000c.01720.0

    23、01.08123RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel123Sum ofSquaresdfMean SquareFSig.Predictors:(Constant),车流量(X1)a.Predictors:(Constant),车流量(X1),风速(X4)b.Predictors:(Constant),车流量(X1),风速(X4),气温(X2)c.Dependent Variable:NO(Y)d.STEPWISE:逐步回归方程的方差分析表:逐步回归方程的方差分析表C Co oe ef

    24、 ff fi ic ci ie en nt ts sa a-.135.035-3.829.001-.209-.062.158.025.8086.432.000.107.210-.050.049-1.027.316-.151.051.122.027.6234.476.000.065.179-.025.011-.325-2.338.029-.048-.003-.142.058-2.452.024-.263-.021.116.025.5924.699.000.065.168-.035.010-.448-3.316.003-.057-.013.004.002.2732.430.025.001.008(

    25、Constant)车流量(X1)(Constant)车流量(X1)风速(X4)(Constant)车流量(X1)风速(X4)气温(X2)Model123BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Lower BoundUpper Bound95%Confidence Interval for BDependent Variable:NO(Y)a.未标准化的未标准化的 回归系数及标准误回归系数及标准误回归系数回归系数的的t t检验检验标准化的标准化的回归系数回归系数 STEPWISE:逐步回归方程的参数

    26、估计:逐步回归方程的参数估计421035.0004.0116.0142.0 xxxy 回归分析结果回归分析结果:421035.0004.0116.0142.0 xxxy2.影响因素分析:根据影响因素分析:根据SPSS输出结果,可以认为车流输出结果,可以认为车流量、气温和风速是影响空气中量、气温和风速是影响空气中NO浓度的主要因素:浓度的主要因素:u当气温、风速保持不变的情况下,车流量增加当气温、风速保持不变的情况下,车流量增加1千辆,估千辆,估计计NO浓度平均升高浓度平均升高0.11610-6;u当车流量、风速保持不变的情况下,当车流量、风速保持不变的情况下,气温上升气温上升1,估,估计计NO

    27、浓度平均升高浓度平均升高0.00410-6;u当车流量、气温保持不变的情况下,当车流量、气温保持不变的情况下,风速增加风速增加1m/s,估计估计NO浓度平均减少浓度平均减少0.03510-6。3.根据标准化偏回归系数,认为作用车流量根据标准化偏回归系数,认为作用车流量气温气温风速。风速。4.根据确定系数,方程根据确定系数,方程3因素可解释污染变异的因素可解释污染变异的78.7%。1.回归方程回归方程 称称 为为y 的预测值,指对于某个确定的预测值,指对于某个确定x的群体,的群体,y 平平均值的估计。均值的估计。b0:常数项常数项(constant),截距,截距(intercept);即所有自变

    28、;即所有自变量量x 取值均为取值均为0时,时,y的平均估计值。的平均估计值。bi:变量:变量xi的的偏回归系数偏回归系数(partial regression coefficient),指在方程中其它自变量固定不变的情况下,指在方程中其它自变量固定不变的情况下,xi 每增加每增加或减少一个计量单位,反应变量或减少一个计量单位,反应变量Y 平均变化平均变化 bi个单位。个单位。5.多重共线性分析的注意事项:多重共线性分析的注意事项:回归分析回归分析1个因变量个因变量Y1个自变量个自变量X 2个以上自变量个以上自变量XY是数值是数值变量变量Y是分类是分类型变量型变量两个因变量两个因变量(结局分类变

    29、量(结局分类变量+时间)时间)生存分析生存分析Cox回归回归简单回归简单回归Simple regression Logistic 回归回归Logistic regression 多重回归多重回归Multiple regression 引子引子:回归分析:回归分析曲线回归线性回归回归回归分析分析简单线性简单线性:多重线性:多重线性:logistic回归回归线性回归线性回归iiXXXY.22110kkkkxxxxkkeexXX1101101.1ln22110或110011)-1Ln(-)-1Ln()(LneORORXY只只1个个X:(简单简单)多个多个X:XXeeX0011ln0或11.3 11.

    30、3 多重线性回归的多重线性回归的 前提条件及注意事项前提条件及注意事项2.多重线性回归分析的注意事项:多重线性回归分析的注意事项:1.前提条件和残差分析前提条件和残差分析模型假设诊断模型假设诊断2.多重共线性的问题多重共线性的问题3.哑变量的设置哑变量的设置4.交互作用交互作用11.3.2 线性回归分析的前题条件:线性回归分析的前题条件:线性(线性(linear)独立性(独立性(independent)正态性正态性(normal)等方差性(等方差性(equal variance)线性回归分析的前题条件线性回归分析的前题条件l i n enormal正态性正态性equal variance等方差

    31、性等方差性反应变量反应变量Y 的的总体平均值与总体平均值与自变量组合之自变量组合之间呈线性关系间呈线性关系在一定范围内任在一定范围内任意给定各个值,意给定各个值,则反应变量服则反应变量服从正态分布从正态分布在一定范围内,在一定范围内,对应于不同对应于不同X值,值,Y总体变异保持总体变异保持不变不变linear线性线性independent独立性独立性指任意两指任意两个观察值个观察值互相独立互相独立1.线性和方差齐性:线性和方差齐性:残差散点图残差散点图 residual plot模型假设诊断:模型假设诊断:LINE散点均匀分布在以散点均匀分布在以0 0为中心,与横轴平为中心,与横轴平行的带状区

    32、域内,可以认为基本满足线行的带状区域内,可以认为基本满足线性和方差齐性的假定条件。性和方差齐性的假定条件。散点呈现曲线趋势,提示散点呈现曲线趋势,提示资料不满足线性的假定。资料不满足线性的假定。散点随预测值的变化散点随预测值的变化而变化,提示资料不而变化,提示资料不满足方差齐性的假定。满足方差齐性的假定。散点随预测值的变化而变化散点随预测值的变化而变化且呈曲线趋势,提示资料不且呈曲线趋势,提示资料不满足线性和方差齐性的假定。满足线性和方差齐性的假定。SPSS电脑实现电脑实现3.线性和方差齐性检验结果线性和方差齐性检验结果残差散点图:残差散点图:散点均匀分布在以散点均匀分布在以0为中心,与横轴平

    33、行的带状区域为中心,与横轴平行的带状区域内,可认为基本满足线性和方差齐性的假定条件。内,可认为基本满足线性和方差齐性的假定条件。2.正态性:正态性:残差图残差图residual plot 或或正态概率图正态概率图提示残差满提示残差满足正态分布足正态分布3.独立性:独立性:应用应用残差图残差图 或或Durbin-Watson统计量统计量判断判断 Durbin-Watson统计量的取值一般在统计量的取值一般在0-4之之间,如果残差之间相互独立,则取值在间,如果残差之间相互独立,则取值在2左右,左右,如果取值接近如果取值接近0或或4,则提示不满足独立性。,则提示不满足独立性。SPSS电脑实现电脑实现

    34、M Mo od de el l S Su um mm ma ar ry yd d.808a.653.637.035801.851b.725.698.032640.887c.787.755.0293871.593Model123RR SquareAdjustedR SquareStd.Error ofthe EstimateDurbin-WatsonPredictors:(Constant),车流量(X1)a.Predictors:(Constant),车流量(X1),风速(X4)b.Predictors:(Constant),车流量(X1),风速(X4),气温(X2)c.Dependent V

    35、ariable:NO(Y)d.3.独立性检验:独立性检验:若残差之间相互独立,则取值在若残差之间相互独立,则取值在2左右左右。如果资料不满足如果资料不满足LINE的前提条件:的前提条件:1.不满足线性条件不满足线性条件 修改模型或采用曲线拟合;修改模型或采用曲线拟合;2.不满足正态性、方差齐性条件不满足正态性、方差齐性条件 变量变换:包括对数变换、平方根变换、变量变换:包括对数变换、平方根变换、倒数变换等;倒数变换等;3.不满足方差齐性:不满足方差齐性:采用其它方法估计偏回归系数。采用其它方法估计偏回归系数。11.3.3 多重共线性多重共线性在进行多重线性回归分析时,除了要满足在进行多重线性回

    36、归分析时,除了要满足LINE 外,外,还还要求各变量之间不能存在共线性,即各变量之间要求各变量之间不能存在共线性,即各变量之间要相互独立要相互独立。为此,需要进行共线性诊断;。为此,需要进行共线性诊断;当自变量均为随机变量时,若它们之间高度相关,当自变量均为随机变量时,若它们之间高度相关,则称变量间存在多重共线性则称变量间存在多重共线性(multicollinearity);自自变量之间不存在多重共线性,即称其互相独立。变量之间不存在多重共线性,即称其互相独立。例例11-2 研究胎儿受精龄研究胎儿受精龄Y/周与胎儿身长周与胎儿身长X1/cm、头围、头围 X2/cm,体重,体重X3/g之间的依存

    37、关系。之间的依存关系。321007.0159.2693.1012.11XXXY显然,此处的显然,此处的3个解释变量个解释变量X1、X2、X3 之间存在着之间存在着高度的共线性,高度的共线性,X1、X2、X3 两项对两项对Y 的过分贡献只的过分贡献只能用能用X2 项的负系数抵消,造成其专业意义无法解释项的负系数抵消,造成其专业意义无法解释而出现悖论。而出现悖论。相关系数相关系数 Correlation容忍度容忍度 Torelance方差膨胀因子方差膨胀因子 VIF条件数条件数 Condition index方差比例方差比例Variance proportions,VP 方差相关矩阵方差相关矩阵V

    38、ariance Matrix可用来判断变量可用来判断变量之间的独立性、之间的独立性、或说多重共线性或说多重共线性C Co or rr re el la at ti io on ns s1.000.808.017.279-.680.8081.000-.141.395-.568.017-.1411.000-.073.384.279.395-.0731.000-.146-.680-.568.384-.1461.000.000.468.094.000.000.255.028.002.468.255.368.032.094.028.368.247.000.002.032.247.242424242424

    39、24242424242424242424242424242424242424NO(Y)车流量(X1)气温(X2)气湿(X3)风速(X4)NO(Y)车流量(X1)气温(X2)气湿(X3)风速(X4)NO(Y)车流量(X1)气温(X2)气湿(X3)风速(X4)Pearson CorrelationSig.(1-tailed)NNO(Y)车流量(X1)气温(X2)气湿(X3)风速(X4)如果两个自变量之间的相关系数超过如果两个自变量之间的相关系数超过0.9,则会带来共,则会带来共线性问题,如果在线性问题,如果在0.8以下,一般不会出现多大问题。以下,一般不会出现多大问题。共线性诊断1.两个自变量之间

    40、的相关系数2.容忍度容忍度 Tolerance/方差膨胀因子 VIFC Co oe ef ff fi ic ci ie en nt ts sa a-.135.035-3.829.001-.209-.062.158.025.8086.432.000.107.2101.0001.000-.050.049-1.027.316-.151.051.122.027.6234.476.000.065.179.6771.477-.025.011-.325-2.338.029-.048-.003.6771.477-.142.058-2.452.024-.263-.021.116.025.5924.699.000

    41、.065.168.6701.493-.035.010-.448-3.316.003-.057-.013.5831.716.004.002.2732.430.025.001.008.8441.185(Constant)车流量(X1)(Constant)车流量(X1)风速(X4)(Constant)车流量(X1)风速(X4)气温(X2)Model123BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Lower BoundUpper Bound95%Confidence Interval for BTolera

    42、nceVIFCollinearity StatisticsDependent Variable:NO(Y)a.容忍度容忍度=1/VIF经验表明:经验表明:VIF大于大于5或或10时,存在严重的共线性;一时,存在严重的共线性;一般要求般要求Tolerance必须大于必须大于0.1,或,或 VIF必须小于必须小于10。C Co ol ll li in ne ea ar ri it ty y D Di ia ag gn no os st ti ic cs sa a1.9781.000.01.01.0229.566.99.992.7721.000.00.00.02.2173.574.00.04.48.

    43、01115.731.99.96.513.7551.000.00.00.01.00.2194.137.00.03.43.00.01814.367.02.67.54.41.00722.717.97.30.02.58Dimension121231234Model123EigenvalueConditionIndex(Constant)车流量(X1)风速(X4)气温(X2)Variance ProportionsDependent Variable:NO(Y)a.3.条件数条件数condition index/方差比例方差比例variance proportions,VP 一般地,当一般地,当条件数条

    44、件数大于大于10,且有两个以上的自变量对,且有两个以上的自变量对应的应的方差比例方差比例大于大于0.5时,可以认为这些自变量是严时,可以认为这些自变量是严重相关的。重相关的。当模型诊断发现了共线性,应如何处理?当模型诊断发现了共线性,应如何处理?删除变量:根据偏相关系数大小,去掉其中一个对删除变量:根据偏相关系数大小,去掉其中一个对因变量影响最小的自变量,或根据方差比例(因变量影响最小的自变量,或根据方差比例(VP)的大小,去掉的大小,去掉VP值大的自变量,重新作共线性检查,值大的自变量,重新作共线性检查,直至多重共线性不存在为止;直至多重共线性不存在为止;通径分析通径分析最好的方法采用主成分

    45、回归方法。最好的方法采用主成分回归方法。4.哑变量的设置哑变量的设置自变量自变量X的的数据类型数据类型数值变量数值变量分类变量分类变量二分类二分类多分类多分类有序多分类有序多分类无序多分类无序多分类等距等距不等距不等距 将有序变量或无序多分类变量转换为多个二分类变量将有序变量或无序多分类变量转换为多个二分类变量的过程称为的过程称为“哑元化哑元化”(dummying),得到的多个二分类得到的多个二分类变量称为变量称为“哑变量哑变量”(dummy variable)例:例:这种将这种将k个多项无序分类转化为个多项无序分类转化为k-1个二分类变量的过程个二分类变量的过程叫分类变量的哑变量化,主要用在

    46、多因素分析,如多重线叫分类变量的哑变量化,主要用在多因素分析,如多重线性回归、性回归、Logistic 回归分析中。回归分析中。血型血型3个哑变量个哑变量X1X2X3A100B010AB001O000参考类参考类/参考变量参考变量表表11-5 用用3个二分类的哑变量描述血型个二分类的哑变量描述血型5.交互作用交互作用n多重线线性回归中,要注意自变量间是否存在交互多重线线性回归中,要注意自变量间是否存在交互作用;作用;n可通过引入新的自变量的方法,判断两个或多个原可通过引入新的自变量的方法,判断两个或多个原自变量间是否存在交互作用;自变量间是否存在交互作用;n如果存在交互作用,在模型中应纳入交互

    47、相,在结如果存在交互作用,在模型中应纳入交互相,在结果解释时要考虑交互作用的影响。果解释时要考虑交互作用的影响。小小 结结多重线性回归用于研究一个反应变量与多个自变量之多重线性回归用于研究一个反应变量与多个自变量之间的线性依存关系,常用于筛选危险因素、控制混杂间的线性依存关系,常用于筛选危险因素、控制混杂因素、分析交互作用、预测和控制等。因素、分析交互作用、预测和控制等。其前提条件是其前提条件是LINE,常常用残差分析的方法考察资料,常常用残差分析的方法考察资料是否满足这是否满足这4个条件;如不满足,可尝试变量变换,个条件;如不满足,可尝试变量变换,或更换回归方程。或更换回归方程。其估计方程参

    48、数依据的是最小二乘法原则。其估计方程参数依据的是最小二乘法原则。偏回归系数的含义是当其他自变量的取值固定时,自偏回归系数的含义是当其他自变量的取值固定时,自变量每改变一个单位,反应变量的平均改变的单位数。变量每改变一个单位,反应变量的平均改变的单位数。原始偏回归系数用于构建回归方程,标准化偏回归系原始偏回归系数用于构建回归方程,标准化偏回归系数用于比较自变量对反应变量的贡献大小。数用于比较自变量对反应变量的贡献大小。确定系数和调整确定系数用于说明模型中自变量解确定系数和调整确定系数用于说明模型中自变量解释变量的百分比,可用来评价方程拟合效果的好坏。释变量的百分比,可用来评价方程拟合效果的好坏。

    49、复相关系数可用来说明某一个变量与多个变量的线复相关系数可用来说明某一个变量与多个变量的线性相关程度。性相关程度。变量筛选的目的是使议程尽量保留对回归贡献较大变量筛选的目的是使议程尽量保留对回归贡献较大的重要变量而排除对回归贡献小的变量,以期用尽的重要变量而排除对回归贡献小的变量,以期用尽量简洁的模型达到尽可能高的估计精度。量简洁的模型达到尽可能高的估计精度。当自变量存在较强的相关性的时候,回归模型会出当自变量存在较强的相关性的时候,回归模型会出现多重共线性的现象,使得模型参数估计不稳定或现多重共线性的现象,使得模型参数估计不稳定或不易解释。不易解释。案 例 讨 论案 例 讨 论 预测人体吸入氧

    50、气的效率。为了解和预测人体预测人体吸入氧气的效率。为了解和预测人体吸入氧气的效率,某人收集了吸入氧气的效率,某人收集了31名中年男性的健康名中年男性的健康调查资料。一共调查了调查资料。一共调查了7个指标,分别是吸氧效率个指标,分别是吸氧效率(Y,%)、年龄()、年龄(X1,岁),岁)、体重(、体重(X2,kg)、跑跑1.5km所需时间(所需时间(X3,min)、休息时的心跳频)、休息时的心跳频率(率(X4,次,次/min)、跑步时的心跳频率()、跑步时的心跳频率(X5,次,次/min)和最高心跳频率()和最高心跳频率(X6,次,次/min)。试用多)。试用多重线性回归方法建立预测人体吸氧效率的

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:医学精品课件:11-多重线性回归分析(一附院).ppt
    链接地址:https://www.163wenku.com/p-5253833.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库