医学精品课件:11-多重线性回归分析(一附院).ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《医学精品课件:11-多重线性回归分析(一附院).ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 精品 课件 11 多重 线性 回归 分析 一附院
- 资源描述:
-
1、11 11 多重线性回归分析多重线性回归分析n身高身高:不仅受到:不仅受到遗传因素遗传因素的影响,而且还受到的影响,而且还受到营养状营养状况况、体育锻炼情况体育锻炼情况、居住环境因素居住环境因素的作用;的作用;n血压血压:除了与:除了与年龄年龄有关外,还与有关外,还与家族史家族史、饮食习惯饮食习惯、劳动强度劳动强度等因素有关。等因素有关。生物医学研究领域中多因素相互作用现象非常普遍生物医学研究领域中多因素相互作用现象非常普遍问题:问题:在影响疾病众多因素中,哪些是主要因素?在影响疾病众多因素中,哪些是主要因素?各个因素作用有多大?各个因素作用有多大?由于涉及到的自变量由于涉及到的自变量 X 的
2、增多,变量间的关系的增多,变量间的关系变的复杂变的复杂?多重线性回归:多重线性回归:是研究一个因变量和多个自变量是研究一个因变量和多个自变量之间线性关系的统计学分析方法。之间线性关系的统计学分析方法。目的目的:用回归方程的方式定量地描述一个因变量用回归方程的方式定量地描述一个因变量Y 和和多个自变量多个自变量X1、X2、X3、Xp 之间之间 的线性依存关的线性依存关系系。回归分析回归分析1个因变量个因变量Y1个自变量个自变量X 2个以上自变量个以上自变量XY是数值是数值变量变量Y是分类是分类型变量型变量两个因变量两个因变量(结局分类变量(结局分类变量+时间)时间)生存分析生存分析Cox回归回归
3、简单回归简单回归Simple regression Logistic 回归回归Logistic regression 多重回归多重回归Multiple regression 常用的回归分析中分类:常用的回归分析中分类:曲线回归线性回归线性回归 自变量自变量X 因变量因变量Y 统计方法统计方法单因单果单因单果1个个1个个简单线性相关简单线性相关simple linear correlation简单线性回归简单线性回归simple linear regression多因单果多因单果多个多个1个个多重相关多重相关multiple correlation多重回归多重回归multiple regress
4、ion多因多果多因多果多个多个多个多个典则相关典则相关cononical correlation多元回归多元回归multivariate regression单因单果单因单果(扣除其它变量影响扣除其它变量影响)1个个1个个部分偏相关部分偏相关partial correlation概念区分:概念区分:11.1 11.1 多重线性回归的概述多重线性回归的概述例例12-1:试对大气污染一氧化氮(:试对大气污染一氧化氮(NO)的浓度和汽)的浓度和汽车流量、气温、气湿、风速等的关系进行回归分析。车流量、气温、气湿、风速等的关系进行回归分析。n 车流量、气温、气湿、风速车流量、气温、气湿、风速4因素是否都
5、对空气中因素是否都对空气中NO的浓度有影响?的浓度有影响?n 如何定量地描述这种影响?如何定量地描述这种影响?n 哪个因素对哪个因素对NO的影响最大?哪个因素影响的最小?的影响最大?哪个因素影响的最小?n 如何利用这些影响因素去预测空气中如何利用这些影响因素去预测空气中NO的浓度?如的浓度?如何预测?效果如何?何预测?效果如何?n 如果想在控制气温、气湿和风速的条件下,如何定如果想在控制气温、气湿和风速的条件下,如何定量地描述量地描述NO浓度与车流量的关系?浓度与车流量的关系?多重线性回归多重线性回归拟回答以下问题:拟回答以下问题:1.多重线性回归适用条件多重线性回归适用条件u仅适用于仅适用于
6、1个应变量个应变量 y和和多个自变量多个自变量 x。u要求要求1个应变量个应变量 y和和该组因变量该组因变量 x 间满足间满足线性线性、独立性独立性、正态性正态性、方差齐性方差齐性的要求。的要求。u注意样本中的极端值,必要时可剔除或进行变注意样本中的极端值,必要时可剔除或进行变量变换。量变换。多重线性回归多重线性回归(multiple linar regression)称称 为为y 的预测值,指对于某个确定的预测值,指对于某个确定x的群体,的群体,y 平平均值的估计。均值的估计。b0:常数项常数项(constant),截距,截距(intercept);即所有自变;即所有自变量量x 取值均为取值
7、均为0时,时,y的平均估计值。的平均估计值。bi:变量:变量xi的偏回归系数的偏回归系数(partial regression coefficient),是总体参数是总体参数i 的估计值;的估计值;指在方程中其它自变量固定指在方程中其它自变量固定不变的情况下,不变的情况下,xi 每增加或减少一个计量单位,反应每增加或减少一个计量单位,反应变量变量Y 平均变化平均变化 bi个单位。个单位。2.模型的基本结构:模型的基本结构:ppXbXbXbbY.22110ppYXXX.22110回归系数的标准化:回归系数的标准化:问题:对问题:对NO浓度的贡献,哪个因素作用的大一点,浓度的贡献,哪个因素作用的大
8、一点,哪个小一些?哪个小一些?2.求求标准化偏回归系数标准化偏回归系数:用标准化的数据进行回归模型的拟合,算出它的方程,用标准化的数据进行回归模型的拟合,算出它的方程,此时所获得的偏回归系数此时所获得的偏回归系数b,叫叫。iiiiSXXX1.自变量数据的标准化:自变量数据的标准化:ppXbXbXbbY.22110b无单位,可用来比较各个自变量对反应变量的贡献大小无单位,可用来比较各个自变量对反应变量的贡献大小n未标准化的回归系数未标准化的回归系数(偏回归系数):用来构建回归(偏回归系数):用来构建回归方程,即方程中各自变量的斜率。方程,即方程中各自变量的斜率。n标准化的回归系数标准化的回归系数
9、:用于综合评价各解释变量对因变:用于综合评价各解释变量对因变量量Y的贡献大小,标准化的回归系数越大,说明的贡献大小,标准化的回归系数越大,说明X对对Y 的影响幅度越大。的影响幅度越大。比较:比较:3.多重线性回归分析的基本步骤:多重线性回归分析的基本步骤:估计估计b0、b1、b2、bP最小二乘法最小二乘法回归方程和系数回归方程和系数 的假设检验的假设检验列出回归方程,统计应用列出回归方程,统计应用方差分析和方差分析和 t 检验检验ppXbXbXbbY.22110预测和控制、影响因素分析预测和控制、影响因素分析关联趋势的图形考察关联趋势的图形考察u确定变量筛选的方法确定变量筛选的方法u数据预处理
10、:强影响点用多重共线性数据预处理:强影响点用多重共线性u模型诊断:残差分析是否适合该模型(模型诊断:残差分析是否适合该模型(Line)建模准备建模准备散点图、散点图矩阵、散点图、散点图矩阵、重叠重叠/三维散点图三维散点图回归参数的估计:回归参数的估计:最小二乘估计最小二乘估计(least square estimation)两个自变量时回归平面示意图两个自变量时回归平面示意图v用最小二乘法拟合直用最小二乘法拟合直线,使得线,使得反应变量观测反应变量观测值值Yi与与回归方程求得估回归方程求得估计值计值 之间的之间的残差残差(样(样本点到直线的垂直距离本点到直线的垂直距离)平方和平方和达到最小。达
11、到最小。.Y 通过通过SPSS等统计软件等统计软件,拟合,拟合X1、X2、X3、X4关于空关于空气中气中NO浓度的多重线性回归方程,得:浓度的多重线性回归方程,得:43621035.01055.6004.0116.0142.0XXXXY 还需要解决的三个问题:还需要解决的三个问题:n就总体而言,这种回归关系是否存在?即总体回归方程就总体而言,这种回归关系是否存在?即总体回归方程是否成立?是否成立?n回归方程的效果如何?也即这四个变量能解释反应变量回归方程的效果如何?也即这四个变量能解释反应变量Y的百分比是多少?的百分比是多少?n四个自变量是否对反应变量四个自变量是否对反应变量Y的影响都有意义?
12、的影响都有意义?统计推断统计推断假设检验假设检验假设检验假设检验回归方程的假设检验回归方程的假设检验(model test):):回归系数的假设检验:回归系数的假设检验:目的:检验求得的回归方程在总体中是目的:检验求得的回归方程在总体中是否成立,即是否至少有一个否成立,即是否至少有一个i 0;方法:单因素方差分析。方法:单因素方差分析。目的:即检验各个偏回归体系数目的:即检验各个偏回归体系数i是是否为否为0;方法:方法:t 检验。检验。统计推断:统计推断:(1)回归方程的假设检验:回归方程的假设检验:总的来说,若该回归方程成立,则这些回归系数里总的来说,若该回归方程成立,则这些回归系数里面至少
13、有一个不为面至少有一个不为0,只要有一个不为,只要有一个不为0,这个方程,这个方程来说总的就是成立的。来说总的就是成立的。ppXbXbXbbY.22110H0:1=2=3=i=0H1:至少有一个:至少有一个 i 0(2)对各个回归系数进行假设检验)对各个回归系数进行假设检验 问题:问题:通过假设检验方程总的来说成立,通过假设检验方程总的来说成立,1.即至少有即至少有1个个i 不为不为0,但到底哪些为,但到底哪些为0,哪些不为,哪些不为0?2.再者,即使总体回归系数为零,也可能得到样本再者,即使总体回归系数为零,也可能得到样本 偏回归系数不为偏回归系数不为0的情况。的情况。方法:方法:t 检验检
14、验回归方程的解释回归方程的解释:这这3个因素对空气中个因素对空气中NO浓度浓度(污染污染)的影响有多大?的影响有多大?1.确定系数确定系数(coefficient of determination,R2)2.复相关系数复相关系数(multiple correlation coefficient,R)1.确定系数确定系数(coefficient of determination,R2)或或决定决定系数系数:回归平方和与总平方和之比。回归平方和与总平方和之比。u反映了一组自变量反映了一组自变量X对回归效果的贡献,即对回归效果的贡献,即Y 的总变异的总变异中回归关系所能解释的百分比(中回归关系所能解
15、释的百分比(variance account formula,VAF););u反映了回归模型的拟合效果,可作为反应拟合优度反映了回归模型的拟合效果,可作为反应拟合优度(goodness of fit)的指标)的指标。本题:本题:787.0081.0064.02总回归SSSSR总残差总回归SSSSSSSSR122.复相关系数复相关系数(multiple correlation coefficient,R)定义:为确定系数定义:为确定系数R2的算术平方根。的算术平方根。u反映了随机变量反映了随机变量Y与一组自变量与一组自变量X对(对(X1,X2,Xp)之间的线性相关程度,即之间的线性相关程度,即Y
16、 和该组自变量的密切程度。和该组自变量的密切程度。本题:本题:887.0787.0总回归SSSSR总回归SSSSR【电脑实现电脑实现】SPSS1.数据录入数据录入多重线性回归分析:多重线性回归分析:2.SPSS过程过程【Method】(自变量的选入方法)(自变量的选入方法)1.Enter(强行进入法)(强行进入法)2.Stepwise(逐步法)(逐步法)3.Remove(强制剔除法)(强制剔除法)4.Backward(向后法)(向后法)5.Forward(向前法)(向前法)自变量筛选方法的选择:自变量筛选方法的选择:【Statistics】Regression Coefficients:回归系
17、数:回归系数nEstimate:非标准化及标准化回归系数:非标准化及标准化回归系数、标准误,及其显、标准误,及其显著性检验结果(著性检验结果(t值和值和P值)。值)。nConfidence intervals:非标准化回归系数的:非标准化回归系数的95%可信区间。可信区间。nModel fit:模型拟合优度检验,给出复相关系数:模型拟合优度检验,给出复相关系数R,决定系,决定系数数R2,调整,调整R2及方差分析结果及方差分析结果 nR squared change:每剔出或引入一个自变量所引趋同的:每剔出或引入一个自变量所引趋同的R2的变化量及相应的的变化量及相应的F值和值和P值。值。nDes
18、criptives:输出每个变量的均数、标准差,样本容量,:输出每个变量的均数、标准差,样本容量,相关系数及单侧检验相关系数及单侧检验P值的矩阵。值的矩阵。nPart and partial correlations:简单相关系数及偏相关系数。:简单相关系数及偏相关系数。nCollinearity diagnostics:输出共线性诊断的统计量。:输出共线性诊断的统计量。Residuals:用于选择输出残差诊断的信息:用于选择输出残差诊断的信息All cases:给出所:给出所有观察单位的残差、标准化残差和预测值。有观察单位的残差、标准化残差和预测值。3.结果及结果输出:结果及结果输出:决定系
19、数越大,说明构建的回归方程越好 Enter:强制引入法:强制引入法 未标准化的未标准化的 回归系数及标准误回归系数及标准误回归系数回归系数的的t t检验检验标准化的标准化的回归系数回归系数4321035.0000006.0004.0116.0142.0 xxxxy11.2 11.2 自变量筛选自变量筛选收集资料时,涉收集资料时,涉及的自变量很多及的自变量很多n有些可能存在较大的测量误差;有些可能存在较大的测量误差;利用利用自变量筛选自变量筛选的准则和方法,产生的准则和方法,产生“最优变量最优变量”子集,从而建立子集,从而建立预测效果的最优模型预测效果的最优模型。n有些自变量对反应变量无影响或影
20、有些自变量对反应变量无影响或影响甚微;响甚微;n有的变量可能与其它的自变量存在有的变量可能与其它的自变量存在高度的相关性高度的相关性共线性共线性1:设为入选标准;:设为入选标准;2设为剔除标准设为剔除标准自变量筛选的常用方法:自变量筛选的常用方法:后退法(后退法(backward regression)前进法前进法(forward regression)逐步法逐步法(stepwise regression)最优子集回归法最优子集回归法(optimun subsets regression)【Method】(自变量的选入方法)(自变量的选入方法)1.Enter(强行进入法)(强行进入法)2.St
21、epwise(逐步法(逐步法)3.Remove(强制剔除法)(强制剔除法)4.Backward(向后法)(向后法)5.Forward(向前法)(向前法)自变量筛选方法的选择:自变量筛选方法的选择:M Mo od de el l S Su um mm ma ar ry yd d.808a.653.637.035801.851b.725.698.032640.887c.787.755.0293871.593Model123RR SquareAdjustedR SquareStd.Error ofthe EstimateDurbin-WatsonPredictors:(Constant),车流量(X
22、1)a.Predictors:(Constant),车流量(X1),风速(X4)b.Predictors:(Constant),车流量(X1),风速(X4),气温(X2)c.Dependent Variable:NO(Y)d.3.结果及结果输出:结果及结果输出:决定系数越大,说明构建的回归方程越好。STEPWISE:逐步回归方程的决定系数:逐步回归方程的决定系数A AN NO OV VA Ad d.0531.05341.376.000a.02822.001.08123.0592.02927.623.000b.02221.001.08123.0643.02124.687.000c.01720.0
23、01.08123RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel123Sum ofSquaresdfMean SquareFSig.Predictors:(Constant),车流量(X1)a.Predictors:(Constant),车流量(X1),风速(X4)b.Predictors:(Constant),车流量(X1),风速(X4),气温(X2)c.Dependent Variable:NO(Y)d.STEPWISE:逐步回归方程的方差分析表:逐步回归方程的方差分析表C Co oe ef
24、 ff fi ic ci ie en nt ts sa a-.135.035-3.829.001-.209-.062.158.025.8086.432.000.107.210-.050.049-1.027.316-.151.051.122.027.6234.476.000.065.179-.025.011-.325-2.338.029-.048-.003-.142.058-2.452.024-.263-.021.116.025.5924.699.000.065.168-.035.010-.448-3.316.003-.057-.013.004.002.2732.430.025.001.008(
25、Constant)车流量(X1)(Constant)车流量(X1)风速(X4)(Constant)车流量(X1)风速(X4)气温(X2)Model123BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Lower BoundUpper Bound95%Confidence Interval for BDependent Variable:NO(Y)a.未标准化的未标准化的 回归系数及标准误回归系数及标准误回归系数回归系数的的t t检验检验标准化的标准化的回归系数回归系数 STEPWISE:逐步回归方程的参数
展开阅读全文