多元线性回归分析课件1.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《多元线性回归分析课件1.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 线性 回归 分析 课件
- 资源描述:
-
1、多元统计分析方法多元统计分析方法The Methods of Multivariate The Methods of Multivariate Statistical AnalysisStatistical Analysis1第五章第五章 多元线性回归分析多元线性回归分析 什么是多元线性回归分析?多元线性回归分析的数学模型 多元线性回归分析的方法步骤 多元线性回归分析的逐步回归法 多元相关分析 多元线性回归分析在医学中的应用2“回归回归”的概念的概念=变量之间数量关系的拟合变量之间数量关系的拟合准确的关系近似的关系关系线性关系非线性关系简单的关系复杂的关系回归分析回归分析3回归分析的分类回归分
2、析的分类连续型因变量(y)-线性或非线性回归分析多个因变量(y1,y2yk)分类型因变量(y)-Logistic 回归分析时间序列因变量(t)-时间序列分析生存时间因变量(t)-生存风险回归分析路径分析结构方程模型分析一个因变量 y4例如:各种回归分析的比较5第一节第一节 多元线性回归分析的基本思想多元线性回归分析的基本思想多元线性回归分析:多元线性回归分析:研究一个因变量与一组自变量的依存关系,即,研究一组自变量是如何直接影响一个因变量的。6第二节第二节 多元线性回归分析的数学模型多元线性回归分析的数学模型 id x 1 x j xk y id x 1 x j xk y-1 x11 x1j
3、x1k y1 1 x11 x1j x1k y1 i x i1 x ij xik yii x i1 x ij xik yi n xn1 xnj xnk yn n xn1 xnj xnk yn数据数据:7数学模型:数学模型:其中:yi和xij是因变量y和自变量xj 的观察值;0,1k是待估计的偏回归系数偏回归系数;e i 是yi 的随机误差随机误差,且ei N(0,)。8一元线性回归分析的数学模型一元线性回归分析的数学模型模型:模型:yi=+xi +i (i=1,2n)yi=+xi +i (i=1,2n)id x y-1 x1 y1 2 x2 y2 i xi yi n xn yn。xy0。一元线性
4、回归模型一元线性回归模型(xi,yi)(xi,yi)i iy=+x91.因变量是连续随机变量;2.自变量是固定数值型变量,且相互独立;3.每一个自变量与因变量呈线性关系;4.每一个自变量与随机误差相互独立;5.观察个体的随机误差之间相互独立;6.随机误差eiN(0,)。数据的假设条件:数据的假设条件:10第三节第三节 多元线性回归分析的方法步骤多元线性回归分析的方法步骤1.估计偏回归系数b0,b1bk;2.检验回归系数b0,b1bk的统计意义;3.检验模型y=b0+b1x1+bkxk的统计意义;4.诊断模型;5.解释模型参数的实际意义。11 1 1、估计偏回归系数、估计偏回归系数最小二乘法:最
5、小二乘法:使得参差的平方和达到最小。122 2、检验参数、检验参数 t-检验法检验法:H0:j=0 vs H1:j 0 (j=1,2,k)133 3、检验模型、检验模型F-检验法:检验法:H0:1=k=0 vs H1:j014模型显著性检验的方差分析表:模型显著性检验的方差分析表:15复确定系数(multiple determinent coefficient)-它表示了因变量 y 的总体变异中被所有自变量所解释的比例。校正复确定系数 (adjusted multiple determinent coefficient)判断模型的另一个指标:判断模型的另一个指标:164 4、模型的诊断、模型的
6、诊断 (diagnosis)(diagnosis)数据应满足的假设条件(assumption):a)自变量之间不存在多重共线性;b)自变量与残差独立;c)残差 的均值为零,方差为常数;d)残差之间相互独立;e)残差服从正态分布。不满足条件导致的后果:a)结论不唯一;b)模型中缺少重要自变量;c)参数估计出现偏倚;d)结果失真;e)统计检验结果出现偏倚。17诊断自变量多重共线性的诊断自变量多重共线性的必要性必要性举例说明举例说明18多重共线性多重共线性multicollinearitymulticollinearity分析结果分析结果不稳定不稳定显著性消失显著性消失 符号错误符号错误19自变量共
7、线性引起的问题之一:自变量共线性引起的问题之一:显著性消失显著性消失例1:儿童心象面积的研究 Y:心象面积(平方厘米)X1:性别(男=1,女=2)X2:年龄(月)X3:身高(厘米)X4:体重(公斤)X5:胸围(厘米)20例例1 1的相关系数表的相关系数表 心象 性别 年龄 身高 体重 胸围 y x1 x2 x3 x4 x5 性别 -0.08 1.00 年龄 0.87 -0.06 1.00 身高 0.93 0.00 0.86 1.00 体重 0.91 -0.02 0.89 0.95 1.00 胸围 0.89 -0.08 0.86 0.91 0.97 1.00Multicollinearity!M
8、ulticollinearity!21例例1 1 的回归分析结果:的回归分析结果:模型总体检验:p=0.0002,R-sq=0.95参数估计和检验Var DF Est SE T Prob|T|Int 1 54.58 124.3 0.439 0.6737X1 1 -7.76 8.07 -0.962 0.3679X2 1 0.12 0.18 0.672 0.5231X3 1 0.29 0.42 0.693 0.5104X4 1 1.12 2.26 0.497 0.6343X5 1 -0.94 2.33 -0.404 0.6985Non-significant!Non-significant!22自
9、变量共线性引起的问题之二:自变量共线性引起的问题之二:符号错误符号错误 例2:吸氧效率的研究 Y:吸氧效率X1:年龄X2:跑1.5公里所需的时间(分钟)X3:跑步时的心跳率X4:最高心跳率23例例2 2的相关系数表的相关系数表 吸氧 年龄 跑步 跑步 最高 效率 时间 心跳率 心跳率 y X1 X2 X3 X4X1 -0.20 1.00 X2 -0.80 -0.15 1.00X3 -0.49 -0.32 0.36 1.00X4 -0.37 -0.42 0.28 0.930.93 1.00Negative correlatedNegative correlatedHigh correlatedH
10、igh correlated24 皮肌炎是一种引起皮肤、肌肉、心、肺、肾等多脏器严重损害的,全身性疾病,而且不少患者同时伴有恶性肿瘤。它的1症状表现如下:1、早期皮肌炎患者,还往往伴有全身不适症状,如-全身肌肉酸痛,软弱无力,上楼梯时感觉两腿费力;举手梳理头发时,举高手臂很吃力;抬头转头缓慢而费力。皮肌炎图片皮肌炎的症状表现例例2 2的分析结果:的分析结果:模型总体检验:p=0.0001,R-sq=0.85参数估计和检验Var DF Est SE T Prob|T|int 1 96.61 12.2 7.91 0.0001X1 1 -0.19 0.09 -1.99 0.0574 X2 1 -2.
11、88 0.35 -8.14 0.0001 X3 1 -0.34 0.12 -2.95 0.0068X4 1 0.280.28 0.13 2.06 0.0493 Error Error SignSign265 5、模型参数的意义解释、模型参数的意义解释其中,b0,b1,bk 是偏回归系数0,1,.,k 的估计值。bj 表示了当其它自变量不变时,xj 改变一个单位所引起的 y 的改变量。例如,b 1=0.25表示当其它自变量不变时,自变量 x 1每增加一个单位,因变量 y 将增加0.25个单位。27 标准偏回归系数估计值及其作用:标准偏回归系数估计值及其作用:标准偏回归系数消除了量纲的影响,可以相
12、互比较,用来判断自变量对因变量的影响强弱。同一模型中对参数估计值进行大小比较,绝对值大的b j 对应的自变量 x j 对因变量 y 的影响大,或者说,与因变量 y 的关联性强。28多元线性回归分析的用多元线性回归分析的用SASSAS程序程序data d;input id x1-x3 y;cards;11.0 2.3 3.4 10 22.1 2.5 3.8 1533.2 3.3 3.8 2044.2 3.9 4.2 2254.8 4.2 5.0 28run;多元线性回归分析proc reg data=d;model y=x1-x3/stb;run;建立SAS数据集其中,stb指令系统输出标准偏回
13、归系数。29Dependent Variable:YAnalysis of Variance Sum of MeanSource DF Squares Square F Value ProbFModel 3 184.743 61.581 18.912 0.1671Error 1 3.256 3.256C Total 4 188.000 Root MSE 1.80452 R-square 0.9827 Dep Mean 19.00000 Adj R-sq 0.9307 C.V.9.49746Parameter Estimates Parameter Standard T for H0:Prob
14、StdVariable DF Estimate Error Paramet=0|T|EstimateINTERCEP 1 -1.74371 14.76037 -0.118 0.925 0.0000X1 1 3.86934 3.68701 1.049 0.484 0.8703X2 1 -1.10552 6.34159 -0.174 0.890 -0.1347X3 1 3.09045 3.41622 0.905 0.531 0.2734 输出结果30判断一个模型是否是一个最优模型,既要考虑总体模型的检验结果,还要考虑每一个参数的检验结果,并且要将两者结合起来。统计意义上的最优模型应当满足两点:统计
15、上有显著性意义(p0.05)的x j 都含在模型中;统计上无显著性意义(p0.05)的x j 都不含在模型中。当自变量较多时,获得最优模型的方法一般采用逐步回归的方法,即依次分析所有可能的模型,逐步地达到最优模型的条件。常用的有三种逐步回归法:第四节第四节 多元线性回归分析的逐步回归法多元线性回归分析的逐步回归法311 1、向前选择法、向前选择法 (forward selection)(forward selection)从仅含有常数项的最小模型开始,逐步在模型中添加x变量,直到没有满足要求的自 变量为止。向模型中添加变量的方法是:对模型外的每一个自变量x j,计算出当它进入模型后引起的回归平
16、方和的增加量以及对应的F-值和p-值,然后将具有最大F-值,且p-值不超过进入允许水平(entry level)的自变量x j 添加到模型中去。进入允许水平可以任意设定,一般小于0.50。这里所说的F-值指的是检验自变量x j 对模型的贡献是否有统计意义的统计量:322 2、向后消去法、向后消去法 (backward elimination)(backward elimination)从含有常数项和所有k个自变量的最大模型开始,逐步从模型中消去x变量,直到没有满足要求的自变量为止。从模型中消去变量的方法是:对模型里的每一个自 变量x j,计算出当它退出模型后引起的回归平方和的减少量以及对应的F
17、-值和p-值,然后将具有最小F-值,且p-值超过停留允许水平(stay level)的自变量x j 从模型中消去。停留允许水平也可以任意定义,一般小于0.10。这里所说的F-值和上面的一致。333 3、逐步过程法、逐步过程法 (stepwise procedure)(stepwise procedure)从仅含有常数项的最小模型开始,逐步在模型中添加或消去x 变量,直到模型外的所有x变量都不满足进入允许水平的要求,而且模型内的所有x变量都满足停留允许水平的要求为止。在模型中添加x变量的方法和向前选择法相同,从模型中消去x变量的方法和向后消去法相同。添加和消去x变量的顺序原则是,在每添加一个新的
18、x变量之前,首先用向后消去法原则消去模型内所有超出停留允许水平的x 变量,然后用向前选择法原则在模型中添加一个新的x变量。逐步过程法和向前选择法的不同之处是,已经进入模型的x变量还可以再次从模型中退出;逐步过程法和向后消去法的不同之处是,已经从模型中消去的x变量还可以再次进入模型中。34决定模型好坏的常用指标有三个:检验总体模型的p-值,确定系数R2值和检验每一个回归系数bj 的p-值。这三个指标都是样本数n、模型中参数的个数k的函数。样本量增大或参数的个数增多,都可以引起p-值和R2值的变化。但由于受到自由度的影响,这些变化是复杂的。判断一个模型是否是一个最优模型,除了评估各种统计检验指标外
19、,还要结合专业知识全面权衡各个指标变量系数的实际意义,如符号,数值大小等。对于比较重要的自变量,它的留舍和进入模型的顺序要倍加小心。决定模型好坏的常用指标和注意事项:决定模型好坏的常用指标和注意事项:35第六节第六节 多元线性回归分析应用实例多元线性回归分析应用实例 例:为了了解和预测人体吸入氧气的效率,收集了30名中年男性的健康状况调查资料。共调查了7个指标,它们是:吸氧的效率(y),年龄(x1),体重(x2),跑1.5公里所需的时间(x3)-以分钟计算,休息时的心跳次数(x4),跑步时的心跳率(x5),和最高心跳率(x6)。该问题中吸氧的效率(y)是因变量,其余6个变量是自变量。试用多元回
20、归分析建立预测人体吸氧效率的模型。361)建立SAS数据集data eg5_1;input y x1-x6;cards;44.609 44 89.47 11.37 62 178 182 47.467 52 82.78 10.50 53 170 172run;2)检验自变量的共线性proc reg data=eg5_1;model y=x1-x6/collin;run;37Collinearity DiagnosticsCollinearity Diagnostics Eigen Eigen Condition Condition VarProp VarProp VarProp VarProp
21、VarProp VarProp VarProp VarProp VarProp VarProp VarProp VarProp VarPropVarPropNo value No value IndexIndex intercp X1 X2 X3 X4 intercp X1 X2 X3 X4 X5 X5 X6X61 6.949 1.00000 0.0000 0.0002 0.0002 0.0002 0.0003 0.0000 1 6.949 1.00000 0.0000 0.0002 0.0002 0.0002 0.0003 0.0000 0.00000.00002 0.019 19.0159
22、 0.0019 0.1750 0.0052 0.0219 0.3516 0.0000 2 0.019 19.0159 0.0019 0.1750 0.0052 0.0219 0.3516 0.0000 0.00000.00003 0.015 21.4484 0.0008 0.1372 0.2425 0.1318 0.0498 0.0012 3 0.015 21.4484 0.0008 0.1372 0.2425 0.1318 0.0498 0.0012 0.00130.00134 0.009 27.5487 0.0059 0.0302 0.1685 0.6315 0.2075 0.0014 4
23、 0.009 27.5487 0.0059 0.0302 0.1685 0.6315 0.2075 0.0014 0.00120.00125 0.006 33.6343 0.0018 0.1058 0.4627 0.1145 0.3647 0.0147 5 0.006 33.6343 0.0018 0.1058 0.4627 0.1145 0.3647 0.0147 0.00820.00826 0.001 81.8075 0.7853 0.4776 0.0987 0.0858 0.0195 0.0703 6 0.001 81.8075 0.7853 0.4776 0.0987 0.0858 0
24、.0195 0.0703 0.00530.00537 0.000 7 0.000 197.952197.952 0.2043 0.0742 0.0222 0.0143 0.0066 0.2043 0.0742 0.0222 0.0143 0.0066 0.9125 0.9125 0.98400.9840自变量的共线性诊断结果:383)用逐步回归法拟合y在x1-x5上的线性回归模型proc reg data=eg5_1;model y=x1-x5/selection=stepwise stb;run;39Dependent Variable:YDependent Variable:YAnalys
25、is of VarianceAnalysis of Variance Sum of Mean Sum of MeanSource DF Squares Square F Value ProbFSource DF Squares Square F Value ProbFModel 3 698.41906 232.80635 41.094 0.0001Model 3 698.41906 232.80635 41.094 0.0001Error 27 152.96249 5.66528Error 27 152.96249 5.66528C Total 30 851.38154C Total 30 8
展开阅读全文