多元线性回归课件.ppt

上传人（卖家）：晟晟文业

文档编号：5090590

上传时间：2023-02-10

格式：PPT

页数：35

大小：79.50KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《多元线性回归课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 多元线性回归课件

资源描述：: 1、多元线性回归多元线性回归是简单线性回归的直接推广，其包含一个因变量和二个或二个以上的自变量。简单线性回归是研究一个因变量（Y）和一个自变量（X）之间数量上相互依存的线性关系。而多元线性回归是研究一个因变量（Y）和多个自变量（Xi）之间数量上相互依存的线性关系。简单线性回归的大部分内容可用于多元回归，因其基本概念是一样的。内容安排多元线性回归模型与参数估计回归方程和偏回归系数的假设检验标准化偏回归系数和确定系数多元回归分析中的若干问题回归分析中自变量的选择多元线性回归分析的作用多元线性回归模型与参数估计设有自变量x1,x2,xp和因变量Y以及一份由n个个体构成的随机样本(x1i,x2i,xp
2、i,，Yi），且有如下关系：y=B0+B1x1+B2x2+Bp xp+(模型）B0、B1、B2和Bp为待估参数，为残差。由一组样本数据，可求出等估参数的估计值b0、b1、b2和bp,，得到如下回归方程：i=b0+b1x1+b2x2+bp xp 由此可见，建立回归方程的过程就是对回归模型中的参数（常数项和偏回归系数）进行估计的过程。参数的最小二乘估计与简单回归类似，我们寻求参数B0、B1、B2和Bp的适宜估计数值b0、b1、b2和bp,，使实际观察值和回归方程估计值之间残差平方和最小，即 Q(yi i)2 =(yi b0b1x1ib2x2ibp xp i)2 对b0、b1、bp分别求偏导数，今
3、偏导数为零可获得P1个正规方程，求解正规方程可得待估参数值。回归方程和偏回归系数的假设检验回归方程的假设检验：建立回归方程后，须分析应变量Y与这p个自变量之间是否确有线性回归关系，可用F分析。H0：B1B2.=Bp=0 H1：H0不正确 0.05 F MS回归 /MS误差 MS回归 SS回归p SS回归=bjLjy (j=1,2.,P)MS误差 SS误差(n-p-1)SS误差为残差平方和偏回归系数的假设检验回归方程的假设检验若拒绝H0，则可分别对每一个偏回归系数bj作统计检验，实质是考察在固定其它变量后，该变量对应变量 Y 的影响有无显著性。H0：Bj=0 H1：Bj不为零 0.05 F
4、（Xj 的偏回归平方和1）/MS误差 Xj 的偏回归平方和：去Xj后回归平方和的减少量若H0成立，可把Xj从回归方程中剔除，余下变量重新构建新的方程。标准化偏回归系数和确定系数标准化偏回归系数：在比较各自变量对应变量相对贡献大小时，由于各自变量的单位不同，不能直接用偏回归系数的大小作比较，须用标准化偏回归系数。bj =bj(sj/sy)确定系数：简记为R2，即回归平方和SS回归与总离均差平方和SS总的比例。R2 SS回归 SS总可用来定量评价在Y的总变异中，由P个X变量建立的线性回归方程所能解释的比例。回归分析中的若干问题资料要求：总体服从多元正态分布。但实际工作中分类变量也做分析。n
5、足够大，至少应是自变量个数的5倍分类变量在回归分析中的处理方法有序分类：治疗效果：x=0(无效)x=1(有效)x=2(控制)无序分类：有k类，则用k1变量（伪变量）如职业,分四类可用三个伪变量：y1 y2 y3 工人 1 0 0 农民 0 1 0 干部 0 0 1 学生 0 0 0 多元线性回归方程的评价评价回归方程的优劣、好坏可用确定系数R2和剩余标准差Sy,x1,2.p 。Sy,x1,2.p SQRT（SS误差n-p-1）如用于预测，重要的是组外回代结果。回归方程中自变量的选择多元线性回归方程中并非自变量越多越好，原因是自变量越多剩余标准差可能变大；同时也增加收集资料的难度。故需寻
6、求“最佳”回归方程，逐步回归分析是寻求“较佳”回归方程的一种方法。选择变量的统计学标准 R2最大 R2 SS回归 SS总 adjR2最大：adjR21MS误差/MS总 Cp值最小 Cp（n-p-1)(MS误差.p/MS误差.全部1）（p+1)选择变量的方法最优子集回归分析法：p个变量有2p1个方程逐步回归分析向前引入法(forward selection)向后剔除法(backward selection)逐步引入剔除法(stepwise selection)H0：K个自变量为好 H1：K1个自变量为好向前引入法（forward selection)自变量由少到多一个一个引入回归方程。将
7、 corr(y ,xj)最大而又能拒绝H0者，最先引入方程，余此类推。至不能再拒绝H0为止。向后剔除法（backward selection)自变量先全部选入方程，每次剔除一个使上述检验最不能拒绝H0者，直到不能剔除为止。逐步引入剔除法（stepwise selection)先规定两个阀值F引入和F剔除，当候选变量中最大F值F引入时，引入相应变量；已进入方程的变量最小FF剔除时，剔除相应变量。如此交替进行直到无引入和无剔除为止。（计算复杂）多元线性回归方程的作用因素分析调整混杂因素的作用统计预测例：测量16名四岁男孩心脏纵径X1（CM）、心脏横径X2（CM）和心象面积Y（CM2）三项指标
8、，得如下数据。试作象面积Y对心脏纵径X1、心脏横径X2多元线性回归分析。例：某科研协作组调查山西某煤矿2期高血压病患者40例，资料如下表，试进行影响煤矿工人2期高血压病病人收缩压的多元线性回归分析。Logistic回归多元回归分析可用来分析多个自变量与一个因变量的关系，模型中因变量Y是边连续性随机变量，并要求呈正态分布。但在医学研究中，常碰到因变量的取值仅有两个，如药物实验中，动物出现死亡或生存，死亡概率与药物剂量有关。设P表示死亡概率，X表示药物剂量，P和X的关系显然不能用一般线性回归模型PB0B1X来表示。这时可用Logistic回归分析。内容安排 Logistic回归模型模型参数的意
9、义 Logistic回归模型的参数估计 Logistic回归方程的假设检验 Logistic回归模型中自变量的筛选 Logistic回归的应用 Logistic回归模型先引入Logistic分布函数，表达式为：F（x)=ex/(1+ex)X的取值在正负无穷大之间；F(x)则在01之间取值，并呈单调上升S型曲线。人们正是利用Logistic分布函数这一特征，将其应用到临床医学和流行病学中来描述事件发生的概率。以因变量D1表示死亡，D0表示生存，以P（D1X）表示暴露于药物剂量X的动物死亡的概率，设 P（D1X）e Bo+BX/(1+e Bo+BX)记Logit(P)=lnp/(1-p),则上式
10、可表示为：Logit(P)Bo+BX 这里X的取值仍是任意的，Logit(P)的值亦在正负无穷大之间，概率P的数值则必然在01之间。p/(1-p)为事件的优势，Logit(P)为对数优势，故logistic回归又称对数优势线性回归一般地，设某事件D发生（D1）的概率P依赖于多个自变量（x1,x2,xp)，且 P（D1）e Bo+B1X1+BpXp/(1+e Bo+B1X1+BpXp)或 Logit(P)Bo+B1X1+Bp X p则称该事件发生的概率与变量间关系符合多元Logistic回归或对数优势线性回归。logistic回归模型参数的意义优势比（odds ratio,OR)：暴露人群发
11、病优势与非暴露人群发病优势之比。P(1)/1-p(1)OR=P(0)/1-p(0)Ln(oR)=logitp(1)-logitp(0)=(B0+B1)(B0+B0)=B 可见B是暴露剂量增加一个单位所引起的对数优势的增量，或单位暴露剂量与零剂量死亡优势比的对数。eB就是两剂量死亡优势比。常数项B0是所有变量X等于零时事件发生优势的对数。Logistic回归的参数估计 Logistic回归模型的参数估计常用最大似然法，最大似然法的基本思想是先建立似然函数或对数似然函数，似然函数或对数似然函数达到极大时参数的取值，即为参数的最大似然估计值。其步骤为对对数似然函数中的待估参数分别求一阶偏导数，令其为
12、0得一方程组，然后求解。由于似然函数的偏导数为非线性函数，参数估计需用非线性方程组的数值法求解。常用的数值法为Newton-Raphson法。不同研究的设计方案不同，其似然函数的构造略有差别，故Logistic回归有非条件Logistic回归与条件Logistic回归两种。Logistic回归的假设检验1、拟合优度检验：目的是检验模型估计值与实际观察值的符合程度。SAS程序提供了下列统计量。A、AIC和SC：对同一份资料，在模型比较中，这两个越小，表明模型越合适。B、2LogL：用于检验全部自变量（协变量）的联合作用。如显著，表明全部协变量的联合作用显著；如不显著，表明全部协变量的联合作用不大
13、，可予忽视。C、Score：用于检验全部协变量联合作用的显著性，但不包截距项。2、偏回归系数的显著性检验：目的是检验回归模型中自变量的系数是否为零，等价于总体优势比OR是否为零。H0：B等于零 H1：B不等于零A、wald检验：B、Score test:C、likelihood ratio test(wald chi-square test):回归模型中自变量的筛选和多元线性回归分析一样，在Logistic回归分析中也须对自变量进行筛选。方法和多元线性回归中采用的方法一样，有向后剔除法、向前引入法及逐步筛选法三种。筛选自变量的方法有wald检验、Score test、likelihood r
14、atio test(wald chi-square test)三种。Logistic 回归的应用筛选危险因素校正混杂因素预测与判别例1：在饮酒与食道癌的成组病例对照研究中，共有200例食道癌患者和774例非食道癌对照，年龄是混杂因素，按年龄分层后资料如下：age 对象（1=病例 0=对照）饮酒不饮酒合计 OR 2534 1 1 0 1 0 9 106 115 35-44 1 4 5 9 5.05 0 26 164 19045-54 1 25 21 46 5.67 0 29 138 16755-64 1 42 34 76 6.36 0 27 138 16565-74 1 19 36 5
15、5 2.58 0 18 88 10675-1 5 8 13 0 0 31 31 例2：研究女生月经初潮与体质关系的调查中，某地调查了23名1115岁女生的月经和体质情况，脉搏X1为30秒脉搏数，体重X2单位为公斤，年龄X3单位为岁。月经Y为0表示未来月经，1表示已来月经。试用非条件Logistic 回归进行分析。（X1=40 X2=40 X3=13 p=0.92;X1=39 X2=35 X3=11 p=0.23)例3：在研究新生儿出生时体重、妊娠周数与支气管肺的发育不良病（BPD）的关系时，得下表资料。出生时体重（组中值）妊娠周数观察人数患BPD人数 birth weight age n BPD 750 27 41 33 750 29.5 21 15 750 32 6 1 1150 27 17 7 1150 29.5 36 7 1150 32 27 4 1550 27 0 0 1550 29.5 16 4 1550 32 59 5

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：多元线性回归课件.ppt
链接地址：https://www.163wenku.com/p-5090590.html

晟晟文业

内容提供者

实名认证

联系作者