企业回归分析参考模板范本.doc
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《企业回归分析参考模板范本.doc》由用户(林田)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 回归 分析 参考 模板 范本
- 资源描述:
-
1、第二十章 回归分析第13章介绍的多重线性回归研究一个正态随机因变量与一组自变量=(,)的数量关系。其应用的前提条件是:与呈线性关系;各个体观测资料彼此独立;各处的呈正态分布;不同处的方差相等。医学中还常研究二分类因变量(如患病与未患病、阳性与阴性等)或多分类因变量与一组自变量(,)的关系,线性回归分析方法就无能为力。回归分析则是处理该类资料的有效方法。本章将主要介绍二分类因变量的回归分析,对于多分类因变量的回归分析方法,请参考有关专著。第一节 回归模型一、回归模型例20-1 为探讨超重和肥胖对高血压病的影响,2004年,某研究者采用整群抽样的方法,对某地6个镇35周岁以上的常住人口进行高血压普
2、查,同时收集了身高、体重等相关信息。体质指数判为“超重或肥胖”, 为“正常”;收缩压140 和(或)舒张压90 判为“高血压”。整理后资料见表20-1。记样本患病率为,是相应总体概率的估计值;自变量为体质指数,赋值为1与0,表示“超重或肥胖”,表示“正常” ;因变量为是否患病,表示“患病”,表示“未患病”。表20-1 不同体质指数组高血压患病率 体质指数 ()调查人数患病(=1)未患病(=0)患病率(%)正常 (=0)67921331546119.60 超重或肥胖(=1)41481656249239.92合计109402987795327.30该研究旨在建立高血压患病率与体质指数间的数量关系模
3、型,估计超重与肥胖对高血压患病的风险。由于因变量为二分类变量,不满足线性回归分析条件,首先对进行数据变换:这个变换将取值在0-1间的值转换为值域在(-)的值。 现在,建立与的线性模型。 (20-1a)或 (20-1b)或 (20-1c) 变换式(20-1 c),得 (20-2) 求解,得 (20-3)或 (20-4)因为(20-3)和(20-4)式的右端在数学上属于函数,所以式(20-1a)、(20-1 b)、(20-3)与(20-4)均称为单个自变量的回归模型。若自变量扩展到个,(,),则多个自变量的回归模型为 (20-5 a)或 (20-5 b)或 (20-5c)或 (20-5d)或 (2
4、0-5e)其中,为常数项(截距),、为回归系数。二、模型参数的意义类似线性回归,表示模型中所有自变量均为0时,的值;回归系数表示在控制其他自变量时,自变量变化一个单位所引起的改变量。根据模型式(20-1b),我们有优势的表达式 例20-1中, “超重或肥胖”组()患高血压的优势为,“正常”组()患高血压的优势为 ,两组的优势比(odds ratio, OR) 为 一般地,根据多个自变量的回归模型,在其他变量取值不变的情形下,与变量的二个水平与()相对应的事件的优势比为 (20-6)当的二个水平相差1个单位时,=。可见,回归模型的参数就是在其他变量取值不变的情形下,增加1个单位后与增加前相比较,
5、事件的优势比。回归分析广泛用于流行病学中前瞻性的队列研究、回顾性的病例-对照研究以及现况研究。研究中,当变量的回归系数时,增加1个单位后与增加前相比,事件的优势比,表明与相应的因素为危险因素;时,增加1个单位后与增加前相比,事件的优势比,表明与相应的因素为保护因素;,增加1个单位后与增加前相比,事件的优势比,表明与相应的因素对结果变量不起作用。第二节 回归的参数估计及假设检验一、回归的参数估计 回归模型中的参数、需要通过样本资料,按照一定方法进行估计,估计量记为、。参数估计方法有多种,极大似然估计( ,)最为常用,其基本思想是选择能有最大概率获得当前样本的参数值作为参数的估计值。假设例观察对象
6、彼此独立,其自变量为(,),因变量为(0-1变量),。对于第个体,给定时,出现观察结果(0或1)的概率为:,若,这个概率就是第一个方括号;若,这个概率就是第二个方括号。对于个独立个体,给定自变量时,出现当前观察结果()的概率为上述个概率的乘积称为似然函数(likelihood function),记为。求解,使似然函数达到极大,或使似然函数的对数达到极大,这样得到的解记为,称为参数 的极大似然估计值。二、假设检验和回归系数的区间估计1. 假设检验由样本估计参数,并建立了回归方程后,参数的估计值(=1,2 )并不一定意味着参数,也不一定意味着回归方程就成立,还需通过假设检验才能作出推断。与回归分
7、析有关的假设检验包括两个内容:一是检验整个模型,即检验因变量与自变量之间的关系能否用所建立的回归方程来表示;二是检验单个回归系数是否为0,即检验单个自变量对因变量的影响是否存在。最常用的检验方法有似然比检验和检验。(1)似然比检验( ) 似然比检验常用于对整个模型的检验,检验的假设为:所有自变量的总体回归系数均为0:自变量的总体回归系数不全为0 假设模型含有个自变量,相应的达到极大的对数似然函数值记为;模型是在模型的个自变量基础上新加入一个或几个自变量,自变量个数变为,其相应的达到极大的对数似然函数值记为。通过比较模型与模型的极大似然函数值,构建似然比检验统计量, (20-7)如果说,极大对数
8、似然函数值和分别度量个自变量和个自变量模型“似然”的程度,那么,统计量度量的则是增加个自变量后,模型“似然”程度的增量。可以证明,在成立的条件下,如果样本量较大,近似地服从自由度为的分布,(20-7)亦常记为。(2)检验()检验可用于对单个回归系数的检验,检验的假设为 : :检验统计量为 (20-8) 等价于 , (20-9)可以证明,在成立的条件下,如果样本量较大,近似地服从标准正态分布, 近似地服从自由度为1的分布。 2. 回归系数的区间估计已知的抽样分布近似地服从正态分布,根据正态分布理论,总体回归系数的置信区间为 ,则的估计值为,置信区间为 (20-10)3实例:假设检验和参数估计(基
9、于SAS的输出)(1)关于模型的似然比检验模型中仅有常数项(回归系数)时,加入自变量后,似然比统计量0.0001,拒绝,可以认为所建立的 回归方程是有意义的。(2)关于参数的Wald检验及的置信区间 表20-2 参数估计、Wald检验和 变量名参数估计值Wald P值估计值95%置信区间常数项-1.41170.03062132.74140.00011.00300.0440518.69500.00012.7272.5012.972由表20-2,可以立即写出回归方程 或 左端我们写的是而不是,这是因为右端的系数是和,而不是和,表明这里的回归方程是根据样本资料对理论模型的估计。对单个回归系数进行检验
10、,统计量=518.6950,0.0001, 可以认为,超重或肥胖对高血压病有影响。估计值为的95%置信区间为 这个置信区间并不包含1,上下限均大于1,再次表明,超重或肥胖是高血压病的危险因素。4实例:自变量筛选(基于SAS的输出)例20-2 为研究居民两周患病未治疗的影响因素,采用多阶段分层整群抽样,对某地11790名农村居民进行了入户调查。调查内容包括性别(男:0 ,女:1)、年龄(5岁:1,5岁-:2,15岁-:3 ,45岁-:4 ,65岁-:5 )、年人均收入(不低于平均水平:0,低于平均水平:1)、医疗保障(有:0 ,无:1)、距就近医疗点时间(10分钟:1,10分钟-:2,30分钟-
11、:3) 、自感疾病严重程度(不严重:1,一般:2,严重:3)、发病时间(急性病两周内发生:1,急性病两周前发生延续到两周内:2,慢性病持续到两周内:3)、就诊(就诊:0,未就诊:1)。11790名居民中,调查前二周患病者1649人,其中未就医者720人,患者有关资料整理结果见表20-3。表20-3 某地二周患病者门诊医疗卫生服务利用影响因素资料患者编号性别年龄年人均收入医疗保障距就近医疗点时间自感疾病严重程度发病时间就诊1140122312140112303040113304031121105131121101645041122101646041133301647151122311648141
12、12210164905012231“发病时间”虽为有序多分类变量资料,但目前尚不能确定表20-3中赋值是否可真实反映其测度,故以最高值为参照水平,产生2个哑变量。“发病时间”哑变量:110201300与多重线性回归类似,多因素回归同样存在对自变量的筛选问题,即按事先规定的检验水平,利用固定的算法,将具有统计意义的变量逐步选入模型,不具有统计意义的变量剔除在模型外。具体方法有前进法、后退法、逐步法,但检验统计量不再是线性回归中的统计量,而是前述的似然比检验统计量(或)、统计量等。本例采用后退法(=0.05)进行变量筛选。(1) 利用似然比检验筛选自变量表20-4 逐步回归过程及模型检验步骤剔除变
13、量-2模型似然比检验值自由度值0无剔除变量98.971180.000112160.46898.869370.000122160.56998.762160.000132160.67696.175550.000142163.26393.332640.05,可剔除。此时,模型似然比检验=2259.439-2160.569=98.87,0.0001,拒绝,可以认为剔除后所建立的回归方程有意义。其余步骤类似,到第4步,在=0.05水准,再无变量可剔除,故最终保留在方程中的变量有、。(2) 关于选中变量的参数估计表20-5 关于选中变量的参数估计、检验和估计变量名参数估计值 值估计值95%置信区间常数项0
14、.46730.29762.46470.11640.23270.057216.57180.00011.262(1.128, 1.412)-0.60890.076862.91760.00010.544(0.468, 0.632)-0.50040.119317.59770.05,但这2个哑变量应作为一个整体进行筛选。进入模型的变量有、,相应的估计值分别为1.262、0.544、0.606和0.712,的95%置信区间分别为(1.128,1.412)、(0.468,0.632)、(0.480,0.766)和(0.495,1.022),故可以认为年龄、自感疾病严重程度和发病时间是两周患病者就诊的影响因素
15、。最终得到的回归方程为: 或 第三节 条件回归模型医学研究中,常采用匹配设计,即为病例组的每一个研究对象匹配一个或几个有同样特征的未患病者,作为该病例的对照,这样,除了研究因素外,病例与对照的其他特征相同,从而消除“其他特征”的混杂作用。常用的匹配形式为1:1,即一个病例匹配1个对照,可以是1或2或3,一般不超过4。这+1个观察对象可看作同处一个“层”,在每层内,在病例与对照间,作为配比条件的“其他特征”相同。11:1配对设计的条件回归模型设有对独立的观察对象,每个对子含两个人,第1个已经患病,第2个没有患病;自变量为,第层第1个人的自变量记为,“第2个人的自变量记为。表20-6 1:1配对设
16、计数据的一般格式配对号病例对照11021010根据(20-3)式的模型,在任何一层,第1个人患病的概率和未患病的概率分别为 和 第2个人患病的概率和未患病的概率分别为 和 理论上,在同一层中,第1个人“患病”而第2个人“未患病”的概率为 同理,第2个人“患病”而第1个人“未患病”的概率为假定同一层的2个人中,只有1人患病。 在只有1人患病的条件下,恰好第1个人“患病”而第2个人“未患病”的条件概率为 如果略去上述中间的两个等式,我们就有单个自变量时的条件回归模型: (20-11) 若自变量扩展到个,(,),则1:1配对设计的条件回归模型为: (20-12)由于上式左端为条件概率,相应的回归称为
17、条件回归,前述非匹配资料的回归则称为非条件回归。条件回归模型的右端也是一个函数,其参数就是(20-3)式中的、。但是,与(20-3)式有两点不同:第一,(20-12)中,与系数、相乘的是病例与对照相应变量之差;第二,(20-12)中,不含常数项。 2. 实例:假设检验和参数估计(基于SAS的输出)利用统计软件,我们可以通过样本资料计算模型参数、的极大似然估计,记为、。关于模型参数的假设检验、及其置信区间的计算均与非条件回归方法相同。例20-3 为探讨女性乳腺癌危险因素,研究者在某市1996 1997年间确诊的女性乳腺癌患者中随机抽取350名病例,对每一病例配以一名性别相同、年龄差别不超过2.5
18、岁的对照。收集的信息包括:文化程度(大专以下:0,大专及以上:1)、体质指数(小于等于27:0,大于27:1)、近年精神压抑(无:0,有:1)、乳腺良性疾病史(无:0,有:1)、恶性肿瘤家族史(无:0,有:1)、初潮年龄(大于等于14岁:0,小于14岁:1)、哺乳史(有:0,无:1)等。整理后资料见表20-7。表20-7 女性乳腺癌危险因素1:1配对病例-对照研究资料整理表配对号病例对照100000100000001201001010000001300000010000001400100010000011511110100000001346100001100000013470000001000
19、0001348000011100000113491010001000001135000111111000011本例采用前进法(=0.05)进行变量筛选,逐步回归分析主要结果输出如下(SAS软件计算)。.第一部分(1) 自变量筛选及模型检验结果表20-8 逐步回归过程及模型检验步骤进入模型的变量-2模型似然比检验值自由度值0常数项485.2031447.59237.611510.00012、429.69355.510420.00013、422.23862.965030.00014、416.09169.112240.00015、410.37574.828350.0001模型中仅有常数项时,-2=
展开阅读全文