企业回归分析参考模板范本.doc

上传人（卖家）：林田

文档编号：3422652

上传时间：2022-08-29

格式：DOC

页数：26

大小：1.42MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《企业回归分析参考模板范本.doc》由用户（林田）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 企业回归分析参考模板范本

资源描述：: 1、第二十章回归分析第13章介绍的多重线性回归研究一个正态随机因变量与一组自变量=（，）的数量关系。其应用的前提条件是：与呈线性关系；各个体观测资料彼此独立；各处的呈正态分布；不同处的方差相等。医学中还常研究二分类因变量（如患病与未患病、阳性与阴性等）或多分类因变量与一组自变量（，）的关系，线性回归分析方法就无能为力。回归分析则是处理该类资料的有效方法。本章将主要介绍二分类因变量的回归分析，对于多分类因变量的回归分析方法，请参考有关专著。第一节回归模型一、回归模型例20-1 为探讨超重和肥胖对高血压病的影响，2004年，某研究者采用整群抽样的方法，对某地6个镇35周岁以上的常住人口进行高血压普
2、查，同时收集了身高、体重等相关信息。体质指数判为“超重或肥胖”，为“正常”；收缩压140 和(或)舒张压90 判为“高血压”。整理后资料见表20-1。记样本患病率为，是相应总体概率的估计值；自变量为体质指数，赋值为1与0，表示“超重或肥胖”，表示“正常” ；因变量为是否患病，表示“患病”，表示“未患病”。表20-1 不同体质指数组高血压患病率体质指数（）调查人数患病（=1）未患病（=0）患病率（%）正常（=0）67921331546119.60 超重或肥胖（=1）41481656249239.92合计109402987795327.30该研究旨在建立高血压患病率与体质指数间的数量关系模
3、型，估计超重与肥胖对高血压患病的风险。由于因变量为二分类变量，不满足线性回归分析条件，首先对进行数据变换：这个变换将取值在0-1间的值转换为值域在（-）的值。现在，建立与的线性模型。（20-1a）或（20-1b）或（20-1c）变换式（20-1 c），得（20-2）求解，得（20-3）或（20-4）因为（20-3）和（20-4）式的右端在数学上属于函数，所以式（20-1a）、（20-1 b）、（20-3）与（20-4）均称为单个自变量的回归模型。若自变量扩展到个，（，），则多个自变量的回归模型为（20-5 a）或（20-5 b）或（20-5c）或（20-5d）或（2
4、0-5e）其中，为常数项（截距），、为回归系数。二、模型参数的意义类似线性回归，表示模型中所有自变量均为0时，的值；回归系数表示在控制其他自变量时，自变量变化一个单位所引起的改变量。根据模型式（20-1b），我们有优势的表达式例20-1中， “超重或肥胖”组（）患高血压的优势为，“正常”组（）患高血压的优势为，两组的优势比(odds ratio, OR) 为一般地，根据多个自变量的回归模型，在其他变量取值不变的情形下，与变量的二个水平与（）相对应的事件的优势比为（20-6）当的二个水平相差1个单位时，=。可见，回归模型的参数就是在其他变量取值不变的情形下，增加1个单位后与增加前相比较，
5、事件的优势比。回归分析广泛用于流行病学中前瞻性的队列研究、回顾性的病例-对照研究以及现况研究。研究中，当变量的回归系数时，增加1个单位后与增加前相比，事件的优势比，表明与相应的因素为危险因素；时，增加1个单位后与增加前相比，事件的优势比，表明与相应的因素为保护因素；，增加1个单位后与增加前相比，事件的优势比，表明与相应的因素对结果变量不起作用。第二节回归的参数估计及假设检验一、回归的参数估计回归模型中的参数、需要通过样本资料，按照一定方法进行估计，估计量记为、。参数估计方法有多种，极大似然估计（，）最为常用，其基本思想是选择能有最大概率获得当前样本的参数值作为参数的估计值。假设例观察对象
6、彼此独立，其自变量为（，），因变量为（0-1变量），。对于第个体，给定时，出现观察结果（0或1）的概率为：，若，这个概率就是第一个方括号；若，这个概率就是第二个方括号。对于个独立个体，给定自变量时，出现当前观察结果（）的概率为上述个概率的乘积称为似然函数(likelihood function)，记为。求解，使似然函数达到极大,或使似然函数的对数达到极大，这样得到的解记为，称为参数的极大似然估计值。二、假设检验和回归系数的区间估计1. 假设检验由样本估计参数，并建立了回归方程后，参数的估计值（=1，2 ）并不一定意味着参数，也不一定意味着回归方程就成立，还需通过假设检验才能作出推断。与回归分
7、析有关的假设检验包括两个内容：一是检验整个模型，即检验因变量与自变量之间的关系能否用所建立的回归方程来表示；二是检验单个回归系数是否为0，即检验单个自变量对因变量的影响是否存在。最常用的检验方法有似然比检验和检验。（1）似然比检验（）似然比检验常用于对整个模型的检验，检验的假设为：所有自变量的总体回归系数均为0：自变量的总体回归系数不全为0 假设模型含有个自变量，相应的达到极大的对数似然函数值记为；模型是在模型的个自变量基础上新加入一个或几个自变量，自变量个数变为，其相应的达到极大的对数似然函数值记为。通过比较模型与模型的极大似然函数值，构建似然比检验统计量，（20-7）如果说，极大对数
8、似然函数值和分别度量个自变量和个自变量模型“似然”的程度，那么，统计量度量的则是增加个自变量后，模型“似然”程度的增量。可以证明，在成立的条件下，如果样本量较大，近似地服从自由度为的分布，（20-7）亦常记为。（2）检验（）检验可用于对单个回归系数的检验，检验的假设为：：检验统计量为（20-8）等价于，（20-9）可以证明，在成立的条件下，如果样本量较大，近似地服从标准正态分布，近似地服从自由度为1的分布。 2. 回归系数的区间估计已知的抽样分布近似地服从正态分布，根据正态分布理论，总体回归系数的置信区间为，则的估计值为，置信区间为（20-10）3实例：假设检验和参数估计（基
9、于SAS的输出）（1）关于模型的似然比检验模型中仅有常数项（回归系数）时，加入自变量后，似然比统计量0.0001，拒绝，可以认为所建立的回归方程是有意义的。（2）关于参数的Wald检验及的置信区间表20-2 参数估计、Wald检验和变量名参数估计值Wald P值估计值95%置信区间常数项-1.41170.03062132.74140.00011.00300.0440518.69500.00012.7272.5012.972由表20-2，可以立即写出回归方程或左端我们写的是而不是，这是因为右端的系数是和，而不是和，表明这里的回归方程是根据样本资料对理论模型的估计。对单个回归系数进行检验
10、，统计量=518.6950，0.0001，可以认为，超重或肥胖对高血压病有影响。估计值为的95%置信区间为这个置信区间并不包含1，上下限均大于1，再次表明，超重或肥胖是高血压病的危险因素。4实例：自变量筛选（基于SAS的输出）例20-2 为研究居民两周患病未治疗的影响因素，采用多阶段分层整群抽样，对某地11790名农村居民进行了入户调查。调查内容包括性别（男:0 ，女:1）、年龄（5岁:1，5岁-:2，15岁-:3 ，45岁-:4 ，65岁-:5 ）、年人均收入（不低于平均水平:0，低于平均水平:1）、医疗保障（有:0 ，无:1）、距就近医疗点时间（10分钟:1，10分钟-:2，30分钟-
11、:3）、自感疾病严重程度（不严重:1，一般:2，严重:3）、发病时间（急性病两周内发生:1，急性病两周前发生延续到两周内:2，慢性病持续到两周内:3）、就诊（就诊：0，未就诊:1）。11790名居民中，调查前二周患病者1649人，其中未就医者720人，患者有关资料整理结果见表20-3。表20-3 某地二周患病者门诊医疗卫生服务利用影响因素资料患者编号性别年龄年人均收入医疗保障距就近医疗点时间自感疾病严重程度发病时间就诊1140122312140112303040113304031121105131121101645041122101646041133301647151122311648141
12、12210164905012231“发病时间”虽为有序多分类变量资料，但目前尚不能确定表20-3中赋值是否可真实反映其测度，故以最高值为参照水平，产生2个哑变量。“发病时间”哑变量：110201300与多重线性回归类似，多因素回归同样存在对自变量的筛选问题，即按事先规定的检验水平，利用固定的算法，将具有统计意义的变量逐步选入模型，不具有统计意义的变量剔除在模型外。具体方法有前进法、后退法、逐步法，但检验统计量不再是线性回归中的统计量，而是前述的似然比检验统计量（或）、统计量等。本例采用后退法（=0.05）进行变量筛选。(1) 利用似然比检验筛选自变量表20-4 逐步回归过程及模型检验步骤剔除变
13、量-2模型似然比检验值自由度值0无剔除变量98.971180.000112160.46898.869370.000122160.56998.762160.000132160.67696.175550.000142163.26393.332640.05，可剔除。此时，模型似然比检验=2259.439-2160.569=98.87，0.0001，拒绝，可以认为剔除后所建立的回归方程有意义。其余步骤类似，到第4步，在=0.05水准，再无变量可剔除，故最终保留在方程中的变量有、。(2) 关于选中变量的参数估计表20-5 关于选中变量的参数估计、检验和估计变量名参数估计值值估计值95%置信区间常数项0
14、.46730.29762.46470.11640.23270.057216.57180.00011.262(1.128, 1.412)-0.60890.076862.91760.00010.544(0.468, 0.632)-0.50040.119317.59770.05，但这2个哑变量应作为一个整体进行筛选。进入模型的变量有、，相应的估计值分别为1.262、0.544、0.606和0.712，的95%置信区间分别为（1.128，1.412）、（0.468，0.632）、（0.480，0.766）和（0.495，1.022），故可以认为年龄、自感疾病严重程度和发病时间是两周患病者就诊的影响因素
15、。最终得到的回归方程为: 或第三节条件回归模型医学研究中，常采用匹配设计，即为病例组的每一个研究对象匹配一个或几个有同样特征的未患病者，作为该病例的对照，这样，除了研究因素外，病例与对照的其他特征相同，从而消除“其他特征”的混杂作用。常用的匹配形式为1:1，即一个病例匹配1个对照，可以是1或2或3，一般不超过4。这+1个观察对象可看作同处一个“层”，在每层内，在病例与对照间，作为配比条件的“其他特征”相同。11:1配对设计的条件回归模型设有对独立的观察对象，每个对子含两个人，第1个已经患病，第2个没有患病；自变量为，第层第1个人的自变量记为，“第2个人的自变量记为。表20-6 1:1配对设
16、计数据的一般格式配对号病例对照11021010根据（20-3）式的模型，在任何一层，第1个人患病的概率和未患病的概率分别为和第2个人患病的概率和未患病的概率分别为和理论上，在同一层中，第1个人“患病”而第2个人“未患病”的概率为同理，第2个人“患病”而第1个人“未患病”的概率为假定同一层的2个人中，只有1人患病。在只有1人患病的条件下，恰好第1个人“患病”而第2个人“未患病”的条件概率为如果略去上述中间的两个等式，我们就有单个自变量时的条件回归模型：（20-11）若自变量扩展到个，（，），则1:1配对设计的条件回归模型为：（20-12）由于上式左端为条件概率，相应的回归称为
17、条件回归，前述非匹配资料的回归则称为非条件回归。条件回归模型的右端也是一个函数，其参数就是（20-3）式中的、。但是，与（20-3）式有两点不同：第一，（20-12）中，与系数、相乘的是病例与对照相应变量之差；第二，（20-12）中，不含常数项。 2. 实例：假设检验和参数估计（基于SAS的输出）利用统计软件，我们可以通过样本资料计算模型参数、的极大似然估计，记为、。关于模型参数的假设检验、及其置信区间的计算均与非条件回归方法相同。例20-3 为探讨女性乳腺癌危险因素，研究者在某市1996 1997年间确诊的女性乳腺癌患者中随机抽取350名病例，对每一病例配以一名性别相同、年龄差别不超过2.5
18、岁的对照。收集的信息包括：文化程度（大专以下:0，大专及以上:1）、体质指数（小于等于27:0，大于27:1）、近年精神压抑（无:0，有:1）、乳腺良性疾病史（无:0，有:1）、恶性肿瘤家族史（无:0，有:1）、初潮年龄（大于等于14岁:0，小于14岁:1）、哺乳史（有:0，无:1）等。整理后资料见表20-7。表20-7 女性乳腺癌危险因素1:1配对病例-对照研究资料整理表配对号病例对照100000100000001201001010000001300000010000001400100010000011511110100000001346100001100000013470000001000
19、0001348000011100000113491010001000001135000111111000011本例采用前进法（=0.05）进行变量筛选，逐步回归分析主要结果输出如下（SAS软件计算）。.第一部分(1) 自变量筛选及模型检验结果表20-8 逐步回归过程及模型检验步骤进入模型的变量-2模型似然比检验值自由度值0常数项485.2031447.59237.611510.00012、429.69355.510420.00013、422.23862.965030.00014、416.09169.112240.00015、410.37574.828350.0001模型中仅有常数项时，-2=
20、485.203，当选入时，有-2= 447.592，似然比检验=485.203-447.592=37.611，0.05，可选入；当新加入，有-2=429.693，似然比检验=447.592-429.693=17.899，0.05，可选入。其余步骤类似，到第5步，在=0.05水准，再无变量可选入，故最终进入模型的变量有、，此时，模型似然比检验=485.203-410.375=74.8283，0.0001，拒绝，可以认为所建立的回归方程有意义。（2）关于选中变量的参数估计表20-9 条件回归分析的参数估计及检验、估计值及置信区间结果变量名参数估计值值95%置信区间0.610530.243296.2
21、9730.01211.841(1.143, 2.966)1.097460.477455.28340.02152.997(1.175, 7.639)1.368970.2630527.08360.00013.931(2.348, 6.583)1.900060.5326512.72490.00046.686(2.354, 18.992)0.606940.258855.49800.01901.835(1.105, 3.047)表20-8和表20-9结果显示：、进入模型，且估计值均大于1，的95%置信区间均不包含1，且上下限均大于1。因此，可以认为高文化程度、肥胖、精神压抑、乳腺良性疾病史、恶性肿瘤家族
22、史是女性乳腺癌的危险因子因素。第四节回归的应用及注意的问题一、回归的应用回归模型将原本非线性的关系通过适当的变量变换，转化为线性关系，可以根据值求得值，并且可同时控制多个因素，定量解释因变量自变量与自变量因变量间的联系，同时还可以分析变量间的交互作用交互效应。随着回归分析方法的不断发展、完善和计算机及其应用软件的普及，回归分析在医学中的应用日益广泛。1、. 校正混杂因素生物医学中，观察对象的某一结局（生存或死亡、阳性或阴性等）常常受着诸多因素综合作用的影响，包括研究因素与混杂因素。设计阶段，通过分层、匹配设计等手段校正混杂因素。但当混杂因素较多时，分层数成倍增长，部分层中某个某些格子的频
23、数将可能为零，无法进一步处理；如采用匹配设计， “匹配”因素较多时将无法实施“匹配”。分析阶段，则可。采用回归分析技术，将研究因素、混杂因素及其交互作用均体现于模型中，可在控制混杂因素的作用下，对研究因素与结局变量间的联系作出定量描述。例20-1主要目的是研究超重和肥胖对高血压病的影响，高血压病家族史、年龄、性别、饮酒、文化程度等可能对二者的关联性有混杂作用，应采用回归分析，将高血压病家族史、年龄、性别、饮酒、文化程度等引入回归方程，重新计算超重和肥胖的值。校正这些混杂因素作用后的称为校正（），未校正混杂因素的称为粗（）。2、. 筛选危险因素设计阶段，根据理论基础知识纳入对结局变量可能有影响
24、的变量因素，由于一些变量因素的作用尚不清楚，或纳入变量因素太多，则需要按照事先规定的显著性检验水平，利用固定算法，将作用显著有统计学意义的变量纳入模型，无统计学意义不显著的剔除在外，以保证模型相对较优。如例20-2筛选居民两周患病未治疗的影响因素，例20-3筛选女性乳腺癌危险因素。3、. 预测与判别回归模型是一概率模型，非条件回归的重要应用之一即是预测与判别。如通过检验，所建立的方程能很好地表达变量间的关系，具有较好的拟合优度，给定自变量数值（在样本数据值域范围之内），则可通过非条件回归方程计算相应的概率预测值，进而对具有特征的对个体所属类别作出概率性的判别。但由于病例-对照研究的病例与对照
25、的比例是人为定的，不能代表自然人群中病例与非病例的比例，故条件回归模型不能估计常数项, 直接其结果只能帮助分析变量的效应, 不能用于预测。二回归应用中需注意的问题1、个体间的独立性建立回归模型时，要求研究个体之间彼此独立。因此，回归分析不适合运用于研究个体间具有聚集性特征的资料分析。2、足够的样本量回归模型对样本含量有一定的要求，当样本含量过少时，参数估计值不稳定，甚至出现专业上无法解释的现象。如果确实无法获得更多的样本，可以考虑用确切回归( )。3、变量的赋值在回归中，自变量可以有多种形式：连续型、二分类、多。分类。变量赋值方式不同，参数估计值及符号将有所不同，进而从而对结果的解释
26、方式亦不同。连续型变量：可以按原形数据形式参与分析，也可离散化成有序分类变量，或离散化后产生用几个哑变量来描述。原形数据形式简单且保持信息的完整性，但有时参数的实际意义不明确突出。例如，年龄为高血压的危险因素，当年龄由岁增加到+1岁，患高血压的优势比为，是年龄增加1岁与增加前的优势之比。实际上，相对于生命的整个年龄范围全过程，1岁的变化对患高血压的影响微不足道，这个优势比的实际意义并不重要。二分类变量：，一般用0和1 赋值为0-1型（，如暴露:1，非暴露:0，；男性:1，女性:0等)，。赋值较小的水平常被作为参照水平，此时所拟合的回归模型中关于该这类变量的优势比系数就是这两个水平1 和水平0优
27、势之比的对数。多分类变量：对于有序多分类变量，可转化为哑变量，亦可按等级的秩次方式赋值，但可以按等级的秩次方式所赋值，关于这类变量的优势比就是秩次k+1 和秩次k的优势之比真实反映变量的测度相当困难。对于无序多分类变量，则应转化为哑变量形式，个类别对应需要（）个哑变量。例20-2中“发病时间”即为哑变量形式，将“慢性病持续到两周内”作为参照水平，哑变量，。为相对于参照，“急性病两周内发生”的估计值；为相对于参照，“急性病两周前发生延续到两周内”的估计值。但许多情况下，所谓的参照水平往往都是研究者随意设置的，并非都具有基线的性质，随着参照水平的改变，结果将会不同。此外，哑变量赋值方式的办法增加了
28、自变量个数，如样本量太少，则会出现参数估计值不稳定现象，有时甚至无法计算。当样本含量足够大，且对变量作用方式把握不准时，哑变量赋值方式不失为最佳选择。须注意的是，在逐步回归自变量筛选中，（）个哑变量应视为一个整体，做到“整进整出”。赋值方式对参数估计值的影响还体现在参数的符号上。对例20-3，如将“无精神压抑”赋值为1，“有精神压抑”为0，则，与例20-3结果比较，回归系数绝对值相等，但符号相反。因此，必须结合变量的具体赋值方式来理解对的影响。4、模型评价建立模型并进行假设检验只表明了模型以及回归系数是否具有统计学意义，但并不表明模型拟合的效果如何。评价模型拟合效果，即评价模型的预测值与观测
29、值的一致性，这就是拟合优度检验。拟合优度检验是回归分析过程中不可缺少的一部分，拟合效果好，所做出的结论才更符合事实。评价模型拟合优度的指标主要有、偏差()等，具体内容请参考有关专著。5、标准化回归系数多个自变量多重回归分析得到多个变量对应的回归系数值，若各变量单位不同，各系数绝对值大小并不直接表明其对结局变量的相对重要性，要用标准化回归系数来达到比较之目的。标准化回归系数，为第变量的标准差，或对所有自变量标准化后进行回归, 直接可以求得标准化回归系数。 6、结果报告报告结果应包括各危险因素的检验统计量及其对应的值、回归系数估计值及其标准误、值，必要时列出值的置信区间及标准化回归系数。第五
30、节统计内容的报告与中英文结果报告表达回归分析结果主要报告以下内容：1、.分析目的。2、. 自变量的基本统计描述。3、. 自变量筛选方法。4、. 以统计表的方式报告回归系数、标准误、值、优势比的估计值，以及优势比的95置信区间。以下为例20-2非条件回归的中英文结果报告。为研究过去两周内患病居民未治疗率居民两周患病未治疗的影响影响因素，采用现况调查方法，调查了过去两周内二周患病者1649人。采用非条件向后逐步回归分析数据，用向后法逐步筛选变量。结果见表20-4，。结果表明年龄、自感疾病严重程度、和发病时间三个变量有统计学意义（P0.0001），的估计值分别为1.262、0.544、0.606
31、 (类别1与3比)、和0.712(类别2与3比)，的95%置信区间分别为(1.128,1.412)、(0.468,0.632)、(0.480,0.766)、和(0.495,1.022) 。A cross-sectional study was conducted to investigate the influence factors which might affect to the untreated rate of the residents who were suffering in latest two weeks but untreated. 1649 people were su
32、rveyed. The results ofAn unconditional logistic regression analysis was applied for data analysis, where the variables were selected by backward stepwise-procedure. The results Logistic regression analysis were shown in Table 20-4. It indicated that age, self-feelawareness of state of the illness di
33、sease status and starting time of the illness were statistically significant (P0.001), odds ratio were 1.262, 0.544, 0.606 (category 1 verses 3), and 0.712 (category 2 verses 3), respectively. Their corresponding 95% CIs were (1.128,1.412), (0.468,0.632), (0.480,0.766), and (0.495,1.022), respective
34、ly.第六节案例讨论案例20-1 某研究者为探讨吸烟与帕金森病()与吸烟的关系，采用以人群为基础的病例-对照研究，调查某市病例共114例，以及性别、民族及居住地与病例相匹配的对照205例（性别、民族及居住地与病例相匹配）。采用非条件回归分析，结果见表20-10。根据所提供信息，分析该研究中存在的主要统计学问题错误?表20-10 吸烟与与吸烟相关性系的非条件回归分析研究因素值值值值的95%性别0.9360.2989.8210.0092.5491.4204.579年龄0.0300.2994.6120.0321.0310.5731.852吸烟年限-0.6190.3153.8660.0490.53
35、80.2900.998喝茶-1.6160.28332.6190.0000.1990.1140.346饮酒-0.0310.3390.0090.9260.9690.4991.884第七节电脑实验实验20-1 非条件回归分析对例20-2 的资料进行非条件回归分析。（数据文件：D20-01.SAS）程序20-1 非条件回归分析行号程序行号程序01DATA example20_2；080 5 0 1 2 2 3 102INPUT x1-x7 y ；09；03CARDS；10PROC LOGISTIC DESC；041 4 0 1 2 2 3 111CLASS x7/PARMA=REF；051 4 0
36、 1 1 2 3 012MODEL y=x1-x7/SELECTION=BACKWARD 06SLS=0.05 RISKLIMITS；071 4 1 1 2 2 1 013RUN；程序说明：程序0409行为数据语句，第一至第七列分别为自变量，第八列为因变量，10行调用过程，按=1的概率拟合模型，11行定义为哑变量，12行定义模型，以0.05为显著性水准为检验水准，采用后退法进行变量筛选，给出值95%的置信区间。实验20-2 条件回归分析对例20-3的资料进行条件回归分析。（数据文件：D20-02.SAS）程序20-2 条件回归分析行号程序行号程序01DATA example20_3；110
37、1 0 0 1 0 1 0 0 0 0 0 0 102DO id=1 to 350；1203DO case=1 to 0 by -1；131 0 1 0 0 0 1 0 0 0 0 0 1 104INPUT x1-x7；140 0 1 1 1 1 1 1 0 0 0 0 1 105time=2-case；15；06OUTPUT；16PROC PHREG；07END；17MODEL time*case(0)=x1-x7/TIES=DISCRETE08END；SELECTION=FORWARD SLE=0.05 RISKLIMITS；09CARDS；18STRATA id ；100 0 0 0 0
38、 1 0 0 0 0 0 0 0 119RUN；程序说明：程序0103行指明所建立的20_3数据集中共有350对数据，标识变量为，每对中的第一例为病例（=1），第二例为对照（=0）。04行定义自变量分别为，，05行建立时间哑变量，病例为1，对照为2，10 15行为数据语句，16行调用比例风险回归过程，17行建立时间变量为，删失指示变量为，自变量为，的伪模型，以0.05为显著性水准为检验水准，采用前进法进行变量筛选，给出的95%置信区间，18行指定为每对的“层”标识变量。第八节小结1、回归是多元统计方法中的重要内容，根据研究设计和构建似然函数模型（是否用条件概率）的不同，回归分为非条
39、件模型和条件模型两大类。它是研究因变量为分类变量（二分类，无序多分类，有序多分类）时，与多个自变量、（定量、定性）间回归关系的一种分析技术，该技术广泛地应用于临床医学与流行病学研究中：筛选危险因素、校正混杂因素、预测与判别。2、回归模型的参数估计采用极大似然法，求解回归系数估计值后，仍需进行假设检验，包括对整个回归方程的检验和对每个回归系数的检验两方面内容。回归方程的检验一般可用似然比检验和检验等，回归系数的检验常用检验。3、回归模型的参数与流行病学研究中常用指标有如下关系：在控制其他因素后，某一变量因素的二水平与（）的优势比为。当因素变量的回归系数时，，该因素为一危险因素子；时，该因素为一保护因素子；，该因素对结果变量不起作用。思考与练习1、. 在某项有关吸烟的调查研究中，部分自变量的赋值见表20-11。你认为表中赋值合理吗？如不合理，请给出你的建议。表20-11 自变量的意义及赋值自变量名意义可能取值研究者所赋值如果想要烟，你认为能容易得到吗？非常容易1有点容易2有点困难3非常困难4

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：企业回归分析参考模板范本.doc
链接地址：https://www.163wenku.com/p-3422652.html

林田

内容提供者

实名认证

联系作者