医学统计学课件-第九章-双变量回归与相关(第9章).ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《医学统计学课件-第九章-双变量回归与相关(第9章).ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学 课件 第九 变量 回归 相关
- 资源描述:
-
1、 Bivariate Regression&Correlation10/13/20221 讲课内容:讲课内容:10/13/20222 p第第2、第第3、第第4章介绍了计量资料章介绍了计量资料单变量单变量的统的统 计描述与统计推断:计描述与统计推断:lP.13 例例2-1:计算计算101名成年女子名成年女子血清总胆固血清总胆固 醇醇的平均指标与变异指标。的平均指标与变异指标。lP.51 例例3-7:比较阿卡波糖胶囊比较阿卡波糖胶囊(试验组试验组)与拜与拜 糖苹胶囊糖苹胶囊(对照组对照组)降低糖尿病人的降低糖尿病人的空腹血糖值空腹血糖值 有无差别。有无差别。lP.73 例例4-2:比较安慰剂组、降
2、血脂新药比较安慰剂组、降血脂新药2.4g 组、降血脂新药组、降血脂新药4.8g组、降血脂新药组、降血脂新药7.2g组降组降 低患者的低患者的低密度脂蛋白含量低密度脂蛋白含量有无差别。有无差别。10/13/20223p在医学研究中常要分析在医学研究中常要分析两变量两变量间或间或多变多变 量间量间的关系:的关系:l 年龄与血压年龄与血压l 药物剂量与动物死亡率药物剂量与动物死亡率l 肺活量与身高、体重、胸围和肩宽等肺活量与身高、体重、胸围和肩宽等 10/13/20224p事物间的相关关系事物间的相关关系l确定性关系确定性关系 两变量间的函数表达式两变量间的函数表达式 圆的周长与半径的关系:圆的周长
3、与半径的关系:C2 R 路程与速度、时间的关系:路程与速度、时间的关系:LST 数学中数学中X与与Y的直线函数关系:的直线函数关系:Ya+bX l非确定性关系非确定性关系 两变量间存在关系,但未精两变量间存在关系,但未精 确到可以用函数表达式来描述。确到可以用函数表达式来描述。年龄与血脂的关系;年龄与血脂的关系;身高与体重的关系;身高与体重的关系;体重与体表面积的关系。体重与体表面积的关系。10/13/20225Linear Regression10/13/20226一、直线回归的概念一、直线回归的概念“回归回归”是一个借用已久因而相沿成习是一个借用已久因而相沿成习 的统计学术语。的统计学术语
4、。直线回归是分析直线回归是分析成对观测数据成对观测数据中两变量中两变量 间间线性依存关系线性依存关系的方法。的方法。10/13/20227p生物遗传学上的生物遗传学上的“回归回归”Pearson K(英英,18571936)1903年搜集了年搜集了1078个家庭人员的身高、前臂长等指标的记录,个家庭人员的身高、前臂长等指标的记录,发现儿子身高发现儿子身高(Y,英寸英寸)与父亲身高间与父亲身高间(X,英寸英寸)存在线性依存关系:存在线性依存关系:=33.73+0.516 X 但不少身材高的父亲的儿子成年后身高比其但不少身材高的父亲的儿子成年后身高比其父亲矮,不少身材矮的父亲的儿子成年后身父亲矮,
5、不少身材矮的父亲的儿子成年后身高比其父亲高。高比其父亲高。Galton F(英英,18221911)将这种现象称之为将这种现象称之为子一代身高向人群平均身高的子一代身高向人群平均身高的“回归回归”。Y10/13/20228210=102410/13/20229Francis GaltonFrancis Galton 爵士爵士(英英,18221911)是达是达尔文尔文(Charles Darwin)的表弟。他对统计学的表弟。他对统计学的主要贡献是提出的主要贡献是提出“相关相关”与与“回归回归”的概念,用统计方法的概念,用统计方法对进化论中的变异进对进化论中的变异进行研究,开创了生物行研究,开创了
6、生物统计学。统计学。10/13/202210Karl PearsonKarl Pearson(英英,18571936)是是Francis Galton 的得的得意门生,他开创了统意门生,他开创了统计方法学。他对统计计方法学。他对统计学的主要贡献:变异学的主要贡献:变异数据的处理、分布曲数据的处理、分布曲线的选配、卡方检验线的选配、卡方检验的提出、回归与相关的提出、回归与相关的发展。的发展。10/13/202211p天文学上的天文学上的“回归回归”地球绕太阳公转,在公转的同时本身还自转,地球绕太阳公转,在公转的同时本身还自转,在本身自转的同时地球的假设轴心还来回摆在本身自转的同时地球的假设轴心还
7、来回摆动。由于地球轴心的来回摆动,太阳光垂直动。由于地球轴心的来回摆动,太阳光垂直照射到地球上就有南、北两个极限位置照射到地球上就有南、北两个极限位置(南、南、北纬北纬23027),分别称南、北回归线,太阳分别称南、北回归线,太阳光对赤道光对赤道“回归回归”垂直照射到南、北回归线垂直照射到南、北回归线的时间分别为我国农历的冬至与夏至。的时间分别为我国农历的冬至与夏至。10/13/202212p日常生活中的日常生活中的“回归回归”现象现象 1岁姜二狗,岁姜二狗,7岁姜二狗同学,岁姜二狗同学,20岁小姜同志,岁小姜同志,30岁姜科长,岁姜科长,40岁姜处长,岁姜处长,50岁姜局长,岁姜局长,60岁
8、姜老,岁姜老,70岁老姜,岁老姜,80岁姜二狗。岁姜二狗。p目前目前“回归回归”已成为表示变量之间已成为表示变量之间数量依数量依存关系存关系的统计术语,并且衍生出的统计术语,并且衍生出“回归方回归方程程”、“回归系数回归系数”等统计学概念。等统计学概念。10/13/202213例例 某地方病研究所调查了某地方病研究所调查了8名正常儿童的尿名正常儿童的尿肌酐含量肌酐含量(mmol/24h),试估计尿肌酐含量试估计尿肌酐含量(Y)对其年龄对其年龄(X)的回归方程。的回归方程。10/13/2022148名儿童的年龄与其尿肌酐含量名儿童的年龄与其尿肌酐含量2.42.62.833.23.43.64681
9、01214年龄(岁)年龄(岁)X尿肌酐尿肌酐含量含量bXaY Y(mmol/24h)hat10/13/202215各散点呈直线趋势各散点呈直线趋势但并非均在一条直线上但并非均在一条直线上根据原始数据拟合的直线方程与数理根据原始数据拟合的直线方程与数理 上二元一次函数方程在内涵上有区别,上二元一次函数方程在内涵上有区别,称为称为直线回归方程直线回归方程。10/13/202216二、直线回归方程的求法二、直线回归方程的求法6617.15.91392.09838.2XbYa1392.0428450.5n/)X(Xn/)Y)(X(XY)XX()YY)(XX(llb222XXXY 最小二乘法最小二乘法2
10、)YY(在所有直线中最小在所有直线中最小10/13/20221710/13/202218CASIO fx-3600PV计算器计算计算器计算a、b与与r步骤步骤 键键 盘盘 说说 明明 1 MODE 2 进入线性回归模式进入线性回归模式 LR 2 SHIFT KAC 清除以前储存数据清除以前储存数据 3 13 XDYD 3.54 DATA 数据输入数据输入 11 XDYD 3.01 DATA 9 XDYD 3.09 DATA 4 SHIFT r 显示相关系数显示相关系数 0.8818 5 SHIFT a 显示截距显示截距 1.6617 6 SHIFT b 显示回归系数显示回归系数 0.1392
11、SHIFT DEL 删除输错的一对数据删除输错的一对数据10/13/2022198名儿童的年龄与其尿肌酐含量名儿童的年龄与其尿肌酐含量2.42.62.833.23.43.6468101214年龄(岁)年龄(岁)X尿肌酐尿肌酐含量含量Y(mmol/24h)X1392.06617.1Y (8,2.8)(12,3.3)10/13/202220p b 的意义的意义斜率斜率(slope)X1392.06617.1Y 年龄每增加年龄每增加1岁岁,尿肌酐含量平均增加尿肌酐含量平均增加0.1392(mmol/24h)b的单位为的单位为(Y的单位的单位/X的单位的单位)10/13/202221bXa Y a 截
12、距截距(intercept,constant)X=0 时,时,Y的估计值的估计值a的单位与的单位与Y值相同值相同当当X可能取可能取0时,时,a才有实际意义。才有实际意义。p a 的意义的意义10/13/202222回归直线的有关性质回归直线的有关性质直线通过均点直线通过均点 各点到该回归线纵向距离平方和较到其它任何各点到该回归线纵向距离平方和较到其它任何直线者为小。直线者为小。2)YY()Y,X(X XY bXaY 为来自为来自的一个样本的一个样本对于对于X各个取值,相各个取值,相应应Y的总体均数的总体均数10/13/202223的的一一个个样样本本为为来来自自 X bXaYXY XY10/1
13、3/202224三、直线回归方程中的统计推断三、直线回归方程中的统计推断(一)回归方程的假设检验(一)回归方程的假设检验1.1.方差分析方差分析(1 1)建立检验假设并确定检验水准)建立检验假设并确定检验水准 H0:=0 H1:0 =0.052)Y(Y 2)(的分解的分解重点重点10/13/202225因变量因变量Y总变异总变异 的分解的分解X Y Y)(YY )(YYY)(YY Y2)YY(10/13/202226)YY(YY(YY ))YY(YY(YY )222)YY)YY)YY (SS总总=SS回回+SS残残XXXYl/lb ,XbYa ,bXaY0)YY)(YY2 (222)YY()Y
14、Y)(YY2YY()YY(()222)YY()YY)(YY2YY()YY(()10/13/202227未引进回归时的总变异:未引进回归时的总变异:(sum of squares of deviation from mean)引进回归以后的剩余变异引进回归以后的剩余变异:(sum of squares of residuals)回归的贡献,回归平方和:回归的贡献,回归平方和:(sum of squares due to regression)2)YY(Y的总变异分解的总变异分解2)YY(2)YY(10/13/202228(3)计算检验统计量计算检验统计量F值值97.200388.08134.0M
15、SMSv/SSv/SSF 残残回回残残残残回回回回SS总总=lYY=1.0462 SS回回=blXY=l2XY/lXX=5.8452/42=0.8134SS残残=SS总总SS回回=1.04620.8134=0.2328v总总=v回回+v剩剩v总总=n1,v回回=1,v残残=n210/13/202229F0.01(1,6)=13.7410/13/2022302.t 检验检验bS0bt XXX.YblSS 2n 2nSS2n)YY(S2XY 残残回归的剩余标准差回归的剩余标准差扣除了扣除了X的影响后的影响后Y方面的变异方面的变异;引进回归方程后引进回归方程后,Y方面的变异。方面的变异。10/13/
16、202231(2)计算检验统计量)计算检验统计量 t 值值(1)建立检验假设并确定检验水准)建立检验假设并确定检验水准1970.0282328.0SX.Y 0304.0421970.0Sb 579.40304.01392.0t (3)确定)确定P值下结论值下结论 )(2/),1(t579.497.20F 0.005P 317.4t579.4t6,2/005.0 10/13/202232(二)总体回归系数(二)总体回归系数 的可信区间的可信区间),(0.2136 0648.00304.0447.21392.0Stbb6,2/05.0 此区间不包括此区间不包括=0,结论为,结论为b有统计学意义。有
17、统计学意义。10/13/202233 SPSS结果结果A AN NO OV VA Ab b.8131.81320.968.004a.2336.0391.0467RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors:(Constant),年龄(岁)a.Dependent Variable:尿肌酐含量(mmol/L)b.C Co oe ef ff fi ic ci ie en nt ts sa a1.662.2975.595.001.9352.388.139.030.8824.579.004.065.214(C
18、onstant)年龄(岁)Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Lower BoundUpper Bound95%Confidence Interval for BDependent Variable:尿肌酐含量(mmol/L)a.10/13/202234(三)利用回归方程进行估计与预测(三)利用回归方程进行估计与预测1.总体均数总体均数 的可信区间的可信区间XY 220XYYY,2/0)XX()XX(n1SSStY00 XY:给定给定X后对应后对应Y的总体均数的总体均数:Y0给定给
19、定X后对应后对应Y的样本均数的样本均数10/13/2022350Y,2/0StY 2.个体个体Y值的容许区间值的容许区间220XYY)XX()XX(n11SS0 给定给定X后对应个体后对应个体Y值波动范围值波动范围10/13/202236 X Y (体重体重,kg)(体表面积体表面积,103cm2)11.0 5.28311.8 5.29912.0 5.35812.3 5.29213.15.60213.7 6.01414.4 5.83014.9 6.10215.2 6.07516.0 6.411例例 某地某地10名三岁儿童体重与体表面积名三岁儿童体重与体表面积10/13/202237111213
20、1415164.55.05.56.06.57.0可信区间可信区间与与容许区间容许区间示意示意(confidence band&tolerance band)X 体重体重Y 体体表表面面积积10/13/202238Linear Correlation10/13/202239p生物遗传学上的生物遗传学上的“相关相关”在回归分析中,有理由认为父亲身高决定儿在回归分析中,有理由认为父亲身高决定儿子身高,故把父亲身高作为自变量子身高,故把父亲身高作为自变量X,儿子身,儿子身高作为应变量高作为应变量Y。Pearson K(英英,18571936)在对同一家庭中兄在对同一家庭中兄弟与姐妹身高间关系进行分析时
21、,发现两者弟与姐妹身高间关系进行分析时,发现两者难以象父亲与儿子身高间关系那样区别自变难以象父亲与儿子身高间关系那样区别自变量量X与应变量与应变量Y,也不必计算回归方程。,也不必计算回归方程。Galton F(英英,18221911)将这种现象称之为将这种现象称之为“相关相关”。10/13/202240u 当一个变量增大,另一个也随之增大当一个变量增大,另一个也随之增大(或减少或减少),我们称这种现象为共变,或,我们称这种现象为共变,或相关。相关。两个变量有共变现象,称为有相两个变量有共变现象,称为有相关关系关关系。u 相关关系不一定是因果关系。相关关系不一定是因果关系。一、直线相关的概念一、
22、直线相关的概念10/13/202241r=0(h)r 0(f)r-1(d)r1(b)0r1(a)-1r0(c)r 0(e)r 0(g)零相关正相关负相关完全正相关完全负相关零相关零相关零相关相互关系示意图相互关系示意图10/13/202242相关系数的性质相关系数的性质u两变量间的线性关系密切程度与相关方两变量间的线性关系密切程度与相关方 向用直线相关系数向用直线相关系数r表示。表示。u1 r 1ur0为正相关为正相关ur0为负相关为负相关ur0为零相关或无相关为零相关或无相关10/13/202243YYXXXY22lll)YY()XX()YY)(XX(r 22)YY()YY()XX()XX(
23、r YXsYYsXX1n1r二、相关系数的意义与计算二、相关系数的意义与计算 Pearson 相关系数相关系数 标准化后的协方差标准化后的协方差协协方方差差方方差差 1n)YY)(XX(1n)XX(2 10/13/2022448818.01.046425.845 lll )YY()XX()YY)(XX(rYYXXXY22 10/13/202245SPSS结果结果C Co or rr re el la at ti io on ns s1.000.882.8821.000.002.002.8888尿肌酐含量(mmol/L)年龄(岁)尿肌酐含量(mmol/L)年龄(岁)尿肌酐含量(mmol/L)年龄
展开阅读全文