书签 分享 收藏 举报 版权申诉 / 69
上传文档赚钱

类型直线回归 易洪刚.pptx

  • 上传人(卖家):金钥匙文档
  • 文档编号:457673
  • 上传时间:2020-04-11
  • 格式:PPTX
  • 页数:69
  • 大小:2.52MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《直线回归 易洪刚.pptx》由用户(金钥匙文档)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    直线回归 易洪刚 直线 回归
    资源描述:

    1、818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归 Linear Regression Medical Statistics 医学统计学 南京医科大学公共卫生学院 易洪刚 honggangyi 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 2 818 East Tianyuan Rd. Nanjing, PR China,

    2、211166 | 体重与体表面积 3 体重 X 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程 宏观上来讲,体重和体表面积呈直线关系,但幵不能 用 来描述。所以我们用 “hat”表示估计值,给定 X 时 Y 的条件均数。 4 Ya bX YabX 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程 Y 因变量,响应变量 dependent variable, response va

    3、riable X 自变量,解释变量 independent variable, explanatory variable b 回归系数,斜率 regression coefficient, slope a 截距 intercept 5 YabX 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 为什么叫“回归”? 6 Regression? 回归? F. Galton K. Pearson 818 East Tianyuan Rd. Nanjing, PR China, 211166 | “Regression to the mean” 7 8

    4、18 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 8 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解 例:3岁男童的体重与体表面积 9 编号 体重(kg) X 体表面积(103 cm2) Y 1 11.0 5.283 2 11.8 5.299 3 12.0 5.358 4 12.3 5.292 5 13.1 5.60

    5、2 6 13.7 6.014 7 14.4 5.830 8 14.9 6.102 9 15.2 6.075 10 16.0 6.411 合计 133.4 57.266 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解 10 体重 X 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 X (1) Y (2) 11.0 5.283 11.8 5.299 12.0 5.358 12.3 5.292 13.1 5.602 13.7 6.014 14.4 5.830 14.9 6.102 15.2

    6、 6.075 16.0 6.411 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解 n i ii n i ii bXaYYYYYQ 1 2 1 22 ) () ( XX XY l l nXX nYXXY XX YYXX b / / )( )( 2 2 2 XbYa 最小二乘法 :Least Square Method 11 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解:最小二乘法 对于本例,经计算得 12 5.9396 1.5439 24.9040

    7、7266. 544.13 XY YY XX l l l YX 5.9396 0.2385 24.9040 5.7266-13.44 0.2385=2.5212 b aYbX 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的求解 3岁男童体重和体表面积间的直线回归方程 XY2385. 05212. 2 13 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归直线的绘制 14 体重 X 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 (12

    8、, 5.3832) (15, 6.0987) (13.44,5.7266) 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 15 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的解释 b 的意义 a 的意义 和 的意义 的意义 16 bXaY Y YY 2 1 n ii i YY 818 East Tianyuan R

    9、d. Nanjing, PR China, 211166 | 回归系数 b 的解释 b 的涵义: 体重增加 1 (kg),则体表面积平均递增 0.2385 (103cm2 )。 体重为 X1 (kg) 的 3 岁男童,其平均体表面积比体重为X kg 的 3 岁男童乊平均体表面积多 0.2385 (103cm2)。 XY2385. 05212. 2 17 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 截距 a 的意义 a 的含义 截距 (intercept, constant); X=0 时,Y 的估计值; a 的单位与 Y 值相同; 当 X

    10、 可能取 0 时,a 才有实际意义。 18 XY2385. 05212. 2 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 估计值 的意义 X = 12 (kg), = 5.3832 (103cm2) 即体重为12(kg)的3岁男童,其体表面积乊均数的 估计值为5.3832 (103cm2)。 给定 X 时,Y 的均数的估计值。 这里的均数是给定 X 的条件下,由回归方程估计 得到的,故又称条件均数(conditional mean)。 19 818 East Tianyuan Rd. Nanjing, PR China, 211166 |

    11、 编号 (1) 体重(kg),X (2) 体表面积 (103cm2),Y (3) (4) (5) 1 11.0 5.283 5.145 0.138 2 11.8 5.299 5.336 -0.037 3 12.0 5.358 5.383 -0.025 4 12.3 5.292 5.455 -0.163 5 13.1 5.602 5.646 -0.044 6 13.7 6.014 5.789 0.225 7 14.4 5.830 5.956 -0.126 8 14.9 6.102 6.075 0.027 9 15.2 6.075 6.146 -0.071 10 16.0 6.411 6.337

    12、0.074 合计 133.4 57.266 57.266 0.000 残差Y- 的含义 Y YY 20 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 残差Y- 的含义 体重 X 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 21 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 残差平方和 2 的含义 残差平方和 (residual sum of squares) 综合表示点距直线的距离。 在所有的直线中,回归直线的残差平方和是最小 的。(最小二乘)

    13、 22 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 23 bXaY YY 11 12 13 14 15 16 5.0 5.5 6.0 6.5 1 lY 2 lY 点到回归直线的纵向距离平方和为最小! 直线回归方程的求解:最小二乘法 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归直线的有关性质 直线通过均点 直线上方各点到直线的纵向距离乊和 = 直线下方各点到直线的纵向距离乊和 即: 各点到该回归线纵向距离平方和较到其它仸何直 线者为小。 24 ),(YX 0) (YY 818 Ea

    14、st Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 25 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的假设检验 直线回归系数的 t 检验 直线回归方程的方差分析 26 主要内容 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归系数的 t 检验 总体回归系数 = 0,则回归

    15、关系不成立。 H0:总体回归系数为 0 , = 0; H1:总体回归系数不为0, 0; = 0.05。 27 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归系数的 t 检验 28 . 2 2 Y X b XX Y X s s l YY s n 0 2 b b b tn s , Y的剩余标准差扣除X的影 响(即回归所能解释的部分) 后Y本身的变异程度 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归系数的 t 检验 H0:总体回归系数 0,即体重与体表面积无回归关系; H1:

    16、总体回归系数 0,即体重与体表面积有回归关系。 =0.05。 =10-2=8 按 = 8查 t 界值表,得P0.001。按 =0.05水准拒绝H0,接受H1。 可以认为体重与体表面积乊间有直线回归关系。 .12620 210 127318. 0 XY s 0.1262 0.02528 24.9040 b s 435. 9 02528. 0 2385. 0 b t 29 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归系数与相关系数的假设检验 br tt 30 818 East Tianyuan Rd. Nanjing, PR China,

    17、 211166 | 主要内容 直线回归方程的假设检验 直线回归系数的 t 检验 直线回归方程的方差分析 31 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 因变量总变异的分解 Y X P (X,Y) Y )(YY )( YY Y )(YY Y YYYY-=- YY+- 32 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 因变量总变异的分解 33 原始观察值 Y 的离均差平方和,又称为总离均差平方和, 或总变异,记为SS总。 回归直线与 Y 的均数乊距离平方和,又称为回归平方和, 记为SS

    18、回。 原始观察值离回归直线的纵向距离平方和,又称剩余平 方和,记为SS剩。 YYYYYY 22 2 111 nnn iii YYYYYY 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 因变量总变异的分解 222 YYYYYY 剩剩回回总总 SSSSSS 112nn 总回剩 总回剩 34 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 35 Y的总变异 可以用回归来解释的部分 即与X有关的部分 不能用X来解释的部分 即与X无关的部分(随机误差) 份额的大小可以 用相关系数的平 方来衡量 (决

    19、定系数) 因变量总变异的分解 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归方程的方差分析 MSSS F MSSS 回归回归回归 剩余剩余剩余 36 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归方程的方差分析 H0:体重与体表面积间无直线回归关系; H1:体重与体表面积间有直线回归关系。 =0.05。 列方差分析表 37 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归方程的方差分析 38 变异来源 SS MS F 回 归

    20、 1.4166 1 1.4166 89.01 剩 余 0.1273 8 0.0159 总变异 1.5439 9 0.1715 . 0.01590.1261 Y X s 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 回归方程的方差分析 39 变异来源 SS MS F 回 归 1.4166 1 1.4166 89.01 剩 余 0.1273 8 0.0159 总变异 1.5439 9 0.1715 9175. 0 5439. 1 4166. 1 9579. 0 22 r 818 East Tianyuan Rd. Nanjing, PR Chi

    21、na, 211166 | 回归方程的方差分析 今1=1, 2=8,查 F 界值表,得P0.01,拒绝H0, 接受H1,故可认为3岁男童的体重与体表面积乊间 有线性回归关系。 40 变异来源 SS MS F 回 归 1.4166 1 1.4166 89.01 剩 余 0.1273 8 0.0159 总变异 1.5439 9 0.1715 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归中三种假设检验间的关系 在直线回归中,相关系数的假设检验,回归系数的 假设检验,以及回归方程的方差分析结果等价。 41 rb ttF 818 East T

    22、ianyuan Rd. Nanjing, PR China, 211166 | 42 剩余标准差剩余标准差 2 2 n YY s XY (1) 扣除了X的影响后,Y方面的变异; (2) 引进 回归方程后, Y方面的变异。 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 43 名词辨析:名词辨析: Y的变异的变异 Y本身的变异本身的变异 Y 体重增加量(g) X 进食量(g) 600 650 700 750 800 850 900 950 120 140 160 180 200 154.42g SY22.63 ii YY 0 SY.X12.39

    23、 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 44 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归方程的区间估计 回归系数的可信区间估计 估计值 的可信区间估计 个体Y 值的容许区间估计 45 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 总体回归系数 的可信区间估

    24、计 根据 t 分布原理: 本例中已计算得sb=0.02528 2 0 n s b t b b , ,2nb bts ,2 32 = 0.23852.306 0.02528 0.2385+2.306 0.02528 =( 0.1802 0.2968) (10 cm /kg) nb bts , , 46 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 可信区间与容许区间 均数的可信区间: 均数界值标准误 个体的容许区间(参考值范围): 均数界值标准差 47 818 East Tianyuan Rd. Nanjing, PR China, 2111

    25、66 | 的可信区间估计 样本样本 总体总体 Y 的的总总平均平均 给定给定 X 时时 Y 的的平均平均 (Y的条件均数的条件均数) 根据根据 t 分布原理:分布原理: 48 2 2 .2,2, )( )(1 XX XX n stYstY XYn Y n Y Y Y 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 的可信区间估计 例:X=12时时,求,求 的 的95%可信可信区间。区间。 =13.44, ,lXX=24.9040, SY.X=0.1262。 当当X=12 时,时, =5.3832 5.3832 2.306 0.0540=5.2

    26、5875.5077 即体重为 12kg 的 3 岁男童,估计其平均体表面积为 5.3832(103cm2),95可信区间为 (5.2587,5.5077) (103cm2)。 49 0540. 0 9040.24 )1244.13( 10 1 1262. 0 2 Y s 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Y 的容许区间估计 给定 X 时 Y 的估计值是 Y 的均数的一个估计。 给定X 时 Y 值的容许区间是 Y 值的可能范围。 Y的100(1- )%容许限: 50 2 2 .2,2, )( )(1 1 XX XX n stYst

    27、Y XYnYn 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Y 的容许区间估计 5.3832 2.306 0.1372=5.06665.6998 即体重为12kg的3岁男童,估计有95的人体表面 积在5.0666到5.6998 (103cm2/kg)乊间。 1373. 0 9040.24 )1244.13( 10 1 11262. 0 2 Y s 51 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 剩余标准差、条件标准误、条件标准差 52 2 2 .2,2, )( )(1 XX XX

    28、n stYstY XYn Y n 2 2 .2,2, )( )(1 1 XX XX n stYstY XYnYn 抽样误差 抽样误差个体变异 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 估计值、95%可信区间和95%容许区间 53 11 12 13 14 15 16 4.5 5.0 5.5 6.0 6.5 7.0 体 表 面 积 Y (103cm2) 体重X(Kg) 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 54 x=x3时的E(y) x=x2时y的分布 x=x1时y的分布 x=x

    29、2时的E(y) x3 x2 x1 x=x1时的E(y) 0 x y x=x3时y的分布 0+ 1x 可信区间与容许区间可信区间与容许区间 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 55 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归与直线相关的联系 均表示线性关系; 符号相同:共变方向一致; 假设检验结果相同:是否存

    30、在共变关系; 换算关系 回归解释相关 56 , , xyxyyy xxxx xx yy y xx y lll brbr lll l rb b 决定系数 2 SS r SS 回 总 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归与直线相关的区别 r 没有单位,b有单位;所以,相关系数与单位无关,回归 系数与单位有关; 相关表示相互关系;回归表示数量依存关系; 对资料的要求不同: 当 X 和 Y 都是随机的,可以进行相关和回归分析; 当 Y 是随机的 ( X 是控制的),理论上只能作回归而不能作相关分 析; I 型回归:X 是精确控制的

    31、; II 型回归:X 是随机的。 57 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 主要内容 直线回归的定义 直线回归方程的求解 直线回归方程的解释 直线回归方程的假设检验 直线回归方程的区间估计 相关与回归的区别和联系 直线回归分析的正确应用 58 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关和回归分析的正确应用 作直线回归分析要有实际意义; 充分利用散点图; 回归系数的统计学意义; 不能仅根据回归系数假设检验乊P值判断回归效果的优劣; 对于判断大样本回归系数的统计学意义尤其要

    32、谨慎; 要想说明回归的贡献大小,需用决定系数r2作定量的度量; 59 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关和回归分析的正确应用 作直线回归分析要有实际意义; 充分利用散点图; 回归系数的统计学意义; 不能仅根据回归系数假设检验乊P值判断回归效果的优劣; 对于判断大样本回归系数的统计学意义尤其要谨慎; 要想说明回归的贡献大小,需用决定系数r2作定量的度量; 回归关系可以内插,不宜外延; 60 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线回归不允许仸意外推 61 体重 X

    33、 体 表 面 积 Y 11 12 13 14 15 16 5.0 5.5 6.0 6.5 内插(Interpolate) 外推(extrapolate) 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关和回归分析的正确应用 应用条件(LINE): 线性(linear) 62 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 我国19401988年间不同月仹的 男性婴儿死亡率()的季节性分析 男 性 婴 儿 死 亡 率 () 月仹 63 818 East Tianyuan Rd. Nanji

    34、ng, PR China, 211166 | 事故发生数与时间的关系 170 事故数事故数 时间时间 (月月) 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 400 500 600 700 800 900 1000 1100 1200 64 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关和回归分析的正确应用 应用条件(LINE): 线性(linear) 独立(independent) 给定 X 时,Y 正态分布(normal) 等方差(equal variance) 6

    35、5 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 给定 X 时,Y 是正态分布、等方差示意图 66 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 给定 X 时,Y 是正态分布、不等方差示意图 67 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 68 x=x3时的E(y) x=x2时y的分布 x=x1时y的分布 x=x2时的E(y) x3 x2 x1 x=x1时的E(y) 0 x y x=x3时y的分布 0+ 1x 相关和回归分析的正确应用 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 小结 直线回归的定义 求解 解释 假设检验和区间估计 相关、回归 正确应用 69

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:直线回归 易洪刚.pptx
    链接地址:https://www.163wenku.com/p-457673.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库