大学精品课件:第7章双变量回归与相关94.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大学精品课件:第7章双变量回归与相关94.ppt》由用户(金钥匙文档)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学 精品 课件 变量 回归 相关 94
- 资源描述:
-
1、直线相关和回归分析 Linear Correlation and regression Analysis,Medical statistics 医学统计学,Page 2,相关分析:主要内容,相关和直线相关的概念 直线相关的图示 直线相关系数的计算 直线相关系数的假设检验和区间估计 等级相关,Page 3,问题的提出,人的体重往往随着身高的增加而增加。二者之间是否存在某种关联?如果存在,可否用身高来推测体重的多少? 儿童所能发出的最长音调往往和年龄有关。是否可以建立年龄和音调长度的数量关系? 人的肺活量往往随着胸围的增加而增加。是否可以建立胸围和肺活量的数量关系? 举重运动员所能举起的最大重量是
2、否与他的体重有关?,Page 4,当两个数值变量之间出现如下情况:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。 若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positive correlation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negative correlation)。,Page 5,直线相关的图示,Page 6,直线相关系数的概念,用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数(correlation coefficient),又称为积差相关系数(co
3、efficient of product-moment correlation),Pearson相关系数 。 总体相关系数用希腊字母表示,而样本相关系数用r表示,取值范围均为-1,1。,Page 7,直线相关系数的计算,相关系数没有单位,其值介于【-1,1】之间,Page 8,以下资料选自Galton的一项研究,目的是探讨成年时身高是否与两岁时的身高(单位:英寸)有关。,Page 9,绘制散点图,Y 成年后身高(单位:英寸),X 2岁时的身高(单位:英寸),30,32,34,36,38,40,63,65,67,69,71,Page 10,Page 11,Page 12,Page 13,相关系数
4、的假设检验,H0:0,两变量间无直线相关的关系; H1:0。,Page 14,H0:0,两变量间无直线相关的关系; H1:0,两变量间有直线相关的关系; =0.05 =8-2=6,t0.001/2,6=2.959 以自由度为6查附表2的t界值表,得P0.001,按=0.05的水准拒绝H0,接受H1,认为2岁时的身高和成年身高之间存在正相关。,Page 15,总体相关系数的区间估计,从相关系数不等于0的总体中抽样,样本相关系数的分布是偏态的。,Page 16,相关系数的抽样分布( = - 0.8),Page 17,相关系数的抽样分布( = 0),Page 18,相关系数的抽样分布( =0.8),
5、Page 19,R.A. Fisher(1921) 的 z 变换,z 近似服从均数为 , 标准差为 的正态分布。,Page 20,相关系数的可信区间估计,将 r 变换为 z ; 根据 z 服从正态分布,估计 z 的可信区间; 再将 z 变换回 r 。,Page 21,相关系数的可信区间估计,Fishers 变换 r z 正态近似 Fishers 反变换 的95CI z的95CI,Page 22,Page 23,某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)。计算8名儿童的尿肌酐含量与年龄的相关系数(严格地讲,直线相关分析要求资料服从双变量正态分布) 8名正常儿童的年龄(岁)与
6、尿肌酐含量(mmol/24h),年龄,尿肌酐含量,Page 24,计算得,Page 25,相关系数的假设检验,H0:0,两变量间无直线相关的关系; H1:0,两变量间有直线相关的关系; =0.05 =8-2=6 以自由度为6查附表2的t界值表,得P0.01,按=0.05的水准拒绝H0,接受H1,认为两变量之间存在正相关。,Page 26,相关系数的可信区间估计,Page 27,秩相关,秩相关(rank correlation )或称等级相关 对原变量不作要求,属于非参数统计方法。 适用于:非正态分布、方差不齐、开口资料、等级资料的双变量直线相关分析。 计算公式:-1rs1,Page 28,Sp
7、earman秩相关步骤,将各变量X,Y分别编秩RX, RY; 按公式计算RX与RY Spearman相关系数rS ; 样本的秩相关系数rS 是总体秩相关系数s的估计值,检验s是否为0。 当n50,可查rS 界值表, 当n50,可用公式计算检验统计量u,查u界值表,Page 29,某省1995年到1999年居民死因构成与WYPLL构成,Page 30,检验步骤,H0:rs=0,即死因构成和WYPLL构成之间无直线相关关系 H1:rs0,即死因构成和WYPLL构成之间有直线相关关系 a0.05,本例n=18,查附表14的rs界值表,得P0.01。按a=0.05水准拒绝H0,接受H1,可认为当地居民
8、死因的构成和各种死因导致的潜在工作损失年数WYPLL的构成存在正相关关系。,Page 31,相同秩较多时 rs 的校正,公式中Tx(或TY)(t 3t)/12,t为X(或Y)中相同秩的个数。显然当TxTY0时,公式(9-27)与公式(9-25)相等。,(9-27),对X与Y分别排秩时,若相同秩较多,宜用公式(9-27)计算校正rs,Page 32,血小板数与出血症状的等级相关分析,Page 33,H 0:S0,血小板数与出血症状无相关关系; H 1: S0,血小板数与出血症状有相关关系。 = 0.05。,Page 34,(9-18),PiX QiY,注意:对Rs还有一种简便的算法,就是将Pi、
9、Qi (无论Pi、Qi中是否存在相同秩)直接代入公式(9-18)中的X、Y,即用秩直接作积差相关计算,得到的Rs就无须校正。,Page 35,假设检验,本例 n = 12, 查界值表,得: rs(0.05/2,12)=0.587 现 rs =-0.501,故 P 0.05。 可以认为,血小板数与出血症状无等级相关关系。,Page 36,直线回归分析:主要内容,引言 直线回归的定义 直线回归方程的求解 回归系数的t检验 回归问题的方差分析 直线回归系数和回归方程的解释 与直线回归有关的区间估计 相关与回归的区别和联系 正确应用,Page 37,引言,对于2岁时的身高和成年后身高间的关系 即便具有
10、相同的2岁身高,成年后的身高也不一定相同;,Page 38,直线回归的定义,宏观上来讲,他们呈直线关系,但并不能用 来描述。所以我们用 “hat”表示估计值,给定x时y的条件均数,Page 39,Y 因变量,响应变量 (dependent variable, response variable) X 自变量,解释变量 (independent variable, explanatory variable) b 回归系数 (regression coefficient, slope) a 截距 (intercept),Page 40,直线回归方程的求解,Page 41,直线回归方程的求解,最小二
11、乘法 (Least Square Method),Page 42,直线回归方程的求解,2岁身高和成年身高之间关系,Page 43,直线回归方程,Page 44,回归系数和回归方程的意义及性质,b 的意义 a 的意义 和 的意义 的意义,Page 45,b的含义,b的涵义:两岁身高每高1英寸,成年后的身高平均高0.9286英寸。,Page 46,a 的意义,a 截距(intercept, constant) X=0 时,Y的估计值 a的单位与Y值相同 当X可能取0时,a才有实际意义。,Page 47,估计值 的意义,X=39, = 71.3929 即两岁身高为39英寸时,其成年后身高均数的估计值
展开阅读全文