绝密版-直线相关和直线回归(可编辑的)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《绝密版-直线相关和直线回归(可编辑的)课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 可编辑的 绝密 直线 相关 回归 编辑 课件
- 资源描述:
-
1、r 变量间关系问题变量间关系问题r 两个关系两个关系肺活量肺活量体重、药物剂量体重、药物剂量疗效等。疗效等。年龄年龄身高、年龄身高、年龄血压、体温血压、体温脉膊、脉膊、l 互依关系:两变量间的彼此关系互依关系:两变量间的彼此关系 相关分析相关分析l 依存关系:一变量随另一变量变化而变化依存关系:一变量随另一变量变化而变化 回归分析回归分析 q 直线相关与回归的概念直线相关与回归的概念q 直线回归方程的建立直线回归方程的建立q 相关系数与回归系数的假设检验相关系数与回归系数的假设检验q 直线相关与回归的区别与联系直线相关与回归的区别与联系q 直线相关与回归的应用直线相关与回归的应用(linear
2、 correlation)又称又称简单相关简单相关或或PearsonPearson相关相关分析,用于分析,用于研究两个数值变量间是否存在线性相关关系研究两个数值变量间是否存在线性相关关系统计分析方法。统计分析方法。一、直线相关的概念一、直线相关的概念 两种事物或现象之间的相关关系两种事物或现象之间的相关关系基本上有下列基本上有下列四种情况四种情况:l 正相关正相关l 负相关负相关l 无关(零相关)无关(零相关)l 非线性相关非线性相关二、相关的类型二、相关的类型l 正相关:正相关:一种现象的数值伴随另一种现象的数值的一种现象的数值伴随另一种现象的数值的增加而递增,如增加而递增,如图图11.6(
3、a);若若X、Y呈正比,那么散点基本上在一直线呈正比,那么散点基本上在一直线上,称为完全正相关如上,称为完全正相关如图图11.6(b);l 负相关:负相关:一种现象的数值伴随另一种现象的数值的增一种现象的数值伴随另一种现象的数值的增加而递减,如图加而递减,如图11.6(c);若若X、Y呈反比,那么散点基本上在一直线呈反比,那么散点基本上在一直线上,称为完全负相关如图上,称为完全负相关如图11.6(d);相关性质可由散点图直观的说明相关性质可由散点图直观的说明 l 无关(零相关):无关(零相关):若变量若变量 x 无论增加或减少,变量无论增加或减少,变量 y 不受不受到影响,如到影响,如图图11
4、.6(e)11.6(e);l 非线性相关:非线性相关:变量变量 x 与与 y 的增减在坐标上排列不呈直线的增减在坐标上排列不呈直线性分布如弧形、抛物线形、性分布如弧形、抛物线形、S S形等如形等如图图11.6(f)11.6(f)反映两变量间的相关关系反映两变量间的相关关系的统计方法可用的统计方法可用相关图相关图和和相关系数相关系数两种方法表示两种方法表示三、直线相关的应用条件三、直线相关的应用条件 又称又称积差相关系数积差相关系数或或PearsonPearson相关系数相关系数,说,说明具有直线关系的两个变量间相关关系的密切明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标。程度与相
5、关方向的指标。要求两个变量均呈正态分布(要求两个变量均呈正态分布(双变量正态分布双变量正态分布)四、相关系数四、相关系数(correlation coefficient)及其意义及其意义r r 表示样本相关系数表示样本相关系数,表示总体相关系数。表示总体相关系数。意义:意义:描述两个变量直线相关的描述两个变量直线相关的方向与密切方向与密切 程度程度的的指标指标。表示方法:表示方法:-1 r 1(无单位)(无单位)r 值为正值为正 正相关正相关r 值为负值为负 负相关负相关|r|=1 完全相关完全相关|r|=0 零相关零相关五、直线相关分析的基本步骤五、直线相关分析的基本步骤l 绘制散点图绘制散
6、点图l 计算相关系数计算相关系数YYXXXYlllYYXXYYXXr22)()()(l 相关系数的假设检验相关系数的假设检验目的:目的:初步了解两个变量初步了解两个变量 间有无直线关系间有无直线关系 有无可疑的异常点有无可疑的异常点t-test,r-testP170P170例例12-1表表12-1 12-1 20002000年某地年某地1616名名7 7岁男孩体重与胸围资料岁男孩体重与胸围资料编号编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 161 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16体重体重 24.5 27.0 23.5 2
7、8.5 23.0 26.7 26.8 24.6 24.8 19.7 19.5 17.2 20.0 19.0 20.2 21.024.5 27.0 23.5 28.5 23.0 26.7 26.8 24.6 24.8 19.7 19.5 17.2 20.0 19.0 20.2 21.0(Kg)胸围胸围 61.0 62.0 60.0 64.0 59.3 58.4 58.6 58.7 58.5 56.0 55.6 54.5 53.0 52.0 58.0 57.061.0 62.0 60.0 64.0 59.3 58.4 58.6 58.7 58.5 56.0 55.6 54.5 53.0 52.0
8、58.0 57.0(cm)l 绘制散点图:绘制散点图:初步了解两个变量间的相关关系初步了解两个变量间的相关关系2000年某地年某地16名名7岁男孩体重与胸围散点图岁男孩体重与胸围散点图l 计算相关系数计算相关系数YYXXXYlllYYXXYYXXr22)()()(其中其中:公式公式 为为X X和和Y Y 的离均差积和的离均差积和xxlxylyyl为为X X 的离均差平方和的离均差平方和为为Y Y 的离均差平方和的离均差平方和yx,为为x,y x,y 的均数的均数nYXXYlxy)(nXXlxx22)(nYYlyy22)(nYYnXXnYXXYlllryyxxxy2222)()()(8343.0
9、166.92656.538131636630.8548166.92636638.2133222r r 的计算结果说明了两个变量的计算结果说明了两个变量X与与Y 之间关联的之间关联的 密切程度密切程度(绝对值大小)与(绝对值大小)与关联的性质关联的性质(正负号)(正负号)从以上计算结果我们能否得出结论从以上计算结果我们能否得出结论:该地该地7 7岁男孩体重与胸围之间呈正相关岁男孩体重与胸围之间呈正相关系,相关系数是系,相关系数是0.83430.8343。为什么?为什么?本例中的相关系数本例中的相关系数r=0.8343,说明了含,说明了含16例例7岁男孩体重与胸围之间存在相关关系。但是,岁男孩体重
10、与胸围之间存在相关关系。但是,这这16例只是例只是总体总体中的中的一个样本一个样本,由此得到的相关,由此得到的相关系数会存在抽样误差。因为,当总体相关系数系数会存在抽样误差。因为,当总体相关系数()为零时)为零时,由于抽样误差,从总体抽出的,由于抽样误差,从总体抽出的16例,其例,其r 可能不等于零可能不等于零。l 总体相关系数的假设检验总体相关系数的假设检验检验检验 r r 是否来自总体相关系数为零是否来自总体相关系数为零的总体的总体(即即=0)目的:目的:r0的两种可能的两种可能 X X、Y Y 间确实有相关关系间确实有相关关系(0)抽样误差的影响抽样误差的影响 (=0)2102nrrSr
11、tr2 n t 检验检验 r 检验检验:方法:方法:r 的标准误的标准误r 界值表界值表l 相关关系密切程度的判断相关关系密切程度的判断7.04.0 r7.0r4.0rl 低度相关低度相关l 中度相关中度相关l 高度相关高度相关 一般说来,当样本量较大(一般说来,当样本量较大(n100),并对),并对r 进行假设检验,有统计学意义时进行假设检验,有统计学意义时(即即 ),r 绝对值越大,说明两个变量之间关联程度越强。绝对值越大,说明两个变量之间关联程度越强。P|不能把毫无关联的两种现象作直线相关分析不能把毫无关联的两种现象作直线相关分析|资料要求两变量资料要求两变量 x、y 都应是来自正态分布
12、总体都应是来自正态分布总体|应绘制散点图,当观察点的分布有直线趋势应绘制散点图,当观察点的分布有直线趋势 时,才适宜作直线相关分析。时,才适宜作直线相关分析。|不能只根据不能只根据r 的绝对值的大小来判断相关的的绝对值的大小来判断相关的密切程度密切程度|若若 r 很小很小,即使即使 t 检验有统计学意义检验有统计学意义,但专业上但专业上 意义不大。意义不大。|相关关系相关关系可能是因果关系可能是因果关系,也可能是伴随关系也可能是伴随关系 相关分析主要为进一步的研究提供线索。相关分析主要为进一步的研究提供线索。在在例例12-112-1中我们讨论了中我们讨论了7 7岁男孩体重与胸围岁男孩体重与胸围
13、之间的关系,知道了二者之间成正相关。之间的关系,知道了二者之间成正相关。如果我们知道了一位如果我们知道了一位7 7岁男孩岁男孩体重体重,能推断出,能推断出 其其胸围胸围吗?吗?或或其其胸围胸围可能在什么范围内?可能在什么范围内?体重的增加,体重的增加,胸围胸围也在增加,假如也在增加,假如体重体重增加增加 2Kg2Kg,那么,那么胸围胸围增加多少增加多少cm?cm?(linear regression)又称简单回归,用于研究又称简单回归,用于研究两个数值变两个数值变量间量间的的依存关系依存关系,从而预测或控制未知变,从而预测或控制未知变量的一种统计分析方法。量的一种统计分析方法。一、直线回归的概
14、念一、直线回归的概念P180例例13-1xybxaYl 两种变量两种变量 v 自变量自变量 (independent variable)v 应变量应变量 (dependent variable)l 两种关系两种关系v 函数关系函数关系函数方程函数方程:v 回归关系回归关系回归方程回归方程:欲用容易测定的欲用容易测定的体重来预测和估体重来预测和估计心脏横径计心脏横径bxayx x,y y 呈呈确定性关系确定性关系x x,y y 呈非呈非确定性关系确定性关系13名名8岁正常男童体重与心脏横径散点图岁正常男童体重与心脏横径散点图 直线回归直线回归是分析两变量间线性依存变化是分析两变量间线性依存变化的
15、的数量的关系数量的关系。二、直线回归的应用条件二、直线回归的应用条件 要求要求 Y 变量呈正态分布,变量呈正态分布,X 变量可变量可以是精确测量和控制的变量。以是精确测量和控制的变量。bXaY :为为Y 的估计值,读作的估计值,读作Y hat a :为截距,即为截距,即 时的时的 值值 b :为样本回归系数为样本回归系数(直线的斜率直线的斜率);其;其 统计学意义是统计学意义是 X 每增加每增加(减减)一个一个 单位单位Y 平均改变平均改变 b 个单位个单位 Y0 xY直线回归方程的一般表达式为:直线回归方程的一般表达式为:即即X 取某一定数值取某一定数值时相应时相应Y 的样本均的样本均数(也
16、是相应数(也是相应Y的的点估计值)点估计值)a、b是是决定直决定直线的两线的两个系数个系数 回归系数 b 和截距 a 的计算 根据最小二乘法原理(根据最小二乘法原理(该法原理可保证各实该法原理可保证各实测点至直线的纵向距离的平方和最小测点至直线的纵向距离的平方和最小)可导出)可导出:为为X X 和和 Y Y 的离均差积和的离均差积和为为X X 的离均差平方和的离均差平方和其中:其中:XXXYllXXYYXXb2)()(XYlXXlXbYal 绘制散点图绘制散点图l 计算回归系数计算回归系数 b b 与截距与截距 a al 对回归系数对回归系数 b b 进行假设检验进行假设检验l 列出回归方程列
17、出回归方程 l 回归直线的绘制回归直线的绘制 l 回归系数的假设检验回归系数的假设检验 l 总体回归系数总体回归系数 的估计的估计 假设检验方法假设检验方法:v t t 检验检验v 方差分析方差分析v r r 检验检验代替代替 其中其中:Sb 为回归系数为回归系数 b 的标准误的标准误 SY.X 为剩余标准差,反映为剩余标准差,反映扣除了扣除了X 的影响后的影响后Y 的变异的变异bSbt0XXXYblSS.2,n22)(2.nSSnYYSXY残v 例例13-113-1 t tb b 检验步骤检验步骤59.603098.02041.0bbsbt H0:=0 ,即体重和心脏横径间无直线回归关系即体
18、重和心脏横径间无直线回归关系 H1:0,即体重和心脏横径间有直线回归关系即体重和心脏横径间有直线回归关系 =0.05 b=0.2041,n=13,Sb=0.03098 代入公式代入公式:查查 t 值表,值表,t 0.05/2(11)=2.201,tb=6.592.201,则,则P0.05,按按 =0.05水准拒绝水准拒绝 H0,接受,接受H1,可认为可认为该地该地8岁男孩体重岁男孩体重与心脏横径与心脏横径间直线关系存在间直线关系存在,所求线性回归方程成立所求线性回归方程成立。11213v r 在实际应用中,如果已对相关系数进行了在实际应用中,如果已对相关系数进行了 假设检验,则可代替回归系数的
展开阅读全文