第七章直线回归相关分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第七章直线回归相关分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第七 直线 回归 相关 分析 课件
- 资源描述:
-
1、直线相关与回归分析.复习复习1 1、方差分析的用途。方差分析的用途。2 2、方差分析的基本思路方差分析的基本思路3 3、方差分析的出发点方差分析的出发点4 4、方差分析的步骤方差分析的步骤5 5、单因素方差分析中单因素方差分析中SS SS T T、SS SS t t、SS SS e e的含义及的含义及三者的关系。三者的关系。.第九章第一节第二节第三节回归与相关的概念直线回归直线相关本章节内容本章节内容.第一节:回归与相关的概念 前面各章我们讨论的问题,都只涉及到一前面各章我们讨论的问题,都只涉及到一个变量,如体重个变量,如体重 、日增重、产仔数、体温、日增重、产仔数、体温、血糖浓度血糖浓度 、
2、产奶量、产奶量 、产毛量或孵化率、产毛量或孵化率 、发病、发病率等。率等。 但是,由于客观事物在发展过程中相但是,由于客观事物在发展过程中相互联系、相互影响,因而在生物学研究中常常互联系、相互影响,因而在生物学研究中常常要研究两个或两个以上变量间的关系。要研究两个或两个以上变量间的关系。 . 一、确定的函数关系:一、确定的函数关系:变量间存在着完全确变量间存在着完全确定性的一一对应关系,可以用精确的数学表达式来定性的一一对应关系,可以用精确的数学表达式来表示。表示。 二、不完全确定的函数关系:二、不完全确定的函数关系:变变 量量 间不存在完全间不存在完全的确定性关系,不能用精确的数学公式来表示
3、的确定性关系,不能用精确的数学公式来表示,统计统计学中把这些变量间的关系称为学中把这些变量间的关系称为协变关系协变关系(相关关系相关关系),把存在协变关系的变量称为把存在协变关系的变量称为协变量协变量(相关变量相关变量)。 研究两个或两个以上变量间的关系有两类:研究两个或两个以上变量间的关系有两类: .相相关关变变量量因果关系因果关系平行关系平行关系一个变量的变化受另一个变一个变量的变化受另一个变量或几个变量的制约。量或几个变量的制约。两个以上变量之间两个以上变量之间互为因果互为因果或或共同受到另外因素的影响。共同受到另外因素的影响。.1 1、回归分析、回归分析 (regression ana
4、lysisregression analysis) 研究呈因果关系的相关变量间的关系。表示原研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。因的变量称为自变量,表示结果的变量称为依变量。 一因一果,一元回归分析一因一果,一元回归分析 一个自变量与一个依变量的回归分析,分为一个自变量与一个依变量的回归分析,分为直线回归分析与曲线回归分析两种。直线回归分析与曲线回归分析两种。多因一果,多元回归分析多因一果,多元回归分析 多个自变量与一个依变量的回归分析,分为多个自变量与一个依变量的回归分析,分为多元线性回归分析与多元非线性回归分析两种。多元线性回归分析与多元非
5、线性回归分析两种。. .2、相关分析、相关分析 ( correlation analysis) 研究呈平行关系的相关变量之间的关系。研究呈平行关系的相关变量之间的关系。 简单相关分析:简单相关分析: 对两个变量间的直线关系进行相关分析,也称为对两个变量间的直线关系进行相关分析,也称为直线相关分析。直线相关分析。复相关分析:复相关分析: 对多个变量进行相关分析时,研究一个变量与多对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关;个变量间的线性相关; 偏相关分析:偏相关分析: 研究其余变量保持不变的情况下两个变量间的线研究其余变量保持不变的情况下两个变量间的线性相关。性相关。. 函数关
6、系 有精确的数学表达式 (确定性的关系) 直线回归分析 一元回归分析 变量间的关系 因果关系 曲线回归分析 (回归分析) 多元线性回归分析 多元回归分析 相关关系 多 元 非 线 性 回 归 分 析 (非确定性的关系) 简单相关分析 直线相关分析 平行关系 复相关分析 (相关分析) 多元相关分析 偏相关分析 .第二节:直线回归第二节:直线回归 Linear Regression一、直线回归方程的建立一、直线回归方程的建立二、直线回归的数学模型和基本假定二、直线回归的数学模型和基本假定三、直线回归的假设检验三、直线回归的假设检验四、直线回归的区间估计四、直线回归的区间估计.一、直线回归方程的建立
7、一、直线回归方程的建立 。.两个变量间关系的性质(正向协同变化或负向协同变化)和两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切)程度(关系是否密切)两个变量间关系的类型(直线型或曲线型)两个变量间关系的类型(直线型或曲线型)是否有异常观测值的干扰是否有异常观测值的干扰 .X 每一个取值都有每一个取值都有 Y 的一个正态分布与之对应。的一个正态分布与之对应。由于依变量由于依变量y的实际观测值总是带有随机误差,因的实际观测值总是带有随机误差,因而依变量而依变量y的实际观测值的实际观测值yi可用自变量可用自变量x的实际观测值的实际观测值xi表示为:表示为:iiixy2 2、直
8、线回归的数学模型、直线回归的数学模型.总体线性回归模型的图示YXiiixy ixyx 观察值观察值.总体线性回归模型总体线性回归模型iiixy yx.为了描述为了描述X与与Y间的数量关系,必须找出一个能代表间的数量关系,必须找出一个能代表Y的的值与值与i对应,这个代表值只能是当对应,这个代表值只能是当X=i时,时,Y的平均数的平均数y/X= i。y/X= i称为称为Y的条件平均数。的条件平均数。如何估计如何估计y/X= i是直线回归所要解决的问题。是直线回归所要解决的问题。. 根据回归方程所画出的直线称为回归线,根据回归方程所画出的直线称为回归线,b是直线是直线的斜率,称为回归系数。的斜率,称
9、为回归系数。 怎样通过实际观测值得到总体回归怎样通过实际观测值得到总体回归 和和 的最好点估计值的最好点估计值a和和b?.bxay最小二乘估计法最小二乘估计法a.建立建立 样本线性回归方程的方法样本线性回归方程的方法最小二乘法最小二乘法xy e1e2e3e4yyiiiniine1221 原则:回归直线是指所有直线中最接近散点图全部散点的直原则:回归直线是指所有直线中最接近散点图全部散点的直线,即最好的直线是使总的估计误差达到最小的直线。线,即最好的直线是使总的估计误差达到最小的直线。.nyy12)(nnbxayyyQ1212)()(最小最小最小二乘法(method of least squar
10、e)a、b应使回归估计值与实际观测值的误差平方和最小,即:应使回归估计值与实际观测值的误差平方和最小,即:22()()Qyyyabx最小最小 这种使估计误差平方之和达最小的参数估计方法称为最小这种使估计误差平方之和达最小的参数估计方法称为最小二乘法。二乘法。.0)(2bxayaQ0)(2xbxaybQ令令 Q对对a、b的一阶偏导数等于的一阶偏导数等于0,即:,即: 整理得关于整理得关于a、b的正规方程组的正规方程组: yxbanxyxbxa2解正规方程组,得:解正规方程组,得: xbyaxxySSSPxxyyxxb2)()(.xbyaxxySSSPxxyyxxb2)()( 自变量自变量 x 的
11、离均差与依变量的离均差与依变量y 的离均差的乘积和。的离均差的乘积和。2)(xx)(yyxx a 叫做样本回归截距,是总体回归截距的最小二乘估叫做样本回归截距,是总体回归截距的最小二乘估计值也是无偏估计值,是回归直线与计值也是无偏估计值,是回归直线与y轴交点的纵坐标,轴交点的纵坐标,当当 x = 0时,时, y = a; 简称乘积和简称乘积和 ,记作,记作 SPxy 或或Ssxy 。 简称简称SSX 。 b 叫做样本回归系数,表示叫做样本回归系数,表示 x 改变一个单位,改变一个单位,y 平均平均改变的数量;改变的数量;b 的符号反映了的符号反映了x影响影响y的性质,的性质,b的绝对值的绝对值
12、大小反映了大小反映了 x 影响影响 y 的程度的程度;.bxaynyyQ12)(为最小值0)(yy),(yx基本性质.变量变量1变量变量2收集数据收集数据散点图温度天数 X Y平均温度() 历期天数(d ) 11.8 30.1 14.7 17.3 15.6 16.7 16.8 13.6 17.1 11.9 18.8 10.7 19.5 8.3 20.4 6.7. X Y平均温度() 历期天数(d ) 11.8 30.1 14.7 17.3 15.6 16.7 16.8 13.6 17.1 11.9 18.8 10.7 19.5 8.3 20.4 6.77 .134x19.23232x3 .11
13、5y03.20392y8n8375.16nxx4125.14nyy.1788.55)()(222xxnxxSSx2688.377)()(222yynyySSy6937.139)( )()( )(yyxxnyxxySPxy5317.2xxySSSPb0400.57xbyaxy5317. 20400.57.0 010102020303040401010121214141616181820202222温度温度天数(天)天数(天)()xy5317. 20400.5711.8-20.4b b的生物学意义:的生物学意义:当温度提高一个单位时,历期缩短当温度提高一个单位时,历期缩短2.53172.5317天
14、。天。a a的生物学意义:的生物学意义:当温度为当温度为0 0时,历期是时,历期是57.0457.04天。天。根据直线回归方程可作出回归直线,见图。从图看出,并不是根据直线回归方程可作出回归直线,见图。从图看出,并不是所有的散点都恰好落在回归直线上,这说明所有的散点都恰好落在回归直线上,这说明用用 去估计去估计y是有偏是有偏差的。差的。y .二、直线回归的假设检验bxay有意义有意义指导实践指导实践?是否真正存在线性关系是否真正存在线性关系回归关系是否显著回归关系是否显著.(一)对回归方程的(一)对回归方程的F检验检验1、直线回归的变异来源、直线回归的变异来源yy-y实际值与估计值之差,剩余或
15、残差。y-y估计值与均值之差,它与回归系数的大小有关。y=a+bxy-yy-y(x,y)22) ()()(yyyyyy)y (y)yy (22)y (y2)yy (0)()()()()() ( )(22xxxxxySSSSSPSPSSSPSSbbSPxxbyyxxbyyyy222) ()()(yyyyyy.依变量依变量 y 的平方和,总平方和,记的平方和,总平方和,记SST或或SS总。总。回归平方和回归平方和 U SSR离回归平方和离回归平方和 Q SSE222) ()()(yyyyyy.y y的离均差,反映了的离均差,反映了y y的总变异程度,称为的总变异程度,称为y y的总平方和。的总平方
16、和。说明未考虑说明未考虑x x与与y y的回归关系时的回归关系时y y的变异。的变异。2)(yyTSS 它反映在它反映在y的总变异中由于的总变异中由于x与与y的直线关系,而使的直线关系,而使y变变异减小的部分,异减小的部分,在总平方和中可以用在总平方和中可以用x解释的部分解释的部分。 SSR(U U)值大,说明回归效果好。)值大,说明回归效果好。为由为由x变异引起变异引起y变异的平方和,称回归平变异的平方和,称回归平方和方和(regression sum of squares) U SSR2)( yy.误差因素引起的平方和,反映了除去误差因素引起的平方和,反映了除去x x与与y y的直线回归关
17、的直线回归关系以外的其余因素使系以外的其余因素使y y引起变化的大小。引起变化的大小。反映反映x x对对y y的线性影响之外的一切因素对的线性影响之外的一切因素对y y的变异的作的变异的作用,也就是在总平方和中无法用用,也就是在总平方和中无法用x x解释的部分。解释的部分。离回归平方,误差平方和,残差(剩余)离回归平方,误差平方和,残差(剩余)平方和平方和(residual sum of squares)SS(residual sum of squares)SSE E Q Q在散点图上,各实测点离回归直线越近,在散点图上,各实测点离回归直线越近,SSE (Q Q)值越小,说明直线回归的估计误差
18、越小。值越小,说明直线回归的估计误差越小。2) ( yy.222) ()()(yyyyyyQUSSTERTSSSSSSxxySSSPb xRSSbxxbyxxbyyySSU22222)()()(2) (yyQRTESSSSSSQxxyRSSSPSSU2.直线回归分析中,回归自由度等于自变量直线回归分析中,回归自由度等于自变量的个数,只涉及到的个数,只涉及到1 1个自变量个自变量df回归1df总n-1df离回归n-2ERTdfdfdf.2/nSSsExyQ/n-2Q/n-2离回归标准差离回归标准差回归估计标准误回归估计标准误剩余标准差剩余标准差离回归方差离回归方差.两个变量是否存在线性关系,可采
19、用两个变量是否存在线性关系,可采用F F检验检验法进行。法进行。总体回归截踞总体回归截踞总体回归系数总体回归系数随机误差随机误差若若x x与与y y间间不存在直线关系不存在直线关系,则总体回归系数,则总体回归系数=0=0; ; 若若x x与与y y间间存在直线关系存在直线关系,则总体回归系数,则总体回归系数00iiixy .假 设H H0 0: :两变量间两变量间无无线性关系线性关系H HA A: :两变量间两变量间有有线性关系线性关系在无效假设存在下,回归方差与离回归在无效假设存在下,回归方差与离回归方差的比值服从方差的比值服从F F分布。分布。)2(2/1/nSSSSnSSSSFERERd
20、f1= 1df2= n-22、F显著性检验显著性检验.H H0 0: :黏虫孵化历期平均温度黏虫孵化历期平均温度x x与历期天数与历期天数y y之之间间 不存在不存在线性关系线性关系H HA A: :两变量间两变量间有有线性关系线性关系变异来源 df SS s2 F F0.05 F0.01 回归 1 353.6628 353.6628 89.89* 5.99 13.74 离回归 6 23.6060 3.9343 总变异 7 377.2688.检验线性回归系数的显著性,采用检验线性回归系数的显著性,采用t t检验法检验法进行。进行。(二)t检验bbsbsbtb b的方差:的方差:iXiiiiii
21、iySSxxxxyxxxxyyxxb)()()()()(222)()()(iiiieVarexaVaryVarXXiiXiiXiSSSSxxyVarSSxxySSxxVarbVar2222)()()()()(.bbsbsbtxxyxyXebSSsxxsxxnyySSMSs/22/22)()() 2() (df=n-2假 设H H0 0: :=0=0H HA A: :00检验样本回归系数检验样本回归系数b b是否来自是否来自=0=0的双变量总体,的双变量总体,以推断线性回归的显著性。以推断线性回归的显著性。 说明样本回归系数的变异程度不仅取决于误差方差的大小,说明样本回归系数的变异程度不仅取决于
22、误差方差的大小,也取决于自变量也取决于自变量X X的变异程度。如果自变量的变异程度。如果自变量X X的变异程度大,即的变异程度大,即取值分散一些,则取值分散一些,则b b的变异就会小一些,的变异就会小一些,b b就会稳定一些,回归就会稳定一些,回归方程所估计出的值就会精确一些。方程所估计出的值就会精确一些。.9835. 12/nQsxy1788.55xSS5317. 2b48. 91788.55/9835. 15317. 2/xxybSSsbsbt.48. 9t707. 3)6(01. 0t否定否定H H0 0:=0:=0,接受,接受H HA A:0:0,认为黏虫孵,认为黏虫孵化历期平均温度与
23、历期天数间有真实直线化历期平均温度与历期天数间有真实直线回归关系。回归关系。.48.9bsbt89.892/1/nQUF同一概率值同一概率值F F(一尾)值(一尾)值(dfdf1 1=1,df=1,df2 2=n-2=n-2)t t值(两尾)(值(两尾)(df=n-2df=n-2)2tF 28704.8989.89tF. 依变量对自变量的回归关系是通过回归系数来体现的,依变量对自变量的回归关系是通过回归系数来体现的,截距的大小对回归关系没有影响。当截距为截距的大小对回归关系没有影响。当截距为0时,表示回归时,表示回归直线通过原点(直线通过原点(0,0)。有时需要检验回归直线是否通过原)。有时需
24、要检验回归直线是否通过原点,就要对点,就要对 是否为是否为0进行检验,可以利用进行检验,可以利用t 检验,为此需要检验,为此需要先求出先求出 的期望和方差:的期望和方差:(三)对截距的检验aaxxbExyExbyEaE)()()()(1)()()()(222XSSxnbVarxyVarxbyVaraVara122XESSxnMSsaaasasatdf=n-2假 设H H0 0: : =0 =0 H HA A: : 0 0aa.xy5317. 20400.5755.41788.558375.16819343.3122XEaSSxnMSs5363.1255. 404.57asat3.707t0.0
25、1(6)与与0 0的差异是极显著的,也就是说没有通的差异是极显著的,也就是说没有通过原点。过原点。a. 特别要指出的是:利用直线回归方程进特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直的理论依据或进一步的实验依据。利
展开阅读全文