回归与相关分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《回归与相关分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 相关 分析 课件
- 资源描述:
-
1、第六章第六章 回归与相关分析回归与相关分析Chapter 6 Regression and Chapter 6 Regression and Correlation AnalysisCorrelation Analysis 本章重点和难点本章重点和难点 l理解并掌握回归与相关的区别与联系;理解并掌握回归与相关的区别与联系;l一元线性回归的基本原理、方法,线性回归的一元线性回归的基本原理、方法,线性回归的显著性检验、区间估计和预测;显著性检验、区间估计和预测;l相关系数的定义、性质和显著性检验;相关系数的定义、性质和显著性检验;l常用曲线方程的线性化方法及回归方程拟合情常用曲线方程的线性化方法及
2、回归方程拟合情况的比较。况的比较。本章内容本章内容 l 回归与相关的概念回归与相关的概念l 一元线性回归分析一元线性回归分析l 线性相关分析线性相关分析l 一元非线形回归(可直线化的曲线回归)一元非线形回归(可直线化的曲线回归)第一节第一节 回归与相关的概念回归与相关的概念l【本节内容本节内容】l回归与相关的概念回归与相关的概念l两者的主要差别两者的主要差别一、回归与相关的概念一、回归与相关的概念l1、回归分析(、回归分析(Regression Analysis)l概念概念:是研究一个随机变量是研究一个随机变量y y与另一些变与另一些变量(主要为固定变量)关系的一种统计量(主要为固定变量)关系
3、的一种统计方法。方法。l即:将一个变量即:将一个变量y y表述为另一些变量的函表述为另一些变量的函数,并通过建立变量间的函数关系,达数,并通过建立变量间的函数关系,达到根据一个或一些变量的取值去估计或到根据一个或一些变量的取值去估计或预测另一个变量的目的。预测另一个变量的目的。l自变量与因变量自变量与因变量l在某些问题中,在某些问题中,y y随随x x的变化而变化的变化而变化lx x带有带有“原因原因”的性质,称为的性质,称为“自变量自变量”ly y带有带有“结果结果”的性质,称为的性质,称为“因变量因变量”l有时有时x x和和y y之间并无明显的因果关系之间并无明显的因果关系l仍然沿用仍然沿
4、用上述名称上述名称l一元线性回归一元线性回归(Linear Regression)l如果自变量与因变量都是一个,且如果自变量与因变量都是一个,且y y和和x x大体上有线性关系,这种研究两个变量大体上有线性关系,这种研究两个变量线性关系的回归称为线性关系的回归称为一元线性回归一元线性回归。l多元回归多元回归l如果自变量如果自变量x x是多个,如是多个,如x x1 1,x x2 2,x xk k,而因变量是一个,而因变量是一个y y,这种研究因变,这种研究因变量量y y与多个自变量与多个自变量x x之间的定量关系的问之间的定量关系的问题称为题称为多元回归多元回归。l回归分析的研究目的回归分析的研
5、究目的l变量之间存在怎样的函数关系变量之间存在怎样的函数关系l能否通过这种关系,由能否通过这种关系,由x x的变化定量地解释或预的变化定量地解释或预测测y y的变化的变化l回归分析的变量类型回归分析的变量类型l因变量因变量y y 随机变量随机变量l自变量自变量x x 固定变量(为主)或随机变量固定变量(为主)或随机变量l回归分析中回归分析中x和和y的关系的关系l地位不平等地位不平等l关心的是关心的是y y依依x x的变化规律的变化规律l2、相关分析(、相关分析(Correlation Analysis)l概念:概念:是研究随机变量之间是研究随机变量之间“相关关系相关关系”的一种统计方法。用于研
6、究两个或数个的一种统计方法。用于研究两个或数个变量共同变化的程度,主要通过计算相变量共同变化的程度,主要通过计算相关系数来判断这种相关关系的强弱。关系数来判断这种相关关系的强弱。l相关关系:相关关系:是一种非确定性的关系,即一种随是一种非确定性的关系,即一种随机关系。按其形成的原因,可分为机关系。按其形成的原因,可分为l直接相关直接相关(real correlation)l间接相关间接相关(nonsense correlation)l二元相关分析(简单相关分析)二元相关分析(简单相关分析)l研究两个变量间相关关系的方法。研究两个变量间相关关系的方法。l只介绍简单相关。只介绍简单相关。l相关分析
7、的研究目的相关分析的研究目的l变量之间是否存在某种随机的共变关系变量之间是否存在某种随机的共变关系l各变量一起变化的程度各变量一起变化的程度l相关分析不具备预测性相关分析不具备预测性l相关分析的变量类型与关系相关分析的变量类型与关系l所有变量都必须是随机变量所有变量都必须是随机变量l没有自变量和因变量之分,没有自变量和因变量之分,x和和y的地位一样的地位一样l分析侧重于随机变量之间的相关特征分析侧重于随机变量之间的相关特征二、二者的主要差别二、二者的主要差别l回归分析与相关分析回归分析与相关分析在计算上有很多在计算上有很多相似相似之处之处,如果在应用时不注意所研究,如果在应用时不注意所研究变量
8、的变量的类型类型以及两种方法的以及两种方法的内在差别内在差别,很容易出,很容易出现错误。现错误。回归分析与相关分析的主要差别回归分析与相关分析的主要差别 统计方法统计方法相关分析相关分析回归分析回归分析研究对象研究对象若干变量一起若干变量一起变化的程度变化的程度一个变量与其它变量间的函一个变量与其它变量间的函数关系数关系变量关系变量关系变量间的共变变量间的共变关系关系一个因变量及一个或数个自一个因变量及一个或数个自变量,前者是后者的函数变量,前者是后者的函数变量类型变量类型均为随机变量均为随机变量因变量:为随机变量因变量:为随机变量自变量:为固定变量(为主)自变量:为固定变量(为主)或随机变量
9、或随机变量统计量统计量无量纲的相关无量纲的相关系数系数有单位的回归系数有单位的回归系数第二节第二节 一元线性回归分析一元线性回归分析l【本节内容本节内容】l一元线性回归的数学模型一元线性回归的数学模型l一元线性回归方程的建立一元线性回归方程的建立l线性回归的显著性检验线性回归的显著性检验l线性回归的区间估计和预测线性回归的区间估计和预测 一、一元线性回归的数学模型一、一元线性回归的数学模型l一元线性回归的常用数学模型为:一元线性回归的常用数学模型为:l:回归截距(回归截距(Intercept)()(又称回归常数)又称回归常数)l:回归系数(回归系数(Coefficient of regress
10、ion)iiixy二、一元线性回归方程的建立二、一元线性回归方程的建立 l(一)原理(一)原理最小二乘法最小二乘法l线性回归方程的一般形式为:线性回归方程的一般形式为:l残差:残差:l最小二乘法最小二乘法:使残差平方和(剩余平方和):使残差平方和(剩余平方和)最小的一种确定最小的一种确定a a 和和b b 的方法。的方法。bxayiiiyye使:使:l根据微积分学中的极值原理,必须使根据微积分学中的极值原理,必须使Q 对对a 和和b的一阶偏导数为的一阶偏导数为0:2020iiiiiiiQyabxaQyabxxb 22iiiiiiQyyyabx最小值整理得到整理得到l一元线性回归的正规方程组:一
11、元线性回归的正规方程组:2iiiiiiiiiiianbxyaxbxx yl(二)一元线性回归的计算(二)一元线性回归的计算 l(三)回归直线的图示(三)回归直线的图示l资料的散点图资料的散点图l回归直线图回归直线图 121()()()niiiniiXXYYSPbSSxXXaYbX(四)一元线性回归方程建立的基本步骤(四)一元线性回归方程建立的基本步骤(4 4步)步)l根据资料计算根据资料计算8个一级数据个一级数据 lx,x2,y,y2,xy ,n l计算计算3个二级数据:个二级数据:SSx,SSy,SP l计算参数的估计值计算参数的估计值a和和b,并写出回归方程并写出回归方程 l作出资料的散点
12、图和回归直线图作出资料的散点图和回归直线图 xyxaybxbSP SS yabxl为了研究特定条件下鱼类对水中某农药的为了研究特定条件下鱼类对水中某农药的富集能力,搜集了富集能力,搜集了10组有关数据如下组有关数据如下(g/L和和g/kg),),试建立二者间的一元线试建立二者间的一元线性回归方程。性回归方程。i12345678910水中水中含量含量(x)4.65.14.84.45.94.75.15.24.95.1鱼体鱼体含量含量(y)17.418.6 17.9 18.3 19.918.419.1 19.918.718.9【例例6.16.1】解解:经计算:经计算所以,所以,b=SP/SSx=1.
13、5508,a=10.987 x与与y的回归方程为:的回归方程为:10.987 1.5508yx4.98 1.563 18.71 5.6692.382xyxSSySSSP,散点图和回归直线图散点图和回归直线图某某农农药药的的水水中中含含量量与与鱼鱼体体中中含含量量的的关关系系y=10.987+1.5508xR2=0.65161516171819202134567x (ug/L)y(ug/kg)三、线性回归的显著性检验三、线性回归的显著性检验(一)线性回归的变异来源(一)线性回归的变异来源 l变异来源变异来源 随机变量随机变量y的观测值的观测值y1,y2,yn之间的变异是由两个方面的原因引起的:之
14、间的变异是由两个方面的原因引起的:l自变量自变量 x 取值的不同;取值的不同;l其它因素(试验误差)的影响。其它因素(试验误差)的影响。l平方和的分解平方和的分解(SSySSESSR)ly 的离均差平方和的离均差平方和SSy(总平方和总平方和SST):):l (dfTn1)l离回归平方和离回归平方和SSE(剩余平方和,残差平方剩余平方和,残差平方和和):):(dfEn2)2yiiSSyy2EiiiSSyy l回归平方和回归平方和SSR:(dfR1)SSSSR R的意义:的意义:根据等式根据等式SSySSySSSSE ESSSSR R可知,如可知,如果果SSSSR R的值较大,的值较大,SSSS
15、E E的数值便比较小,说明回归的数值便比较小,说明回归的效果好;反之,如果的效果好;反之,如果SSSSR R的值较小,的值较小,SSSSE E的数值的数值便比较大,说明回归的效果差。便比较大,说明回归的效果差。2RiiSSyy(二)(二)F F 检验检验当零假设当零假设H0:0成立时,成立时,SSR与与SSE相互相互独立,且统计量独立,且统计量当当F F时,时,H0:0不成立,称不成立,称回归方程回归方程显著显著1(1,2)2RESSFFnSSn具体检验可在方差分析表上进行:具体检验可在方差分析表上进行:SSESSySSR SSRbSPb2SSxSP 2SSx 变异来源变异来源自由度自由度平方
16、和平方和均方均方Fx1SSRsr2sr2se2残余残余n2SSEse2总和总和n1SSy【例例6.2】l根据例根据例6.16.1给出的鱼类对水中农药的富集给出的鱼类对水中农药的富集资料,试检验其线性回归方程的显著性。资料,试检验其线性回归方程的显著性。变异来源变异来源dfSSMSFF0.01回回 归归13.6943.69414.96*11.3离回归离回归81.9750.247总总 计计95.669(三)(三)t t 检验检验采用采用t检验可以检验回归系数检验可以检验回归系数b的显著性,进而的显著性,进而对回归方程的显著性作出判断。对回归方程的显著性作出判断。1、统计假设、统计假设 H0:0,H
17、A:02、b的标准误的标准误3、检验统计量、检验统计量4、判断:若、判断:若t t(n2),则否定,则否定H0,接受,接受HA。bexssSS(2)bbtt ns 前述资料回归关系的前述资料回归关系的t检验检验(2)1.975 80.497eEsSSn0.4971.5360.401bexssSS1.553.8650.401bbbbtss 0.010.01(102)(8)3.355tt0.01(8)tt所以,否定所以,否定H0,接受,接受HA,即,即b极显著。极显著。四、线性回归的区间估计和预测四、线性回归的区间估计和预测 l(一)(一)和和的区间估计的区间估计 l有时有时和和在专业上有特殊意义
18、时,要确在专业上有特殊意义时,要确定其置信区间。定其置信区间。l1、的置信区间的置信区间la 的标准误为:的标准误为:l而而 l所以所以 的置信区间为:的置信区间为:21aexxssnSS(2)aatt ns(,)aaat sat s l2、的置信区间的置信区间lb 的标准误为:的标准误为:l而而 l所以所以 的置信区间为:的置信区间为:bexssSS(2)bbtt ns(,)bbbt sbt s l(二)对(二)对x的区间估计的区间估计l对对x的区间估计,即是对总体均的区间估计,即是对总体均值(期望值)的区间估计。值(期望值)的区间估计。l当当xxi 时,估计标准误为:时,估计标准误为:21
19、ieyxxxssnSS lx的点估计为:的点估计为:l所以,所以,x 的置信度为(的置信度为(1)的置信)的置信区间为:区间为:iiyabx(2)iyytns l以鱼体对水中农药富集的数据为例:以鱼体对水中农药富集的数据为例:l在在x5.5处,处,y 的期望值的置信区间(的期望值的置信区间(95的置信度)为:的置信度)为:21(5.54.98)(10.99 1.55 5.5)2.306 0.247()101.53619.520.60(18.92,20.12)l(三)对(三)对y yxx的预测的预测l当当xxi 时,对时,对yx的预测,即对的预测,即对子总体的某一观察值子总体的某一观察值 yix
20、ii进行预进行预测,相当于预测个体值的问题。测,相当于预测个体值的问题。l预测标准误为:预测标准误为:l当当xxi 时,时,yi 的预测值的置信区间(置的预测值的置信区间(置信度为信度为1)为:)为:211iyexxxssnSS(2)iyytns l以鱼体对水中农药富集的数据为例以鱼体对水中农药富集的数据为例l求求x5.5 时鱼体内农药含量时鱼体内农药含量y 的预测区间。的预测区间。l在在x5.5 处,鱼体内农药含量处,鱼体内农药含量y 的置信度为的置信度为95的预测区间为:的预测区间为:21(5.5 4.98)(10.99 1.55 5.5)2.306 0.247(1)101.53619.5
21、2 1.29(18.23,20.81)l从计算可知,当从计算可知,当x5.5 时,时,y 的区间估计的区间估计的区间范围(的区间范围(18.92,20.12)小于)小于y 的预测的预测区间范围(区间范围(18.23,20.81)。)。l因此,回归分析的预测精度低于估计精度。因此,回归分析的预测精度低于估计精度。4.24.44.64.85.05.25.45.65.86.0 x17.017.518.018.519.019.520.020.5yy=10.987+1.5508 xr=0.80722回归方程的区间估计和预测区间回归方程的区间估计和预测区间第三节第三节 线性相关分析线性相关分析l【讲授内容
展开阅读全文