第7章-相关与回归分析讲课教案课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第7章-相关与回归分析讲课教案课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 回归 分析 讲课 教案 课件
- 资源描述:
-
1、第7章-相关与回归分析学习目标学习目标1 1、了解相关关系的概念、种类以及相关分析与回归分析的区别、了解相关关系的概念、种类以及相关分析与回归分析的区别及联系,明确相关与回归分析的任务与程序;及联系,明确相关与回归分析的任务与程序;2 2、掌握相关系数的概念及常用计算公式;了解相关性的检验、掌握相关系数的概念及常用计算公式;了解相关性的检验、相关系数的取值范围及相关关系密切程度的判断标准;相关系数的取值范围及相关关系密切程度的判断标准;3 3、掌握一元线性回归的基本原理,熟练应用最小二乘法求估计、掌握一元线性回归的基本原理,熟练应用最小二乘法求估计的回归方程,理解参数的经济含义,利用回归方程进
2、行预的回归方程,理解参数的经济含义,利用回归方程进行预测;测;4 4、了解多元线性回归分析的基本方法;、了解多元线性回归分析的基本方法;5 5、了解估计标准误差的计算方法与应用。、了解估计标准误差的计算方法与应用。 7.1 相关关系概述相关关系概述函数关系函数关系是一一是一一对应的确定关系对应的确定关系设设有两个变量有两个变量 x 和和 y ,变量,变量 y 随变量随变量 x 一起变化,并完全一起变化,并完全依赖于依赖于 x ,当变量,当变量 x 取某个取某个数值时,数值时, y 依确定的关系取依确定的关系取相应的值,则称相应的值,则称 y 是是 x 的函的函数,记为数,记为 y = = f
3、(x),其中,其中 x 称称为自变量,为自变量,y 称为因变量称为因变量各各观测点落在一条线上观测点落在一条线上 函数关系函数关系(几个例子几个例子)n某种商品的销售额某种商品的销售额y y与销售量与销售量x x之间的关系可之间的关系可表示为表示为 y y = = px px ( (p p 为单价为单价) )n圆的面积圆的面积S S与半径与半径R R之间的关系可表示为之间的关系可表示为S S= = R R2 2 n企业的原材料消耗额企业的原材料消耗额y y与产量与产量x x1 1 、单位产量、单位产量消耗消耗x x2 2 、原材料价格、原材料价格x x3 3之间的关系可表示为之间的关系可表示为
4、 y y = = x x1 1 x x2 2 x x3 3 相关关系相关关系(correlation)变量间关系不能用函数关变量间关系不能用函数关系精确表达。系精确表达。一个变量的取值不能完全一个变量的取值不能完全由另一个变量唯一确定。由另一个变量唯一确定。各观测各观测点分布在直线周围。点分布在直线周围。 相关关系相关关系(几个例子几个例子)n父亲身高父亲身高x x 与子女身高与子女身高y y之间的关系之间的关系n收入水平收入水平y y与受教育程度与受教育程度x x之间的关系之间的关系n粮食单位面积产量粮食单位面积产量y y与施肥量与施肥量x x1 1 、降雨量、降雨量x x2 2 、温度、温
5、度x x3 3之间的关系之间的关系n商品的消费量商品的消费量y y与居民收入与居民收入x x之间的关系之间的关系n商品销售额商品销售额y y与广告费支出与广告费支出x x之间的关系之间的关系7.2 一元线性相关分析一元线性相关分析7.2 一元线性相关分析一元线性相关分析7.2.1 7.2.1 相关关系的描述与测度相关关系的描述与测度7.2.2 7.2.2 相关系数的显著性检验相关系数的显著性检验7.2.1 相关关系的描述与测度相关关系的描述与测度q相关分析要解决的问题相关分析要解决的问题q变量之间变量之间关系?关系?q变量之间的关系变量之间的关系如何?如何?q样本所反映的变量之间的关系能否样本
6、所反映的变量之间的关系能否变量之间的关系?变量之间的关系?q为解决这些问题,在进行相关分析时,对总体为解决这些问题,在进行相关分析时,对总体有以下两个主要假定有以下两个主要假定q两个变量之间是线性关系两个变量之间是线性关系q两个变量都是随机变量两个变量都是随机变量主要内容主要内容q相关关系的描述与测度相关关系的描述与测度散散点图点图q相关关系的描述与测度相关关系的描述与测度相关系数相关系数散点图散点图q描述变量间的相关性描述变量间的相关性的方法就是的方法就是画出两个变量的散点图。画出两个变量的散点图。q散点图显示了同一个个体上度量到的两个数量散点图显示了同一个个体上度量到的两个数量变量之间的关
7、系。其中一个变量的值在横轴上变量之间的关系。其中一个变量的值在横轴上标示,两一个变量的值在纵轴上标示,点的位标示,两一个变量的值在纵轴上标示,点的位置由该个体两个变量的值决定。置由该个体两个变量的值决定。q散点图能描述两变量间的大致关系,直观地看散点图能描述两变量间的大致关系,直观地看出变量之间关系出变量之间关系、和和。散点图散点图(scatter diagram)非线性相关(曲线相关)非线性相关(曲线相关). . 相关关相关关系种类系种类单相关(一元相关)单相关(一元相关)复相关(多元相关)复相关(多元相关)线性相关(直线相关)线性相关(直线相关) 正相关正相关负相关负相关完全相关(函数关系
8、)完全相关(函数关系)相关(不完全相关)相关(不完全相关)不相关不相关(一(一) )按相关关按相关关系涉及的系涉及的变量多少变量多少 (二(二) )按相关按相关的形式的形式. . (三(三) )按相关的方向按相关的方向 (直线相关)(直线相关). . (四(四) )按相关按相关 的程度的程度. . 相关关系的种类相关关系的种类散点图散点图(例题分析例题分析)【例【例1 1】一家大型商业银行在多个地区设有分行,其一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷固定资产投资
9、等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清不良贷这给银行业务的发展带来较大压力。为弄清不良贷款形成的原因,管理者希望利用银行业务的有关数款形成的原因,管理者希望利用银行业务的有关数据进行定量分析,以便找出控制不良贷款的办法。据进行定量分析,以便找出控制不良贷款的办法。散点图散点图相关系数相关系数通过散点图可以初步判断变量之间是否存在相通过散点图可以初步判断变量之间是否存在相关关系,但不能准确反映变量之间的关系密切程度,关关系,但不能准确反映变量之间的关系密切程度,因此可以计算
10、相关系数来因此可以计算相关系数来。相关系数是度量变量之间关系强度和方向相关系数是度量变量之间关系强度和方向的一个统计量。的一个统计量。对两个变量之间线性相关的度量称为简单对两个变量之间线性相关的度量称为简单相关系数。相关系数。相关系数相关系数(correlation coefficient):线性相关,常用于数量型:线性相关,常用于数量型数据。数据。qSpearmanSpearman等级相关系数:秩相关,常用于定序等级相关系数:秩相关,常用于定序数据,也可以用于数量性数据。数据,也可以用于数量性数据。若相关系数若相关系数是根据总体全部数据计算的,是根据总体全部数据计算的,称为总体相关系数,记为
11、称为总体相关系数,记为 1. 1.若相关系数若相关系数是根据样本数据计算的,则称是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为为样本相关系数,简称为相关系数,记为 r. . 样本相样本相关系数关系数yxxysssr2两个变量的协方差两个变量的协方差:2xys的的标标准准差差变变量量)(xxs:的的标标准准差差变变量量)(yys: 样本相关系数的计算公式样本相关系数的计算公式或化简为或化简为相关系数的意义相关系数的意义1 1:r 的取值范围的取值范围是是 -1,1-1,1q |r|=1 1,为完全相关为完全相关nr =1 1,为完全正相关,为完全正相关nr =-1 -1,为完全负
12、正相关,为完全负正相关q r = 0,不存在不存在相关关系相关关系q -1 -1r0 0,为负相关为负相关q0 0r1 1,为正相关为正相关q|r|越趋于越趋于1 1表示表示关系越强;关系越强;|r|越趋于越趋于0 0表示关表示关系越弱系越弱相关系数的相关系数的取值及其意义的图解取值及其意义的图解相关系数的经验解释相关系数的经验解释 |r| 0.80.8时,可视为两个变量之间高度相关时,可视为两个变量之间高度相关0.50.5 |r|0.80.8时,可视为中度相关时,可视为中度相关0.30.3 |r|0.50.5时,视为低度相关时,视为低度相关|r|0.3 t t,拒绝,拒绝H H0 0 若若t
13、 t =7.5344t t(25-2)=2.069(25-2)=2.069,拒绝,拒绝H H0 0,不良贷,不良贷款与贷款余额之间存在着显著的正线性相关关系款与贷款余额之间存在着显著的正线性相关关系 7.3 一元线性回归分析一元线性回归分析主要内容主要内容什么是回归分析什么是回归分析q回归分析就是对具有相关关系的多个变量之间回归分析就是对具有相关关系的多个变量之间的数量变化进行数量测定,配合一定的数学方的数量变化进行数量测定,配合一定的数学方程模型,以便由自变量的数值对因变量的可能程模型,以便由自变量的数值对因变量的可能值进行估计或预测的一种统计方法。值进行估计或预测的一种统计方法。 q回归分
14、析是研究一个回归分析是研究一个)对一个或多个)对一个或多个之间的统计依赖关系;其目的是通过后者的已之间的统计依赖关系;其目的是通过后者的已知的数值去估计和预测前者的值。知的数值去估计和预测前者的值。趋向中间高度的回归趋向中间高度的回归q回归这个术语是由英国著名统计学家回归这个术语是由英国著名统计学家Francis GaltonFrancis Galton在在1919世纪末期研究孩子及其父母的身高时提出来的。世纪末期研究孩子及其父母的身高时提出来的。GaltonGalton发现身材高的父母,他们的孩子身材也高。但发现身材高的父母,他们的孩子身材也高。但这些孩子平均起来并不像他们的父母那样高。对于
15、比这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。孩子的平均身高要比他们的父母的平均身高高。 GaltonGalton把这种孩子的身高向平均值靠近的趋势称为一把这种孩子的身高向平均值靠近的趋势称为一种回归效应,而他发展的研究两个数值变量的方法称种回归效应,而他发展的研究两个数值变量的方法称为回归分析为回归分析回归分析与相关分析的区别回归分析与相关分析的区别相关相关分析中,变量分析中,变量 x 变量变量 y 处于平等的地位;回归处于平等的地位;回归分析中,变量分析中
16、,变量 y 称为因变量,处在被解释的地位,称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化。称为自变量,用于预测因变量的变化。相相关分析中所涉及的变量关分析中所涉及的变量 x 和和 y 都是随机变量;回都是随机变量;回归分析中,因变量归分析中,因变量 y 是随机变量,自变量是随机变量,自变量 x 是非随是非随机的确定变量。机的确定变量。相相关分析主要是描述两个变量之间线性关系的密切关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量程度;回归分析不仅可以揭示变量 x 对变量对变量 y 的影的影响大小,还可以由回归方程进行预测和控制响大小,还可以由回归方程进
17、行预测和控制 。回归分析回归分析的种类的种类按照回归按照回归线的形状线的形状按自变量按自变量的个数的个数多元回归多元回归非线性(曲线)回归非线性(曲线)回归回归模型的类型回归模型的类型7.3.1 7.3.1 一元线性回归模型一元线性回归模型一元线性回归一元线性回归涉及涉及自变量的回归自变量的回归因因变量变量y与自变量与自变量x之间为之间为关系关系q被预测或被解释的变量称为因变量被预测或被解释的变量称为因变量,用,用y表示表示q用来预测或用来解释因变量的一个或多用来预测或用来解释因变量的一个或多个变量称为自变量个变量称为自变量,用用x表示表示 一元线性回归模型一元线性回归模型一元线性一元线性回归
18、模型可表示为回归模型可表示为 qy 是是 x 的线性函数的线性函数( (部分部分) )加上误差项加上误差项q线性部分反映了由于线性部分反映了由于 x 的变化而引起的的变化而引起的 y 的的变化变化q误差项误差项 是随机变量是随机变量l反映了除反映了除 x 和和 y 之间的线性关系之外的随机因素对之间的线性关系之外的随机因素对 y 的影响的影响l是不能由是不能由 x 和和 y 之间的线性关系所解释的变异性之间的线性关系所解释的变异性q 0 和和 1 称为模型的参数称为模型的参数q变量要求:变量要求:y数值型数据数值型数据 x数值型数据数值型数据一元线性回归模型一元线性回归模型(基本假定基本假定)
19、 1. 1. 误差误差项项是一个期望值为是一个期望值为0 0的随机变量,即的随机变量,即E()=0(。对于一个给定的对于一个给定的 x 值,值,y 的期望值为的期望值为 E ( y ) = 0+ 1 x2. 2. 误差误差项项是一个服从正态分布的随机变量,且相互独立。即是一个服从正态分布的随机变量,且相互独立。即N(0 ,2 )q独立性意味着对于一个特定的独立性意味着对于一个特定的 x 值,它所对应的值,它所对应的与其与其他他 x 值所对应的值所对应的不相关不相关q对于一个特定的对于一个特定的 x 值,它所对应的值,它所对应的 y 值与其他值与其他 x 所对所对应的应的 y 值也不相关值也不相
20、关3. 3. 对对于所有的于所有的 x 值,值,的方差的方差2 都相同都相同回归方程回归方程 (regression equation)描描述述 y 的平均值或期望值如何依赖于的平均值或期望值如何依赖于 x 的方程称的方程称为回归方程为回归方程一元一元线性回归方程的形式如下线性回归方程的形式如下 E( y ) = 0+ 1 x方程的图示是一条直线,也称为直线回归方程方程的图示是一条直线,也称为直线回归方程 0 0是回归直线在是回归直线在 y y 轴上的截距轴上的截距; ; 1 1是直线的斜率,称为回归系数,是直线的斜率,称为回归系数,估计的回归方程估计的回归方程一元线性回归中估计的回归方程为一
21、元线性回归中估计的回归方程为用样本统计量用样本统计量 和和 代替回归方程中的未知参代替回归方程中的未知参数数 和和 ,就得到了,就得到了估计的回归方程估计的回归方程总体回归参数总体回归参数 和和 是未知的,必须利用样本数是未知的,必须利用样本数据去估计据去估计其中:其中: 是估计的回归直线在是估计的回归直线在 y y 轴上的截距,轴上的截距, 是直线是直线的斜率,它表示对于一个给定的的斜率,它表示对于一个给定的 x x 的值,的值, 是是 y y 的估的估计值,也表示计值,也表示 x x 每变动一个单位时,每变动一个单位时, y y 的平均变动值的平均变动值 bxay或最小二乘估计最小二乘估计
22、使因变量的观察值与估计值之间的离差平方和达使因变量的观察值与估计值之间的离差平方和达到最小来求得到最小来求得 和和 的方法。即的方法。即2. 2. 用最小二乘法拟合的直线来代表用最小二乘法拟合的直线来代表x x与与y y之间的关系之间的关系与实际数据的离差比其他任何直线都小。与实际数据的离差比其他任何直线都小。01Karl Gauss的最小化图最小二乘法最小二乘法 ( 和和 的计算公式的计算公式). . 月份产量(千件)单位成本(元件)123456234345737271736968 (1 1)计算相关系数,说明产量与单位成本相关关系)计算相关系数,说明产量与单位成本相关关系 的密切程度。的密
23、切程度。 (2 2)配合单位成本与产量的直线回归方程,并解释)配合单位成本与产量的直线回归方程,并解释 回归系数的经济含义。回归系数的经济含义。(3 3)当产量为)当产量为60006000件时,试问单位成本为多少元?件时,试问单位成本为多少元?(4 4)计算估计标准误。)计算估计标准误。【例【例3 3】某企业某产品产量与单位成本资料如下:某企业某产品产量与单位成本资料如下: . . bxay1 1. .8 82 22 21 17 79 96 64 42 26 62 21 11 14 48 81 16 62 2月份产量 (千件)单位成本(元件)12345623434 57372717369 68
展开阅读全文