相关与回归分析方法介绍课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《相关与回归分析方法介绍课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 回归 分析 方法 介绍 课件
- 资源描述:
-
1、2023-2-151 第八章第八章 相关与回归分析相关与回归分析 Correlation Correlation Regression Analysis Regression Analysis章前导语:章前导语:1、有其父,必有其子。-古人和现代人都这么说 2、“真的,”公爵夫人说:“火烈鸟和芥末都很刺鼻。那意思是说物以类聚。”“但芥末并不是鸟。”Alice说。“是的,象往常那样,”公爵夫人说,“你具有多么清晰的表达方式!”-Alice漫游奇境记2023-2-152消费者应该留下多少小费?消费者应该留下多少小费?在西方国家餐饮等服务行业有一条不成文的规定,即发生餐饮在西方国家餐饮等服务行业有一
2、条不成文的规定,即发生餐饮等服务项目消费时,必须给服务员一定数额的小费,许多人都等服务项目消费时,必须给服务员一定数额的小费,许多人都听说小费应该是账单的听说小费应该是账单的16%左右,是否真的如此呢?让我们来左右,是否真的如此呢?让我们来考察表考察表8-1,表中的数据是经过调查所得的样本数据,通过对这,表中的数据是经过调查所得的样本数据,通过对这几组数据的分析与观察,我们能发现两者之间的数量关系。几组数据的分析与观察,我们能发现两者之间的数量关系。2023-2-1531、是否有足够的证据断定:在账单与小费数额之间存在某种、是否有足够的证据断定:在账单与小费数额之间存在某种联系?联系?2、如果
3、存在某种联系,怎样使用这种联系来确定应该留下多、如果存在某种联系,怎样使用这种联系来确定应该留下多少小费?少小费?基于成对出现的样本数据做出一些推论基于成对出现的样本数据做出一些推论。如上。如上例,我们想要确定账单与小费数额之间是否存在某种联系,如例,我们想要确定账单与小费数额之间是否存在某种联系,如果存在,我们就想用一个公式来描述它,这样就能找出人们留果存在,我们就想用一个公式来描述它,这样就能找出人们留小费时遵循的规则。类似这样的问题还有很多,如:小费时遵循的规则。类似这样的问题还有很多,如:(1)犯罪率与偷窃率;)犯罪率与偷窃率;(2)香烟消费与患癌症率)香烟消费与患癌症率;(3)个人收
4、入水平与受教育年限;()个人收入水平与受教育年限;(4)血压与年龄;)血压与年龄;(5)父母身高与子女身高;)父母身高与子女身高;(6)薪金与酒价等等。)薪金与酒价等等。2023-2-1548.1 相关关系概述相关关系概述8.2 线性相关关系的测定线性相关关系的测定8.3 回归分析回归分析2023-2-1558.1 相关关系概述相关关系概述一、变量间的相互关系一、变量间的相互关系(一)函数关系函数关系 定义:确定的(数量)关系。(1)某一(组)变量与另一变量间存在着一一对应的关系;例计件工资(y)与产量(x)y=f(x)=10 x;x0=1件件,y0=10元;元;x1=2件件,y1=20元元
5、圆的面积SR2,R=10,S=100(2)表述:y=f(x)。(二)相关关系相关关系、定义、定义:确定的关系。(1)某一(组)变量与另一变量间有关系,但并非一一对应;2023-2-156例身高y与体重x;A:x=60kg、y=170m;B:x=60kg、y=1.72m;C:x=60kg、y=1.68m;D:x=60kg、y=1.65m。(2)表述:y=f(x)+。影响身高的因素:体重、遗传、锻炼、睡眠质量2、成因、成因(1)某些影响因素尚未被认识;(2)虽已认识但无法测量;(3)测量误差。例某种水果P元/斤:购买额 y=Px 购买量 x=2斤斤 y=2P+=21.9+0.23、数量关系的形式、
6、数量关系的形式(1)单一因果关系;(2)互为因果关系;(3)伴随关系。2023-2-157二、相关关系的种类二、相关关系的种类(一)按相关的程度分1、完全相关:函数关系;2、不相关:没有关系;3、不完全相关。(二)按相关的方向分1、正相关:变量的变动方向一致();2、负相关:变量的变动方向相反()。(三)按相关的形式分1、线性相关;2、非线性相关。2023-2-158 相关程度密切相关程度密切相关程度不密切相关程度不密切2023-2-159(四)按影响因素的多少分(四)按影响因素的多少分1、单(简单)相关单(简单)相关:只有一个自变量;例学习成绩与学习时间;血压与年龄;亩产量与施肥量。2、复(
7、多元)相关复(多元)相关:两个或两个以上的自变量;例经济增长与人口增长、科技水平、自然资源、管理水平等之间的关系;体重与身高、食欲、睡眠时间之间的关系。3、偏相关偏相关:就多个变量测定其中两个变量的相关程度而假定其他变量不变。例就y=ax1+bx2+,研究y与x1之间的关系,假定x2不变。2023-2-15101.相关分析要解决的问题相关分析要解决的问题变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?2.为解决这些问题,在进行相关分析时,对总体有为解决这些问题,在进行相关分析时,对总体有以下两个主要假定以
8、下两个主要假定两个变量之间是线性关系两个变量都是随机变量三、相关分析的内容及其假定三、相关分析的内容及其假定2023-2-15118.2 线性相关关系的测定线性相关关系的测定目的测定变量间的相关方向相关方向与密切程度密切程度。一、相关图表一、相关图表(一)相关表(一)相关表1、:自变量分组且计算次数,因变量只计算平均数。30 家同类企业的有关资料家同类企业的有关资料产量产量(件)(件)x x企业数企业数平均单位成本平均单位成本(元)(元)y y202030304040505080809 95 55 56 65 516.816.815.615.615.015.014.814.814.214.22
9、023-2-15122、:对自变量与因变量均进行分组。注:自变量X轴;因变量Y轴。30 家同类企业的有关资料家同类企业的有关资料产量产量 x x(件)(件)单位成本单位成本 y y(元元/件件)20203030404050508080合合计计18181616151514144 44 41 13 32 21 13 31 11 13 32 21 14 44 49 910107 7合计合计9 95 55 56 65 530302023-2-1513正正 相相 关关负负 相相 关关曲线相关曲线相关不不 相相 关关xyxyxyxy又称又称,用直角坐标系的,用直角坐标系的x轴代表自变量,轴代表自变量,y轴
10、代轴代表因变量,将两个变量间相对应的变量值用坐标点的表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。形式描绘出来,用以表明相关点分布状况的图形。不足不足难以精确反映相关的密切程度。(二)相关图(二)相关图2023-2-1514二、相关系数二、相关系数(一)积差法计算公式积差法计算公式则的一组样本观察值是设,),(),(YXyxii2222()()()()1()()()()11xxyyxxyynrxxyyxxyynn(,),(,),xyxyCov x yx yCov x yrxyssx ys s的协方差为 与 的相关系数的标准差yyxxxyLLL在在的条
11、件下的条件下,用来反映变量之间用来反映变量之间方向及程度的统计指标方向及程度的统计指标,用用r()表示。表示。2023-2-1515注解注解1 协方差协方差Cov(x,y)的作用的作用1、显示、显示x与与y之间的相关方向。之间的相关方向。XYyy xx)(一)(二)(三)(四),(11yx),(nnyx()()()()()(,)00()xxyyxxCov x yryy一三正相关(,)xyCov x yrs s()()(,)1x xy yCov x yn正相关正相关2023-2-1516负相关负相关XYyy xx)(一)(二)(三)(四),(11yx),(nnyx()()()()()(,)00(
12、)xxyyxxCov x yryy二四负相关()()(,)1xxyyCov x ynyxxyr2023-2-15172、显示、显示x与与y之间的相关程度。之间的相关程度。)()()()()(yyxxAyyxx图三一密集分布图A散乱分布图BXYPQ偏小偏大)()(qqppyyxx正相关正相关2023-2-1518负相关负相关)()()()()(yyxxAyyxx图四二密集分布图A散乱分布图BXYPQ偏小偏大)()(qqppyyxx2023-2-1519无线性相关无线性相关:0()()0(,)0AxxxxyyCov x y 图 图A图BXYXYxx yy:0()()0(,)0ByyxxyyCov
13、x y 图之间无直线相关与yx2023-2-1520归纳归纳 Cov(x,y)的作用的作用第一、显示第一、显示x与与y之间的相关方向之间的相关方向(,)00(,)(,)00(,)00 xyCov x yrCov x yrCov x yrs sCov x yr无直线相关正相关负相关(,)(,)Cov x yxyCov x yxy越大与 之间的相关程度越高越小与 之间的相关程度越低第二、显示第二、显示x与与y之间的相关密切程度之间的相关密切程度2023-2-1521注解注解2 sx、sy的作用的作用1、使不同变量的协方差标准化、使不同变量的协方差标准化直接对比直接对比。()()(,)1xyxyxx
14、yyCov x ynrs ss s1xxyyxxyyssssn1xyxxyyssn()()(1)xyxxyyns s()()1xxyyn标准化的协方差11xyxys ss s2023-2-15222、使、使111rr 221xyxxyyssrn1xyxxyyssrn22211xyxyxxyyxxyynssss211 11xyxxyynss 222221()()1(1)(1)xyxyxxyyxxyynssnsns1:1022rrr同理可证21221xyxxyyrnss22()11yyyns2023-2-1523(二)积差法相关系数的简捷计算公式积差法相关系数的简捷计算公式2222()()(,)(
15、)()1()()()()11xyxxyyCov x yxxyynrs sxxyyxxyynnnyxxy)()(yxyxyxxyyyxxyxyxxyxynynxnnyxnyxxyyxnynxxnyxy):(x yxxyyxyn 结论2023-2-1524r的简捷计算公式222xxxx)2()(222xxxxxx222)(2nxnnxxnxx22)(222()():xxxxn 结论222()()yyyyn 222xnxnxx2023-2-1525r的简捷计算公式22(,)()()()()xyCov x yxxyyrs sxxyynyynxxnyxxy2222)()(2222()()n xyx yn
16、 xxn yy 2222yyxxyxxynyynxxnnyxxyn2222)()(1)(12023-2-1526(三)线性相关的经验判断准则线性相关的经验判断准则0.30.30.5rr微弱相关 低度相关例为了解餐饮业消费数额与小费之间的数额关系,特从若干名消费者中随机抽取10名消费者进行调查,所得数据如下:高度相关显著相关18.08.05.0rr但可能有其他关系无线性关系与,0yxr函数关系有完全线性关系与:1yxr2023-2-1527例计算过程。2023-2-1528解225.12959.1987109.88323.87703105.1299.88318.13031102222()()n
17、xyx yrn xxn yy 92.09.323409.9575375.15846答:账单消费额与小费之间存在着高度的正相关关系。10,18.13031,59.1987,23.87703,8.5.129,9.88322nxyyxyx2023-2-1529 问:若令账单消费额为y,小费为x,则r的取值是否改变?2023-2-1530(四)样本相关系数的特点样本相关系数的特点1、两变量均为随机变量;2、两变量的地位是平等的 rxy=ryx;3、取值范围-1,1,其接近于1的程度与样本容量n有关。n小,r 1。特例:当n=2时,r=1。例样本(x,y)为(6,12.6),(1,3.0),n=2。14
18、84816.922548)()(2222yynxxnyxxynr2023-2-1531(五)关于相关的普遍错误关于相关的普遍错误在解释关于相关的结果中会出现以下三种普遍的错误:1、相关就一定意味着因果关系。如:一项研究表明,统计学教授的薪金与每人的啤酒消费量之间有很强的正相关关系,但这两个变量都受经济形势(隐藏变量)的影响。2、相关系数为0,一定不相关。3、基于平均数进行相关分析与基于个体数据进行相关分析,其相关程度不一样。如:一项研究中,关于个人收入和教育的成对数据产生了一个0.4的线性相关系数,但当使用区域平均时,线性相关系数变为0.7。2023-2-1532(六)线性相关的假设检验线性相
19、关的假设检验(两种方法)1、提出原假设与备择假设2、给定显著性水平3、选择检验方法,构建检验统计量4、将检验统计量与临界值比较,如检验统计量的绝对值大于临界值,则拒绝原假设,否则,就不拒绝原假设。t检验法检验法r检验法检验法:用已经算好的r作为检验统计量,其临界值可以通过查表得到。01:0,:0HH2(2)12rttnrn2023-2-1533(六)线性相关的假设检验(两种方法两种方法)如袭前例:账单与小费之间的r=0.92,若用t检验法检验法:r检验法检验法:N=10,r=0.92,r=0.632,r r 拒绝原假设,则认为两者存在显著的线性相关。0:,0:10HH2288220.925.8
20、4011 0.9221020.05t2.306trtrnt()()若,则,拒绝原假设,即认为账单消费与小费之间存在显著的线性相关关系。2023-2-1534一些人相信他们手掌生命线的长度可以用来预测他们的寿命。M.E.Wilson和L.E.Mather在美国医学协会学报上发表的一封信中,通过对尸体的研究对此给予了驳斥。死亡时的年龄与手掌生命线的长度被一起记录下来。作者得出死亡时的年龄与生命线的长度不存在显著相关的结论。手相术失传了,手也就放得下了。2023-2-15358.3 回归分析回归分析一、回归分析概述一、回归分析概述(一)概念(一)概念1、回顾线性相关分析线性相关分析:计算线性相关系数
21、 r 确定两变量之间的相关方向与密切程度。不足无法表明两变量之间的因果关系 无法从一个或几无法从一个或几个变量(个变量(xi)的变化来推测另一个变量()的变化来推测另一个变量(y)的变化情况)的变化情况。10名用餐顾客消费金额与所付小费数据如下:r=0.922023-2-15362、回归分析回归分析:通过一个(些)变量的变化解释另一变量的变化 y=a+bx、y=a+b1x1+bx2、y=0+1x1+2x2+nxn 回归回归 英国生物学家 F Galton 首次提出。父辈身高 子辈身高 x y y=f(x)+人类的平均身高。目的目的 在于通过X的已知或设定值,去估计或预测Y的(总体)均值。变量Y
22、是被预测或被解释的变量,称为因变量(Dependent Variable)或被解释变量(Explained Variable)变量X是用来预测或解释因变量的变量,称为自变量(Independent Variable)或解释变量(Explanatory Variable)2023-2-1537(二)回归分析的种类(二)回归分析的种类1、按自变量的多少分、按自变量的多少分(1)简单(一元)回归:自变量只有一个。例 y=a+bx 一元回归方程(2)复(多元)回归:自变量为两个或两个以上。例 y=0+1x1+2x2+nxn2、按回归方程式的特征分、按回归方程式的特征分(1):因变量为自变量的线性函数。
23、例 y=a+bx 一元线性回归方程一元线性回归方程(2):因变量为自变量的非线性函数。例 lnyabx 对数函数回归方程 幂函数回归方程baxy指数函数回归方程bxaey2023-2-15381.定义:描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型。回归模型。2.一元线性回归模型可表示为 y=0 0 1 1 x y 是 x 的线性函数(0 0 1 1 x部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映除了x 和 y 之间的线性关系以外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数(
24、三)(三)一元线性回归模型一元线性回归模型 .回归模型回归模型(regression model)2023-2-15393.一元线性回归模型的基本假定(1)误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为 E(y)=0+1 x(2)对于所有的 x 值,的方差2 都相同,即Var(i)=E(i2)=2(3)误差项之间不存在自相关关系,其协方差为0,即Cov(i,j)=E(ij)=0(i j)(4)误差项是一个服从正态分布的随机变量,即N(0,2)(5)自变量是给定的变量,与随机误差项线性无关。以上这些基本假设是德国数学家高斯最早提出的,故也称为高斯假定或经典
展开阅读全文