数据模型与决策课件DMD06回归分析.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据模型与决策课件DMD06回归分析.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据模型 决策 课件 DMD06 回归 分析
- 资源描述:
-
1、第第6章章 回归分析回归分析线性回归线性回归Logistic回归回归回归分析回归分析 顾客对商品和服务的反映对于商家是至关重要的顾客对商品和服务的反映对于商家是至关重要的,但是仅仅有满意顾客的但是仅仅有满意顾客的比例是不够的比例是不够的,商家希望了解商家希望了解什么是影响顾客观点的因素什么是影响顾客观点的因素以及以及这些因素是这些因素是如何起作用的如何起作用的。类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响。么变量影响发病率,以及如何影响。一般来说,统计可以根据目前所拥有的信息(数据)建
2、立人们所关心的一般来说,统计可以根据目前所拥有的信息(数据)建立人们所关心的变量和其他有关变量的变量和其他有关变量的关系(称为模型)关系(称为模型)。假如用假如用Y表示感兴趣的变量,用表示感兴趣的变量,用X表示其他可能有关的变量(可能是若干表示其他可能有关的变量(可能是若干变量组成的向量)。则所需要的是建立一个函数关系变量组成的向量)。则所需要的是建立一个函数关系Y=f(X)。这里这里Y称称为因变量或响应变量,而为因变量或响应变量,而X称为自变量或解释变量或协变量。称为自变量或解释变量或协变量。建立这种关系的过程就叫做建立这种关系的过程就叫做回归。回归。2回归分析回归分析 一旦建立了回归模型一
3、旦建立了回归模型 可以对各种变量的关系有了进一步的定量理解可以对各种变量的关系有了进一步的定量理解 还可以利用该模型(函数)通过自变量对因变量做还可以利用该模型(函数)通过自变量对因变量做预测。预测。这里所说的预测,是用已知的自变量的值通过模型这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间对未知的因变量值进行估计;它并不一定涉及时间先后的概念。先后的概念。3例例1 1 有有5050个从初中升到高中的学生个从初中升到高中的学生.为了比较初三的成绩是否和高中的成绩为了比较初三的成绩是否和高中的成绩相关相关,得到了他们在初三和高一的各科平均成绩得到了他们在初
4、三和高一的各科平均成绩(数据数据:highschool.sav):highschool.sav)450名同学初三和高一成绩的散点图初三成绩110100908070605040高一成绩100908070605040从这张图可以看出什么呢从这张图可以看出什么呢?有个上升趋势;即初三时成绩相对较高的学生,在高有个上升趋势;即初三时成绩相对较高的学生,在高一时的成绩也较高。一时的成绩也较高。但对于具体个人来说,大约有一半的学生的高一平均成绩比但对于具体个人来说,大约有一半的学生的高一平均成绩比初三时下降,而另一半没有变化或有进步初三时下降,而另一半没有变化或有进步还有定性变量还有定性变量 该数据中,除
5、了初三和高一的成绩之外,还有一个该数据中,除了初三和高一的成绩之外,还有一个定性变量定性变量 它是学生在高一时的家庭它是学生在高一时的家庭收入状况收入状况;它有三个水平:低、中、高,;它有三个水平:低、中、高,分别在数据中用分别在数据中用1 1、2 2、3 3表示。表示。目前的问题是怎么判断这两个变量是否相关、如何相关及如目前的问题是怎么判断这两个变量是否相关、如何相关及如何度量相关?何度量相关?能否以初三成绩为自变量,高一成绩为因变量来建立一个回能否以初三成绩为自变量,高一成绩为因变量来建立一个回归模型以描述这样的关系,或用于预测。归模型以描述这样的关系,或用于预测。5还有定性变量还有定性变
6、量下面是对三种收入对高一成绩和高一与初三成绩差的下面是对三种收入对高一成绩和高一与初三成绩差的盒形图盒形图6122711N=家庭收入321高一成绩110100908070605040303925122711N=家庭收入321高一成绩与初三成绩之差3020100-10-20-30可以看出收入高低对高一成绩稍有影响,但不如收入对成绩可以看出收入高低对高一成绩稍有影响,但不如收入对成绩的变化(高一和初三成绩之差)的影响那么明显。的变化(高一和初三成绩之差)的影响那么明显。问题的提出问题的提出到底学生在高一的家庭收入对成绩有影响吗?是什么样到底学生在高一的家庭收入对成绩有影响吗?是什么样的影响?的影响
7、?是否可以取初三成绩(这是定量变量)或(和)家庭收是否可以取初三成绩(这是定量变量)或(和)家庭收入(定性变量)为自变量,而取高一成绩为因变量,来入(定性变量)为自变量,而取高一成绩为因变量,来建立一个描述这些变量之间关系的回归模型呢?建立一个描述这些变量之间关系的回归模型呢?7问题的提出问题的提出例例2 这是这是200个不同年龄和性别的人对某项服务产品的认可的数据个不同年龄和性别的人对某项服务产品的认可的数据(logi.txt)。这里)。这里年龄年龄是连续变量,是连续变量,性别性别是有男和女(分别用是有男和女(分别用1和和0表示)两个水平的定性变量,而变量表示)两个水平的定性变量,而变量观点
8、观点则为包含认可(用则为包含认可(用1表示)表示)和不认可(用和不认可(用0 0表示)两个水平的定性变量(见下页数据)。表示)两个水平的定性变量(见下页数据)。想要知道的是年龄和性别对观点有没有影响,有什么样的影响,以想要知道的是年龄和性别对观点有没有影响,有什么样的影响,以及能否用统计模型表示出这个关系。及能否用统计模型表示出这个关系。8910年龄和观点的散点图年龄和观点的散点图(左左)和性别与观点的条形图;和性别与观点的条形图;例例3 3 阿姆德阿姆德比萨饼连锁店的问题比萨饼连锁店的问题 阿姆得阿姆得(Armand)比萨饼连锁店坐落在美国的比萨饼连锁店坐落在美国的5个州内,它们通常的位个州
9、内,它们通常的位置是在大学旁边,而且管理人员相信附近大学的人数与这些连锁店的季度销置是在大学旁边,而且管理人员相信附近大学的人数与这些连锁店的季度销售额是有关系的。下面是售额是有关系的。下面是10家连锁店附近大学的学生人数和季度销售收入家连锁店附近大学的学生人数和季度销售收入的数据:的数据:根据以上数据,你能否判断学生人数根据以上数据,你能否判断学生人数(x)如何影响到销售收入如何影响到销售收入(y)?根据一家根据一家连锁店附近大学的人数,你能够预测该家连锁店的季度销售收入吗?连锁店附近大学的人数,你能够预测该家连锁店的季度销售收入吗?11连连锁锁店店1 12 23 34 45 56 67 7
10、8 89 91 10 0学学生生人人数数/千千人人 2 26 68 88 81 12 21 16 62 20 02 20 02 22 22 26 6销销售售额额/千千元元5 58 81 10 05 58 88 81 11 18 8 1 11 17 7 1 13 37 7 1 15 57 7 1 16 69 9 1 14 49 9 2 20 02 2描述学生人数和销售收入之间的关系描述学生人数和销售收入之间的关系 协方差协方差(315.56)和相关系数和相关系数(0.95),散点图;,散点图;根据这些你可以得到什么结论?根据这些你可以得到什么结论?1205 01 0 01 5 02 0 02 5
11、 0051 01 52 02 53 0学 生 人 数/千 人季度销售收入/千美圆Types of Regression Models 13Positive Linear RelationshipNegative Linear RelationshipRelationship NOT LinearNo Relationship 某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm(kg/mm2 2)和延伸率和延伸率(%)(%)。该合金钢的质量标准要求:抗拉强度应大于该合金钢的质量标准要求:抗拉强度应大于32kg/mm32kg/mm2
12、 2;延伸率应大;延伸率应大于于33%33%。根据冶金学的专业知识和实践经验,该合金钢的含碳量是影响抗拉根据冶金学的专业知识和实践经验,该合金钢的含碳量是影响抗拉强度和延伸率的主要因素。其中含碳量高,则抗拉强度也就会相应强度和延伸率的主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降低。提高,但与此同时延伸率则会降低。为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到求该种合金钢产品的上述两项质量指标的合格率都应达到99%99%以上。以上。14质量控制应用案
13、例质量控制应用案例 为达到以上质量控制要求,就需要制定该合金钢冶炼中含碳量的为达到以上质量控制要求,就需要制定该合金钢冶炼中含碳量的工艺控制标准,也即要确定在冶炼中应将含碳量控制在什么范围工艺控制标准,也即要确定在冶炼中应将含碳量控制在什么范围内,可以有内,可以有99%99%的把握使抗拉强度和延伸率这两项指标都达到要求。的把握使抗拉强度和延伸率这两项指标都达到要求。这是一个典型的产品质量控制问题,可以使用回归分析方法求解。这是一个典型的产品质量控制问题,可以使用回归分析方法求解。15如何制订含碳量的控制标准?如何制订含碳量的控制标准?6.2 定量变量的相关定量变量的相关如果两个定量变量没有关系
14、,就谈不上建立模型或进行回归。如果两个定量变量没有关系,就谈不上建立模型或进行回归。但怎样才能发现两个变量有没有关系呢?但怎样才能发现两个变量有没有关系呢?最简单的直观办法就是画出它们的散点图。下面是四组数据最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图;每一组数据表示了两个变量的散点图;每一组数据表示了两个变量x和和y的样本。的样本。1617-3-2-1012-2-1012(a)xy-2-1012-2-1012(b)xy-2-1012-2-1012(c)xy-3-2-1012302468(d)xy不相关不相关 正线性相关正线性相关 负线性相关负线性相关 相关但非线性相关相关但非
15、线性相关 6.2 定量变量的相关定量变量的相关但如何在数量上描述相关呢?下面引进几种对相关程度的度量。但如何在数量上描述相关呢?下面引进几种对相关程度的度量。Pearson相关系数(相关系数(Pearsons correlation coefficient)又叫相关系)又叫相关系数或线性相关系数。它一般用字母数或线性相关系数。它一般用字母r表示。它是由两个变量的样本表示。它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于取值得到,这是一个描述线性相关强度的量,取值于-1和和1之间。之间。当两个变量有很强的线性相关时,相关系数接近于当两个变量有很强的线性相关时,相关系数接近于1(
16、正相关)(正相关)或或-1(负相关),而当两个变量不那么线性相关时,相关系数就(负相关),而当两个变量不那么线性相关时,相关系数就接近接近0。186.2 定量变量的相关定量变量的相关Kendall t t 相关系数(相关系数(Kendalls t t)这里的度量原理是把所有的样)这里的度量原理是把所有的样本点配对(如果每一个点由本点配对(如果每一个点由x和和y组成的坐标组成的坐标(x,y)代表,一对点就是代表,一对点就是诸如诸如(x1,y1)和和(x2,y2)的点对),然后看每一对中的的点对),然后看每一对中的x和和y的观测值是的观测值是否同时增加(或减少)。比如由点对否同时增加(或减少)。比
17、如由点对(x1,y1)和和(x2,y2),可以算出乘,可以算出乘积积(x2-x1)(y2-y1)是否大于是否大于0;如果大于;如果大于0,则说明,则说明x和和y同时增长或同同时增长或同时下降,称这两点协同(时下降,称这两点协同(concordant);否则就是不协同。如果);否则就是不协同。如果样本中协同的点数目多,两个变量就更加相关一些;如果样本中样本中协同的点数目多,两个变量就更加相关一些;如果样本中不协同(不协同(discordant)的点数目多,两个变量就不很相关。)的点数目多,两个变量就不很相关。196.2 定量变量的相关定量变量的相关Spearman 秩相关系数(秩相关系数(Spe
18、arman rank correlation coefficient 或或Spearmans r r)它和)它和Pearson相关系数定义有些类似,只不过在定相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩(即样本点大小的义中把点的坐标换成各自样本的秩(即样本点大小的“座次座次”)。)。Spearman相关系数也是取值在相关系数也是取值在-1和和1之间,也有类似的解释。通之间,也有类似的解释。通过它也可以进行不依赖于总体分布的非参数检验。过它也可以进行不依赖于总体分布的非参数检验。206.2 定量变量的相关定量变量的相关人们可能会问,上面的三种对相关的度量都是在其值接近人们可能会
19、问,上面的三种对相关的度量都是在其值接近1或或-1时相时相关,而接近于关,而接近于0时不相关。到底如何才能够称为时不相关。到底如何才能够称为“接近接近”呢?呢?这很难一概而论。但在计算机输出中都有和这些相关度量相应的检这很难一概而论。但在计算机输出中都有和这些相关度量相应的检验和验和p-值;因此可以根据这些结果来判断是否相关值;因此可以根据这些结果来判断是否相关(见下面例见下面例6.1的继的继续续)。例例6.1(继续)得到初三和高一成绩的(继续)得到初三和高一成绩的Pearson相关系数,相关系数,Kendall t t 相关系数和相关系数和Spearman 秩相关系数分别为秩相关系数分别为0
20、.795,0.595和和0.758。这三个统计量相关的检验这三个统计量相关的检验(零假设均为不相关零假设均为不相关)全部显著,全部显著,p-值都是值都是0.000。注意这种。注意这种0.000的表示并不表示这些的表示并不表示这些p-值恰好等于零,只是小值恰好等于零,只是小数点前三位是数点前三位是0而已。而已。21SPSS的的相关分析相关分析 相关分析相关分析(hischool.sav)利用利用SPSS选项:选项:AnalizeCorrelateBivariate 再把两个有关的变量再把两个有关的变量(这里为这里为j3和和s1)选入,选择选入,选择Pearson,Spearman和和Kendal
21、l就可以得出这三个相关系数和有关就可以得出这三个相关系数和有关的检验结果了的检验结果了(零假设均为不相关零假设均为不相关)。22例例1 1:相关系数:相关系数 40.0050.0060.0070.0080.0090.00100.00j j3 340.0050.0060.0070.0080.0090.00100.00s s1 1C Co or rr re el la at ti io on ns s1.795*.0005050.795*1.0005050Pearson CorrelationSig.(2-tailed)NPearson CorrelationSig.(2-tailed)Nj3s1
22、j3s1Correlation is significant at the 0.01 level(2-tailed).*.C Co or rr re el la at ti io on ns s1.000.595*.0005050.595*1.000.000.50501.000.758*.0005050.758*1.000.000.5050Correlation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NCorrelation Coe
23、fficientSig.(2-tailed)Nj3s1j3s1Kendalls tau_bSpearmans rhoj3s1Correlation is significant at the 0.01 level(2-tailed).*.236.3 定量变量的线性回归分析定量变量的线性回归分析对例对例6.1中的两个变量的数据进行线性回归,就是要找到一条直线来适当地代表中的两个变量的数据进行线性回归,就是要找到一条直线来适当地代表图图1中的那些点的趋势。中的那些点的趋势。首先需要确定选择这条直线的标准。这里介绍首先需要确定选择这条直线的标准。这里介绍最小二乘回归(最小二乘回归(least squ
24、ares regression)。古汉语。古汉语“二乘二乘”是平方的意思。是平方的意思。这就是寻找一条直线,使得所有点到该直线的竖直距离的平方和最小。用数据这就是寻找一条直线,使得所有点到该直线的竖直距离的平方和最小。用数据寻找一条直线的过程也叫做寻找一条直线的过程也叫做拟合(拟合(fit)一条直线。一条直线。例例6.1(继续)根据计算,找到初三成绩和高一成绩的回归直线。计算机输出给(继续)根据计算,找到初三成绩和高一成绩的回归直线。计算机输出给出了截距(出了截距(Constant)26.444和斜率和斜率(变量变量j3的系数的系数)0.651。Coefficientsa26.4445.396
25、4.901.000.651.072.7959.089.000(Constant)j3Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:s1a.2425405060708090100405060708090100J3S126.440.65yx截距截距=26.444;斜率斜率=0.6516.3 定量变量的线性回归分析定量变量的线性回归分析这个直线实际上是对所假设的下面线性回归模型的估计(这里的这个直线实际上是对所假设的下面线性回归模型的估计(这里的e e是是随机
展开阅读全文