数据模型与决策课件DMD06回归分析.ppt

上传人（卖家）：晟晟文业

文档编号：4067897

上传时间：2022-11-08

格式：PPT

页数：97

大小：803.26KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《数据模型与决策课件DMD06回归分析.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据模型决策课件 DMD06 回归分析

资源描述：: 1、第第6章章回归分析回归分析线性回归线性回归Logistic回归回归回归分析回归分析顾客对商品和服务的反映对于商家是至关重要的顾客对商品和服务的反映对于商家是至关重要的,但是仅仅有满意顾客的但是仅仅有满意顾客的比例是不够的比例是不够的,商家希望了解商家希望了解什么是影响顾客观点的因素什么是影响顾客观点的因素以及以及这些因素是这些因素是如何起作用的如何起作用的。类似地，医疗卫生部门不能仅仅知道某流行病的发病率，而且想知道什类似地，医疗卫生部门不能仅仅知道某流行病的发病率，而且想知道什么变量影响发病率，以及如何影响。么变量影响发病率，以及如何影响。一般来说，统计可以根据目前所拥有的信息（数据）建
2、立人们所关心的一般来说，统计可以根据目前所拥有的信息（数据）建立人们所关心的变量和其他有关变量的变量和其他有关变量的关系（称为模型）关系（称为模型）。假如用假如用Y表示感兴趣的变量，用表示感兴趣的变量，用X表示其他可能有关的变量（可能是若干表示其他可能有关的变量（可能是若干变量组成的向量）。则所需要的是建立一个函数关系变量组成的向量）。则所需要的是建立一个函数关系Y=f(X)。这里这里Y称称为因变量或响应变量，而为因变量或响应变量，而X称为自变量或解释变量或协变量。称为自变量或解释变量或协变量。建立这种关系的过程就叫做建立这种关系的过程就叫做回归。回归。2回归分析回归分析一旦建立了回归模型一
3、旦建立了回归模型可以对各种变量的关系有了进一步的定量理解可以对各种变量的关系有了进一步的定量理解还可以利用该模型（函数）通过自变量对因变量做还可以利用该模型（函数）通过自变量对因变量做预测。预测。这里所说的预测，是用已知的自变量的值通过模型这里所说的预测，是用已知的自变量的值通过模型对未知的因变量值进行估计；它并不一定涉及时间对未知的因变量值进行估计；它并不一定涉及时间先后的概念。先后的概念。3例例1 1 有有5050个从初中升到高中的学生个从初中升到高中的学生.为了比较初三的成绩是否和高中的成绩为了比较初三的成绩是否和高中的成绩相关相关,得到了他们在初三和高一的各科平均成绩得到了他们在初
4、三和高一的各科平均成绩(数据数据:highschool.sav):highschool.sav)450名同学初三和高一成绩的散点图初三成绩110100908070605040高一成绩100908070605040从这张图可以看出什么呢从这张图可以看出什么呢?有个上升趋势；即初三时成绩相对较高的学生，在高有个上升趋势；即初三时成绩相对较高的学生，在高一时的成绩也较高。一时的成绩也较高。但对于具体个人来说，大约有一半的学生的高一平均成绩比但对于具体个人来说，大约有一半的学生的高一平均成绩比初三时下降，而另一半没有变化或有进步初三时下降，而另一半没有变化或有进步还有定性变量还有定性变量该数据中，除
5、了初三和高一的成绩之外，还有一个该数据中，除了初三和高一的成绩之外，还有一个定性变量定性变量它是学生在高一时的家庭它是学生在高一时的家庭收入状况收入状况；它有三个水平：低、中、高，；它有三个水平：低、中、高，分别在数据中用分别在数据中用1 1、2 2、3 3表示。表示。目前的问题是怎么判断这两个变量是否相关、如何相关及如目前的问题是怎么判断这两个变量是否相关、如何相关及如何度量相关？何度量相关？能否以初三成绩为自变量，高一成绩为因变量来建立一个回能否以初三成绩为自变量，高一成绩为因变量来建立一个回归模型以描述这样的关系，或用于预测。归模型以描述这样的关系，或用于预测。5还有定性变量还有定性变
6、量下面是对三种收入对高一成绩和高一与初三成绩差的下面是对三种收入对高一成绩和高一与初三成绩差的盒形图盒形图6122711N=家庭收入321高一成绩110100908070605040303925122711N=家庭收入321高一成绩与初三成绩之差3020100-10-20-30可以看出收入高低对高一成绩稍有影响，但不如收入对成绩可以看出收入高低对高一成绩稍有影响，但不如收入对成绩的变化（高一和初三成绩之差）的影响那么明显。的变化（高一和初三成绩之差）的影响那么明显。问题的提出问题的提出到底学生在高一的家庭收入对成绩有影响吗？是什么样到底学生在高一的家庭收入对成绩有影响吗？是什么样的影响？的影响
7、？是否可以取初三成绩（这是定量变量）或（和）家庭收是否可以取初三成绩（这是定量变量）或（和）家庭收入（定性变量）为自变量，而取高一成绩为因变量，来入（定性变量）为自变量，而取高一成绩为因变量，来建立一个描述这些变量之间关系的回归模型呢？建立一个描述这些变量之间关系的回归模型呢？7问题的提出问题的提出例例2 这是这是200个不同年龄和性别的人对某项服务产品的认可的数据个不同年龄和性别的人对某项服务产品的认可的数据（logi.txt）。这里）。这里年龄年龄是连续变量，是连续变量，性别性别是有男和女（分别用是有男和女（分别用1和和0表示）两个水平的定性变量，而变量表示）两个水平的定性变量，而变量观点
8、观点则为包含认可（用则为包含认可（用1表示）表示）和不认可（用和不认可（用0 0表示）两个水平的定性变量（见下页数据）。表示）两个水平的定性变量（见下页数据）。想要知道的是年龄和性别对观点有没有影响，有什么样的影响，以想要知道的是年龄和性别对观点有没有影响，有什么样的影响，以及能否用统计模型表示出这个关系。及能否用统计模型表示出这个关系。8910年龄和观点的散点图年龄和观点的散点图(左左)和性别与观点的条形图；和性别与观点的条形图；例例3 3 阿姆德阿姆德比萨饼连锁店的问题比萨饼连锁店的问题阿姆得阿姆得(Armand)比萨饼连锁店坐落在美国的比萨饼连锁店坐落在美国的5个州内，它们通常的位个州
9、内，它们通常的位置是在大学旁边，而且管理人员相信附近大学的人数与这些连锁店的季度销置是在大学旁边，而且管理人员相信附近大学的人数与这些连锁店的季度销售额是有关系的。下面是售额是有关系的。下面是10家连锁店附近大学的学生人数和季度销售收入家连锁店附近大学的学生人数和季度销售收入的数据：的数据：根据以上数据，你能否判断学生人数根据以上数据，你能否判断学生人数(x)如何影响到销售收入如何影响到销售收入(y)？根据一家根据一家连锁店附近大学的人数，你能够预测该家连锁店的季度销售收入吗？连锁店附近大学的人数，你能够预测该家连锁店的季度销售收入吗？11连连锁锁店店1 12 23 34 45 56 67 7
10、8 89 91 10 0学学生生人人数数/千千人人 2 26 68 88 81 12 21 16 62 20 02 20 02 22 22 26 6销销售售额额/千千元元5 58 81 10 05 58 88 81 11 18 8 1 11 17 7 1 13 37 7 1 15 57 7 1 16 69 9 1 14 49 9 2 20 02 2描述学生人数和销售收入之间的关系描述学生人数和销售收入之间的关系协方差协方差(315.56)和相关系数和相关系数(0.95)，散点图；，散点图；根据这些你可以得到什么结论？根据这些你可以得到什么结论？1205 01 0 01 5 02 0 02 5
11、 0051 01 52 02 53 0学生人数/千人季度销售收入/千美圆Types of Regression Models 13Positive Linear RelationshipNegative Linear RelationshipRelationship NOT LinearNo Relationship 某钢厂生产的某种合金钢有两个重要的质量指标：抗拉强度某钢厂生产的某种合金钢有两个重要的质量指标：抗拉强度(kg/mm(kg/mm2 2)和延伸率和延伸率(%)(%)。该合金钢的质量标准要求：抗拉强度应大于该合金钢的质量标准要求：抗拉强度应大于32kg/mm32kg/mm2
12、 2；延伸率应大；延伸率应大于于33%33%。根据冶金学的专业知识和实践经验，该合金钢的含碳量是影响抗拉根据冶金学的专业知识和实践经验，该合金钢的含碳量是影响抗拉强度和延伸率的主要因素。其中含碳量高，则抗拉强度也就会相应强度和延伸率的主要因素。其中含碳量高，则抗拉强度也就会相应提高，但与此同时延伸率则会降低。提高，但与此同时延伸率则会降低。为降低生产成本，提高产品质量和竞争能力，该厂质量控制部门要为降低生产成本，提高产品质量和竞争能力，该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到求该种合金钢产品的上述两项质量指标的合格率都应达到99%99%以上。以上。14质量控制应用案
13、例质量控制应用案例为达到以上质量控制要求，就需要制定该合金钢冶炼中含碳量的为达到以上质量控制要求，就需要制定该合金钢冶炼中含碳量的工艺控制标准，也即要确定在冶炼中应将含碳量控制在什么范围工艺控制标准，也即要确定在冶炼中应将含碳量控制在什么范围内，可以有内，可以有99%99%的把握使抗拉强度和延伸率这两项指标都达到要求。的把握使抗拉强度和延伸率这两项指标都达到要求。这是一个典型的产品质量控制问题，可以使用回归分析方法求解。这是一个典型的产品质量控制问题，可以使用回归分析方法求解。15如何制订含碳量的控制标准？如何制订含碳量的控制标准？6.2 定量变量的相关定量变量的相关如果两个定量变量没有关系
14、，就谈不上建立模型或进行回归。如果两个定量变量没有关系，就谈不上建立模型或进行回归。但怎样才能发现两个变量有没有关系呢？但怎样才能发现两个变量有没有关系呢？最简单的直观办法就是画出它们的散点图。下面是四组数据最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图；每一组数据表示了两个变量的散点图；每一组数据表示了两个变量x和和y的样本。的样本。1617-3-2-1012-2-1012(a)xy-2-1012-2-1012(b)xy-2-1012-2-1012(c)xy-3-2-1012302468(d)xy不相关不相关正线性相关正线性相关负线性相关负线性相关相关但非线性相关相关但非
15、线性相关 6.2 定量变量的相关定量变量的相关但如何在数量上描述相关呢？下面引进几种对相关程度的度量。但如何在数量上描述相关呢？下面引进几种对相关程度的度量。Pearson相关系数（相关系数（Pearsons correlation coefficient）又叫相关系）又叫相关系数或线性相关系数。它一般用字母数或线性相关系数。它一般用字母r表示。它是由两个变量的样本表示。它是由两个变量的样本取值得到，这是一个描述线性相关强度的量，取值于取值得到，这是一个描述线性相关强度的量，取值于-1和和1之间。之间。当两个变量有很强的线性相关时，相关系数接近于当两个变量有很强的线性相关时，相关系数接近于1（
16、正相关）（正相关）或或-1（负相关），而当两个变量不那么线性相关时，相关系数就（负相关），而当两个变量不那么线性相关时，相关系数就接近接近0。186.2 定量变量的相关定量变量的相关Kendall t t 相关系数（相关系数（Kendalls t t）这里的度量原理是把所有的样）这里的度量原理是把所有的样本点配对（如果每一个点由本点配对（如果每一个点由x和和y组成的坐标组成的坐标(x,y)代表，一对点就是代表，一对点就是诸如诸如(x1,y1)和和(x2,y2)的点对），然后看每一对中的的点对），然后看每一对中的x和和y的观测值是的观测值是否同时增加（或减少）。比如由点对否同时增加（或减少）。比
17、如由点对(x1,y1)和和(x2,y2)，可以算出乘，可以算出乘积积(x2-x1)(y2-y1)是否大于是否大于0；如果大于；如果大于0，则说明，则说明x和和y同时增长或同同时增长或同时下降，称这两点协同（时下降，称这两点协同（concordant）；否则就是不协同。如果）；否则就是不协同。如果样本中协同的点数目多，两个变量就更加相关一些；如果样本中样本中协同的点数目多，两个变量就更加相关一些；如果样本中不协同（不协同（discordant）的点数目多，两个变量就不很相关。）的点数目多，两个变量就不很相关。196.2 定量变量的相关定量变量的相关Spearman 秩相关系数（秩相关系数（Spe
18、arman rank correlation coefficient 或或Spearmans r r）它和）它和Pearson相关系数定义有些类似，只不过在定相关系数定义有些类似，只不过在定义中把点的坐标换成各自样本的秩（即样本点大小的义中把点的坐标换成各自样本的秩（即样本点大小的“座次座次”）。）。Spearman相关系数也是取值在相关系数也是取值在-1和和1之间，也有类似的解释。通之间，也有类似的解释。通过它也可以进行不依赖于总体分布的非参数检验。过它也可以进行不依赖于总体分布的非参数检验。206.2 定量变量的相关定量变量的相关人们可能会问，上面的三种对相关的度量都是在其值接近人们可能会
19、问，上面的三种对相关的度量都是在其值接近1或或-1时相时相关，而接近于关，而接近于0时不相关。到底如何才能够称为时不相关。到底如何才能够称为“接近接近”呢？呢？这很难一概而论。但在计算机输出中都有和这些相关度量相应的检这很难一概而论。但在计算机输出中都有和这些相关度量相应的检验和验和p-值；因此可以根据这些结果来判断是否相关值；因此可以根据这些结果来判断是否相关(见下面例见下面例6.1的继的继续续)。例例6.1（继续）得到初三和高一成绩的（继续）得到初三和高一成绩的Pearson相关系数，相关系数，Kendall t t 相关系数和相关系数和Spearman 秩相关系数分别为秩相关系数分别为0
20、.795,0.595和和0.758。这三个统计量相关的检验这三个统计量相关的检验(零假设均为不相关零假设均为不相关)全部显著，全部显著，p-值都是值都是0.000。注意这种。注意这种0.000的表示并不表示这些的表示并不表示这些p-值恰好等于零，只是小值恰好等于零，只是小数点前三位是数点前三位是0而已。而已。21SPSS的的相关分析相关分析相关分析相关分析(hischool.sav）利用利用SPSS选项：选项：AnalizeCorrelateBivariate 再把两个有关的变量再把两个有关的变量(这里为这里为j3和和s1)选入，选择选入，选择Pearson，Spearman和和Kendal
21、l就可以得出这三个相关系数和有关就可以得出这三个相关系数和有关的检验结果了的检验结果了(零假设均为不相关零假设均为不相关)。22例例1 1：相关系数：相关系数 40.0050.0060.0070.0080.0090.00100.00j j3 340.0050.0060.0070.0080.0090.00100.00s s1 1C Co or rr re el la at ti io on ns s1.795*.0005050.795*1.0005050Pearson CorrelationSig.(2-tailed)NPearson CorrelationSig.(2-tailed)Nj3s1
22、j3s1Correlation is significant at the 0.01 level(2-tailed).*.C Co or rr re el la at ti io on ns s1.000.595*.0005050.595*1.000.000.50501.000.758*.0005050.758*1.000.000.5050Correlation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NCorrelation Coe
23、fficientSig.(2-tailed)Nj3s1j3s1Kendalls tau_bSpearmans rhoj3s1Correlation is significant at the 0.01 level(2-tailed).*.236.3 定量变量的线性回归分析定量变量的线性回归分析对例对例6.1中的两个变量的数据进行线性回归，就是要找到一条直线来适当地代表中的两个变量的数据进行线性回归，就是要找到一条直线来适当地代表图图1中的那些点的趋势。中的那些点的趋势。首先需要确定选择这条直线的标准。这里介绍首先需要确定选择这条直线的标准。这里介绍最小二乘回归（最小二乘回归（least squ
24、ares regression）。古汉语。古汉语“二乘二乘”是平方的意思。是平方的意思。这就是寻找一条直线，使得所有点到该直线的竖直距离的平方和最小。用数据这就是寻找一条直线，使得所有点到该直线的竖直距离的平方和最小。用数据寻找一条直线的过程也叫做寻找一条直线的过程也叫做拟合（拟合（fit）一条直线。一条直线。例例6.1（继续）根据计算，找到初三成绩和高一成绩的回归直线。计算机输出给（继续）根据计算，找到初三成绩和高一成绩的回归直线。计算机输出给出了截距（出了截距（Constant）26.444和斜率和斜率(变量变量j3的系数的系数)0.651。Coefficientsa26.4445.396
25、4.901.000.651.072.7959.089.000(Constant)j3Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:s1a.2425405060708090100405060708090100J3S126.440.65yx截距截距=26.444;斜率斜率=0.6516.3 定量变量的线性回归分析定量变量的线性回归分析这个直线实际上是对所假设的下面线性回归模型的估计（这里的这个直线实际上是对所假设的下面线性回归模型的估计（这里的e e是是随机
26、误差）：随机误差）：0111:0:0HH2601yxe我们得到的截距和斜率（我们得到的截距和斜率（26.444和和0.651）是对）是对 0和和 1的估计。的估计。由于不同的样本产生不同的估计，所以估计量是个随机变量，它们也由于不同的样本产生不同的估计，所以估计量是个随机变量，它们也有分布，也可以用由他们构造检验统计量来检验有分布，也可以用由他们构造检验统计量来检验 0 0和和 1 1是不是显著。是不是显著。拿回归主要关心的来说，假设检验问题是拿回归主要关心的来说，假设检验问题是计算机输出也给出了这个检验：计算机输出也给出了这个检验：t检验统计量为检验统计量为9.089，而，而p-值为值为0.
27、000。6.3 定量变量的线性回归分析定量变量的线性回归分析除了对系数的检验之外，还有一个说明自变量解释因变量变化百分比除了对系数的检验之外，还有一个说明自变量解释因变量变化百分比的度量，叫做的度量，叫做决定系数（决定系数（coefficient of determination，也叫，也叫测定系数测定系数或或可决系数可决系数），用），用R2表示。表示。对于例对于例1，R2=0.632；这说明这里的自变量可以大约解释；这说明这里的自变量可以大约解释63的因变的因变量的变化。量的变化。R2越接近越接近1，回归就越成功。由于，回归就越成功。由于R2有当变量数目增加而有当变量数目增加而增大的缺点，人
28、们对其进行修改；有一增大的缺点，人们对其进行修改；有一修正的修正的R2（adjusted R square）。276.3 定量变量的线性回归分析定量变量的线性回归分析此外，计算机还计算了一个在零假设下有此外，计算机还计算了一个在零假设下有F分布的检验统计量，它分布的检验统计量，它是用来检验回归拟合好坏的（零假设是因变量和自变量没有关系）。是用来检验回归拟合好坏的（零假设是因变量和自变量没有关系）。28模型的引入模型的引入对于给定的学生人数，销售收入是唯一确定的一个数，还是一个对于给定的学生人数，销售收入是唯一确定的一个数，还是一个随机变量？随机变量？学生人数的变化如何影响到销售收入？学生人数
29、的变化如何影响到销售收入？使用的模型使用的模型 29简单线性回归模型30eXY10 Y 的截距斜率随机误差因变量（响应变量，被预测变量）自变量（解释变量，预测变量）简单线性回归模型简单线性回归模型31ei=随机误差YX观测值观测值YX01YXiiie01 模型的假定模型的假定 1)E(e e)=0;(E(y)=0 01 1x)2)对于所有的对于所有的x，Var(e e)=.3)e e是服从正态分布是服从正态分布N(0,)的的.4)对于不同的对于不同的x,e e是相互独立的是相互独立的.这些假定意味着什么？这些假定意味着什么？3233X1X2XY fy 服从在回归直线附近的正态分布服从在回归直
30、线附近的正态分布对每个对每个 x 值，值，y分布的方差相同分布的方差相同.回归直线回归直线估计的回归方程估计的回归方程如何估计参数如何估计参数 0 0和和 1 1？最小二乘准则最小二乘准则 34xbbyxbybnxxnyxyxbbbxyiiiiiiinii101022110102101,/)(/)(),()(min10估计的回归直线的点估计和为得出达到最小值点求解阿姆德阿姆德连锁店的回归直线连锁店的回归直线估计参数估计参数 b1=5 b0=60 回归直线回归直线你对系数的含义怎么理解？你对系数的含义怎么理解？050100150200250051015202530学生人数/千人季度销售收入
31、/千美圆35xy560回归方程的判定系数回归方程的判定系数 y的总变差的分解的总变差的分解定义判定系数定义判定系数R2=SSR/SST.判定系数的含义是什么？判定系数的含义是什么？阿姆德比萨饼连锁店的例子：阿姆德比萨饼连锁店的例子：R2=0.9027.判定系数和相关系数的关系。判定系数和相关系数的关系。36SSRSSEyyyyyyyyyySSTiiiiiii2222)()()()(Coefficients of Determination(r2)and Correlation(r)37r2=1,r2=1,r2=.8,r2=0,YXY XY YXr=+1r=-1r=+0.9r=0X 的估计的估
32、计理解误差平方和理解误差平方和的一个无偏估计的一个无偏估计 s2=MSE=SSE/(n-2)382102)()(iiiixbbyyySSE关于回归系数的假设检验关于回归系数的假设检验检验统计量检验统计量给定显著水平给定显著水平时，选择时，选择拒绝域拒绝域 390:0:1110HH的标准误差是其中12121)(11bxxsssbtinibb)2()2(2/2/nttntt或者关于回归方程整体的检验关于回归方程整体的检验变量x的确对y有解释作用吗？(H0:1=0)检验统计量 F=MSR/MSE 其中MSR=SSR/自变量的个数拒绝域 FF(1,n-2)40回归方程的方差分析表回归方程
33、的方差分析表方方差差来来源源平平方方和和自自由由度度均均方方F F 值值回回归归SSR1 1MSRMSR/MSE误误差差SSEn-2MSE总总计计SSTn-141阿姆德阿姆德连锁店的情形连锁店的情形使用使用SPSS对阿姆德连锁店的数据建立模型，并进对阿姆德连锁店的数据建立模型，并进行分析，基于行分析，基于SPSS的输出结果，你对该模型有些什么认的输出结果，你对该模型有些什么认识？识？42使用你建立的模型（一）使用你建立的模型（一）问题一：对于那些附近学校人数是问题一：对于那些附近学校人数是1万的连锁店，他们的万的连锁店，他们的季度销售收入一定是一样吗？这种连锁店季度销售
34、收入一定是一样吗？这种连锁店平均的季度销平均的季度销售收入售收入是多少？你能够给出一个估计吗？是多少？你能够给出一个估计吗？问题二：某家连锁店附近学生总数约问题二：某家连锁店附近学生总数约1万人，你能够给出万人，你能够给出它的季度销售收入的一个估计值吗？它的季度销售收入的一个估计值吗？点估计：点估计：11043使用你建立的模型（二）使用你建立的模型（二）对于问题一，如何得到这种连锁店平均销售收入的一个对于问题一，如何得到这种连锁店平均销售收入的一个95%的置信区间？的置信区间？44piippppyppnxxxxnyyyppppppsntyyEssyENyyExbbyx2/)()(1222210
35、)2(1)(),),()(,222置信区间是的的估计是其中的分布是的无偏估计。是对于给定的(98.58,121.42)使用你建立的模型（三）使用你建立的模型（三）对于问题二，如何给出一个预测区间，使得这家连锁店对于问题二，如何给出一个预测区间，使得这家连锁店的季度销售收入落在该区间里面的概率是的季度销售收入落在该区间里面的概率是1-？45nxxxxnindindppiipsssntyy/)()(1222/2221 )2(1其中的预测区间是的概率为(76.13,143.87)两种区间的关系两种区间的关系46xp预测区间边界均值的置信区间对模型作进一步的探讨对模型作进一步的探讨回忆我们使用的模型
36、；回忆我们使用的模型；对模型作了什么假定？对模型作了什么假定？逻辑问题：如何判断我们的问题符合这些假定？逻辑问题：如何判断我们的问题符合这些假定？分析的方案：残差分析分析的方案：残差分析 47niyyiiii,2,1 e个残差：第通过残差你能够了解什么？通过残差你能够了解什么？对误差项作的假定适合吗？对误差项作的假定适合吗？1）等方差；）等方差；2）相互独立；）相互独立；3）正态分布；）正态分布；哪些数据属于异常值？哪些数据属于异常值？哪些观测属于对回归模型有很大影响的？哪些观测属于对回归模型有很大影响的？48残差图残差图关于自变量的残差图；关于自变量的残差图；关于因变量的预测值的残差图；关
37、于因变量的预测值的残差图；学生化的标准残差图：学生化的标准残差图：4922)()(1 ,1 /Std_ xxxxniiiiiiiihhsssieeee其中个标准化残差第如何分析残差图如何分析残差图如果模型是符合的，那么残差图上的散点应该落在一条如果模型是符合的，那么残差图上的散点应该落在一条水平带中间，除此之外，残差图上的点不应呈现出什么水平带中间，除此之外，残差图上的点不应呈现出什么规律性。规律性。使用使用SPSS对阿姆德连锁店的数据产生残差图。你能得到对阿姆德连锁店的数据产生残差图。你能得到什么结论？什么结论？5051非线性非线性线性线性X Xee52方差不等方差相等XXee53不独立不
38、独立独立独立XXee异常值的检测异常值的检测异常值是与其它点显示的趋势不合的点。异常值是与其它点显示的趋势不合的点。检查它是否可能是被错误输入的数据。检查它是否可能是被错误输入的数据。检测异常值的方法：检测异常值的方法：散点图；散点图；利用学生化标准残差基本服从标准正态分布来检测利用学生化标准残差基本服从标准正态分布来检测(落在落在2个标准差之外时个标准差之外时)。54带有异常值的散点图示例010203040506070800123456755检测有影响的观测值检测有影响的观测值什么是有影响的观测？什么是有影响的观测？观测的杠杆率：观测的杠杆率：高杠杆率的点意味着它的自变量距离别的自变量的
39、值距离较高杠杆率的点意味着它的自变量距离别的自变量的值距离较大的点。大的点。识别影响的观测识别影响的观测:杠杆率杠杆率6/n的观测的观测.56nihixxxxniii,2,1 22)()(1个观测的杠杆率第对于建立简单线性回归模型，对于建立简单线性回归模型，你知道了些什么？你知道了些什么？什么情况下需要建立简单线性回归模型？什么情况下需要建立简单线性回归模型？对模型的假定有哪些？对模型的假定有哪些？如何估计模型的参数？如何估计模型的参数？如何检验模型及其参数的显著性？如何检验模型及其参数的显著性？如何使用你建立的模型进行预测？如何使用你建立的模型进行预测？如何分析你的问题符合对模型做的假定？如
40、何分析你的问题符合对模型做的假定？576.3 定量变量的线性回归分析定量变量的线性回归分析和刚才简单的回归模型类似，一般的有和刚才简单的回归模型类似，一般的有k个（定量）自变量个（定量）自变量x1,x2,xk的对因变量的对因变量y的线性回归模型为（称为多元回归）的线性回归模型为（称为多元回归）5801122kkyxxxe这里这里 0,1,k称为回归系数。对计算机来说，计算多个自变量的回归和称为回归系数。对计算机来说，计算多个自变量的回归和计算一个自变量的情况类似，计算机也会自动输出相应的检验结果。计算一个自变量的情况类似，计算机也会自动输出相应的检验结果。并且用数据来拟合所选的一个模型时，并不
41、一定所有的变量都显著并且用数据来拟合所选的一个模型时，并不一定所有的变量都显著(并不一定所有的系数都有意义并不一定所有的系数都有意义)软件有一种一边回归，一边检验的所谓软件有一种一边回归，一边检验的所谓逐步回归（逐步回归（stepwise regression）方法。方法。该方法或者从只有常数项开始，逐个地把显著的变量加入；或者从包含所有该方法或者从只有常数项开始，逐个地把显著的变量加入；或者从包含所有变量的模型开始，逐步把不显著的变量减去。注意不同方向逐步回归的结果变量的模型开始，逐步把不显著的变量减去。注意不同方向逐步回归的结果也不一定相同。也不一定相同。例子：例子：RISKFAC.sav
42、不算序号和不算序号和(192个个)国家有国家有21个变量个变量包括地区包括地区(Region)、(在城镇和乡村在城镇和乡村)使用干净水的、生活污水处理的使用干净水的、生活污水处理的、饮酒量、饮酒量(litre/yearperson)、(每万人中每万人中)内科医生数目、护士和助内科医生数目、护士和助产士数、卫生工作者数、病床数、产士数、卫生工作者数、病床数、护士助产士和内科医生之比、卫生护士助产士和内科医生之比、卫生开支占总开支的、占政府开支的、人均卫生开支开支占总开支的、占政府开支的、人均卫生开支$、成人识字率、成人识字率、人均收入人均收入$、每千个出生中、每千个出生中5岁前死亡人数、人口
43、增长率、岁前死亡人数、人口增长率、(男女的男女的)预期寿命预期寿命(年年)、每、每10万生育的母亲死亡数万生育的母亲死亡数5960例子：例子：RISKFAC.sav 该数据有许多相关的变量和许多缺失值该数据有许多相关的变量和许多缺失值假定要用各种变量描述假定要用各种变量描述每千个出生中每千个出生中5岁前死亡人数岁前死亡人数(因变量因变量)可以先做两两相关可以先做两两相关也可以做定量变量的两两散点图等等也可以做定量变量的两两散点图等等或者用逐步回归淘汰变量或者用逐步回归淘汰变量目的在于摸清关系的底细目的在于摸清关系的底细61例子：例子：RISKFAC.sav:相关相关62例子：例子：RI
44、SKFAC.sav:逐步回归逐步回归M Mo od de el l S Su um mm ma ar ry y.930a.866.86312.48441.938b.879.87511.95602Model12RR SquareAdjustedR SquareStd.Error ofthe EstimatePredictors:(Constant),life_expectancy_female(year)a.Predictors:(Constant),life_expectancy_female(year),cleanwateraccess_rural(%)b.A AN NO OV VA Ac
45、c54229.658154229.658347.937.000a8416.46754155.86162646.1255555069.969227534.985192.625.000b7576.15653142.94662646.12555RegressionResidualTotalRegressionResidualTotalModel12Sum ofSquaresdfMean SquareFSig.Predictors:(Constant),life_expectancy_female(year)a.Predictors:(Constant),life_expectancy_female(
46、year),cleanwateraccess_rural(%)b.Dependent Variable:Die before 5 per 1000c.C Co oe ef ff fi ic ci ie en nt ts sa a410.30519.64820.882.000-5.147.276-.930-18.653.000410.15018.81721.797.000-4.896.284-.885-17.252.000-.237.098-.124-2.425.019(Constant)life_expectancy_female(year)(Constant)life_expectancy_
47、female(year)cleanwateraccess_rural(%)Model12BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:Die before 5 per 1000a.63选中女性预期寿命和农村干净水的作为自变量（第二个自变量选中女性预期寿命和农村干净水的作为自变量（第二个自变量相对不那么显著相对不那么显著pvalue=0.019）模型：模型：女性预期寿命女性预期寿命模型：模型：农村干净水的农村干净水的RISKFAC.sav：散点图散点图及自变量相关性及
48、自变量相关性Pearson相关相关Die bef ore 5 per 1000lif e_expecta ncy_femal e(year)cleanwat eraccess_ rural(%)cleanwateraccess_rura.life_expectancy_femal.Die before 5 per 1000C Co or rr re el la at ti io on ns s.657*.000164Pearson CorrelationSig.(2-tailed)NPearson CorrelationSig.(2-tailed)Ncleanwateraccess_rural
49、(%)life_expectancy_female(year)cleanwateraccess_rural(%)life_expectancy_female(year)Correlation is significant at the 0.01 level(2-tailed).*.64RISKFAC.sav：散点图及自变量相关性散点图及自变量相关性非参数度量非参数度量KendallSpearmanDie bef ore 5 per 1000lif e_expecta ncy_femal e(year)cleanwat eraccess_ rural(%)cleanwateraccess_rur
50、a.life_expectancy_femal.Die before 5 per 1000C Co or rr re el la at ti io on ns s1.000.503*.000164164.503*1.000.000.1641921.000.676*.000164164.676*1.000.000.164192Correlation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NCorrelation Coefficient

展开阅读全文