书签 分享 收藏 举报 版权申诉 / 54
上传文档赚钱

类型spss-07相关与回归分析-课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:3370862
  • 上传时间:2022-08-24
  • 格式:PPT
  • 页数:54
  • 大小:296KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《spss-07相关与回归分析-课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    spss 07 相关 回归 分析 课件
    资源描述:

    1、统计学从数据到结论第七章 相关和回归分析7.1 问题的提出问题的提出o对于现实世界,不仅要知其然,而且对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的要知其所以然。顾客对商品和服务的反映对于企业是至关重要的,反映对于企业是至关重要的,o但是仅仅有满意顾客的比例是不够的;但是仅仅有满意顾客的比例是不够的;商家希望了解什么是影响顾客观点的商家希望了解什么是影响顾客观点的因素,及这些因素如何起作用。因素,及这些因素如何起作用。o类似地,医疗卫生部门不能仅仅知道类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响。

    2、变量影响发病率,以及如何影响。7.1 问题的提出问题的提出o发现变量之间的统计关系,并且发现变量之间的统计关系,并且用此规律来帮助我们进行决策才用此规律来帮助我们进行决策才是统计实践的最终目的。是统计实践的最终目的。o一般来说,统计可以根据目前所一般来说,统计可以根据目前所拥有的信息(数据)来建立人们拥有的信息(数据)来建立人们所关心的变量和其他有关变量的所关心的变量和其他有关变量的关系。这种关系一般称为关系。这种关系一般称为模型模型(model)。7.1 问题的提出问题的提出o假如用假如用Y表示感兴趣的变量,用表示感兴趣的变量,用X表示表示其他可能与其他可能与Y有关的变量(有关的变量(X也可

    3、能是也可能是若干变量组成的向量)。则所需要的若干变量组成的向量)。则所需要的是建立一个函数关系是建立一个函数关系Y=f(X)。o这里这里Y称为称为因变量因变量或或响应变量响应变量(dependent variable,response variable),而,而X称为称为自自变 量变 量,也 称 为,也 称 为 解 释 变 量 或 协 变 量解 释 变 量 或 协 变 量(independent variable,explanatory variable,covariate)。建立这种关系的过程就叫做。建立这种关系的过程就叫做回归回归(regression)。7.1 问题的提出问题的提出o一旦

    4、建立了回归模型,除了对变量的一旦建立了回归模型,除了对变量的关系有了进一步的定量理解之外,还关系有了进一步的定量理解之外,还可以利用该模型(函数)通过自变量可以利用该模型(函数)通过自变量对因变量做对因变量做预测(预测(prediction)。o这里所说的预测,是用已知的自变量这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后。估计;它并不一定涉及时间先后。o先看几个后面还要讨论的数值例子。先看几个后面还要讨论的数值例子。7.1 问题的提出问题的提出o例例7.1 有有50个从初中升到高中的学个从初中升到高中的学生。为了比

    5、较初三的成绩是否和高生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三中的成绩相关,得到了他们在初三和 高 一 的 各 科 平 均 成 绩和 高 一 的 各 科 平 均 成 绩(数 据 在数 据 在highschool.txt)。这两个成绩的散点图。这两个成绩的散点图展示在图展示在图7.1中。中。50名同学初三和高一成绩的散点图初三成绩110100908070605040高一成绩100908070605040有个上升趋势;即初三时成绩相对较高有个上升趋势;即初三时成绩相对较高的学生,在高一时的成绩也较高。的学生,在高一时的成绩也较高。但对于具体个人来说,大约有一半的学生的但对于具体个

    6、人来说,大约有一半的学生的高一平均成绩比初三时下降,而另一半没有高一平均成绩比初三时下降,而另一半没有变化或有进步变化或有进步7.1 问题的提出问题的提出o目前的问题是怎么判断这两目前的问题是怎么判断这两个变量是否相关、如何相关个变量是否相关、如何相关及如何度量相关?及如何度量相关?o能否以初三成绩为自变量,能否以初三成绩为自变量,高一成绩为因变量来建立一高一成绩为因变量来建立一个回归模型以描述这样的关个回归模型以描述这样的关系,或用于预测。系,或用于预测。7.1 问题的提出问题的提出o该数据中,除了初三和高一该数据中,除了初三和高一的成绩之外,还有一个定性的成绩之外,还有一个定性变量(没有出

    7、现在上面的散变量(没有出现在上面的散点图中)。它是学生在高一点图中)。它是学生在高一时的家庭收入状况;它有三时的家庭收入状况;它有三个水平:低、中、高,分别个水平:低、中、高,分别在数据中用在数据中用1、2、3表示。表示。为研究家庭收入情况对学生成绩变为研究家庭收入情况对学生成绩变化的影响,下面点出两个盒形图,化的影响,下面点出两个盒形图,左边一个是不同收入群体的高一成左边一个是不同收入群体的高一成绩的盒形图,右边一个是不同收入绩的盒形图,右边一个是不同收入群体的高一和初三成绩之差的盒形群体的高一和初三成绩之差的盒形图。图。可以看出收入高低对高一成绩稍有影响,但可以看出收入高低对高一成绩稍有影

    8、响,但不如收入对成绩的变化(高一和初三成绩之不如收入对成绩的变化(高一和初三成绩之差)的影响那么明显。差)的影响那么明显。7.1 问题的提出问题的提出o到底学生在高一的家庭收入对到底学生在高一的家庭收入对成绩有影响吗?是什么样的影成绩有影响吗?是什么样的影响?响?o是否可以取初三成绩(这是定是否可以取初三成绩(这是定量变量)或(和)家庭收入量变量)或(和)家庭收入(定性变量)为自变量,而取(定性变量)为自变量,而取高一成绩为因变量,来建立一高一成绩为因变量,来建立一个描述这些变量之间关系的回个描述这些变量之间关系的回归模型呢?归模型呢?7.1 问题的提出问题的提出o例例7.2 这是这是200个

    9、不同年龄和性别的人个不同年龄和性别的人对 某 项 服 务 产 品 的 认 可 的 数 据对 某 项 服 务 产 品 的 认 可 的 数 据(logi.txt)。这里)。这里年龄年龄是连续变量,是连续变量,性别性别是有男和女(分别用是有男和女(分别用1和和0表示)表示)两个水平的定性变量,而变量两个水平的定性变量,而变量观点观点则则为包含认可(用为包含认可(用1表示)表示)和不认可(用和不认可(用0 0表示)两个水平的定性变量(见下页表示)两个水平的定性变量(见下页数据)。数据)。o想要知道的是年龄和性别对观点有没想要知道的是年龄和性别对观点有没有影响,有什么样的影响,以及能否有影响,有什么样的

    10、影响,以及能否用统计模型表示出这个关系。用统计模型表示出这个关系。年龄和观点的散点图年龄和观点的散点图(左左)和性别与观点和性别与观点的条形图;的条形图;7.2 定量变量的相关定量变量的相关o如果两个定量变量没有关系,如果两个定量变量没有关系,就谈不上建立模型或进行回归。就谈不上建立模型或进行回归。但怎样才能发现两个变量有没但怎样才能发现两个变量有没有关系呢?有关系呢?o最简单的直观办法就是画出它最简单的直观办法就是画出它们的散点图。下面是四组数据们的散点图。下面是四组数据的散点图;每一组数据表示了的散点图;每一组数据表示了两个变量两个变量x和和y的样本。的样本。-3-2-1012-2-101

    11、2(a)xy-2-1012-2-1012(b)xy-2-1012-2-1012(c)xy-3-2-1012302468(d)xy不相关不相关 正线性相关正线性相关 负线性相关负线性相关 相关但非线性相关相关但非线性相关 7.2 定量变量的相关定量变量的相关o但如何在数量上描述相关呢?下面引进几种对相关程度的度量。oP e a r s o n 相 关 系 数(相 关 系 数(P e a r s o n s correlation coefficient)又叫相关系数或线性相关系数。它一般用字母r表示。它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于-1和1之间。当两个变量有很强

    12、的线性相关时,相关系数接近于1(正相关)或-1(负相关),而当两个变量不那么线性相关时,相关系数就接近0。7.2 定量变量的相关定量变量的相关oKendall t t 相关系数(相关系数(Kendalls t t)这里的度量原理是把所有的样本点配对(如果每一个点由x和y组成的坐标(x,y)代表,一对点就是诸如(x1,y1)和(x2,y2)的点对),然后看每一对中的x和y的观测值是否同时增加(或减少)。比如由点对(x1,y1)和(x2,y2),可以算出乘积(x2-x1)(y2-y1)是否大于0;如果大于0,则说明x和y同时增长或同时下降,称这两点协同协同(concordant);否则就是不协同。

    13、如果样本中协同的点数目多,两个变量就更加相关一些;如果样本中不协同(discordant)的点数目多,两个变量就不很相关。7.2 定量变量的相关定量变量的相关oSpearman 秩相关系数(秩相关系数(Spearman rank correlation coefficient 或或Spearmans r r)它和Pearson相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩(即样本点大小的“座次”)。Spearman相关系数也是取值在-1和1之间,也有类似的解释。通过它也可以进行不依赖于总体分布的非参数检验。7.2 定量变量的相关定量变量的相关o人们可能会问,上面的三种对相人们可

    14、能会问,上面的三种对相关的度量都是在其值接近关的度量都是在其值接近1或或-1时时相关,而接近于相关,而接近于0时不相关。到底时不相关。到底如何才能够称为如何才能够称为“接近接近”呢?呢?o这很难一概而论。但在计算机输这很难一概而论。但在计算机输出中都有和这些相关度量相应的出中都有和这些相关度量相应的检验和检验和p-值;因此可以根据这些值;因此可以根据这些结果来判断是否相关结果来判断是否相关(见下面例见下面例7.1的继续的继续)。7.2 定量变量的相关定量变量的相关o例例7.1(继续)得到初三和高一成(继续)得到初三和高一成绩的绩的Pearson相关系数,相关系数,Kendall t t 相关系

    15、数和相关系数和Spearman 秩相关系数秩相关系数分别为分别为0.795,0.595和和0.758。o这三个统计量相关的检验这三个统计量相关的检验(零假设零假设均为不相关均为不相关)全部显著,全部显著,p-值都是值都是0.000。注意这种。注意这种0.000的表示并不的表示并不表示这些表示这些p-值恰好等于零,只是小值恰好等于零,只是小数点前三位是数点前三位是0而已。而已。7.3 定量变量的线性回归分析定量变量的线性回归分析o对例对例7.1中的两个变量的数据进行线性中的两个变量的数据进行线性回归,就是要找到一条直线来适当地回归,就是要找到一条直线来适当地代表图代表图1中的那些点的趋势。中的那

    16、些点的趋势。o首先需要确定选择这条直线的标准。首先需要确定选择这条直线的标准。这里介绍这里介绍最小二乘回归(最小二乘回归(least squares regression)。古汉语。古汉语“二乘二乘”是平方是平方的意思。的意思。o这就是寻找一条直线,使得所有点到这就是寻找一条直线,使得所有点到该直线的豎直距离的平方和最小。用该直线的豎直距离的平方和最小。用数据寻找一条直线的过程也叫做数据寻找一条直线的过程也叫做拟合拟合(fit)一条直线。一条直线。7.3 定量变量的线性回归分析定量变量的线性回归分析o例例7.1(继续)根据计算,找到初三成(继续)根据计算,找到初三成绩和高一成绩的回归直线。计算

    17、机输绩和高一成绩的回归直线。计算机输出给出来截距(出给出来截距(Constant)26.444和斜和斜率率(变量变量j3的系数的系数)0.651。Coefficientsa26.4445.3964.901.000.651.072.7959.089.000(Constant)j3Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:s1a.405060708090100405060708090100J3S126.440.65yx截距截距=26.444;斜率斜率=0

    18、.6517.3 定量变量的线性回归分析定量变量的线性回归分析o这个直线实际上是对所假设的下面这个直线实际上是对所假设的下面线性回归模型的估计(这里的线性回归模型的估计(这里的e e是是随机误差):随机误差):01yxe我们得到的截距和斜率(我们得到的截距和斜率(26.444和和0.651)是对)是对 0和和 1的估计。的估计。7.3 定量变量的线性回归分析定量变量的线性回归分析o由于不同的样本产生不同的估计,所由于不同的样本产生不同的估计,所以估计量是个随机变量,它们也有分以估计量是个随机变量,它们也有分布,也可以用由他们构造检验统计量布,也可以用由他们构造检验统计量来检验来检验 0和和 1是

    19、不是显著。拿回归主要是不是显著。拿回归主要关心的来说,假设检验问题是关心的来说,假设检验问题是0111:0:0HHo计算机输出也给出了这个检验:计算机输出也给出了这个检验:t检验检验统计量为统计量为9.089,而,而p-值为值为0.000。7.3 定量变量的线性回归分析定量变量的线性回归分析o除了对的检验之外,还有一个说明自除了对的检验之外,还有一个说明自变量解释因变量变化百分比的度量,变量解释因变量变化百分比的度量,叫 做叫 做 决 定 系 数(决 定 系 数(c o e f f i c i e n t o f determination,也叫,也叫测定系数测定系数或或可决可决系数系数),用

    20、),用R2表示。表示。o对于例对于例1,R2=0.632;这说明这里的自;这说明这里的自变量可以大约解释变量可以大约解释63的因变量的变的因变量的变化。化。R2越接近越接近1,回归就越成功。由于,回归就越成功。由于R2有当变量数目增加而增大的缺点,有当变量数目增加而增大的缺点,人们对其进行修改;有一人们对其进行修改;有一修正的修正的R2(adjusted R square)。7.3 定量变量的线性回归分析定量变量的线性回归分析o此外,计算机还计算了一个在零假设下有此外,计算机还计算了一个在零假设下有F分布的检验统计量,它是用来检验回归拟分布的检验统计量,它是用来检验回归拟合好坏的(零假设是因变

    21、量和自变量没有合好坏的(零假设是因变量和自变量没有关系)。关系)。7.3 定量变量的线性回归分析定量变量的线性回归分析o和刚才简单的回归模型类似,一般的和刚才简单的回归模型类似,一般的有有k个(定量)自变量个(定量)自变量x1,x2,xk的对的对因变量因变量y的线性回归模型为(称为多元的线性回归模型为(称为多元回归)回归)01 122kkyxxxeo这里这里 0,1,k称为回归系数。对计称为回归系数。对计算机来说,计算多个自变量的回归和算机来说,计算多个自变量的回归和计算一个自变量的情况类似,计算机计算一个自变量的情况类似,计算机也会自动输出相应的检验结果。也会自动输出相应的检验结果。1、虚拟

    22、变量的作用:、虚拟变量的作用:(1)可以描述和测量定性因素的影响)可以描述和测量定性因素的影响(2)能够正确反映经济变量之间的相互关系,提)能够正确反映经济变量之间的相互关系,提高模型的精度。高模型的精度。(3)便于处理异常数据;当样本资料中存在异常)便于处理异常数据;当样本资料中存在异常数据时,一般有三种处理方式,一是在样本容量数据时,一般有三种处理方式,一是在样本容量较大的情况下直接剔除异常数据;二是用平均数较大的情况下直接剔除异常数据;二是用平均数等方式修匀异常数据;三是设置虚拟变量(即将等方式修匀异常数据;三是设置虚拟变量(即将异常数据作为一个特殊的定性因素。异常数据作为一个特殊的定性

    23、因素。虚拟变量模型虚拟变量模型2、截距变动模型、截距变动模型(一)只包含一个虚拟变量的截距变动模型(一)只包含一个虚拟变量的截距变动模型如果回归模型中只包含一个质的因素,且这个因素如果回归模型中只包含一个质的因素,且这个因素仅有两种特征,则回归模型中只需引入一个虚拟变仅有两种特征,则回归模型中只需引入一个虚拟变量量例:假定我们有一个包括城乡居民家庭收支状况的例:假定我们有一个包括城乡居民家庭收支状况的样本,并打算用这些数据估计消费函数。由于城乡样本,并打算用这些数据估计消费函数。由于城乡居民家庭和农村居民家庭在消费水平上存在明显差居民家庭和农村居民家庭在消费水平上存在明显差异,所以异,所以“地

    24、区地区”这个质的因素是一个重要解释变这个质的因素是一个重要解释变量。用一个虚拟变量来表示,消费函数为:量。用一个虚拟变量来表示,消费函数为:iiiuXDY10用用D1表示城镇居民家庭这一特征,表示城镇居民家庭这一特征,D0表示农村居民家表示农村居民家庭这一特征,并假定随机误差项满足经典回归假定。上式庭这一特征,并假定随机误差项满足经典回归假定。上式可写成可写成 iiiiXYEDXYED010:0:1可以看出,二者有相同的斜率,但截距不同。可以看出,二者有相同的斜率,但截距不同。结合上例,我们给出虚拟变量模型的几个特性:结合上例,我们给出虚拟变量模型的几个特性:1、以、以“0”“1”取值的虚拟变

    25、量所反映的内容可以随意设定。取值的虚拟变量所反映的内容可以随意设定。在上例中,也可以指定在上例中,也可以指定D1时为农村居民家庭,而时为农村居民家庭,而D0就必然为城镇居民家庭。就必然为城镇居民家庭。2、虚拟变量虚拟变量D0代表的特征或状态,通常用于说明代表的特征或状态,通常用于说明基础类型。基础类型是对比的基础。基础类型。基础类型是对比的基础。3、基础类型的截距系数称为公共截距系数,系、基础类型的截距系数称为公共截距系数,系数可称为差别截距系数。数可称为差别截距系数。4、如果一个回归模型有截距项,对于具有两种特征、如果一个回归模型有截距项,对于具有两种特征的质的因素,只需引入一个虚拟变量,如

    26、果引入两的质的因素,只需引入一个虚拟变量,如果引入两个虚拟变量,就会造成共线性的影响。个虚拟变量,就会造成共线性的影响。一般规则:如果一个质变量有一般规则:如果一个质变量有m 种特征或状态,只种特征或状态,只需引入需引入m-1 个虚拟变量。但如果回归模型不包含截个虚拟变量。但如果回归模型不包含截距项,则距项,则m种特征要引入种特征要引入m个虚拟变量。个虚拟变量。01(二)包含多个虚拟变量的截距系数(二)包含多个虚拟变量的截距系数如果一年有如果一年有4个季节,就需要引入三个虚拟变量,即个季节,就需要引入三个虚拟变量,即ttttttuXDDDY3322110,其它,第三季度,其它第二季度,其他第一

    27、季度01D0,1D0,1321tttD注意:这里不能只设一个虚拟变量,如果那样注意:这里不能只设一个虚拟变量,如果那样的话,实际上隐含了一个假定:不同季度之间的话,实际上隐含了一个假定:不同季度之间的差异程度是相同的,这显然不能合理区分四的差异程度是相同的,这显然不能合理区分四个季度的消费函数。个季度的消费函数。3截距和斜率同时变动模型截距和斜率同时变动模型在很多情形下,质的因素不仅会改变模型的截距,还会同时在很多情形下,质的因素不仅会改变模型的截距,还会同时影响模型的斜率。影响模型的斜率。例如,城镇居民家庭与农村居民家庭的消费函数不仅在截距例如,城镇居民家庭与农村居民家庭的消费函数不仅在截距

    28、上有差异,边际消费倾向可有也会有所不同。这时回归模型上有差异,边际消费倾向可有也会有所不同。这时回归模型可记为:可记为:iiiiuDXXDY2110上式可表示为:上式可表示为:iiiuXYD2110:1iiiuXYD10:0若统计检验表明:若统计检验表明:模型成立则截距和斜率同时变动、,0,0121,是一个截距变动模型,、00221没有差异,城镇居民和农村居民,、003,21,为斜率变动模型,、004,214、包含多个质的因素的虚拟变量模型、包含多个质的因素的虚拟变量模型在很多情况下,往往有多个质的因素影响回归模型的截距或在很多情况下,往往有多个质的因素影响回归模型的截距或斜率。例如,在研究居

    29、民消费行为时,可以考虑的质的因素斜率。例如,在研究居民消费行为时,可以考虑的质的因素有户主的性别、户主的年龄、户主的文程度、地理区域等等。有户主的性别、户主的年龄、户主的文程度、地理区域等等。再如,除收入水平外,啤酒需求量还会受到季节、地区等我再如,除收入水平外,啤酒需求量还会受到季节、地区等我个质的因素影响。个质的因素影响。如果假定食品需求受以下因素影响:如果假定食品需求受以下因素影响:1、户主的收入水平、户主的收入水平2、户主的性别、户主的性别、3、户主的年龄:、户主的年龄:25岁以下;岁以下;2550岁;岁;50岁以上三组岁以上三组4、户主的文化程度:初中、高中、大学、户主的文化程度:初

    30、中、高中、大学则食品消费函数需要引入则食品消费函数需要引入5个虚拟变量个虚拟变量,其它岁,其他岁以下,女性男性050251D0251D,0,1321D,其它,高中毕业,其它初中毕业01D0,154D相应的回归模型为:相应的回归模型为:iiiuXDDDDDC55443322110上例假定质的因素只影响回归模型的截距,由此不难推广上例假定质的因素只影响回归模型的截距,由此不难推广到更一般的情形。到更一般的情形。7.3 定量变量的线性回归分析定量变量的线性回归分析o并且用数据来拟合所选的一个模型时,并并且用数据来拟合所选的一个模型时,并不一定所有的变量都显著不一定所有的变量都显著(并不一定所有的并不

    31、一定所有的系数都有意义系数都有意义)。o软件有一种一边回归,一边检验的所谓软件有一种一边回归,一边检验的所谓逐逐步回归(步回归(stepwise regression)方法。方法。o该方法或者从只有常数项开始,逐个地把该方法或者从只有常数项开始,逐个地把显著的变量加入;或者从包含所有变量的显著的变量加入;或者从包含所有变量的模型开始,逐步把不显著的变量减去。注模型开始,逐步把不显著的变量减去。注意不同方向逐步回归的结果也不一定相同。意不同方向逐步回归的结果也不一定相同。7.4 自变量中有定性变量的回归自变量中有定性变量的回归o在例在例7.1的数据中,还有一个自变量是的数据中,还有一个自变量是收

    32、入,但它是定性变量,以收入,但它是定性变量,以虚拟变量虚拟变量或或哑元(哑元(dummy variable)的方式出的方式出现。(这里收入的现。(这里收入的“低低”,“中中”,“高高”,用,用1,2,3来代表)。如果要来代表)。如果要用这种哑元进行用这种哑元进行7.2节的回归就没有道节的回归就没有道理了。可以用下面模型描述:理了。可以用下面模型描述:011012013,1,2,3yxxxeee代表家庭收入的哑元 时,代表家庭收入的哑元 时,代表家庭收入的哑元 时。7.4 自变量中有定性变量的回归自变量中有定性变量的回归o注意,哑元的各个参数注意,哑元的各个参数 1,2,3本身本身只有相对意义只

    33、有相对意义,无法三个都估计,只,无法三个都估计,只能够在有约束条件下才能够得到估计。能够在有约束条件下才能够得到估计。约束条件可以有很多选择,一种默认约束条件可以有很多选择,一种默认的条件是把一个参数设为的条件是把一个参数设为0,比如,比如 3=0,这样和它有相对意义的这样和它有相对意义的 1和和 2就可以就可以估计出来了。对于例估计出来了。对于例7.1得到得到28.7080.68811.066,28.7080.6884 679,28.7080.688,yxyxyx(低收入家庭),.(中等收入家庭),(高收入家庭)。Parameter EstimatesDependent Variable:s

    34、128.7084.9045.854.00018.83738.579.688.06310.925.000.561.814-11.0662.641-4.190.000-16.382-5.750-4.6792.176-2.150.037-9.059-.2990a.ParameterInterceptj3income=1income=2income=3BStd.ErrortSig.Lower BoundUpper Bound95%Confidence IntervalThis parameter is set to zero because it is redundant.a.对于例对于例7.1,对,

    35、对 0,1,1,2,3的估计分的估计分别为别为28.708,0.688,-11.066,-4.679,0。7.5 Logistic 回归回归o但是如果因变量为取两个值的但是如果因变量为取两个值的定性变量,前面介绍的回归模定性变量,前面介绍的回归模型就无法解决了。型就无法解决了。o我们通过例我们通过例7.2来介绍另一种回来介绍另一种回归,即归,即Logistic回归(回归(logistic regression)。o例例7.2数据前面已经见到,有自数据前面已经见到,有自变量性别、年龄和因变量观点变量性别、年龄和因变量观点7.5 Logistic 回归回归o对此,人们通常会考虑下面的模型对此,人们

    36、通常会考虑下面的模型(称为(称为logistic回归模型)回归模型)01ln,0,11ipxip这里代表女性和男性o为了循序渐近,先拟合没有性别作为为了循序渐近,先拟合没有性别作为自变量(只有年龄自变量(只有年龄x)的模型)的模型010101ln11xxpexppe或者等价地7.5 Logistic 回归回归o很容易得到很容易得到 0和和 1的估计分别为的估计分别为2.381和和-0.069。拟合的模型为。拟合的模型为ln2.381 0.0691pxp102030405060700.20.40.60.8agep7.5 Logistic 回归回归o下面下面再加上性别再加上性别变量进行拟合,得到变

    37、量进行拟合,得到对对 0,1和和 0,1的估计(同样事先确定的估计(同样事先确定为为 1=0)分别为)分别为1.722,-0.072,1.778,0。对于女性和男性,该拟合模型分别可对于女性和男性,该拟合模型分别可以表示为以表示为ln1.7220.0721.7781ln1.7220.0721pxppxpVariables in the Equation-.072.01329.4841.000.9311.778.36623.6441.0005.9191.722.5599.4791.0025.594agesex(1)ConstantStep1aBS.E.WalddfSig.Exp(B)Variab

    38、le(s)entered on step 1:age,sex.a.SPSS实现实现(logi.sav)oAnalizeRegressionBinary Logistic,o再把因变量再把因变量(opinion)选入选入Dependent Variable,把自变量(,把自变量(age和和sex)选入)选入Covariates,oCategorical,再把定性变量,再把定性变量sex选入选入Categorical Covariate,o回到主对话框,点击回到主对话框,点击OK即可得到结果。即可得到结果。o注注:SPSS的的syntax:LOGISTIC REGRESSION VAR=opini

    39、on /METHOD=ENTER age sex /CONTRAST(sex)=Indicator /CRITERIA PIN(.05)POUT(.10)ITERATE(20)CUT(.5).SPSS的的数据输入数据输入o数据的键入数据的键入(T01.sav)o数据从其他文本读入数据从其他文本读入:File-Open-Data-文文件类型件类型(Sav,Excel,SAS,dBase,TXT等等等等)(T02.txt);散点图散点图o定性变量的定性变量的加权加权(每一行的权数等于该行被观每一行的权数等于该行被观测到的次数测到的次数)(T03.sav)和和不加权不加权(T04.sav);条形图条

    40、形图,饼图饼图o数据的变换数据的变换(T01.sav)(多重散点图多重散点图,图的编图的编辑辑)SPSS的的相关分析相关分析o相关分析相关分析(hischool.sav)o利用利用SPSS选项:选项:AnalizeCorrelateBivariateo再把两个有关的变量再把两个有关的变量(这里为这里为j3和和s1)选入,选入,选择选择Pearson,Spearman和和Kendall就就可以得出这三个相关系数和有关的检验结果可以得出这三个相关系数和有关的检验结果了了(零假设均为不相关零假设均为不相关)。SPSS的的回归分析回归分析o自变量和因变量都是定量变量时的线性回归自变量和因变量都是定量变

    41、量时的线性回归分析分析(hischool.sav)o利用利用SPSS选项:选项:AnalizeRegressionLinearo再把有关的自变量选入再把有关的自变量选入Independent,把,把因变量选入因变量选入Dependent,然后,然后OK即可。即可。如果自变量有多个(多元回归模型),只要如果自变量有多个(多元回归模型),只要都选入就行。都选入就行。SPSS的的回归分析回归分析o自变量中有定性变量(哑元)和定量变量而因变量自变量中有定性变量(哑元)和定量变量而因变量为定量变量时的线性回归分析为定量变量时的线性回归分析 (hischool.sav)o利用利用SPSS选项:选项:Ana

    42、lizeGeneral linear modelUnivariate,o在在Options中选择中选择Parameter Estimates,o在主对话框中把在主对话框中把因变量因变量(s1)选入)选入Dependent Variable,把,把定量自变量定量自变量(j3)选入选入Covariate,把把定性因变量定性因变量(income)选入)选入Factor中。中。o点击点击Model,在,在Specify Model中选中选Custom,再把两个有关的自变量选入右边,再在下面再把两个有关的自变量选入右边,再在下面Building Term中选中选Main effect。然后就。然后就Co

    43、ntinue-OK。SPSS的的Logistic回归回归(logi.sav)o自变量为定量变量时:自变量为定量变量时:利用利用SPSS选项:选项:AnalizeRegressionBinary Logistic,o再 把再 把 因 变 量因 变 量(o p i n i o n)选 入选 入DependentVariable,把,把自变量自变量(age)选入)选入Covariates,OK即可得到结果。即可得到结果。o自变量为定量变量及定量变量时:自变量为定量变量及定量变量时:利用利用SPSS选项:选项:AnalizeRegressionBinary Logistic,o再 把再 把 因 变 量因 变 量(o p i n i o n)选 入选 入DependentVariable,把,把自变量自变量(age和和sex)选入选入Covariates,然后点,然后点Categorical,再把,再把定性变量定性变量sex选入选入Categorical Covariate,回,回到主对话框,点击到主对话框,点击OK即可得到结果。即可得到结果。

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:spss-07相关与回归分析-课件.ppt
    链接地址:https://www.163wenku.com/p-3370862.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库