最新spss线性回归分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《最新spss线性回归分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 spss 线性 回归 分析 课件
- 资源描述:
-
1、 第十章 线性回归分析过程 第一节 回归分析概述1.回归方程w回归分析是处理变量x与y之间统计关系的一种统计方法和技术。如果要由x预测y的值,就要利用x与y的观察值,即样本观测值(x1,y1),(x2,y2),(xn,yn)来建立一个公式,当给定x值后,就代入此公式中算出一个y值,这个值就称为y的预测值。w如何建立这个公式?w1.绘制散点图w2.建立线性函数:y= +x2.建立实际问题回归模型的过程w一、根据研究的目的,设置指标变量w二、搜集整理统计数据w三、确定理论回归模型的数学形式w四、模型参数的估计w五、模型的检验与修改w六、回归模型的运用 具体(社会经济)问题设置指标变量搜集整理数据构
2、造理论模型估计模型参数模型检验模型运用经济变量控制经济因素分析经济决策预测修改建立实际问题回归模型过程第一步:绘制散点图选择估计模型线性模型分段模型曲线模型第二步:建立回归方程线性方程式y= +x中的参数 ,还不知道,这就需要由样本数据来进行估计,估计出 ,的值后,以估计值 分别代替线性方程式中的 ,得到方程 这个方程就称为回归方程。 这里因为因变量y与自变量x的关系呈线性关系,因此我们也称上述方程为线性回归方程, 是线性回归方程所画出的直线在y轴上的截距 ,为直线的斜率,它们分别被称作回归常数与回归系数。,xyxyxy第二节 一元线性回归w一元线性回归是描述两个变量之间统计关系的最简单的回归
3、模型。w例1 假定一保险公司希望确定居民住宅火灾造成的损失数额与该住户到最近的消防站的距离之间的相关关系,以便准确地确定出保险金额,表1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。距消防站距离距消防站距离3.41.84.62.33.15.50.73.0火灾损失火灾损失26.217.831.323.127.536.014.122.3距消防站距离距消防站距离2.64.32.11.16.14.83.8火灾损失火灾损失19.631.324.017.343.236.426.1一、根据研究的目的,设置指标变量w试验指标:火灾损失w试验因素:距离消防站的距离因此建立两个变量:x距离消防站的距
4、离y火灾损失二、获取相关数据三、确定理论回归模型的数学形式w1.判断x变量与y变量之间的关系是否为线性相关关系?判断方法:1)散点图 2)相关系数法2.如果是显著线性相关关系,可以选择一元回归方程做为理论回归模型。距离76543210损失50403020101)绘制散点图线性相关线性回归模型Correlations1.961*.0001515.961*1.000.1515Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N距离损失距离损失Correlation is significant at the 0
5、.01 level(2-tailed).*. 2)相关系数2.一元线性回归模型的数学形式参数的估计xy10niiniiniiniiiynyxnxxxyyxxxy111211101,1距离76543210损失5040302010(xi,yi)xy10 xyynyxnxxxyyxxxyniiniiniiniii919.4278.101,1919.4278.1011121110回归方程:四、模型参数的估计应用Spss软件进行回归参数的估计1、执行Analyze Regression Linear命令,打开对话框(1)从源文件量清单中选择一个数值型变量移入 Dependent框中,选择一个变量作为自变
6、量移入Independent 框中(2)点击OKxy919. 4278.10919. 4278.1010多元线性回归模型一、多元线性回归模型的一般形式称为回归系数。,称为回归常数,个未知参数,是,其中,的线性回归模型为:,与一般变量设随机变量p210p210pp22110p211pxxxyxxxy二、多元线性回归方程的解释以p2为例。在建立空调机销售量的预测模型时,用y来表示空调机的销售量,用x1表示空调机的价格,用x2表示消费者可用于支配的收入。则可以建立二元线性回归模型: 的平均影响程度。机销售量调每变动一个单位,对空消费者收入保持不变时,可解释为在空调机价格即,则有保持不变,为一常数时同
7、理,假如的平均影响程度。机销售量调每变动一个单位,对空空调机的价格保持不变时,可解释为在消费者收入即,则有保持不变,为一常数时假如yxxyEyxxyE2122221211122211022110 xxxxxxyExxy三、 回归参数的估计w回归参数可以应用普通最小二乘估计。具体计算可以通过spss软件进行。未标准化回归方程为:y=35316.885+6.696x1+0.097x2标准化回归方程为:y=0.809x1+0.18x2Coefficientsa35316.8852329.45715.161.0006.6961.562.8094.287.003.097.102.180.952.369(
8、Constant)空调价格家庭收入Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 空调销售量a. 四、模型的检验与修改w4.1 相关系数的显著性检验w4.2 F检验w4.3 t检验w4.4 样本决定系数w4.5 残差分析4.1相关系数的显著性检验由于一元线性回归方程讨论的是变量x与y之间的线性关系,所以我们可以用变量x与y之间的相关系数来检验回归方程的显著性。当 r = 0 时,说明变量之间不存在线性相关关系; 当 0 r 1时,说明变量之间存在一定程
9、度的正相关关系; 当 -1 r 0时,说明变量之间存在一定程度的负相关关系; 当r =1 或 r = -1 时说明变量之间完全正相关或完全负相关。 设总体 X 和 Y 的相关系数为 r,则检验的原假设和对立假设为: 其中零假设表示:假设变量之间不存在线性相关关系。 检验时采用的统计量为:0:0:10rHrH,212rrntCorrelations1.974*.920*.000.000111111.974*1.914*.000.000111111.920*.914*1.000.000111111Pearson CorrelationSig. (2-tailed)NPearson Correlat
10、ionSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N空调销售量空调价格家庭收入空调销售量空调价格家庭收入Correlation is significant at the 0.01 level (2-tailed).*. 4.2回归方程的显著性检验w检验因变量与所有自变量之间的线性关系是否显著,是否可以用线性模型来描述因变量和自变量之间的关系。也就是检验所有回归系数是否同时与零无显著差异。应用F检验法加以检验。注:检验是否可以用回归方程方法进行模型估计,也就是回归方程是否有效?0210rH:rrxxxy22110回归方程的显著性检验F检验
11、F检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。距离76543210损失50403020104 .26yxy1021niiyy21niiyy212121niiniiniiyyyyyyF检验SSESSRSSTSSEyySSRyySSTyyyyyyyyniiiniiniiniiiniinii简写为因而平方和分解式可以成为残差平方和,简记称为回归平方和,简记称为总平方和,简记其中212121212121w总平方和反映因变量y的波动程度或称不确定性,在建立了y对x的线性回归后,总平方和SST就分解成回归平方和SSR与残差平方和SSE这两个组成部分,其中SSR是由回归方程确定的,也就是由自
12、变量x的波动引起的,SSE是不能用自变量解释的波动,是由x之外的未加控制的因素引起的。这样,总平方和SST中,能够由自变量解释的部分为SSR,不能由自变量解释的部分为SSE。这样,回归平方和SSR越大,回归效果就越好,可以据此构造F检验统计量:MSEMSRknSSEkSSRF) 1/(/在零假设 成立的情况下,F 统计量服从F分布,第一个自由度为1,第二个自由度为n 2 ,即 F F(1,n 2)。 决策的规则是:对于给定的显著水平 ,若F F(1,n 2) 就拒绝原假设。0210rH:ANOVAb841.7661841.766156.886.000a69.751135.365911.5171
13、4RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 距离a. Dependent Variable: 损失b. 回归平方和SSR841.766,残差平方和SSE69.751总平方和SST 841.766 69.751911.517SIG=0.0000.05,拒绝原来的假设,表示所有的回归系数不同时为0,也就是说,回归方程总体达到显著程度,即回归方程是有效的。0210rH:886.156365. 5/766.841) 1/(/MSEMSRknSSEkSSRF5.3 t检验w回归方
14、程显著性检验只能检验所有系数是否同时与零有显著性差异。如果检验出所有回归系数不同时为零,仍然不能保证方程中仍存在与零无显著差异的回归系数,也就是说不能保证所有回归系数同时不为零。w回归系数的显著性检验就是要检验是否所有自变量xi对因变量y的影响程度均显著。如果原假设 成立,则因变量y与自变量x1之间并没有真正的线性关系,也就是说 自变量x1的变化对因变量y并没有影响。构造的t检验统计量为:0:10H212122121/niixxniiixxxxLyynLt其中SPSS统计结果中对回归系数是否显著为0的t检验005. 0000. 0sig525.12/tt012110拒绝原来的假设,说明显著性概
15、率检验统计量:构造:假设:xxLHSPSS统计结果中对多元回归系数是否显著为0的t检验得出结论是否大于判断显著性概率检验统计量构造:假设:0.05sigt0, 0, 0, 0, 0543210HCoefficientsa35316.8852329.45715.161.0006.6961.562.8094.287.003.097.102.180.952.369(Constant)空调价格家庭收入Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 空调销售量a
16、. 5.4回归方程的拟合优度检验w就是要检验样本数据点聚集在回归直线周围的密集程度,从而评价回归方程对样本数据的代表程度。一般用判别系数R2实现。w因变量总的变差平方和由自变量引起的因变量变差的平方和由其他随机因素引起的因变量变差的平方和w用数学语言表示为:w式中:由自变量引起的变差平方和能够由回归方程表示,称为回归平方和,由其他随机因素引起的变差平方和无法用回归方程表示,称为残差平方和或剩余平方和。212121niiniiniiyyyyyy距离76543210损失50403020104 .26yxy1021niiyy21niiyy212121niiniiniiyyyyyy样本决定系数w由回归
17、平方和与残差平方和的意义我们知道,如果在总的离差平方和中,回归平方和所占的比重越大,则线性回归效果就越好,这说明回归直线与样本观测值拟合优度就越好;如果残差平方和所占比重大,则回归直线与样本观测值拟合得就不理想。这里把回归平方和与总离差平方和之比定义为样本决定系数,记为:niiniiyyyySSTSSRr12122Model Summary.961a.923.9182.31635Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), 距离a. w性质1:决定系数r2是一个回归直线与样本观测值
18、拟合优度的相对指标,反映了因变量的波动中能用自变量解释的比例。r2的值总是在0和1之间,也可以用百分数表示。一个线性回归模型如果充分利用了x的信息,因变量不确定性的绝大部分能由回归方程解释,则r2越接近于1,拟合优度就越好,反之亦然。w性质2:回归方程的显著性检验与r2值的大小是一致的,即检验越显著,r2就越大,但是这种关系并不是完全确定的,在样本容量n很大时,对高度显著的检验结果仍然可能得到一个小的r2。导致r2小的可能原因有两个,第一是线性回归不成立,第二是y与x之间的确符合线性模型,只是误差项方差大导致r2小,这时在样本容量n很大时,检验结果仍然可能得出线性回归显著的结论。5.5 残差分
展开阅读全文