书签 分享 收藏 举报 版权申诉 / 119
上传文档赚钱

类型统计分析软件教程相关与回归分实用版课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:5176879
  • 上传时间:2023-02-16
  • 格式:PPT
  • 页数:119
  • 大小:1.17MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《统计分析软件教程相关与回归分实用版课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    统计分析 软件教程 相关 回归 实用 课件
    资源描述:

    1、统计分析软件教程相关与回归分(优选)统计分析软件教程相(优选)统计分析软件教程相关与回归分关与回归分32023-1-26第五章32023-1-26 目目 录录5.1 相关与回归分析概述相关与回归分析概述5.2 线性相关分析的线性相关分析的CORR过程过程 5.3 线性回归分析的线性回归分析的REG过程过程5.4 非线性回归分析过程非线性回归分析过程*5.5 Logistic回归分析过程回归分析过程*42023-1-26第五章42023-1-265.1 5.1 相关与回归分析概述相关与回归分析概述 1.相关与回归分析基本概念相关与回归分析基本概念 相关分析相关分析(Correlation Ana

    2、lysis):是研究变量之间依存关系的密切程度。回归分析回归分析(Regression Analysis):是根据相关关系的具体形态,选择一个合适的数学模型,近似地表达变量间的平均变化关系。52023-1-26第五章52023-1-26 两者的关系具有共同的研究对象,在应用中互相补充。相关分析需要回归分析来进一步表明变量相关的具体形式,而回归分析则需要相关分析所表明的变量间是否存在相关及相关程度的高低作为依据。只有变量之间高度相关时,进行回归分析寻求其相关的具体形式才有意义。而在相关程度很低的情况下回归函数表达式的代表性几乎就不存在了。62023-1-26第五章62023-1-26 两者的区别

    3、第一,相关分析没有自变量和因变量之分。回归分析必须事先确定变量中哪个是自变量,哪个是因变量,两个变量的地位不是对等的;第二,相关分析所涉及的两个变量都是随机变量,在回归分析中通常把因变量作为随机变量,而自变量作为非随机变量;第三,相关分析通过相关系数描述变量的关系。改变两变量的地位不影响相关系数的数值。而回归分析是通过回归方程进行估计和预测。改变两变量的地位后所形成的回归方程的性质是不同的。72023-1-26第五章72023-1-26 2.相关分析的内容与种类相关分析的内容与种类 相关分析的主要内容有确定相关关系相关分析的主要内容有确定相关关系的存的存在,相关关系呈现的形态和方向,相关关在,

    4、相关关系呈现的形态和方向,相关关系的密系的密切程度。其主要方法是绘制相关图表和计切程度。其主要方法是绘制相关图表和计算相关算相关系数。在分析过程中的按分析方法分主要系数。在分析过程中的按分析方法分主要包括两包括两类类 线性相关线性相关(Linear Correlation):又称为又称为简单相简单相关关(Simple Correlation),适用于双变量符合适用于双变量符合正态分正态分布类型的数据属于参数统计分析方法的范布类型的数据属于参数统计分析方法的范畴。畴。82023-1-26第五章82023-1-26 秩相关(Rank Correlation)秩相关又称等级相关,适用于双变量等级资料

    5、类型的数据。属于非参数统计分析方法。秩相关分析方法适用于下列类型的资料 不服从变量正态分布的数据。总体分布类型未知的数据。以等级表示的数据。BCLASS NOSIMPLE;851072 7.(标准差)Root MSE 14.因此,LOGISTIC程序得将回归x22=x2*x2;所以添加上NOINT选项,去掉模型中的截距项重新拟合。统计分析软件教程相关与回归分03067009 5.BCLASS NOSIMPLE;Open By SAS Name85 1000 0.MODEL 因变量=自变量1 自变量2/选择项;条件下的PEARSON积差相关系数矩阵,该矩阵是一个ALL 屏幕输出所有内容。预先确定

    6、剔除自变量的显著性水平;CLI,CLM 或R 已规定,P 就不需要规定;一、可直线化的简单曲线拟合相关与回归分析基本概念92023-1-26第五章92023-1-26相关关系相关关系非线性相关非线性相关线性相关线性相关正正相相关关正正相相关关负负相相关关负负相相关关完全相关完全相关不相关不相关按关系类型关系类型分:102023-1-26第五章102023-1-26112023-1-26第五章112023-1-26SAS系统中相关分析的方法主要包括系统中相关分析的方法主要包括 Pearson(皮尔逊皮尔逊)积差相关积差相关 Spearman(斯皮尔曼斯皮尔曼)等级相关等级相关 Kendall(卡

    7、德尔卡德尔)等级相关等级相关 HOEFFDING(霍夫丁霍夫丁)D相关相关122023-1-26第五章122023-1-263.3.回归分析的内容与种类回归分析的内容与种类 如果因变量是如果因变量是(非时间的非时间的)连续变量连续变量(即即一般一般定量资料定量资料),设自变量的个数为,设自变量的个数为k k,当,当k=1k=1时,回时,回归分析的种类有归分析的种类有 直线回归分析直线回归分析 通过直线化实现的简单曲线回归分析通过直线化实现的简单曲线回归分析(以下以下简称为曲线拟合简称为曲线拟合)非线性曲线拟合非线性曲线拟合 一般多项式曲线拟合。一般多项式曲线拟合。正交多项式曲线拟合。正交多项式

    8、曲线拟合。132023-1-26第五章132023-1-265.2 5.2 线性相关分析的线性相关分析的CORRCORR过程过程 SAS系统的线性相关分析过程是由CORR过程完成的。该过程由系统的BASE模块提供,可以计算 PEARSON(皮尔逊)积差相关系数、SPEARMAN(斯皮尔曼)秩相关系数、KENDALL(卡德尔)TAUB统计量、HOEFFDING(霍夫丁)独立性分析统计量D 以及Pearson、Spearman以及Kendall线性偏相关系数。另外,它还对用于估计可靠性的Cronbach系数进行计算。142023-1-26第五章142023-1-26 1.语句格式语句格式 PROC

    9、 CORR 选择项选择项;VAR 变量表;变量表;WITH 变量表;变量表;PARTIAL 变量表;变量表;WEIGHT 变量;变量;FREQ 变量;变量;BY 变量表;变量表;152023-1-26第五章152023-1-262.常用选项常用选项 (1)PROC CORR 语句的选择项语句的选择项:1.DATA=SAS 数据集数据集 2.PEAESON 计算皮尔逊相计算皮尔逊相关系数关系数(默认默认)3.SPEARMAN 计算斯皮尔曼计算斯皮尔曼系数系数 4.HOEFFDING 计算霍夫丁计算霍夫丁D统统计量计量 5.KENDALL 计算卡德尔系数计算卡德尔系数 6.OUT(PSKH)=SA

    10、S 数据集数据集 输出数据集。输出数据集。分别对应与四个系数输出分别对应与四个系数输出数据集数据集在REG过程,根据“最优”变量及“最佳”方程计的偏差,没有考虑误差项的偏差;LOGISTIC过程的语句格式提供9种模型选择的方法。论模型的形式是简单的,还是复杂的,这个对数因此,产生了三类线性函大型企业以“你在企业改革中最需要解决(1)对三个变量进行简单线性相关分析;NOPPINT不在OUTPUT窗口输出回归分析的结果。PARTIAL WEIGHT;PEARSON(皮尔逊)积差相关系数、际收入水平之间的关系,可以用一元线性回归模QUIT;5 Logistic回归分析过程*8、CLM 计算并输出每个

    11、观测输出因变量期望值的MODEL R/N=HEATTIME SOAKTIME;PROC REG DATA=MYDATA.MODEL 因变量列表=;PROC GPLOT DATA=LI5_10;4、COLLIN要求详细分析变量间的共线性。162023-1-26第五章162023-1-26 7.NOMISS 分析时剔除缺失值分析时剔除缺失值 8.NOSIMPLE 不列出描述统计量不列出描述统计量 9.COV 列出协方差矩阵列出协方差矩阵 10.ALPHA 计算并输出阿尔法系数计算并输出阿尔法系数(CRONBACH系数系数)(2)功能语句功能语句 1.VAR语句语句:计算所有数值型变量间的相关系数计

    12、算所有数值型变量间的相关系数 2.WITH语句语句:必须与必须与VAR语句同时使用,只计算语句同时使用,只计算 VAR 变量与变量与WITH变量的相关系数。变量的相关系数。3.PARTIAL:偏相关变量表;偏相关变量表;/*偏相关偏相关*/4.BY语句语句:数据集按照数据集按照BY语句中变量的值分组,在语句中变量的值分组,在 每组内分别进行相关系数的计算。数据每组内分别进行相关系数的计算。数据 集内的数据必须先按照集内的数据必须先按照BY变量的值排序变量的值排序172023-1-26第五章172023-1-26 例例5151 数据集数据集MYDATA.CPI是某地区是某地区30户居民家庭的户居

    13、民家庭的月可支配收入月可支配收入(INCOME)和月消费支出和月消费支出(CSPT)的的原始资料,试通过相关分析月可支配收入和月消原始资料,试通过相关分析月可支配收入和月消费支出两个变量间是否存在相关关系。费支出两个变量间是否存在相关关系。182023-1-26第五章182023-1-26 编编 程程 192023-1-26第五章192023-1-26输出结果输出结果散点图散点图 202023-1-26第五章202023-1-26输出结果输出结果相关分析结果相关分析结果 212023-1-26第五章212023-1-26结果分析结果分析CORR过程的默认输出结果分为两部分过程的默认输出结果分为

    14、两部分 第一部分第一部分“Simple Statistics”为描述分析,输为描述分析,输出出VAR语句中所有变量的描述统计量的基本信息语句中所有变量的描述统计量的基本信息 变量名变量名(Variable)观测数观测数(N)均值均值(Mean)变量值的和变量值的和(Sum)标准差标准差(Std Dev)最小值最小值(Minimum)最大值最大值(Maximum)变量标签变量标签(Label)222023-1-26第五章222023-1-26结果分析结果分析 第二部分第二部分“”为默为默认的认的PEARSON(皮尔逊皮尔逊)积差相关分析结果。是在原假积差相关分析结果。是在原假设为总体相关系数等于

    15、零设为总体相关系数等于零(Prob|r|under H0:Rho=0)条件下的条件下的PEARSON积差相关系数矩阵,该矩阵是一个积差相关系数矩阵,该矩阵是一个对角方阵。可以看出两变量的线性相关系数值为对角方阵。可以看出两变量的线性相关系数值为0.967,说明两变量为高度线性相关,其检验概率为说明两变量为高度线性相关,其检验概率为Prob|r|小于小于0.0001。小于默认的显著性水平。小于默认的显著性水平,因此从总体上可,因此从总体上可以认为两个变量呈高度线性相关。以认为两个变量呈高度线性相关。232023-1-26第五章232023-1-26 例例5252 数据集DST.BCLASS是某学

    16、校学生身体状况的资料。运行下列两组程序,了解WITH语句的作用。程序1 程序2PROC CORR DATA=DST.BCLASS NOSIMPLE;VAR AGE HEIGHT WEIGHT;RUN;PROC CORR DATA=DST.BCLASS NOSIMPLE;VAR HEIGHT WEIGHT;WITH AGE;RUN;242023-1-26第五章242023-1-26运行结果运行结果 运行结果未使用运行结果未使用WITHWITH语句语句 运行结果使用运行结果使用WITHWITH语句语句252023-1-26 例例5353 数据集数据集MYDATA.VITAL是一组肺活量、身是一组肺

    17、活量、身高体重的实测资料要求高体重的实测资料要求 (1)对三个变量进行简单线性相关分析;)对三个变量进行简单线性相关分析;(2)分别以身高与体重为控制变量进行一阶偏)分别以身高与体重为控制变量进行一阶偏相关分析。相关分析。编程编程1简单线性相关分析简单线性相关分析(CORR的一般过程的一般过程)PROC CORR NOSIMPLE;VAR HEIGHT WEIGHT;WITH VITAL;RUN;第五章252023-1-26262023-1-26运行结果运行结果第五章262023-1-26272023-1-26编程编程2 2偏相关过程偏相关过程(以以WEIGHTWEIGHT为控制变量为控制变量

    18、)PROC CORR NOSIMPLE PROC CORR NOSIMPLE;VAR HEIGHT VITALVAR HEIGHT VITAL;PARTIAL WEIGHTPARTIAL WEIGHT;RUN;RUN;第五章272023-1-26282023-1-26编程编程3 3偏相关过程偏相关过程(以以HEIGHTHEIGHT为控制变量为控制变量)PROC CORR NOSIMPLE PROC CORR NOSIMPLE;VAR WEIGHT VITALVAR WEIGHT VITAL;PARTIAL HEIGHTPARTIAL HEIGHT;RUNRUN;第五章282023-1-26R/

    19、N的比例与加热时间及溶液浸泡时间之间的关 NOSIMPLE不输出自变量的描述性统计量;889552是根据标准(X51)、人均居住面积(X6)、年市场化利率(X7)、年末总将变量还原,写出用原变量表达的曲线方程;其统计理论基础是逻辑斯谛回归分析(Logistic先计算出信息矩阵|XX|的各个特征根,然后计算条INPUT X Y;为掌握某种合金的耐热以及耐腐蚀的能力,两者的区别第一,相关分析没有自变量和(因变量均值)Dep Mean 64.PROC CORR DATA=DST.输出结果(1)STEP 1的方差分析PEARSON(皮尔逊)积差相关系数、语句格式 秩相关(Rank Correlatio

    20、n)秩相关又称等级2 50 0.HOEFFDING 计算霍夫丁D统计量VAR WEIGHT VITAL;用于对频数表的分析,可拟合对数线性模型、Logistic其在Model语句中的选择项为TOL。292023-1-26 例例5454 大型企业以大型企业以“你在企业改革中最需要解决你在企业改革中最需要解决什么?什么?”为题,分别对企业管理人员和普通员为题,分别对企业管理人员和普通员工共工共200200名进行了问卷调查。经整理后得下表名进行了问卷调查。经整理后得下表所列的资料。分析两种人员所列的资料。分析两种人员“需要需要”的相关程的相关程度。由于两变量是离散变量,因此需要使用秩度。由于两变量是

    21、离散变量,因此需要使用秩相关分析过程。相关分析过程。第五章292023-1-26302023-1-26第五章302023-1-26312023-1-26DATA LI54;DATA LI54;INPUT worker manager;INPUT worker manager;CARDS;CARDS;26 19 10 21 16 8 25 1626 19 10 21 16 8 25 165 11 6 15 9 7 3 35 11 6 15 9 7 3 3;PROC PRINT;PROC PRINT;RUN;RUN;第五章312023-1-26创建数据集创建数据集322023-1-26PROC R

    22、ANK DATA=LI54 OUT=LI54_R;PROC RANK DATA=LI54 OUT=LI54_R;VAR worker manager;VAR worker manager;RANKS R_worker R_manager;RANKS R_worker R_manager;PROC PRINT;PROC PRINT;RUN;RUN;PROC CORR DATA=LI54_R SPEARMAN;PROC CORR DATA=LI54_R SPEARMAN;VAR R_worker R_manager;VAR R_worker R_manager;RUN;RUN;第五章322023-

    23、1-26分析过程分析过程332023-1-26运行结果运行结果第五章332023-1-26 两变量的线性相关系数值为两变量的线性相关系数值为 0.619050.61905,说明两,说明两变量为中度线性相关,但其检验概率值变量为中度线性相关,但其检验概率值Prob|r|Prob|r|为为0.10170.1017,大于默认的显著性水平,大于默认的显著性水平 ,因此从总体上不,因此从总体上不能认为两个变量具有线性相关关系。能认为两个变量具有线性相关关系。数据集数据集EXAMEXAM包含四个子测验的分数,分别是包含四个子测验的分数,分别是VOCABVOCAB(词汇)、(词汇)、READINGREADI

    24、NG(阅读)、(阅读)、SPELLINGSPELLING(拼写)、(拼写)、USAGEUSAGE(语法)等,分析这些子测验(语法)等,分析这些子测验成绩是否与英语总成绩有关。成绩是否与英语总成绩有关。编程编程PROC CORR DATA=EXAM ALPHA NOSIMPLE;PROC CORR DATA=EXAM ALPHA NOSIMPLE;VAR VOCAB READING SPELLING USAGE;VAR VOCAB READING SPELLING USAGE;RUN;RUN;342023-1-26 示例示例5151*第五章运行结果运行结果352023-1-26第五章结果说明结果

    25、说明 输出结果的第一部分(输出结果的第一部分(Cronbach Coefficient Cronbach Coefficient AlphaAlpha)含两个阿尔法系数,第一个值()含两个阿尔法系数,第一个值(RawRaw)Alpha=0.895444Alpha=0.895444是根据原始分数导出的,第二个是根据原始分数导出的,第二个值(值(StandardizedStandardized)Alpha=0.889552Alpha=0.889552是根据标准是根据标准化后的分数导出的,二者的值都相当高。因此,化后的分数导出的,二者的值都相当高。因此,可下结论说由这四个子测验分数的总和所形成英可下

    26、结论说由这四个子测验分数的总和所形成英语总成绩的显示极高的可信度。语总成绩的显示极高的可信度。362023-1-26第五章 输出结果的第二部分是各子测验与总成绩的输出结果的第二部分是各子测验与总成绩的相关系数,就相关系数,就READINGREADING(阅读)而言,该子测验(阅读)而言,该子测验与总分的相关最高与总分的相关最高r=0.921181(r=0.921181(根据原始分数根据原始分数)或或r=0.902411r=0.902411(根据标准化分数)。如果考试中不(根据标准化分数)。如果考试中不包括此子测验,则阿尔法信度减为包括此子测验,则阿尔法信度减为0.802956(0.802956

    27、(根据根据原始分数原始分数),或,或0.801067(0.801067(根据标准化分数根据标准化分数)。输出结果的第三部分是一个输出结果的第三部分是一个 的的Pearson(Pearson(皮尔皮尔逊相关系数矩阵逊相关系数矩阵),其元素为四个子测验两两相关,其元素为四个子测验两两相关的相关系数以及其统计检验的显著程度。的相关系数以及其统计检验的显著程度。372023-1-26第五章382023-1-265.3 5.3 线性回归分析的线性回归分析的REGREG过程过程 SAS系统中主要回归分析过程系统中主要回归分析过程:1、GLM(General linear Model)通用线性模型。通用线性

    28、模型。用用最小二乘法拟合,既可处理连续变量也处理离散最小二乘法拟合,既可处理连续变量也处理离散变量。主变量。主要用于建立一般线性回归模型和方差分析要用于建立一般线性回归模型和方差分析 2、CATMOD(Categorical Data Modeling):对数对数模型。模型。用于对频数表的分析,可拟合对数线性模型、用于对频数表的分析,可拟合对数线性模型、Logistic 回归模型等回归模型等 3、REG:线性回归的基本过程。线性回归的基本过程。第五章382023-1-26392023-1-26 1.1.可处理多个可处理多个MODELMODEL语句。语句。2.2.提供提供9 9种模型选择的方法。

    29、种模型选择的方法。3.3.允许交互式修改模型或建模用数据。允许交互式修改模型或建模用数据。4.4.可对线性及多变量假设进行检验。可对线性及多变量假设进行检验。5.5.作数据或统计量的散点图。作数据或统计量的散点图。6.6.可进行回归诊断并给出相应统计量。可进行回归诊断并给出相应统计量。7.7.可利用相关矩阵或协方差阵作为建模的数据。可利用相关矩阵或协方差阵作为建模的数据。8.8.可进行回归预测并估计预测值、残差、置信度等可进行回归预测并估计预测值、残差、置信度等第五章392023-1-26REGREG过程的主要功能过程的主要功能5、NOINT 输出结果中不包括截距项;0 0 19 27 1.两

    30、变量的线性相关系数值为 0.VAR语句:计算所有数值型变量间的相关系数其中 代表一组自变量,从散点图中可以看到两个输出结果(1)STEP 1的参数估计CPI是某地区30户居民家庭的CPI OUTS=DA1;2 线性相关分析的CORR过程proc reg data=li59a;2 0 1 51 4.月可支配收入(INCOME)和月消费支出(CSPT)的作数据或统计量的散点图。根据模型推算出与自变量取各样本值时对应的因变量的化模型的方式来找到一个更精简的函数关系。Model 1 5609.LOGISTIC过程对参数估计的方法采用IRLS 解402023-1-26PROC REG 选择项;MODEL

    31、 因变量=自变量1 自变量2/选择项;VAR 变量;FREQ 变量;BY 变量;第五章402023-1-26REG过程语句格式过程语句格式412023-1-26REG过程语句说明过程语句说明1.PROC REG 语句 调用REG过程,可使用的选择项包括 DATA=SAS数据集 OUTEST=SAS数据集 将有关模型的参数输出 OUTSSCP=SAS数据集 将 变量的平方和和内乘积输出到数据集 ALL 屏幕输出所有内容。CORR 输出列在MODEL语句和VAR语句中的所有变量间的相关矩阵。NOPRINT 不在屏幕输出。SIMPLE 在屏幕仅输出变量的和、均值、方差标准差和未校正平方和。第五章41

    32、2023-1-26422023-1-26 2.MODEL语句选择项 (REG过程中必须有MODEL 语句)1、SELECTION=方法名;2、SLENTRY=确定变量进入方程的显著性水平;3、SLSTAY=确定变量留在方程中的显著性水平;4、COLLIN要求详细分析变量间的共线性。包括特征值、条件指数、及相对于每个特征值估计方差的分解;5、NOINT 输出结果中不包括截距项;6、PCORR1 输出偏相关系数矩阵;第五章422023-1-26432023-1-26 7、CLI 计算并输出个体观测预测值的95上、下限这个置信界反映了误差的偏差,以及参数估计的偏差;8、CLM 计算并输出每个观测输出

    33、因变量期望值的95上、下限,它不是预测区间,因它仅考虑到参数估计的偏差,没有考虑误差项的偏差;9、P由输入数据和估计模型来计算预测值,输出包括观测序号、ID 变量、实际值、预测值和残差值。如果CLI,CLM 或R 已规定,P 就不需要规定;第五章442023-1-26 10、R请求分析残差,输出包括选择项P 要求的一切内容,加上预测值和残差值的标准误差、学生化残差和CooK sD 统计量,D 统计量用来度量在参数估计中每个观测对预测值的影响大小,通过D 统计量的大小,可以找到原始数据中的强影响点;11、INFLUENCE要求输出在估计值和预测值方面每个观测的影响的详细分析 12、VIF输出这些

    34、参数估计的方差膨胀因子。方差膨胀因子是容许值的倒数第五章452023-1-26REGREG过程输出内容过程输出内容REGREG过程的基本输出内容包括三部分过程的基本输出内容包括三部分 (1)Analysis of Variance (1)Analysis of Variance (方差分析方差分析)方差来源方差来源 自由度自由度 平方和平方和 均方均方 F F值值 显著性概率显著性概率 Sum of MeanSum of Mean Source DF Squares Square F Source DF Squares Square F Value ProbFValue ProbF Model

    35、 1 5609.66 5609.66 Model 1 5609.66 5609.66 26.855 0.000126.855 0.0001 Error 19 3968.908 208.889 Error 19 3968.908 208.889 C Total 20 9578.57143 C Total 20 9578.57143 结论如果检验概率值结论如果检验概率值ProbFProbF的值小于的值小于默认默认的显著性水平,则回归效果显著。的显著性水平,则回归效果显著。第五章452023-1-26462023-1-26REG过程输出内容过程输出内容(2)(2)拟和程度检验拟和程度检验 (可决系数

    36、可决系数)(标准差标准差)Root MSE 14.453 Rsquare 0.5856)Root MSE 14.453 Rsquare 0.5856(因变量均值因变量均值)Dep Mean 64.857 Adj Rsq )Dep Mean 64.857 Adj Rsq 0.5630.563(变异系数变异系数)C.V.22.28440)C.V.22.28440第五章462023-1-26472023-1-26REG过程输出内容过程输出内容(3)Parameter Estimates (3)Parameter Estimates (参数估计参数估计)(变量变量 自由度自由度 参数估计参数估计 标准

    37、误差标准误差 参参数为数为0T0T统计量统计量 显著性概率显著性概率)Parameter Standard Parameter Standard T for H0:T for H0:Variable DF Estimate Error Variable DF Estimate Error Parameter=0 Prob|T|Parameter=0 Prob|T|INTERCEP 1 27.851072 7.80653827 INTERCEP 1 27.851072 7.80653827 3.568 0.00213.568 0.0021 X 1 5.341082 1.03067009 X 1

    38、5.341082 1.03067009 5.182 0.00015.182 0.0001 小于小于0.50.5有显著意义有显著意义估计线性回归方程估计线性回归方程Y=27.851072+5.341082XY=27.851072+5.341082X第五章472023-1-26482023-1-26 例例5555 恩格尔系数反映了食品支出与收入水平之间恩格尔系数反映了食品支出与收入水平之间的关系假定商品价格不变,实际食品支出与实的关系假定商品价格不变,实际食品支出与实际收入水平之间的关系,可以用一元线性回归模际收入水平之间的关系,可以用一元线性回归模型表示。下表是关于型表示。下表是关于15个居民家

    39、庭的月人均食品个居民家庭的月人均食品支出支出(Y)与人均月收入与人均月收入(X)的数值的数值要求要求绘制散点图;绘制散点图;建立回归模型并进行残差分析;建立回归模型并进行残差分析;绘制绘制95%的置信区间图。的置信区间图。第五章482023-1-26492023-1-26第五章492023-1-26502023-1-26编程编程PROC GPLOT DATA=MYDATA.ENGLE;PROC GPLOT DATA=MYDATA.ENGLE;PLOT Y*X;RUN;RUN;PROC REG DATA=MYDATA.ENGLE;PROC REG DATA=MYDATA.ENGLE;MODEL

    40、Y=X/CLI CLM R;PLOT Y*X PREDICTED.*X L95.*X U95.*X/OVERLAY;PLOT Y*X PREDICTED.*X L95M.*X U95M.*X/OVERLAY;QUIT;QUIT;第五章502023-1-26512023-1-26运行结果运行结果散点图散点图第五章512023-1-26运行结果运行结果CLI图图522023-1-26第五章运行结果运行结果CLM图图532023-1-26第五章542023-1-26运行结果回归分析运行结果回归分析第五章542023-1-26552023-1-26运行结果置信区间运行结果置信区间第五章552023-1

    41、-26562023-1-26运行结果残差分析运行结果残差分析第五章562023-1-26572023-1-26输出残差分析结果输出残差分析结果:包括残差的标准误差包括残差的标准误差(Std Error Residual)(Std Error Residual)、学、学生化残差生化残差(Student Residual)(Student Residual)以及学生化残差图,图以及学生化残差图,图上出现四个及以上上出现四个及以上“*”号的点所对应的学生化残号的点所对应的学生化残差的绝对值大于差的绝对值大于2 2,认为是残差较大的可疑点。如,认为是残差较大的可疑点。如果这样的点所占的比例较大,表明模

    42、型拟合得不合果这样的点所占的比例较大,表明模型拟合得不合适。对于出现的可疑点,应检查原始记录和数据输适。对于出现的可疑点,应检查原始记录和数据输入时是否有失误。入时是否有失误。第五章572023-1-26582023-1-26COOKCOOK的的D D统计量统计量(Cooks D):(Cooks D):COOK COOK统计量是度量各个观测点影响大小的指统计量是度量各个观测点影响大小的指标,标,D D值大的点称为强势影响点,一般使用的标准值大的点称为强势影响点,一般使用的标准为为|D|4/N|D|4/N,为强势影响点。从残差图中可以看到,为强势影响点。从残差图中可以看到第第6 6个观测和第个观

    43、测和第1212个观测为强势影响点。在实际应个观测为强势影响点。在实际应用中可以删除这两个观测重新建立回归模型,可用中可以删除这两个观测重新建立回归模型,可以提高模型的分析精度。以提高模型的分析精度。第五章582023-1-26回归模型违反假设及其处理回归模型违反假设及其处理 自相关问题的诊断与解决方法 诊断用DW统计量,解决用差分法 异方差问题及其解决方法 诊断观察残差图和计算Spearman等级相关系数,解决用加权最小二乘 多重共线性问题及其解决方法 逐步回归602023-1-26第五章602023-1-26612023-1-26第五章612023-1-26 /SELECTION=FORWA

    44、RD SLENTRY=;SLENTRY=根据需要选择显著性水平根据需要选择显著性水平(默认值默认值0.50)622023-1-26第五章622023-1-26 2 后退法后退法(BACKWARD)预先确定剔除自变量的显著性水平;按自变量对因预先确定剔除自变量的显著性水平;按自变量对因变量的贡献由小至大依次剔除。变量的贡献由小至大依次剔除。语句格式语句格式 PROC REG 选择项选择项;MODEL 因变量因变量=自变量自变量1 自变量自变量2 /SELECTION=BACKWARD SLENTRY=;SLENTRY=根据需要选择显著性水平根据需要选择显著性水平(默认值默认值0.10)63202

    45、3-1-26第五章632023-1-263 逐步回归法逐步回归法(STEPWISE)预先确定进入方程的显著性水平预先确定进入方程的显著性水平 SLE和剔除自变和剔除自变量的显著性水平量的显著性水平SLS(两者默认值两者默认值0.15);引入偏回归平;引入偏回归平方和经检验显著的变量,并且将方程中对模型贡献不方和经检验显著的变量,并且将方程中对模型贡献不显著的变量剔除出去。显著的变量剔除出去。语句格式语句格式 (1)PROC REG 选择项选择项;MODEL 因变量因变量=自变量自变量1 自变量自变量2 /SELECTION=STEPWISE SLENTRY=SLSTAY=;(2)PROC ST

    46、EPWISE 选择项选择项;MODEL 因变量因变量=自变量自变量1 自变量自变量2;642023-1-26第五章642023-1-264 其他方法其他方法 R 最大增量法最大增量法(MAXR)R 最小增量法最小增量法 (MINR)R 选择法选择法(RSQUARE)R 校正选择法校正选择法(ADJRSQ)652023-1-26第五章652023-1-26 例例5656 数据集 REALTY是某地区19922004年的部分经济核算指标。包括住宅需求量(Y)、年度(YEAR)、国内生产总值(X1)、人均住房支出(X2)、市区人口总量(X3)、职工平均工资(X4)、本年住宅平均售价(X5)、上年住宅

    47、平均售价(X51)、人均居住面积(X6)、年市场化利率(X7)、年末总户数(X8)、本年人均可支配收入(X9)、下年人均可支配收入(X91),研究这些因素对住宅需求量(Y)的影响。PROC REG DATA=MYDATA.REALTY;MODEL Y=x1 x2 x3 x4 x5 x51 x6 x7 x8 x9 x91;QUIT;662023-1-26第五章662023-1-26672023-1-26第五章672023-1-26682023-1-26第五章682023-1-26结果讨论一结果讨论一 F检验的检验值,其对应的概率值为,远远小于显著性水平,表明变量间线性关系显著,拟合的回归模型回归

    48、效果是显著的;拟合精度(Root MSE)的值为7.94654,拟合优度的值为 0.9988,调整的拟合优度(Adj RSq)的值为0.9925,表明因变量变化的99.25%是由自变量引起的。说明该回归模型自变量对因变量的线性关系的拟合是可靠的。692023-1-26第五章692023-1-26结果讨论二结果讨论二 由于没有指定分析方法,因此系统默认使用全部进入法。该方法的默认显著性水平为。因此在确定回归方程时,检验概率的值大等于0.5的变量可以不写入回归模型。所以该模型可以写为702023-1-26第五章702023-1-26 例例57 57 利用例利用例56的资料进行逐步回归法分析的资料进

    49、行逐步回归法分析 PROC STEPWISE DATA=MYDATA.REALTY;MODEL Y=x1 x2 x3 x4 x5 x51 x6 x7 x8 x9 x91;QUIT;712023-1-26第五章712023-1-26输出结果输出结果(1)STEP 1(1)STEP 1的方差分析的方差分析722023-1-26第五章722023-1-26输出结果输出结果(1)STEP 1(1)STEP 1的参数估计的参数估计732023-1-26第五章732023-1-26讨讨 论论 在逐步回归分析过程中,变量进入方在逐步回归分析过程中,变量进入方程的次序是按照其对因变量变化的贡献的程的次序是按照

    50、其对因变量变化的贡献的大小,以及检验概率的值确定的,由于变大小,以及检验概率的值确定的,由于变量量X5对因变量变化的贡献最大,检验概率对因变量变化的贡献最大,检验概率的值最小,因此首先进入方程。的值最小,因此首先进入方程。742023-1-26第五章742023-1-26输出结果输出结果(2)STEP 2(2)STEP 2752023-1-26第五章752023-1-26讨讨 论论 第二步,根据上述原则变量X9进入方程。当所有检验概率小于显著性水平(逐步回归的系统默认值为0.15)的变量全部进入方程后,系统提示如下 逐步回归过程结束。其确定的线性回归方程为 762023-1-26第五章7620

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:统计分析软件教程相关与回归分实用版课件.ppt
    链接地址:https://www.163wenku.com/p-5176879.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库