统计分析软件教程相关与回归分实用版课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计分析软件教程相关与回归分实用版课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计分析 软件教程 相关 回归 实用 课件
- 资源描述:
-
1、统计分析软件教程相关与回归分(优选)统计分析软件教程相(优选)统计分析软件教程相关与回归分关与回归分32023-1-26第五章32023-1-26 目目 录录5.1 相关与回归分析概述相关与回归分析概述5.2 线性相关分析的线性相关分析的CORR过程过程 5.3 线性回归分析的线性回归分析的REG过程过程5.4 非线性回归分析过程非线性回归分析过程*5.5 Logistic回归分析过程回归分析过程*42023-1-26第五章42023-1-265.1 5.1 相关与回归分析概述相关与回归分析概述 1.相关与回归分析基本概念相关与回归分析基本概念 相关分析相关分析(Correlation Ana
2、lysis):是研究变量之间依存关系的密切程度。回归分析回归分析(Regression Analysis):是根据相关关系的具体形态,选择一个合适的数学模型,近似地表达变量间的平均变化关系。52023-1-26第五章52023-1-26 两者的关系具有共同的研究对象,在应用中互相补充。相关分析需要回归分析来进一步表明变量相关的具体形式,而回归分析则需要相关分析所表明的变量间是否存在相关及相关程度的高低作为依据。只有变量之间高度相关时,进行回归分析寻求其相关的具体形式才有意义。而在相关程度很低的情况下回归函数表达式的代表性几乎就不存在了。62023-1-26第五章62023-1-26 两者的区别
3、第一,相关分析没有自变量和因变量之分。回归分析必须事先确定变量中哪个是自变量,哪个是因变量,两个变量的地位不是对等的;第二,相关分析所涉及的两个变量都是随机变量,在回归分析中通常把因变量作为随机变量,而自变量作为非随机变量;第三,相关分析通过相关系数描述变量的关系。改变两变量的地位不影响相关系数的数值。而回归分析是通过回归方程进行估计和预测。改变两变量的地位后所形成的回归方程的性质是不同的。72023-1-26第五章72023-1-26 2.相关分析的内容与种类相关分析的内容与种类 相关分析的主要内容有确定相关关系相关分析的主要内容有确定相关关系的存的存在,相关关系呈现的形态和方向,相关关在,
4、相关关系呈现的形态和方向,相关关系的密系的密切程度。其主要方法是绘制相关图表和计切程度。其主要方法是绘制相关图表和计算相关算相关系数。在分析过程中的按分析方法分主要系数。在分析过程中的按分析方法分主要包括两包括两类类 线性相关线性相关(Linear Correlation):又称为又称为简单相简单相关关(Simple Correlation),适用于双变量符合适用于双变量符合正态分正态分布类型的数据属于参数统计分析方法的范布类型的数据属于参数统计分析方法的范畴。畴。82023-1-26第五章82023-1-26 秩相关(Rank Correlation)秩相关又称等级相关,适用于双变量等级资料
5、类型的数据。属于非参数统计分析方法。秩相关分析方法适用于下列类型的资料 不服从变量正态分布的数据。总体分布类型未知的数据。以等级表示的数据。BCLASS NOSIMPLE;851072 7.(标准差)Root MSE 14.因此,LOGISTIC程序得将回归x22=x2*x2;所以添加上NOINT选项,去掉模型中的截距项重新拟合。统计分析软件教程相关与回归分03067009 5.BCLASS NOSIMPLE;Open By SAS Name85 1000 0.MODEL 因变量=自变量1 自变量2/选择项;条件下的PEARSON积差相关系数矩阵,该矩阵是一个ALL 屏幕输出所有内容。预先确定
6、剔除自变量的显著性水平;CLI,CLM 或R 已规定,P 就不需要规定;一、可直线化的简单曲线拟合相关与回归分析基本概念92023-1-26第五章92023-1-26相关关系相关关系非线性相关非线性相关线性相关线性相关正正相相关关正正相相关关负负相相关关负负相相关关完全相关完全相关不相关不相关按关系类型关系类型分:102023-1-26第五章102023-1-26112023-1-26第五章112023-1-26SAS系统中相关分析的方法主要包括系统中相关分析的方法主要包括 Pearson(皮尔逊皮尔逊)积差相关积差相关 Spearman(斯皮尔曼斯皮尔曼)等级相关等级相关 Kendall(卡
7、德尔卡德尔)等级相关等级相关 HOEFFDING(霍夫丁霍夫丁)D相关相关122023-1-26第五章122023-1-263.3.回归分析的内容与种类回归分析的内容与种类 如果因变量是如果因变量是(非时间的非时间的)连续变量连续变量(即即一般一般定量资料定量资料),设自变量的个数为,设自变量的个数为k k,当,当k=1k=1时,回时,回归分析的种类有归分析的种类有 直线回归分析直线回归分析 通过直线化实现的简单曲线回归分析通过直线化实现的简单曲线回归分析(以下以下简称为曲线拟合简称为曲线拟合)非线性曲线拟合非线性曲线拟合 一般多项式曲线拟合。一般多项式曲线拟合。正交多项式曲线拟合。正交多项式
8、曲线拟合。132023-1-26第五章132023-1-265.2 5.2 线性相关分析的线性相关分析的CORRCORR过程过程 SAS系统的线性相关分析过程是由CORR过程完成的。该过程由系统的BASE模块提供,可以计算 PEARSON(皮尔逊)积差相关系数、SPEARMAN(斯皮尔曼)秩相关系数、KENDALL(卡德尔)TAUB统计量、HOEFFDING(霍夫丁)独立性分析统计量D 以及Pearson、Spearman以及Kendall线性偏相关系数。另外,它还对用于估计可靠性的Cronbach系数进行计算。142023-1-26第五章142023-1-26 1.语句格式语句格式 PROC
9、 CORR 选择项选择项;VAR 变量表;变量表;WITH 变量表;变量表;PARTIAL 变量表;变量表;WEIGHT 变量;变量;FREQ 变量;变量;BY 变量表;变量表;152023-1-26第五章152023-1-262.常用选项常用选项 (1)PROC CORR 语句的选择项语句的选择项:1.DATA=SAS 数据集数据集 2.PEAESON 计算皮尔逊相计算皮尔逊相关系数关系数(默认默认)3.SPEARMAN 计算斯皮尔曼计算斯皮尔曼系数系数 4.HOEFFDING 计算霍夫丁计算霍夫丁D统统计量计量 5.KENDALL 计算卡德尔系数计算卡德尔系数 6.OUT(PSKH)=SA
10、S 数据集数据集 输出数据集。输出数据集。分别对应与四个系数输出分别对应与四个系数输出数据集数据集在REG过程,根据“最优”变量及“最佳”方程计的偏差,没有考虑误差项的偏差;LOGISTIC过程的语句格式提供9种模型选择的方法。论模型的形式是简单的,还是复杂的,这个对数因此,产生了三类线性函大型企业以“你在企业改革中最需要解决(1)对三个变量进行简单线性相关分析;NOPPINT不在OUTPUT窗口输出回归分析的结果。PARTIAL WEIGHT;PEARSON(皮尔逊)积差相关系数、际收入水平之间的关系,可以用一元线性回归模QUIT;5 Logistic回归分析过程*8、CLM 计算并输出每个
11、观测输出因变量期望值的MODEL R/N=HEATTIME SOAKTIME;PROC REG DATA=MYDATA.MODEL 因变量列表=;PROC GPLOT DATA=LI5_10;4、COLLIN要求详细分析变量间的共线性。162023-1-26第五章162023-1-26 7.NOMISS 分析时剔除缺失值分析时剔除缺失值 8.NOSIMPLE 不列出描述统计量不列出描述统计量 9.COV 列出协方差矩阵列出协方差矩阵 10.ALPHA 计算并输出阿尔法系数计算并输出阿尔法系数(CRONBACH系数系数)(2)功能语句功能语句 1.VAR语句语句:计算所有数值型变量间的相关系数计
12、算所有数值型变量间的相关系数 2.WITH语句语句:必须与必须与VAR语句同时使用,只计算语句同时使用,只计算 VAR 变量与变量与WITH变量的相关系数。变量的相关系数。3.PARTIAL:偏相关变量表;偏相关变量表;/*偏相关偏相关*/4.BY语句语句:数据集按照数据集按照BY语句中变量的值分组,在语句中变量的值分组,在 每组内分别进行相关系数的计算。数据每组内分别进行相关系数的计算。数据 集内的数据必须先按照集内的数据必须先按照BY变量的值排序变量的值排序172023-1-26第五章172023-1-26 例例5151 数据集数据集MYDATA.CPI是某地区是某地区30户居民家庭的户居
13、民家庭的月可支配收入月可支配收入(INCOME)和月消费支出和月消费支出(CSPT)的的原始资料,试通过相关分析月可支配收入和月消原始资料,试通过相关分析月可支配收入和月消费支出两个变量间是否存在相关关系。费支出两个变量间是否存在相关关系。182023-1-26第五章182023-1-26 编编 程程 192023-1-26第五章192023-1-26输出结果输出结果散点图散点图 202023-1-26第五章202023-1-26输出结果输出结果相关分析结果相关分析结果 212023-1-26第五章212023-1-26结果分析结果分析CORR过程的默认输出结果分为两部分过程的默认输出结果分为
14、两部分 第一部分第一部分“Simple Statistics”为描述分析,输为描述分析,输出出VAR语句中所有变量的描述统计量的基本信息语句中所有变量的描述统计量的基本信息 变量名变量名(Variable)观测数观测数(N)均值均值(Mean)变量值的和变量值的和(Sum)标准差标准差(Std Dev)最小值最小值(Minimum)最大值最大值(Maximum)变量标签变量标签(Label)222023-1-26第五章222023-1-26结果分析结果分析 第二部分第二部分“”为默为默认的认的PEARSON(皮尔逊皮尔逊)积差相关分析结果。是在原假积差相关分析结果。是在原假设为总体相关系数等于
15、零设为总体相关系数等于零(Prob|r|under H0:Rho=0)条件下的条件下的PEARSON积差相关系数矩阵,该矩阵是一个积差相关系数矩阵,该矩阵是一个对角方阵。可以看出两变量的线性相关系数值为对角方阵。可以看出两变量的线性相关系数值为0.967,说明两变量为高度线性相关,其检验概率为说明两变量为高度线性相关,其检验概率为Prob|r|小于小于0.0001。小于默认的显著性水平。小于默认的显著性水平,因此从总体上可,因此从总体上可以认为两个变量呈高度线性相关。以认为两个变量呈高度线性相关。232023-1-26第五章232023-1-26 例例5252 数据集DST.BCLASS是某学
16、校学生身体状况的资料。运行下列两组程序,了解WITH语句的作用。程序1 程序2PROC CORR DATA=DST.BCLASS NOSIMPLE;VAR AGE HEIGHT WEIGHT;RUN;PROC CORR DATA=DST.BCLASS NOSIMPLE;VAR HEIGHT WEIGHT;WITH AGE;RUN;242023-1-26第五章242023-1-26运行结果运行结果 运行结果未使用运行结果未使用WITHWITH语句语句 运行结果使用运行结果使用WITHWITH语句语句252023-1-26 例例5353 数据集数据集MYDATA.VITAL是一组肺活量、身是一组肺
17、活量、身高体重的实测资料要求高体重的实测资料要求 (1)对三个变量进行简单线性相关分析;)对三个变量进行简单线性相关分析;(2)分别以身高与体重为控制变量进行一阶偏)分别以身高与体重为控制变量进行一阶偏相关分析。相关分析。编程编程1简单线性相关分析简单线性相关分析(CORR的一般过程的一般过程)PROC CORR NOSIMPLE;VAR HEIGHT WEIGHT;WITH VITAL;RUN;第五章252023-1-26262023-1-26运行结果运行结果第五章262023-1-26272023-1-26编程编程2 2偏相关过程偏相关过程(以以WEIGHTWEIGHT为控制变量为控制变量
18、)PROC CORR NOSIMPLE PROC CORR NOSIMPLE;VAR HEIGHT VITALVAR HEIGHT VITAL;PARTIAL WEIGHTPARTIAL WEIGHT;RUN;RUN;第五章272023-1-26282023-1-26编程编程3 3偏相关过程偏相关过程(以以HEIGHTHEIGHT为控制变量为控制变量)PROC CORR NOSIMPLE PROC CORR NOSIMPLE;VAR WEIGHT VITALVAR WEIGHT VITAL;PARTIAL HEIGHTPARTIAL HEIGHT;RUNRUN;第五章282023-1-26R/
19、N的比例与加热时间及溶液浸泡时间之间的关 NOSIMPLE不输出自变量的描述性统计量;889552是根据标准(X51)、人均居住面积(X6)、年市场化利率(X7)、年末总将变量还原,写出用原变量表达的曲线方程;其统计理论基础是逻辑斯谛回归分析(Logistic先计算出信息矩阵|XX|的各个特征根,然后计算条INPUT X Y;为掌握某种合金的耐热以及耐腐蚀的能力,两者的区别第一,相关分析没有自变量和(因变量均值)Dep Mean 64.PROC CORR DATA=DST.输出结果(1)STEP 1的方差分析PEARSON(皮尔逊)积差相关系数、语句格式 秩相关(Rank Correlatio
20、n)秩相关又称等级2 50 0.HOEFFDING 计算霍夫丁D统计量VAR WEIGHT VITAL;用于对频数表的分析,可拟合对数线性模型、Logistic其在Model语句中的选择项为TOL。292023-1-26 例例5454 大型企业以大型企业以“你在企业改革中最需要解决你在企业改革中最需要解决什么?什么?”为题,分别对企业管理人员和普通员为题,分别对企业管理人员和普通员工共工共200200名进行了问卷调查。经整理后得下表名进行了问卷调查。经整理后得下表所列的资料。分析两种人员所列的资料。分析两种人员“需要需要”的相关程的相关程度。由于两变量是离散变量,因此需要使用秩度。由于两变量是
21、离散变量,因此需要使用秩相关分析过程。相关分析过程。第五章292023-1-26302023-1-26第五章302023-1-26312023-1-26DATA LI54;DATA LI54;INPUT worker manager;INPUT worker manager;CARDS;CARDS;26 19 10 21 16 8 25 1626 19 10 21 16 8 25 165 11 6 15 9 7 3 35 11 6 15 9 7 3 3;PROC PRINT;PROC PRINT;RUN;RUN;第五章312023-1-26创建数据集创建数据集322023-1-26PROC R
22、ANK DATA=LI54 OUT=LI54_R;PROC RANK DATA=LI54 OUT=LI54_R;VAR worker manager;VAR worker manager;RANKS R_worker R_manager;RANKS R_worker R_manager;PROC PRINT;PROC PRINT;RUN;RUN;PROC CORR DATA=LI54_R SPEARMAN;PROC CORR DATA=LI54_R SPEARMAN;VAR R_worker R_manager;VAR R_worker R_manager;RUN;RUN;第五章322023-
23、1-26分析过程分析过程332023-1-26运行结果运行结果第五章332023-1-26 两变量的线性相关系数值为两变量的线性相关系数值为 0.619050.61905,说明两,说明两变量为中度线性相关,但其检验概率值变量为中度线性相关,但其检验概率值Prob|r|Prob|r|为为0.10170.1017,大于默认的显著性水平,大于默认的显著性水平 ,因此从总体上不,因此从总体上不能认为两个变量具有线性相关关系。能认为两个变量具有线性相关关系。数据集数据集EXAMEXAM包含四个子测验的分数,分别是包含四个子测验的分数,分别是VOCABVOCAB(词汇)、(词汇)、READINGREADI
24、NG(阅读)、(阅读)、SPELLINGSPELLING(拼写)、(拼写)、USAGEUSAGE(语法)等,分析这些子测验(语法)等,分析这些子测验成绩是否与英语总成绩有关。成绩是否与英语总成绩有关。编程编程PROC CORR DATA=EXAM ALPHA NOSIMPLE;PROC CORR DATA=EXAM ALPHA NOSIMPLE;VAR VOCAB READING SPELLING USAGE;VAR VOCAB READING SPELLING USAGE;RUN;RUN;342023-1-26 示例示例5151*第五章运行结果运行结果352023-1-26第五章结果说明结果
25、说明 输出结果的第一部分(输出结果的第一部分(Cronbach Coefficient Cronbach Coefficient AlphaAlpha)含两个阿尔法系数,第一个值()含两个阿尔法系数,第一个值(RawRaw)Alpha=0.895444Alpha=0.895444是根据原始分数导出的,第二个是根据原始分数导出的,第二个值(值(StandardizedStandardized)Alpha=0.889552Alpha=0.889552是根据标准是根据标准化后的分数导出的,二者的值都相当高。因此,化后的分数导出的,二者的值都相当高。因此,可下结论说由这四个子测验分数的总和所形成英可下
展开阅读全文