四讲回归分析回归诊断课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《四讲回归分析回归诊断课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 分析 诊断 课件
- 资源描述:
-
1、第四讲回归分析回归诊断 通过简单回归和多元回归模型可以有了计算结果。这些结果能做推断,需要建立在一些概述性统计量的基础之上,这些统计量由数据来计算。而只有当标准的回归假定满足时,所做的推断才有可能是合理的,有意义的。而对假定的核定,可以用图形的方法,也可以用严格的数值去检查。数据也需要考虑 还有模型的设定第四讲回归分析回归诊断第四讲回归分析回归诊断标准的回归假定:1,关于模型设定的假定 2,关于误差的假定 3,关于预测变量的假定 非随机的 其取值是误差取得的,但几乎不可能。测量误差将影响到误差方差,相关系数,复相关系数及回归系数的估计,其影响程度的大小取决于多个因素。是线性无关的4,关于观测的
2、假定 所有观测是同样可靠性第四讲回归分析回归诊断数据的诊断 异常值 强影响点 假定是否满足模型的诊断第四讲回归分析回归诊断线性回归模型中的异常点分析第四讲回归分析回归诊断6 异常点的识别与处理,是统计诊断中很重要的一项内容。异常点的出现会影响分析结果的可信度。异常点的存在往往蕴涵着重要的信息。在有些情况下,异常点的出现是因为有新事物出现或者新情况发生,比如经济模型中某种经济政策的出台等,都能表现出异常,这通常是我们的研究兴趣所在。第四讲回归分析回归诊断 在另外一些情况下,异常点的出现是由于人为差错或者仪器的故障所引起的。在我们需要根据样本对模型进行参数估计或者根据模型对将来进行预测与控制的时候
3、,异常点的出现会对我们的工作产生很强的影响,这样的结果是令人怀疑的。因此,异常点的研究受到了广大研究者的重视,自Bernoulli首次提出了异常点的概念,接下来对异常点的概念、类型以及处理问题的讨论一直没有停止过。第四讲回归分析回归诊断异常点的成因与处理 为什么会出现异常点?对这个问题的回答大致可以归结为以下三种情况:整体模型变化、局部模型变化和自然变异。在前两种情况下在前两种情况下,异常点出现的多而且连续,往往蕴涵着机制的变化、新事物的出现或者新局面的形成,大量而且连续的异常点可以用新的模型来拟合。对于整个数据集,实质上已经成为一个混合模型。而第三种成因更为常见第三种成因更为常见,偶尔的人为
4、差错或者仪器的故障都可以引起异常。对于由不同的原因引起的异常点,它们的处理方法是不同的。在进行统计诊断时,判断异常点的成因是很重要的,是对异常点进行正确处理的先决条件。第四讲回归分析回归诊断 通常对异常值的处理方法有两种。一种是把异常点作为工作重点,目标就是发现异常点并确定是否要作进一步的研究,这样的异常点往往含有很重要的信息。这时不仅要判断出异常点的存在与否,还要确定异常点出现的位置以及影响大小。这是统计诊断中一个重要内容,围绕此类问题出现了大量的统计量检验方法及影响分析研究。第四讲回归分析回归诊断 对于由第三种成因引起的异常点,发现之后可以进行删除,以免影响参数估计等以后的工作效果。另外一
5、种方法就是对于异常点采取容忍的态度,把整个数据集作为研究的基础,对于一定比例的坏数据或者远离数据中心的数据采取一定的容忍或适应政策第四讲回归分析回归诊断 回归系数一般采用“最小二乘估计”(least squares estimator,LS estimator)求解,但是在应用中容易忽视的问题是LS估计只有在数据满足相应条件的情况下才会具有统计描述和推断的优良性质,如要求误差服从正态分布、总体方差相同且相互独立等。当实际数据没有近似满足这些假定时,就会出现一些异常点(outliers)、杠杆点(leverage point)及影响点(influential observations),使分析结
6、果变得不可靠,不能发现数据中的真实结构,从专业上难以解释结果,甚至得到完全错误的结论。尤其是随着统计软件的日渐普及,我们倾向于简单地将数据交给软件来分析,而不注意具体方法的应用条件,尽管采用了SAS、SPSS这些国际标准软件,但是输出结果有时却与专业解释相悖。第四讲回归分析回归诊断异常点在统计诊断中的地位 异常点(outlier)是统计诊断中很重要的一个概念。统计诊断(Statistical Diagnostics)就是对从实际问题中收集起来的数据、提炼出来的模型以及由此出发所作的推断方法的合理性进行深入而细致的分析,并通过一些诊断统计量来检查数据、模型及推断方法中可能存在的毛病,进而提出治疗
7、方案,进行模型或者推断方法的改进。统计诊断主要包括异常点识别、残差分析、影响分析和数据变换等内容,异常点的识别是处理统计诊断的重要内容异常点的识别是处理统计诊断的重要内容之一,它进行的好坏通常影响到整个过程的诊断之一,它进行的好坏通常影响到整个过程的诊断。第四讲回归分析回归诊断第四讲回归分析回归诊断第四讲回归分析回归诊断第四讲回归分析回归诊断第四讲回归分析回归诊断异常值有时一个,有时多个第四讲回归分析回归诊断 在回归模型中,异常点是指对既定模型偏离很大的数据点。但究竟偏离达到何促程度才算是异常,这就必须对模型误差项的分布有一定的假设(通常假定为正态分布)。目前对异常点有以下两种较为流行的看法:
8、异常点第四讲回归分析回归诊断 把异常点看成是那些与数据集的主体明显不协调,使得研究者大感惊讶的数据点。这时,异常点可解释为所假定的分布中的极端异常点可解释为所假定的分布中的极端点,即落在分布的单侧或双侧点,即落在分布的单侧或双侧 分位点以外的点,分位点以外的点,而 通常取很小的值(如:0.005),致使观察者对数据中出现如此极端的点感到意外。把异常点视为杂质点。它与数据集的主体不是来自同一分布,是在绝大多数来自某一共同分布的数据点中掺入的来自另一分布的少量“杂质”第四讲回归分析回归诊断残差 在回归分析中,异常数据的发现或模型的检测、标准假设的检测的一个简单而有效的方法是研究残差图。残差图能够指
9、明哪个或哪些标准假定不成立。更重要的是,残差分析可能引导我们发现数据中的结构,也可能指出那些蕴涵在数据中的、在只用一些概述性统计量分析时容易被疏漏的信息。这些启发或线索可能帮助我们更好地理解所研究的问题,或者找到更好的模型。对残差进行图形分析往往是回归分析中最重要的一部分工作。第四讲回归分析回归诊断残差 普通最小二乘法的残差普通最小二乘法的残差:学生化残差学生化残差:第四讲回归分析回归诊断第四讲回归分析回归诊断强影响点 强影响点和异常点是两个不同的概念,它们之间既有联系也有区别。强影响点可能同时又是异常点也可能不是;反之,异常点可能同时又是强影响点也可能不是。第四讲回归分析回归诊断已知20条河
10、流流域的有关测量数据.研究者感兴趣的是,河流周边地区土地的利用程度对水污染(平均氮浓度)有何影响河流农田覆盖率森林覆盖率住宅地占土地总面积百分比工业及商业用地占总面积百分比春夏秋冬各季度采集到的样本的平均氮浓度mg/升RiverAgrForestRsdntialComIndlNitrogenOlean26631.20.291.1Cassadaga29570.70.091.01Oatka54261.80.581.9Neversink2841.91.981Hackensack32729.43.111.9919613.40.561.42Fishkill16605.61.112.04Honeoye 4
11、0431.30.241.65Susquehanna28621.10.151.01Chenango26600.90.231.21East Canada6840.50.120.73Saranac3810.80.350.8Ausable2890.70.350.76Black6820.50.150.87Schoharie22700.90.220.8Raquette4750.40.180.87 Oswegatchie21560.50.130.66Cohocton40491.10.131.25第四讲回归分析回归诊断 利用三个数据集合获得的回归系数和其T检验统计量相差很大 1.用全部数据 2.剔除NEVER
12、SINK数据(4)3.提出HACKENSACK数据(5)第四讲回归分析回归诊断回归统计回归统计Multiple RMultiple R0.8422570.842257R SquareR Square0.7093980.709398Adjusted R Adjusted R SquareSquare0.6319040.631904标准误差标准误差0.2649190.264919观测值观测值2020方差分析方差分析dfdfSSSSMSMSF FSignificanSignificance Fce F回归分析回归分析4 42.5698462.5698460.6424620.6424629.15423
13、19.1542310.0005960.000596残差残差15151.0527291.0527290.0701820.070182总计总计19193.6225753.622575CoefficienCoefficientsts标准误差标准误差t Statt StatP-valueP-valueLower 95%Lower 95%Upper 95%Upper 95%InterceptIntercept1.7222141.7222141.2340821.2340821.3955431.3955430.1831690.183169-0.90817-0.908174.3525964.352596X 1
14、X 10.0058090.0058090.0150340.0150340.38640.38640.7046260.704626-0.02624-0.026240.0378530.037853X 2X 2-0.01297-0.012970.0139310.013931-0.93083-0.930830.366680.36668-0.04266-0.042660.0167260.016726X 3X 3-0.00723-0.007230.033830.03383-0.21362-0.213620.833720.83372-0.07933-0.079330.064880.06488X 4X 40.3
15、050280.3050280.1638170.1638171.8620071.8620070.082310.08231-0.04414-0.044140.6541950.654195第四讲回归分析回归诊断回归统计回归统计Multiple RMultiple R0.9250640.925064R SquareR Square0.8557440.855744Adjusted R Adjusted R SquareSquare0.8145280.814528标准误差标准误差0.1925040.192504观测值观测值1919方差分析方差分析dfdfSSSSMSMSF F回归分析回归分析4 43.07
16、76523.0776520.7694130.76941320.7624220.76242残差残差14140.5188110.5188110.0370580.037058总计总计18183.5964633.596463CoefficientsCoefficients标准误差标准误差t Statt StatP-valueP-valueInterceptIntercept1.0994711.0994710.9116360.9116361.2060421.2060420.2477880.247788X Variable 1X Variable 10.0101370.0101370.0109840.01
17、09840.9228730.9228730.3717050.371705X Variable 2X Variable 2-0.00759-0.007590.0102220.010222-0.74244-0.742440.4700980.470098X Variable 3X Variable 3-0.12379-0.123790.0393370.039337-3.14698-3.146980.0071340.007134X Variable 4X Variable 41.5289561.5289560.3437190.3437194.4482734.4482730.0005510.000551
18、第四讲回归分析回归诊断第四讲回归分析回归诊断 尽管三个数据集只差一观测数据,但回归结果有巨大差异 比如,看X3回归系数的T检验值,使用全部数据时该检验是不显著的,剔除掉数据4后,显著为正;可见,仅一个观测就能导致根本不同的结论 数据(4)(5)称为强影响观测,因为他们对回归的影响远强于其他观测。第四讲回归分析回归诊断 看数据,一眼就能发现数据(5)其X3的值突出的高。然后再分析其背景第四讲回归分析回归诊断 数据集中的强影响点是指那些对统计量的取值有非常大的影响力的点。在考虑强影响点时,有几个基本问题需要考虑:首先必须明确“是对哪个统计量的影响?”例如,对线性回归模型所考虑的是对回归系数的估计量
19、的影响;不是对误差方差的估计影响;或是对拟合优度统计量的影响等等。分析目标不同,所考虑的影响亦有所不同。强影响点第四讲回归分析回归诊断 其次,必须确定“度量影响的尺度是什么?”为了定量地刻划影响的大小,迄今为止已提出多种尺度,基于置信域的尺度,基于似然函数的尺度等等。在每一种类型中又可能有不同的统计量。每一种度量都是着眼于某一方面的影响,并在某种具体场合下较为有效。这一方面反映了度量影响问题的复杂性,另一方面也说明了影响分析的研究在统计诊断中是一个甚为活跃的议程。第四讲回归分析回归诊断 强影响点通常是数据集中更为重要的数据点,它往往能提供比一般数据点更多的信息,因此需引起特别注意。第四讲回归分
20、析回归诊断有影响的观测值(图示)第四讲回归分析回归诊断有影响的观测值(图示)第四讲回归分析回归诊断有影响的观测值(图示)第四讲回归分析回归诊断有影响的观测值(图示)有影响的观测值存在影响值的趋势第四讲回归分析回归诊断有影响的观测值(图示)不存在影响值的趋势有影响的观测值存在影响值的趋势第四讲回归分析回归诊断 强影响观测或者其影响变量取值异常,或者其预测变量取值异常。响应变量取值异常 标准化残差大的观测其响应变量的取值异常,因为在Y方向上他们远离拟合的回归方程。由于各标准化残差近似服从标准正态分布,那么标准化的残差之绝对值大于2或3的点称为异常点。第四讲回归分析回归诊断 预测变量取值异常异常点也
展开阅读全文