补充:线性回归与方差分析分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《补充:线性回归与方差分析分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 补充 线性 回归 方差分析 分析 课件
- 资源描述:
-
1、第第5 5章章 线性回归分析与方差分析线性回归分析与方差分析5.1 5.1 一元线性回归分析一元线性回归分析 5.2 5.2 可线性化的非线性回归可线性化的非线性回归5.3 5.3 多元线性回归简介多元线性回归简介5.4 5.4 方差分析方差分析5.1 5.1 一元线性回归分析一元线性回归分析 在许多实际问题中,我们常常需要研究多个变量之间的相互关系。一般来说,变量之间的关系可分为两类:一类是确定性关系,确定性关系是指变量之间的关系可以用函数关系来表达,例如电流I电压V电阻R之间有关系式V=IR。另一类是非确定性关系,有些变量之间的关系是非确定性的关系,这种关系无法用一个精确的函数式来表示。例
2、如,农作物的单位面积产量与施肥量之间有密切的关系,但是不能由施肥量精确知道单位面积产量,这是因为单位面积产量还受到许多其他因素及一些无法控制的随机因素的影响。又如,人的身高与体重之间存在一种关系,一般来说,人身高越高,体重越大,但同样高度的人,体重却往往不同。这种变量之间的不确定性关系称之为相关关系。对于具有相关关系的变量,虽然不能找到他们之间的确定表达式,但是通过大量的观测数据,可以发现他们之间存在一定的统计规律,数理统计中研究变量之间相关关系的一种有效方法就是回归分析。一、一元线性回归模型 其中yi是x=xi时随机变量Y的观测结果.将n对观测结果(xi,yi)(i=1,n)在直角坐标系中进
3、行描点,这种描点图称为散点图散点图.散点图可以帮助我们精略地看出Y与x之间的某种关系.假定我们要考虑自变量x与因变量Y之间的相关关系假设x为可以控制或可以精确观察的变量,即x为普通的变量。由于自变量x给定后,因变量Y并不能确定,从而Y是一个与x有关的随机变量我们对于可控制变量x取定一组不完全相同的值x1,xn,作n次独立试验,得到n对观测结果:(x1,y1),(x2,y2),(xn,yn)例例1 对某广告公司为了研究某一类产品的广告费x用与其销售额Y之间的关系,对多个厂家进行调查,获得如下数据 厂 家123456789广告费6102140626290100120销售额3158124220299
4、190320406380 广告费与销售额之间不可能存在一个明确的函数关系,事实上,即使不同的厂家投入了相同的广告费,其销售额也不会是完全相同的。影响销售额的因素是多种多样的,除了广告投入的影响,还与厂家产品的特色、定价、销售渠道、售后服务以及其他一些偶然因素有关。画出散点图如图5-1所示.从图中可以看出,随着广告投入费x的增加,销售额Y基本上也呈上升趋势,图中的点大致分布在一条向右上方延伸的直线附近.但各点不完全在一条直线上,这是由于Y还受到其他一些随机因素的影响.这样,Y可以看成是由两部分叠加而成,一部分是x的线性函数a+bx,另一部分是随机因素引起的误差 ,即Y=a+bx+oxy10020
5、030040050020406080100120L*这就是所谓的这就是所谓的一元线性回归模型一元线性回归模型 图5-1 相互独立niiiiNnibxay,),0(,112一般地,假设x与Y之间的相关关系可表示为bxaY(1)其中:a,b为未知常数2),0(2N为随机误差且未知,x与Y的这种关系称为一元线性回归模型y=a+bx称为回归直线 b称为回归系数),(2bxaNY此时对于(x,Y)的样本(x1,y1),(xn,yn)有:一元线性回归主要解决下列一些问题:(1)利用样本对未知参数a、b、进行估计;(2)对回归模型作显著性检验;(3)当x=x0时对Y的取值作预测,即对Y作区间估计.2ba,x
6、bay如果由样本得到式(1)中,a,b的估计值 ,则称 为拟合直线或经验回归直线,它可作为回归直线的估计二、参数a、b、的估计最小二乘法就是选择a,b的估计 ,使得Q(a,b)为最小(图5-2)ba,2现在我们用最小二乘法来估计模型(1)中的未知参数a,b.niniiiibxaybaQQ1122)(),(记称Q(a,b)为偏差平方和图5-20)2()(),(0)2()(),(11iniiiniiixbxaybaQbbxaybaQa为了求Q(a,b)的最小值,分别求Q关于a,b的偏导数,并令它们等于零:经整理后得到式(2)称为正规方程组.niiiniiniiniiniiyxbxaxbbxna11
7、2111(2)niiiniixxyyxxb121)()()(xbyaniniiiynyxnx111,1由正规方程组解得其中用最小二乘法求出的估计 、分别称为a、b的最小二乘估计a b由矩估计法,可用 估计2Eniin121)(xxbyxbay此时,拟合直线为2下面再用矩法求 的估计22ED 由于,a、b分别由 、代入iiiya bx a b而2niiixbayn122)(1故 可用作估计对于估计量 、的分布,有:a b2定理定理1niinixxnxaNa121212)(,(1)niixxbNb122)(,(2))2(222nn(3)2a b(4)分别与 、独立。323.0b37.4 a064.
8、422例2 在例1中可分别求出a、b、的估计值为:故经验回归直线为:Y=4.37+0.323x三、线性回归的显著性检验 在实际问题中,事先我们并不能断定Y与x确有线性关系,Y=a+bx+只是一种假设.下面说明这一检验的方法.当然,这个假设不是没有根据的,我们可以通过专业知识和散点图来作出粗略判断.但在求出经验回归方程后,还需对这种线性回归方程同实际观测数据拟合的效果进行检验.若假设Y=a+bx+符合实际,则b不应为零因为如果b=0,则Y=a+意味着Y与x无关所以Y=a+bx是否合理,归结为对假设:0:1bHH0:b=0进行检验下面介绍检验假设H0的二种常用方法.)1,0()(12Nxxbnii
9、)2(222nn且 与 独立b21t检验法若H0成立,即b=0,由定理7.1知,)2(|2ntT)2(2/)(2212ntnnxxbTnii因而)2(|2ntTP故为显著性水平即得H0的拒绝域为niiniiniiiYYxxYYxxR12121)()()(2相关系数检验法取检验统计量通常称R为样本相关系数.类似于随机变量间的相关系数,R的取值r反映了自变量x与因变量Y之间的线性相关关系.可以推出:在显著性水平 下,当|rr时拒绝H0r其中临界值 在附表中给出相关系数检验法相关系数检验法是工程技术中广是工程技术中广泛应用的一种检泛应用的一种检验方法验方法(1)x对Y没有显著影响;(2)x对Y有显著
10、影响,但这种影响不能用线性相关关系来描述;(3)影响Y取值的,除x外,另有其他不可忽略的因素.当假设 被拒绝时,就认为Y与x存在线性关系,从而认为回归效果显著;0:0bH若接受H0,则认为Y与x的关系不能用一元线性回归模型来描述,即回归效果不显著.此时,可能有如下几种情形:因此,在接受H0的同时,需要进一步查明原因分别处理,此时,专业知识往往起着重要作用.四、预测000bxay),0(20N00 xbay当经过检验发现回归效果显著时,通过回归模型可对Y的取值进行预测.即当x=x0时,对Y作区间估计.设当x=x0时Y的取值为y0,有可以取经验回归值)2()()(112122000ntxxxxnn
11、nyyTnii1)2(|2ntTP作为y0的预测值.可以证明从而可得)(),(0000 xyxyniixxxxnnnntx122020)()(112)2()(1所以,给定置信概率 ,Y0的置信区间为其中)(20 x可以看出在x0处y的置信区间的长度为xx0当 时置信区间的长度最短,估计最精确,置信区间愈长,估计的精度愈差。22)2(untxx012nn),(2020uyuyx当n很大且x0位于 附近时,有1于是y0的置信概率为 的预测区间近似为)05.0(例3 检验例2中的回归效果是否显著,当x0=80时,求出Y0的预测区间。解解 经计算 T=16.9 r=0.98查表,得t0.025(9)=
12、2.26 r0.05=0.602易见,t检验法、相关系数检验法都拒绝H0,即回归效果显著。21.310y于是,当x0=80时,y0的预测值为y0的95%的预测区间为(24.73,35.69)5.2 5.2 可线性化的非线性回归可线性化的非线性回归 在实际问题中,常常会遇到这样的情形:散点图上的几个样本数据点明显地不在一条直线附近,而在某曲线周围:或者,用线性回归方程描述变量间的关系计算的结果与样本值误差较大,这表明变量之间不存在线性相关关系,而是一种非线性的相关关系.下面举例说明对这类问题用线性化处理的方法。例例1 在彩色显像技术中,考虑析出银的光学密度x与形成染料光学密度Y之间的相关关系,其
13、中11个样本数据如下所示:xi0.050.060.070.100.140.200.250.310.380.430.47yi0.100.140.230.370.590.791.001.121.191.251.29解解 根据这11个样本数据点(xi,yi)作出散点图(图5-3).图5-3从散点图上看出,这些数据点在一条曲线L周围.xy1lnln根据有关的专业知识,结合散点图,可以认为曲线L大致为:xey)0,(对上式两边取对数:yylnxx1lnab令xbay即有:0.250.220.170.110.00-0.24-0.53-0.99-1.47-1.97-2.302.132.332.633.234
14、.005.007.1410.0014.2916.6720.00 xx1yyln于是数据()相应地变换成()iiyx,iiyx,将变换后的数据点()画出散点图(图5-4)iiyx,从散点图可以看出 与 具有线性相关关系,因此用一元线性回归分析.xy利用一元线性回归的方法可以计算出 与 的经验回归方程为xy15.058.0 xy图5-4可求得x与y之间相关关系的一个经验公式:79.158.0eea15.0 bxey15.079.1这里a=0.58,b=-0.15所以332.1213.9142.443.8619.729.95时间时间t(分(分秒秒)15001000800400200100距离距离x(
15、米)(米)例例2 赛跑是大家熟知的一种体育活动。下表给出了截至1997年底在6个不同的距离上中短跑成绩的世界记录:试根据这些记录数据分析出运动员的赛跑成绩与所跑距离间的相关关系。解解 根据记录数据点(xi,ti)作出散点图(图5-5)图5-5从散点图上看出,全部点(xi,ti)分布在一条曲线附近,因而x与t之间可以存在一种线性关系。我们用一无线性回归分析,可计算出x与t间的线性回归模型为 t=-99.9+0.1455x由此模型,当x=100,200,400,800,1000,1500(米)时,t的理论值分别为:4.56,19.10,48.20,146.4,215.5,328.2可以看出t的理论
展开阅读全文