第5章-多元线性回归分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第5章-多元线性回归分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 线性 回归 分析 课件
- 资源描述:
-
1、1第第5章章 多元线性回归分析多元线性回归分析(Multivariate Linear Regression Analysis)2回归分析的分类回归分析的分类连续型因变量(y)-线性或非线性回归分析多个因变量(y1,y2yk)分类型因变量(y)-Logistic 回归分析时间序列因变量(t)-时间序列分析生存时间因变量(t)-生存风险回归分析路径分析结构方程模型分析一个因变量 y3例如:各种回归分析的比较4概念:概念:多元线性回归分析多元线性回归分析也称复线性回归分析复线性回归分析(multiple linear regression analysis),它研究一组自变量如何直接影响一个因变量
2、。自变量(independent variable)是指独立自由变量的变量,用向量X表示;因变量(dependent variable)是指非独立的、受其它变量影响的变量,用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也称单变量线性回归分析(univariate linear regression analysis)Multivariate linear regression5多元线性回归分析的基本思想多元线性回归分析的基本思想多元线性回归分析:多元线性回归分析:研究一个因变量与一组自变量的依存关系,即,研究一组自变量是如何直接影响一个因变量的。6一元线性回归分析的数学模型一元线
3、性回归分析的数学模型模型:模型:yi=+xi +i (i=1,2n)i x y-1 x1 y1 2 x2 y2 i xi yi n xn yn。xy0。一元线性回归模型一元线性回归模型(xi,yi)iy=+x701 122kkiyxxx模型:模型:(i=1,2n)多元回归分析数据格式多元回归分析数据格式编号 1X 2X jX mX Y 1 11X 12X jX1 mX1 1Y 2 21X 22X jX2 mX2 2Y i 1 iX 2iX ijX imX iY n 1nX 2nX jnX mnX nY 注:样本编号为i),2,1(ni;变量个数为j),2,1(mj 8假定因变量假定因变量Y与与
4、自变量自变量 间存在如下关系:间存在如下关系:01 122kkkyxxx式中,是常数项,称为偏回归系数(partial regression coefficient)。的含义为在其它自变量保持不变的条件下,自变量 改变一个单位时因变量 的平均改变量。为随机误差,又称残差(residual),它表示 的变化中不能由自变量 解释的部分。012,k 1,2,iiky1,2,ix ik12,kx xxix多元线性回归方程模型多元线性回归方程模型y9二元线性回归模型二元线性回归模型(观察到的观察到的y)回归面回归面 0 ix1yx2(x1,x2)01 122yxx01 122()ppE yxxx二元线性
5、回归分析的数学模型二元线性回归分析的数学模型多元回归方程多元回归方程10复相关系数复相关系数 复相关系数又称多重相关系数多重相关系数(multiple correlation coefficient),用于度量因变量的观测值与预测值(计算值)之间的关系的强度,或者说用于反映模型的总体拟合效果总体拟合效果。复相关系数包含了所有自变量与因变量的相关信息,其定义类似于一元线性回归中的相关系数,计算公式为多元回归分析中的几个相关系数多元回归分析中的几个相关系数11简单相关系数简单相关系数 简单相关系数(simple correlation coefficient)分别反映各个自变量与因变量的相关关系。
6、对于二变量的情形,计算公式为12偏相关系数偏相关系数 简单相关系数旨在反映变量之间变量之间两两线性关系,但实际上,每一个简单相关系数不可能绝对不包括其他因素的相关成分。为了克服简单相关系数的间接相关信息,提出另一种检验指标偏相关系数偏相关系数(partial correlation coefficient)。偏相关系数旨在排除其它因素的影响,单纯反映某个自变量与因变量之间的密切程度。对于二变量的情形,计算公式如下1314部分相关系数部分相关系数 复相关系数反映模型总体上的拟合效果,无法看出每个变量对拟合效果的贡献大小。为了反映每个变量对模型拟合效果的影响程度,人们定义了部分相关系数(part
7、correlation coefficient)。部分相关系数的计算公式15式中 为相应于xi的部分相关系数,Rm为复相关系数,即全部自变量参与回归的总体相关系数,Rmxi 为去掉xi 的复相关系数。可见部分相关系数的平方是在总体拟合效果中扣除了其他变量综合拟合效果之后剩余部分。1617 多元线性回归模型多元线性回归模型 多元线性回归模型及古典假定多元线性回归模型及古典假定 多元线性回归模型的估计多元线性回归模型的估计 多元线性回归模型的检验多元线性回归模型的检验 185.15.1多元线性回归模型及古典假定多元线性回归模型及古典假定 一、多元线性回归模型的意义一、多元线性回归模型的意义 二、多
8、元线性回归模型的矩阵表示二、多元线性回归模型的矩阵表示 三、多元线性回归中的基本假定三、多元线性回归中的基本假定 19一、多元线性回归模型的意义一、多元线性回归模型的意义例如例如:有两个解释变量的电力消费模型有两个解释变量的电力消费模型 其中其中:为各地区电力消费量;为各地区电力消费量;为各地区国内生产总值(为各地区国内生产总值(GDP););为各地区电力价格变动。为各地区电力价格变动。模型中参数的意义是什么呢模型中参数的意义是什么呢?12233iiYXXu2X3XiY20多元线性回归模型的一般形式多元线性回归模型的一般形式一般形式:对于有一般形式:对于有 个解释变量的线性回归模型个解释变量的
9、线性回归模型 模型中参数模型中参数 是偏回归系数,是偏回归系数,样本容量样本容量为为偏回归系数偏回归系数:控制其它解释量不变的条件下,第:控制其它解释量不变的条件下,第 个解释变量的单位变动对应变量平均值的影响。个解释变量的单位变动对应变量平均值的影响。k12233.iiikkiiYXXXu(1,2,.,)jjkjn21指对各个回归系数而言是指对各个回归系数而言是“线性线性”的,对变量则的,对变量则可是线性的,也可是非线性的可是线性的,也可是非线性的例如:生产函数例如:生产函数取自然对数取自然对数lnlnlnlnlnYALKuYAL K u多元线性回归多元线性回归22 的总体条件均值表示为多个
10、解释变量的函数的总体条件均值表示为多个解释变量的函数 总体回归函数也可表示为总体回归函数也可表示为:2312233E(,.,).iiikiiikkiY XXXXXX12233.iiikkiiYXXXu Y多元总体回归函数多元总体回归函数23 的样本条件均值表示为多个解释变量的函数的样本条件均值表示为多个解释变量的函数或或其中其中 回归剩余(残差):回归剩余(残差):-iiieYY多元样本回归函数多元样本回归函数12233Y.iiikkiXXX12233.iiikkiiYXXXeYni,2,124二、多元线性回归模型的矩阵表示二、多元线性回归模型的矩阵表示 个解释变量的多元线性回归模型的个解释变
11、量的多元线性回归模型的 个观测个观测样本,可表示为样本,可表示为 1122133111.kkYXXXu2122233222.kkYXXXu12233.nnnkknnYXXXunk25 Y1n用矩阵表示用矩阵表示1n1kn k1211112222222111kknnknknYXXuYXXuYXXuXYu26总体回归函数总体回归函数 或或样本回归函数样本回归函数 或或 其中:其中:都是有都是有 个元素的列向量个元素的列向量 是有是有 个元素的列向量个元素的列向量 是第一列为是第一列为1 1的的 阶解释变量阶解释变量 数据矩阵数据矩阵 (截距项可视为解释变量截距项可视为解释变量 取值为取值为1)1)
12、n kknE(Y)=XY=X+uY=XY=X+eY,Y,u,eX,27三、多元线性回归中的基本假定三、多元线性回归中的基本假定 假定假定1 1:零均值假定零均值假定 或或 假定假定2 2和假定和假定3 3:同方差和无自相关假定:同方差和无自相关假定 假定假定4 4:随机扰动项与解释变量不相关:随机扰动项与解释变量不相关 E()0(1,2,)iuin Cov(,)0 2,3,jiiX ujkCov(,)E(-E)(-E)E()ijiijjiju uuu uuuu20()iji=j(E u)=028假定假定5:5:无多重共线性假定无多重共线性假定 (多元中多元中)假定各解释变量之间不存在线性关系,
13、或各个假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。或解释变量观解释变量观测值之间线性无关。或解释变量观测值矩阵测值矩阵 列满秩列满秩(列列)。即即 可逆可逆假定假定6 6:正态性假定正态性假定X2(0,)iuNk()RankkX()RankKX XX X295.25.2多元线性回归模型的估计多元线性回归模型的估计 普通最小二乘法(普通最小二乘法(OLSOLS)OLSOLS估计式的性质估计式的性质 OLSOLS估计的分布性质估计的分布性质 随机扰动项方差随机扰动项方差 的估计的估计 回归系数的区间估计回归系数的区间估计 230 一、普通最小二乘法一、普通最小二乘法(OLS
14、OLS)最小二乘原则最小二乘原则 剩余平方和最小:剩余平方和最小:求偏导求偏导,令其为令其为0:0:22min(-)iiieY Y2212233min-(.)iiiikkieYXXX 2()0ije31 即即 注意到注意到12233-(.)iiikikiiYXXXe0ie 12233-2-(.)0 iiikikiYXXX12233-2-(.)0 kiiiikikiX YXXX212233-2-(.)0 iiiikikiX YXXX20i iX e 0ki iX e 32 用矩阵表示用矩阵表示因为样本回归函数为因为样本回归函数为 两边两边左左乘乘 有:有:因为因为 ,则正规方程为:,则正规方程为
15、:XXe=021222221110001in2i ik1kknnki ieeXXXeX e=.XXXeX e X eX X=X YXY=XX+XeY=X+eXe33 由正规方程由正规方程 多元回归中多元回归中 二元回归中二元回归中 注意:注意:和和 为为 的离差的离差-1=(XX)XY(),k k是满秩矩阵 其逆存在X XXX=XY12233Y-X-X23222332222323()()-()()()()-()iiiiiiiiiiiy xxy xx xxxx x22332322222323()()-()()()()-()iiiiiiiiiiiy xxy xx xxxx xxyX,Y OLS估计
16、式估计式34二、二、OLS估计式的性质估计式的性质 OLS估计式 1.1.线性特征线性特征:是是 的线性函数,因的线性函数,因 是非随机是非随机 或取固定值的矩阵或取固定值的矩阵 2.2.无偏特性无偏特性:E()kk(-1X X)X-1=(X X)X YY353.最小方差特性最小方差特性 在在 所有的线性无偏估计中,所有的线性无偏估计中,OLS估计估计 具有具有最小方差最小方差 结论结论:在古典假定下,多元线性回归的在古典假定下,多元线性回归的 OLS估估计式是最佳线性无偏估计式(计式是最佳线性无偏估计式(BLUE)kk36三、三、OLS估计的分布性质估计的分布性质基本思想基本思想 是随机变量
17、,必须确定其分布性质才可能是随机变量,必须确定其分布性质才可能进行区间估计和假设检验进行区间估计和假设检验 是服从正态分布的随机变量是服从正态分布的随机变量,决定了决定了 也也是服从正态分布的随机变量是服从正态分布的随机变量 是是 的线性函数,决定了的线性函数,决定了 也是服从正也是服从正态分布的随机变量态分布的随机变量iuiiYiiYi37 的期望的期望 (由无偏性由无偏性)的方差和标准误差:的方差和标准误差:可以证明可以证明 的的方差方差-协方差协方差矩阵为矩阵为 这里这里是是 矩阵矩阵 中第中第 行第行第 列的元素列的元素2-1Var-Cov()()XXE()SE()jjj c2Var(
18、)jjj cjjc-1()X Xjj2(,)1,2,.,jjjj N cjk 故有:38 四、随机扰动项方差四、随机扰动项方差 的估计的估计 多元回归中多元回归中 的无偏估计为:的无偏估计为:或表示为或表示为 将将 作标准化变换:作标准化变换:2k-(0,1)SE()kkkkkjjkzN c22-ien k2-n ke e239因因 是未知的,可用是未知的,可用 代替代替 去估计参数去估计参数 的标的标准误差准误差:当为大样本时,用估计的参数标准误差对当为大样本时,用估计的参数标准误差对 作标作标准化变换,所得准化变换,所得Z统计量仍可视为服从正态分布统计量仍可视为服从正态分布当为小样本时,用
19、估计的参数标准误差对当为小样本时,用估计的参数标准误差对 作标作标准化变换,所得的准化变换,所得的t统计量服从统计量服从t分布:分布:22-(-)SE()kkktt n k240五、回归系数的区间估计五、回归系数的区间估计由于由于给定给定 ,查,查t分布表的自由度为分布表的自由度为 的临界值的临界值或或:或表示为或表示为:*22-P-(-)(-)1-SE()jjjtn kttn k2(-)2(-)(-,)jjn kjjjn kjjt ct c22P-1-jjjjjjjt ct c22P-()()1-jjjjjtSE tSE()SE()jjjj*jjj-t=t n-kc2(-)tn k(1,.,
20、)jknk41 5.35.3多元线性回归模型的检验多元线性回归模型的检验本节基本内容本节基本内容:多元回归的拟合优度检验多元回归的拟合优度检验 回归方程的显著性检验(回归方程的显著性检验(F F检验)检验)各回归系数的显著性检验(各回归系数的显著性检验(t t检验)检验)42一、多元回归的拟合优度检验一、多元回归的拟合优度检验多重可决系数多重可决系数:在多元回归模型中,由各个解释变量联合:在多元回归模型中,由各个解释变量联合解释了的解释了的 的变差,在的变差,在 的总变差中占的比重,用的总变差中占的比重,用 表表示示与简单线性回归中可决系数与简单线性回归中可决系数 的区别只是的区别只是 不同,
展开阅读全文