书签 分享 收藏 举报 版权申诉 / 57
上传文档赚钱

类型最小二乘法一元线性回归课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:3420174
  • 上传时间:2022-08-29
  • 格式:PPT
  • 页数:57
  • 大小:647.50KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《最小二乘法一元线性回归课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    最小二乘法 一元 线性 回归 课件
    资源描述:

    1、1第一节 经典线性回归模型 一、函数关系和统计关系(一)函数关系是一一对应的确定性关系。(举例见教材)(二)统计关系是不完全一致的对应关系。(举例见教材)二、理论模型和回归模型 Y=f(X1,X2,Xp)Y=f(X1,X2,Xk;)2 三、随机误差和系统误差 1、随机误差:是由随机因素形成的误差。所谓随机因素,是指那些对被解释变量的作用不显著,其作用方向不稳定(时正时负),在重复试验中,正作用与负作用可以相互抵消的因素。2、系统误差:由系统因素形成的误差。所谓系统因素,是指那些对被解释变量的作用较显著,其作用方向稳定,重复试验也不可能相互抵消的因素。3 四、线性回归模型和非线性回归模型 分类的

    2、标准:回归模型的期望函数关于参数的倒数是否与参数有关。即期望函数的一阶导函数是否仍然是关于参数的函数。如果导函数不是关于参数的函数,即参数是线性的,则称该回归模型是线性回归模型;反之,则称该回归模型是非线性回归模型。4五、回归模型的矩阵方法和随机矩阵一般线性回归模型的矩阵表示法 1、解释变量矩阵 X nknKknknkkXXXXXXXXXnXXXXXXX.1.1.1.1.222211222222111211 为了使模型中包含一个常数项,通常假设解释变量矩阵第一列的 取舍全为 1,即假设1,.1,1,.,12111nXXX。也就是说,解释变量中的第一个变量通常假设为取值恒为 1 的变量。52、被

    3、解释变量向量 Y、参数向量和随机干扰向量:nknYYYY.;.;.212121 依照矩阵运算法则,可用矩阵表示为:XY (2.1.14)在(2.1.14)式中,X 一般是非随机矩阵,通常称为设计矩阵;Y、都是随机向量,而则是常数向量。6(二)随机向量的数学期望和协方差矩阵 在(2.1.14)式中,Y 和的元素都是随机变量,因此是随机向量。1、随机向量的数学期望。随机向量的数学期望仍然是向量,是由原向量相应的随机变量元素的 数学期望值组成的向量。kjniYEYEijnxk,.,2,1,.,2,1,(2.1.16)2、随机向量的协方差矩阵。记 Y 的方差为 22YEYEY (2.1.17)记 Y

    4、与 Z 的协方差为 ZEZYEYEZY,(2.1.18)7依照方差与协方差的定义,我们类似地可以定义随机向量的 方差协方差矩阵。仍然以 3 个观测值 Y1,Y2,Y3 构成的随机向量 Y 来说明,记每个随机变量iY的方差为 iY2,任意两个随机变量 jiYY,的协方差为jiYY,,这些方差和协方差可以组成一个矩阵,称为随机变量 Y 的方差协方差矩阵,常常简称为 Y 的协方差矩阵,用 Y2或 YVar表示:322313122212312112,YYYYYYYYYYYYYYYYVar (2.1.19)在矩阵(2.1.19)中,方差 iY2在矩阵的主对角线上;对于 ij 时 的协方差,有ijjiYY

    5、YY,。8对 n1 维随机向量,有:nnnnnnYYYYYYYYYYYYYYYYYVar,.,.,.,.,2212221212112(2.1.21)假如,设由 3 个观测值组成的随机干扰项向量在每个观测点上方差 相同,即22i,并且随机干扰项彼此不相关,即对于 ij,有0,ji。于是可得到随机向量的方差协方差矩阵为:1000100010000002222Var(2.1.22)9六、经典线性回归模型及其假设条件 一、有正确的期望函数。它要求在线性回归模型中没有遗漏任何重要的解释变量,也没有包含任何多余的解释变量。二、被解释变量等于期望函数与随机干扰项之和。三、随机干扰项独立于期望函数。即所有解释

    6、变量Xj与随机干扰项u不相关。四、解释变量矩阵X是非随机矩阵,且其秩为列满秩的,即rank(X)k。10 五、随机干扰项服从正态分布。该假设给出了被解释变量的概率分布。六、随机干扰项的期望值为0。即:E(u)0 七、随机干扰项具有方差齐性。即:八、随机干扰项相互独立。11第二节 模型参数的估计一、普通最小二乘法(OLS估计)通过协方差或相关系数证实变量之间存在关系,仅仅只是知道变量之间线性相关的性质正(负)相关和相关程度的大小。既然它们之间存在线性关系,接下来必须探求它们之间关系的表现形式是什么?最好用数学表达式将这种关系尽可能准确、严谨的表示出来y=a+bx+u把它们之间的内在联系挖掘出来。

    7、也就是直线中的截距a=?;直线的斜率b=?消费支出=基本生存+边际消费倾向可支配收入+随机扰动12解决问题的思路可能性 寻找变量之间直线关系的方法多多。于是,再接下来则是从众多方法中,寻找一种优良的方法,运用方法去求出线性模型y=a+bx+u中的截距a=?;直线的斜率b=?正是是本章介绍的最小二乘法。根据该方法所得,即表现变量之间线性关系的直线有些什么特性?所得直线可靠吗?怎样衡量所得直线的可靠性?最后才是如何运用所得规律变量的线性关系?13最小二乘法产生的历史 最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton)达尔文的表弟所创。早年,道尔顿致力于化学和遗

    8、传学领域的研究。他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。14最小二乘法的地位与作用 现在回归分析法已远非道尔顿的本意 已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。后来,回归分析法从其方法的数学原理误差平方和最小(平方乃二乘也)出发,改称为最小二乘法。15父亲们的身高与儿子们的身高之间关系的研究 1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式 下图是根据1078个家庭的调查所作的散点图(略图)yx160165170175180185140

    9、150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定17“回归”一词的由来 从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”见1889年F.Gallton的论文普用回归定律。后人将此种方法普遍用于寻找变量之间的规律 xyubxay516.033.8418最小二乘法的思路 1为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对

    10、观察值,才不至于以点概面(作到全面)。2Y与X之间是否是直线关系(协方差或相关系数)?若是,将用一条直线描述它们之间的关系。3在Y与X的散点图上画出直线的方法很多。任务?找出一条能够最好地描述Y与X(代表所有点)之间的直线。4什么是最好?找出判断“最好”的原则。最好指的是找一条直线使得这些点到该直线的纵向距离的和(平方和)最小。19三种距离yx纵向距离横向距离距离yxiiA,yxiiB,A为实际点,B为拟合直线上与之对应的点xyyyuiiiiiba纵向距离20距离是度量实际值与拟合值 是否相符的有效手段 点到直线的距离点到直线的垂直线的长度。横向距离点沿(平行)X轴方向到直线的距离。纵向距离点

    11、沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。这个差数以后称为误差残差(剩余)。21最小二乘法的数学原理 纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。22数学推证过程)6()5()4()3()2(02)1(02minmin22222222222xxyxyxyxxxyxxxyxxxyuxyuxbayuxbayyyuxyyyunyxnbxbyabanbab

    12、nababbaaiiiiiibaiiiiiiiiiiiiiiiiiiiiiiiiiiiii或23关于所得直线方程的结论 结论之一:由(5)式,得 即拟合直线过y和x的平均数点。结论之二:由(2)式,得 残差与自变量x的乘积和等于0,即两者不相关。两者不相关。)式,由(00,cov002,xubabaiixuxuxxyxyyyuiiiiiiiiiiiixbayxbya5)式:由(24 拟合直线的性质 1估计残差和为零 2Y的真实值和拟合值有共同的均值 3估计残差与自变量不相关 4估计残差与拟合值不相关251估计残差和为零(Residuals Sum to zero)由(1)式直接得此结论无须再证

    13、明。并推出残差的平均数也等于零。000)1(022uuuxyxyuxyyyuiiiiiiiiiiiiinbabaaba262Y的真实值和拟合值有共同的均值(The actual and fitted values of yi have the same mean)yybabayyuuyyuyyxyuxyiiiiiiiiiiiiii01:性质由273估计残差与自变量不相关(Residuals are unrelated with independent variable)00,20001,cov0,cov011,cov22,uxuxuxuuxuuxuxuxuxuuxxiiiiiiiiiiiiii

    14、iiiiuxxxxxxxuxnuxuxininux)式由(284估计残差与拟合值不相关(Residuals are unrelated with fitted value of yi)000001,covbaubuaubuaubauyuyuyuyuyuyuyyuyynuyxxxiii29 uxuyyiiiiiba残差和=0平均数相等拟合值与残差不相关自变量与残差不相关注意:这里的残差与注意:这里的残差与随机扰动项不是一个随机扰动项不是一个概念。随机扰动项是概念。随机扰动项是总体的残差。总体的残差。30二、极大似然估计法二、极大似然估计(ML 估计)普通最小二乘法是根据期望的性质而建立的一种参数

    15、估计方法,估计过程中并不需要了解模型随机干扰项的概率分布。如果考虑随机干扰项的概率分布,则模型参数也可以根据极大似 然原理进行估计,由此而得出的极大似然法(Maximum likelihood estimatiom)对于线性回归模型(2.1.14)XY,在经典假设之下,其随机干扰向量服从正态分布,即2,0N,这意味着被解释变量 向量 Y 也服从正态分布,期望为 XYE,协方差矩阵为 2yVar,即 Y2,X (2.2.15)31若记第 i 各样本观测点的解释变量观测值向量为 ikiiiXXXX,.,21,则该样本观测点上被解释变量 的观测值 Yi的概率密度函数为:222/1222exp2,ii

    16、iiXYXYf(2.2.16)因为各样本观测值假定是相互独立抽取的,所以样本的联合密度 函数为:22/2221212exp2,/.,.,XYXYXYfYfYfYfYYYfnnn(2.2.17)32此样本联合密度函数是在模型参数2,以及解释变量值 X 给定的条件下被解释变量的 n 次观测向量 Y 的概率分布,而一旦 样本被抽出,则解释变量的观测向量 Y 就成为已知的确定值,该 样本的联合密度函数就可看作是未知参数2,的函数,即可将 其表示成2,的似然函数:22/222exp2,/,XYXYYXLn(2.2.18)由于似然函数(2.2.18)的值越大,我们所观测到的样本所出现的 概率密度(2.2.

    17、17)就越大,所以极大似然准则就是要寻找出使得似然 函数取最大值的未知参数2,的估计量.为此,将似然函数(2.2.18)的两边取对数,得到对数似然函数为:33 2222ln22ln2,lnXYXYnnL(2.2.19)由于对数函数是单调赠函数,所以使似然函数达到最大的未知参数 和2的值也就是使其对数似然函数达到最大的值,而极大化对数似 然函数在代数上处理更方便。因此,我们可直接求使得对数似然函数取 最大值的未知参数和2的估计量。类似于普通最小二乘法,先计算对数似然函数2,lnL对和2 的一阶偏导数:XXYXL221,ln (2.2.20)422222,lnXYXYnL(2.2.21)34记使对

    18、数似然函数2,lnL取最小值的和2的值为 2,,则由极值原理可知,值2,就是使得上述导数(2.2.20)式等于 0 向量和(2.2.21)等于 0 的值,即 012XXYX (2.2.22)7 02242XYXYn (2.2.23)由此可得,参数和2的极大似然估计量分别为:YXXX1 (2.2.24)12XYXYn (2.2.25)可见,在模型随机干扰项服从正态分布的假定下,回归模型的系数 向量的极大似然估计也就是其普通最小二乘估计。而2并不是2的无偏估计。(见教材 P30)35最佳线性无偏估计最佳线性无偏:(一)线性无偏性 XXXEE1(二)有效性(三)一致性 36高斯马尔柯夫定理在假定 n

    19、YDXYE2,时,的任一线性函数c 的最小方差线性无偏估计(Best Liner Unbiased Estimator,BLUE)为 c,其中 c 是任一 p+1 维常数向量,是的最小二乘估计。37第三节 拟合优度的评价38问题的提出 由最小二乘法所得直线究竟能够对这些点之间的关系加以反映吗?对这些点之间的关系或趋势反映到了何种程度?于是必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。分四个问题进行讨论:平方和分解、方差分析、拟合优度、拟合优度与简单相关系数的关系。39 一、平方和与自由度的分解 1、总平方和、回归平方和、残差平方和的定义 2、平方和

    20、的分解 3、自由度的分解401、总平方和、回归平方和、残差平方和的定义 TSS度量Y自身的差异程度,RSS度量因变量Y的拟合值自身的差异程度,ESS度量实际值与拟合值之间的差异程度。uyyyyyyiiiERSiRSSiTSS2222412、平方和的分解 ESSRSSTSSyyyyyyRSSESSyiiiiyiiiiiiTSSuyuuyuyuyyyyyyyyyyyyyyyyyyyyyyyyyyiiiiiiiiiiiiiiiiiiii00022222222242平方和分解的意义 TSS=RSS+ESS 被解释变量Y总的变动(差异)=解释变量X引起的变动(差异)+除X以外的因素引起的变动(差异)如果

    21、X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。433、自由度的分解 总自由度 dfT=n-1 回归自由度 dfR=1(自变量的个数,k元为k)残差自由度 dfE=n-2 自由度分解 dfT=dfR+dfE44平方和分解图yyyy 160165170175180185140150160170180190200YXyyy正交分解正交分解yyyy yyyyyy 45为什么回归平方和是由X引起的变动xxtgxxbxbxbxbaxbayyxyuyyiiiiiiiiiRSSiRSSxbayba22222yx,xxiyyiyixiABC46二、方差分析 模型:y=a+

    22、bx+u=LS估计:y=a+bx H0:b=0 HA:b0变异来源平方和自由度均方F统计量回 归 的RSS1回归方差=RSS/1F=回归方差/误差方差剩 余 的ESSn-2误差方差=ESS/(n-1)总的TSSn-1方差分析表47关于F检验 零假设H0:b=0 备择HA:b0 H0:b=0 RSS中的X不起作用,RSS变动无异于随机变动=分子方差与分母方差是一回事=F=1 如果F显著地大于1,甚至FF=小概率事件发生了,根据小概率原理,小概率事件在一次试验中是不可能发生的,于是H0不成立。就不能认为X没有作用。则直线是有意义的。可靠性=1-成立成立,HFHssAerFFnESSRSSF,121

    23、02248三、拟合优度(或称判定系数、决定系数)目的:企图构造一个不含单位,可以相互进行比较,而且能直观判断拟合优劣。拟合优度的定义:意义:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。取值范围:0-1TSSESSTSSRSSTSSESSTSSRSSESSRSSTSSR11249拟合优度与F统计量之间的联系 F显著=拟合优度必然显著RRsskknFTSSRSSTSSkTSSRSSknRSSTSSkRSSknkESSRSSknFknESSkRSSFer2222111)(11150四、拟合优度等于实际值与拟合值之间简单相关系数的平方拟合

    24、得约好。说明的相关程度的,与实际的一样,也是说明拟合的和分母分子分子分子中的分母yyyRRRSSnRSSnyuyyyuyyyuyyuyyyyyyyyyyyniiiyyyyiiiiiiiiiiiiiiyyTSSRSSRSSnTSSnRSSyiyyyyyyyyyRSSnTSSnininii11122,222,222222,110111151第四节各回归系数的显著性检验 上述由回归方差分析给出的F检验是对整个线性回归模型的检验,即使我们 在上述检验中否定了原假设H0:Bi=0,也并不意味着每个解释变量都对被解释变量有显著的影响。因此,还必须对模型中每个解释变量的重要性,即解释变量对被解释变量是否有显

    25、著性的影响进行检验。52 对于一般线性回归模型,要检验某个解释变量Xi是否对被解释变量Y有显著的影响,可建立原假设和备择假设为:H0:Bi0;H1:Bi不等于0(见教材P40-41)53 复习与提高 y=a+bx+uxn+1 yn+1xn yn x2 y2x1 y1根据已知样本采用LS得一拟合直线 拟合直线性质:残差和=0残差与自变量无关拟合值与残差值无关两个平均数均值相等R20TSS RSS ESSR2R21用直线反映总体Good?noYes54案例分析一:教学指导书P20 教学目的:1掌握普通最小二乘法2掌握回归方程的拟合优度的判断3掌握回归方程的显著性检验。55 例1 下表是某地区10户

    26、家庭人均收入(X)和人均食物消费支出(Y)的数据。试根据表中数据(1)用普通最小二乘法估计该地居民家庭食物消费支出的回归直线.(2)计算判定系数R2,说明回归方程的拟合优度。(3)在5%的显著性水平下,对回归方程进行显著性检验。56 Y X 70 80 65 100 90 120 95 140 110 160 115 180 120 200 140 220 155 24057 Y X XY x2 Yei y2 1 70 80 5600640065.18 4.8181 4900 2 65100 650010000 75.36-10.364225 3 90120 10800 14400 85.54 4.4545 8100495140 13300 19600 95.72-0.72790255110 160 17600 25600 105.9 4.09121006115 180 20700 32400 116.1-1.091132257120 200 24000 40000 126.3-6.273144008140 220 30800 48400 136.5 3.545196009155 240 37200 57600 146.6 8.36424025

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:最小二乘法一元线性回归课件.ppt
    链接地址:https://www.163wenku.com/p-3420174.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库