大学课件:线性回归-上机用(第二页).ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大学课件:线性回归-上机用(第二页).ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学 课件 线性 回归 上机 第二
- 资源描述:
-
1、第 4 章 回归分析 用最小二乘法求最佳拟合参数用最小二乘法求最佳拟合参数(如变量系数如变量系数)的过程。的过程。还包括:变量间的相关性、回归参数的标准偏差、数据与表达还包括:变量间的相关性、回归参数的标准偏差、数据与表达式的吻合程度、分析变量是否独立式的吻合程度、分析变量是否独立.曲线拟合曲线拟合应用数学方法对观测数据进行处理应用数学方法对观测数据进行处理,从而得出比从而得出比较符合测量结果的数学较符合测量结果的数学表达式,即近似函数关系即近似函数关系 y=f(x),直线直线/曲线。曲线。最佳拟合判据残差平方和(Sum of Square of Residual)最小,即最小二乘法。即最小二
2、乘法。第第6讲讲 数据处理数据处理-线性与线性与LOGIT回归回归 任务要求:任务要求:1.完成上节课的完成上节课的EXCEL处理工作;处理工作;2.完成以下统计分析工作:完成以下统计分析工作:2.1 对各地对各地GDP与就业人数进行两两比较:与就业人数进行两两比较:4个城市,光个城市,光GDP就有就有6对比较结果,所以一共有对比较结果,所以一共有12对结果;对结果;2.2 对每个城市的对每个城市的GDP与就业人数进行回归:共与就业人数进行回归:共8个结果个结果(思考为什么)(思考为什么)2.3 任选一个城市做因变量,另外三个做自变量,进行多重任选一个城市做因变量,另外三个做自变量,进行多重线
3、性回归:回归完成之后逐一剔除自变量观察结果;线性回归:回归完成之后逐一剔除自变量观察结果;2.4 做所有城市就业人数对总做所有城市就业人数对总GDP的多重线性回归:提示,的多重线性回归:提示,之前应对之前应对GDP数据进行简单操作;数据进行简单操作;2.5 选用选用“员工薪酬与离职决策员工薪酬与离职决策”数据,进行离职决策对薪数据,进行离职决策对薪资进行资进行Logit回归回归23第 4 章 线性回归4.1 基本概念 计算方法 4.2 Excel 函数的使用方法4.3 4.4 多元线性回归4nii12residSS4.1 基本概念 计算方法xyABC若已知若已知a,b,则由则由 xi和方程得计
4、算值和方程得计算值 yi 计算计算。第第 i 点点残差残差 i:i=yi-yi 计算计算=yi-(axi+b)残差残差(residual)平方和平方和 不同直线不同直线a,b 值不同,值不同,SSresid亦不同,亦不同,SSresid,C SSresid,B SSresid,A,SSresid,A最小。最小。yiyi 计算计算 i 一元一元线性回归线性回归,又称又称直线拟合。直线拟合。一个自变量。一个自变量。p914.1.1 最小二乘法(1)概念:设从实验得到:设从实验得到 n 组组x,y数据数据 x:x1,x2 xi xn y:y1,y2 yi yn 若理论上若理论上x,y呈呈线性关系,则
5、应符合方程关系,则应符合方程 y=ax+b 求出斜率求出斜率a、截距截距b;几何上是得到一条几何上是得到一条尽可能靠近各各(xi,yi)点的直线。点的直线。判断标准残差平方和最小。图图4.1 SSresid与与a,b 54.1.1 最小二乘法niiibaxy12resid)(SS由前式由前式 即即 SSresid=f(a,b)残差平方和最小残差平方和最小(极值极值)的条件的条件0SS0SS2resid2resida;a(2)求回归系数斜率a,截距b的计算方法0SS0SS2resid2residb;b 回归直线:残差平方和最小的直线;残差平方和最小的直线;Excel的趋势线。的趋势线。回归方程回
6、归方程:回归直线的方程。拟合方程回归直线的方程。拟合方程 最小二乘法使残差平方和最小的方法。计算斜率计算斜率a,截距截距b。最小计算测量残差 SS2 1)(iniiyy64.1.1 最小二乘法代入代入 b 得得 0)(1 122iiiiiixxnayxnyx 22)(11iiiiiixnxyxnyxa 0)0)()(2SS 12residniiiiiiiiaxbxyxxbaxya 求斜率 aniiiniiibaxybaxyb11resid0)(0)1()(2SS xayxaynbii)(1niiibaxy12resid)(SS分母分母0即即即即求截距b74.1.2 相关系数 r 相关系数衡量回
7、归方程与原始数据相符合的程度的数值衡量回归方程与原始数据相符合的程度的数值。总离差平方和SS:yi-y平均平均 称为称为yi的离差。全部的离差。全部 yi 的离差平的离差平方之和称为方之和称为 y 的总离差平方和的总离差平方和 SSniiyy12)(SS平均 由由 yi y平均平均=(yi yi 计算计算)+(yi 计算计算 y平均平均)则则 )(2)()(SS 1 12 12 平均计算计算平均计算计算yyyyyyyyiniiiniiniii 可推导出,上式第三项为可推导出,上式第三项为 0,故,故回归平均计算计算 SSSS)()y(SSresid1212 niiniiiyyy SSresid
8、残差平方和残差平方和 反映了实验值反映了实验值 yi 与按回归方程计算的值与按回归方程计算的值 y计算 的的总偏差,它越总偏差,它越小小,表明回归效果,表明回归效果好。好。SS回归回归平方和回归平方和 反映了因反映了因 x 与与 y 的线性关系而引起的线性关系而引起 y 变化的大小变化的大小,它越它越大大,表明回归效果,表明回归效果好。回归好。回归 regression8 r2 r的平方 p95 Coefficient of Determination,决定系数决定系数,判定系数判定系数 定义 r2 的意义意义:SS回归回归大,大,x 与与 y 的回归关系的回归关系重要,重要,r2大;大;另另
9、 SSresid小,小,r2大,线性关系大,线性关系好。故好。故 r2 表明表明回归方程反反映映 x 与与 y 变量间关系的相关程度的标志。变量间关系的相关程度的标志。r2计算计算 Excel 趋势线趋势线,RSQ函数,回归分析等中的函数,回归分析等中的 r2 2222归111SSSS)y(ny)x(nxyxnyxriiiiiiii回 22222residresid)(1)(1)1(SSSS1SSSSSSSSSS def 2iiiiiiiiynyxnxyxnyxr回归 r 值及其意义 x与与y 的相关系数的相关系数 22)(11iiiiiixnxyxnyxa9 r 值范围r 正负号号取决于其计
10、算式中的分子取决于其计算式中的分子,且与斜率且与斜率 a 符号相同。符号相同。xyxyxyxy r 0,a0,x,y,y与与x正相关;正相关;r 0,a0,x,y,y与与x负相关;负相关;r=0,y与与x不存在线性相关关系。不存在线性相关关系。|r|=1,y与与x存在完全的相关性,存在完全的相关性,实验数据点与回归线完全重合。实验数据点与回归线完全重合。|r|0,SS回归回归SS,|r|1,即范围,即范围 r=1+1 总之总之,|r|1,y与与x相关性相关性好好,线性回归的线性回归的线性关系关系好好。图图4.2 y与与x的相关性的相关性 2222归)(1)(11SSSSiiiiiiiiynyx
11、nxyxnyxr回 r0 r相同相同 f及及 的的r,f 临界值临界值,则则 y与与 x 线性关系好线性关系好;若计算值若计算值r 的的|r|r0.01,8 n=10,临界值临界值r0.01,8=0.7646,由最小二乘法计算得到由最小二乘法计算得到 r0.01,8=0.9936,r0.01,8=0.7646,线性显著相关。线性显著相关。12表4.2 相关系数 r 临界值表(数理统计给出)n-2 =0.05 =0.01n-2 =0.05 =0.0110.996920.999877110.55290.683520.950000.99000120.53240.661430.87830.958731
12、30.51390.641140.81140.91720140.49730.622650.75450.8745150.48210.605560.70670.8343160.46830.589770.66640.7977170.45550.575180.63190.7646180.44380.561490.60210.7348190.43290.5487100.57600.7079200.42270.536813(1)相关系数检验法resid22 SSSS)2(1)2(def 归回回 nrrnFr 相关系数相关系数 查表可得查表可得 F 临界值临界值F(m,f),其中,其中 m为自变量个数为自变量
13、个数,f=n-2。上题上题F0.01(1,8)=11.3;由由r=0.9936,得得 F=619,F0.01(1,8),则则 y与与x 线性线性 相关关系显著。相关关系显著。多用于多变量检验多用于多变量检验(2)F 检验法 n,与 r 通常要求通常要求 n4 (?)一般要求一般要求,=0.05,置信度,置信度=1-a=95%,n=4时时,r0.05,2=0.950;高要求,高要求,=0.01,置信度,置信度=99%,n=4时,时,r0.01,2=0.990。定义:在一元线性回归中:在一元线性回归中14(3)其它统计参数 Page 93,101v y值的标准误差值的标准误差 SE(y)反映测量值
展开阅读全文