12h第十二章简单回归分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《12h第十二章简单回归分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 12 第十二 简单 回归 分析 课件
- 资源描述:
-
1、第12章o简单回归分析oSimple linear regression analysis本章内容本章内容 第一节第一节 简单线性回归简单线性回归 第二节第二节 线性回归的应用线性回归的应用 第三节第三节 残差分析残差分析 第四节第四节 非非线性回归线性回归 双变量计量资料:双变量计量资料:每个个体有两个变量值每个个体有两个变量值 总体:总体:无限或有限对变量值无限或有限对变量值 样本:样本:从总体随机抽取的从总体随机抽取的n n对变量值对变量值(X1,Y1),(X2,Y2),(Xn,Yn)目的:目的:研究研究X X和和Y Y的数量关系的数量关系 方法:方法:回归与相关回归与相关 简单、基本简
2、单、基本直线回归、直线相关直线回归、直线相关第一节第一节 简单线性回归简单线性回归 英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现发现:历史背景:儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:。也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”33.730.
3、516YX “回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。线性回归的概念及其统计描述线性回归的概念及其统计描述直线回归的概念 目的:目的:研究应变量研究应变量Y对自变量对自变量X的数量依的数量依 存关系。存关系。特点:特点:统计关系。统计关系。X值和值和Y的的均数均数的关系,的关系,不同于一般数学上的不同于一般数学上的X 和和Y的函数关系的函数关系 为了直观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据(表12-1)进行回归分析,得到图12
4、-1所示散点图(scatter plot)No.123456789101112131415X1.1 1.2 1.00.91.2 1.1 0.9 0.6 1.00.91.1 0.9 1.1 1.0 0.7Y141315151314161714161516141517 在定量描述健康人凝血酶浓度(X)与凝血时间(Y)数据的数量上的依存关系时,将凝血酶浓度称为自变量(independent variable),用 X 表示;凝血时间称为应变量(dependent variable),用 Y 表示 由图12-1可见,凝血时间随凝血酶浓度的增加而减低且呈直线趋势,但并非所有点子恰好全都在一直线上,此与两
5、变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫其方程叫直线回归方程直线回归方程,以区别,以区别严格意义的直线方程。回归是回归分析中最基本、最简单严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。的一种,故又称简单回归。(12 1)YabX样本线回归方程样本线回归方程Y 为各X处Y的总体均数的估计。简单线性回归模型 iiiXY1a 为回归直线在为回归直线在 Y 轴上的截距轴上的截距a 0,表示直线与纵轴的交点在表示直线与纵轴的交点在原点的上方原点的上方a 0,直线从左下方走向右上方,直线从左下方走向右上方,Y 随随 X 增大而增
6、大;增大而增大;b0,直线从左上方走向右下方,直线从左上方走向右下方,Y 随随 X 增大而减小;增大而减小;b=0,表示直线与表示直线与 X 轴平行,轴平行,X 与与Y 无直线关系无直线关系b 的统计学意义是:的统计学意义是:X 每增加每增加(减减)一个单位,一个单位,Y 平均改变平均改变b个单位个单位 回归模型的前提假设回归模型的前提假设o线性回归模型的前提条件是:线性线性(linear)独立独立(independent)正态正态(normal)等方差等方差(equal variance)|YXX 残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。求解a、b实
7、际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。YYY原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小回归参数的估计回归参数的估计最小二乘原则最小二乘原则 式式 中中X Yl为为X 与与Y 的的 离离 均均 差差 乘乘 积积 和和:()()()()XYlX X Y YXYXYn aYbX回归参数的估计方法回归参数的估计方法 本例:n=15 X=14.7 X2=14.81 Y=224 XY=216.7 Y2=336898020.615)7.14(81.1415)224)(7.14(7.2162b77393.21157.14)9
8、8020.6(15224 aXY9802.677393.21解题步骤3、计算有关指标的值4、计算回归系数和截距5、列出回归方程 此直线必然通过点此直线必然通过点(,)(,)且与纵坐标轴相且与纵坐标轴相交于截距交于截距a a。如果散点图没有从坐标系原。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易点开始,可在自变量实测范围内远端取易于读数的于读数的 值代入回归方程得到一个点的值代入回归方程得到一个点的坐标,连接此点与点坐标,连接此点与点(,)(,)也可绘出回归也可绘出回归直线。直线。X绘制回归直线绘制回归直线XYY总体回归系数总体回归系数的的的统计推断样本回归系数样本回归系数b的标
9、准误的标准误 niixybXXss12.)(21.()2niiiy xYYsn.3.249170.249940.4999413y xs78655.0404.049994.0)(12.niixybXXss回归方程的假设检验 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有?0 1方差分析 Y的离均差,总变异残差回归的变异数理统计可证明:222)()()(YYYYYY()(YY Y-)0Y=上式用符号表示为 式中 总SS即2)(YY,为Y的离均差平方和,表示未考虑X与Y的回归关系时Y的总变异。回SS 即2)(YY
10、,为回归平方和。由于特定样本的均数 Y 是固定的,所以这部分变异由iY的大小不同引起。当 X 被引入回归以后,正是由于iX的不同导致了iiYabX不同,所以回SS反映了在 Y 的总变异中可以用X 与 Y 的直线关系解释的那部分变异。b 离 0 越远,X 对 Y 的影响越大,回SS就越大,说明回归效果越好。YS S残即2)(YY,为 残 差 平 方 和。它 反 应 除了X对Y的 线 性 影 响 之 外 的 一 切 因 素 对Y的 变异 的 作 用,也 就 是 在 总 平 方 和 中 无 法 用X解 释的 部 分,表 示 考 虑 回 归 之 后Y真 正 的 随 机 误 差。在 散 点 图 中,各
11、实 测 点 离 回 归 直 线 越 近,S S残也就 越 小,说 明 直 线 回 归 的 估 计 误 差 越 小,回 归的 作 用 越 明 显。上述三个平方和,各有其相应的自由度 ,并有如下的关系:以上分解可见,不考虑回归时,随机误差是 Y 的总变异总SS;而考虑回归以后,由于回归的贡献使原来的随机误差减小为SS残。如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:MS回为回归均方 MS残为残差均方。F服从自由度为 回残、的F分布。式中t 检验 检验例12-1数据得到的直线回归方程是否成立?(1)方差分析 方差分析表 11、26,
12、查F界值表,得0.01P。按0.05水准拒绝0H,接受1H,可以认为尿肌酐含量与年龄之间有直线关系。(2)t 检验参数的意义是:若自变量X增加一个单位,反应变量Y的平均值便增加 bbSbt87.878655.098020.6bt注意:总体回归系数 的可信区间 利用上述对回归系数的t检验,可以得到的1双侧可信区间为bnStb2,本 例b=-6.9 8 0 2,自 由 度=1 3,t0.05,13=2.16,Sb=0.78655,代入公式(12-7)得参数的95%置信区间为 =(-8.6791 -5.2813)78655.016.29802.6注意到此区间不包括0,可按0.05 水准同样得到总体回
13、归系数不为0的结论,即用区间估计回答相同时的假设检验问题。第二 节 线性回归的应用(估计和预测)给 定X的 数 值0X,由 样 本 回 归方 程 算 出 的0Y只 是 相 应 总 体 均 数0|YX的 一 个 点 估 计。0Y会 因 样 本 而异,存 在 抽 样 误 差。给定0XX时,总体均数0|Y X的(1)可信区间为 00/2,YYtS22()1()ppY XYiXXSSnXX反映其抽样误差大小的标准误为o例12-1中,第一观测值X1=1.1,0.4994,0.404,代入(12.8)式获得第一观测点X1对应的 的标准误为 0.1599Y的总体均数的95%置信区间为 14.0957(2.1
展开阅读全文