简单线性回归分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《简单线性回归分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 简单 线性 回归 分析 课件
- 资源描述:
-
1、简单线性回归分析简单线性回归分析统计统计描述描述抽样分布抽样分布参数估计:参数估计:点估计、区间估计点估计、区间估计定量资料定量资料算术均数、算术均数、中位数等中位数等集中趋势:集中趋势:离散趋势:离散趋势:极差、极差、四分位数间距、方差、四分位数间距、方差、标准差、变异系数标准差、变异系数定性资料:频率型指标、强度型指标、比定性资料:频率型指标、强度型指标、比 统计表和统计图统计表和统计图统计统计推断推断变量变量概率分布:正态分布概率分布:正态分布假设假设检验检验差异性差异性检验检验非参数检验非参数检验秩和秩和参数检验:参数检验:t 检验、检验、方差分析等方差分析等定性资料定性资料实验设计实
2、验设计分组数分组数定量资料定量资料实验设计:三要素、四原则、实验设计方案、样本含量估算实验设计:三要素、四原则、实验设计方案、样本含量估算知识框架:知识框架:多重线性回归、多重线性回归、logistic回归、生存分析回归、生存分析简单相关分析和简单相关分析和简单回归分析简单回归分析相关和相关和回归回归 该方法是作什么用的?该方法是作什么用的?应用该方法资料需要满足什么条件?应用该方法资料需要满足什么条件?怎么去实现该方法?怎么去实现该方法?正确调用统计分析程序正确调用统计分析程序 对输出的结果怎么从统计、专业层面去解释?对输出的结果怎么从统计、专业层面去解释?针对针对某一特定统计学方法某一特定
3、统计学方法学习的重点:学习的重点:两变量间关联研究两变量间关联研究是否有联系,联系是否有联系,联系程度、方向如何?程度、方向如何?简单相关分析简单相关分析常数常数 定量描述其定量描述其依存关系依存关系 简单回归分析简单回归分析关联性关联性(association)依存性依存性(relationship)数学模型:数学模型:Y=f(x)Francis Galtonu英国生物学家统计学家英国生物学家统计学家u生物统计学的创始人生物统计学的创始人u英美数理统计学派最早的英美数理统计学派最早的代表人物代表人物u创立和发展的创立和发展的“相关相关”与与“回归回归”u用统计方法研究遗传和进用统计方法研究遗
4、传和进化的第一人。化的第一人。F.Galton和英国统计学家和英国统计学家 K.Pearson对上千个家对上千个家庭的身高等作了测量,发现一个有趣的现象:庭的身高等作了测量,发现一个有趣的现象:Galton将这种将这种趋向于种族稳定的现象称之趋向于种族稳定的现象称之“回归回归”。儿子身高儿子身高(Y,英寸,英寸)与父亲身高与父亲身高(X,英寸,英寸)存在线性存在线性关系:关系:33.730.516YX 糖尿病人血糖与其胰岛素水平的关系,糖尿病人血糖与其胰岛素水平的关系,儿童年龄与体重的关系、儿童年龄与体重的关系、父亲身高与子女身高之间的关系、父亲身高与子女身高之间的关系、收入水平与受教育程度之
5、间的关系、收入水平与受教育程度之间的关系、体重与身高及胸围之间的关系、体重与身高及胸围之间的关系、体表面积与体重之间的关系、体表面积与体重之间的关系、商品销售额与广告费支出之间的关系商品销售额与广告费支出之间的关系 等。等。“回归回归”已成为表示变量之间某种数量依存关系已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出的统计学术语,相关并且衍生出“回归方程回归方程”“”“回归回归系数系数”等统计学概念。如研究:等统计学概念。如研究:u描述变量间的关联;描述变量间的关联;u分析影响因素:从影响分析影响因素:从影响Y 的诸多变量的诸多变量X 中找出有统计学中找出有统计学意义的,并定量描
6、述某个意义的,并定量描述某个X 对对Y 影响的大小。影响的大小。u预测和控制:预测和控制:预测:根据一个或几个预测:根据一个或几个X 取值预测取值预测 变量变量Y 的上下限。的上下限。控制:预把控制:预把 Y 限制在某取值范围,须控制限制在某取值范围,须控制X的上下限。的上下限。回归分析:回归分析:从一组样本数据出发,拟合变量间的回归方从一组样本数据出发,拟合变量间的回归方程,并作假设检验;从而更精确的解释变量间的关系。程,并作假设检验;从而更精确的解释变量间的关系。医学应用:医学应用:简单线性回归分析简单线性回归分析10.1 10.1 概概 述述 。10.2 10.2 简单线性回归模型简单线
7、性回归模型 。如何定量地描述两者的关系如何定量地描述两者的关系线性回归的前提条件线性回归的前提条件回归方程有统计学意义吗?回归方程有统计学意义吗?回归方程的解释回归方程的解释回归方程的统计应用回归方程的统计应用10.1 10.1 概概 述述例例10.1 为研究大气污染一氧化氮(为研究大气污染一氧化氮(NO)的浓度)的浓度是否受到汽车流量、气候状况等因素的影响,是否受到汽车流量、气候状况等因素的影响,选择选择24个工业水平相近的一个交通点,统计单个工业水平相近的一个交通点,统计单位时间过往的位时间过往的汽车数汽车数(千辆),同时在低空相(千辆),同时在低空相同高度测定了该时间段同高度测定了该时间
8、段平均气温平均气温()、空气)、空气湿度湿度()、()、风速风速(m/s)以及空气中)以及空气中一氧化氮一氧化氮(NO)的浓度)的浓度(10-6),数据如下表。),数据如下表。1.线性回归分析线性回归分析 linear regression analysis:研究一个变量和另外一些变量间线性数量关系的:研究一个变量和另外一些变量间线性数量关系的统计分析方法。统计分析方法。1.基本概念基本概念简单线性回归简单线性回归 simple linear regression多重线性回归多重线性回归 muptiple linear regression:涉及多个变量(自变量、解释变量)时称:涉及多个变量(
9、自变量、解释变量)时称。:模型中只包含两个有:模型中只包含两个有“依存关系依存关系”的变量,一的变量,一个变量随另一个变量的变化而变化,且呈直线变个变量随另一个变量的变化而变化,且呈直线变化趋势,叫化趋势,叫。分分类类2.2.简单线性回归的两个变量:简单线性回归的两个变量:因变量因变量dependent variable或或反应变量反应变量 response variable:是按某种规律变化的随机变量,是被估计的被预测的是按某种规律变化的随机变量,是被估计的被预测的变量。用变量。用“Y”表示。表示。解释变量解释变量explanatory variable或或自变量自变量 independen
10、t variable 或或预测因子预测因子 predictor :可看作影响因素,是能独立自由变化的变量,是:可看作影响因素,是能独立自由变化的变量,是“Y”所依存的变量,常用所依存的变量,常用“X”表示,可是随机变量,表示,可是随机变量,也可是人为控制或选择的变量。也可是人为控制或选择的变量。若若 Y 随随X1、X2、Xm的改变而改变的改变而改变:10.2 10.2 简单线性回归模型简单线性回归模型例:例:只考虑只考虑NO浓浓度和车流量的度和车流量的关系,问之间关系,问之间是否存在数量是否存在数量依存关系?依存关系?(一)绘制散点图(一)绘制散点图Ya bx 线性回归分析的步骤线性回归分析的
11、步骤:绘制绘制散点图散点图:1.线性趋势?线性趋势?2.异常值或强影响点?异常值或强影响点?估计回归系数估计回归系数b和常数项和常数项a回归方程和回归系数回归方程和回归系数 的假设检验的假设检验参数估计参数估计:总体回归系数:总体回归系数的区间估计的区间估计回归方程的统计应用回归方程的统计应用n方程:方差分析方程:方差分析n回归系数:回归系数:t 检验法检验法预测和控制、影响因素分析预测和控制、影响因素分析XbYa21)()(XXYYXXbiniii最小二乘估计最小二乘估计 Y X=+X 散点图显示车流量与空气中散点图显示车流量与空气中NO浓度有线性趋势关浓度有线性趋势关系,因此考虑拟合系,因
12、此考虑拟合线性回归方程线性回归方程(linear regression model),即有:),即有:回归直线的截距参数回归直线的截距参数(intercept)回归直线的斜率参数回归直线的斜率参数(slope)又称回归系数又称回归系数(regression coefficient)(二)简单线性回归方程(二)简单线性回归方程总体回归系数总体回归系数(regression coefficient)的统计学意义:的统计学意义:X每增加(或减少)一个单位,每增加(或减少)一个单位,Y 平平均改变了个均改变了个 单位;单位;越大,表示越大,表示Y 随随X 增减变化的增减变化的趋势越陡。趋势越陡。n 0
13、,表明表明Y与与X呈同向线性变化趋势呈同向线性变化趋势n=0,表明表明Y与与X无线性回归关系,但可能有其它关系无线性回归关系,但可能有其它关系n 0,表明表明Y与与X呈反向线性变化趋势呈反向线性变化趋势 通常情况下,研究者只能获得一定数量的样本数据,通常情况下,研究者只能获得一定数量的样本数据,用用样本数据样本数据建立的有关建立的有关Y依从依从X变化的线性表达式称为变化的线性表达式称为回归方程(回归方程(regression equation),记为:),记为:Ya bx 称称 为为Y 的预测值;其意义为固定的预测值;其意义为固定 X时,时,Y 的总体均数的总体均数 Y X 的点估计值。的点估
14、计值。a与与b分别为回归模型参数分别为回归模型参数和和的估计值,的估计值,b称为称为样本回归系数。样本回归系数。以样本数据,可算出以样本数据,可算出和和的估计值的估计值a 和和 b。后在。后在直角坐标系以直角坐标系以X为横坐标,为横坐标,为纵坐标作图,图形为纵坐标作图,图形是一条直线,斜率为是一条直线,斜率为b,截距为,截距为a。YYYYa bx iiYY让所有点的让所有点的 的平方和最小的平方和最小iiYYv用最小二乘法拟合直线,选择用最小二乘法拟合直线,选择a和和b使其使其残差残差(样本点到(样本点到直线的纵向距离直线的纵向距离)平方和平方和达到最小。达到最小。(三)回归参数的估计:(三)
15、回归参数的估计:最小二乘估计最小二乘估计least square estimation回归参数的估计方法:回归参数的估计方法:),.,2,1(,)()(21niLLXXYYXXbxxxyiniii()XbYa()Ya bx 回归方程:回归方程:22()(-)iiiiSSEyyy a bx 用最小二乘法拟合直线,选择用最小二乘法拟合直线,选择a和和b使其残差(样使其残差(样本点到直线的垂直距离本点到直线的垂直距离)平方和达到最小。即平方和达到最小。即:使下列的使下列的SSE达到最小值。达到最小值。以以NO浓度浓度为为Y,以车流量以车流量为为X,作线性,作线性回归分析。回归分析。解:解:由样本数据
16、了解计算统计量,带入下公式,求出由样本数据了解计算统计量,带入下公式,求出回归系数回归系数b1584.0)()(21XXYYXXbiniii1353.0XbYaXY1584.01353.0作回归直线图作回归直线图带入下公式,求出回归截矩带入下公式,求出回归截矩a最小二乘法原则下的回归方程为:最小二乘法原则下的回归方程为:10.2.4 回归方程有统计学意义吗?回归方程有统计学意义吗?总体回归系数总体回归系数的统计推断:的统计推断:i样 本样 本Ya bx 样本回归方程样本回归方程就总体而言,这种回归关系是否存在?就总体而言,这种回归关系是否存在?即总体回归方程是否成立?即总体回归方程是否成立?Y
17、 X=+X假设检验假设检验回归模型的假设检验回归模型的假设检验(model test):):回归系数的假设检验:回归系数的假设检验:目的:检验求得的回归方程在总体中是目的:检验求得的回归方程在总体中是否成立;否成立;方法:单因素方差分析。方法:单因素方差分析。目的:目的:即检验总体回归体系数即检验总体回归体系数是否是否为为0(=0););方法:方法:t 检验。检验。1.回归模型的假设检验回归模型的假设检验方差分析方差分析 YYYYYY变异的分解:变异的分解:变异的种类变异的种类 产生原因产生原因解释解释SS总总:Y的离均差平方和的离均差平方和 没有利用没有利用X的信息的信息时,时,Y 观察值的
18、变异观察值的变异 反映因变量反映因变量Y的总变异的总变异SS回归回归:(回归平方和)(回归平方和)当自变量当自变量X引入引入 模型后所引起的变模型后所引起的变异异反映在反映在Y的总变异中,的总变异中,可可用用Y与与X的线性关系解释的的线性关系解释的那部分变异那部分变异。SS回归回归越大,越大,说明回归效果越好。说明回归效果越好。SS残差残差:(残差平方和)(残差平方和)总变异中无法用总变异中无法用X和和Y的回归关系解释的回归关系解释的那部分变异的那部分变异反应自变量反应自变量X以外因素对以外因素对Y的变异的影响的变异的影响。表示考虑。表示考虑回归之后,回归之后,Y的随机误差。的随机误差。问:所
19、求得的回归方程在总体中是否成立?问:所求得的回归方程在总体中是否成立?均方:均方:MS=SS/v回归均方:回归均方:MS回归回归=SS回归回归/v回归回归残差均方:残差均方:MS残差残差=SS残差残差/v残差残差2nSSSSSSSSMSMSF残差回归残差残差回归回归残差回归检验统计量:检验统计量:查查F界值表界值表(P572),确定单侧临界值),确定单侧临界值Fa a v回归回归,v残差残差,求概率值求概率值 P,下结论,下结论1.建立假设,确定检验水准建立假设,确定检验水准 H0:总体回归方程不成立,总体回归方程不成立,即总体中自变量即总体中自变量X对因变量对因变量Y没有贡献;没有贡献;H1
20、:总体回归方程成立,总体回归方程成立,即总体中自变量即总体中自变量X对;因变时对;因变时Y有贡献。有贡献。a a=0.05(单侧)(单侧)查查F 界值表(界值表(P572):):a=0.05,v回归回归=1、v残差残差=n-2=22得:得:F(k-1,n-k)=F(1,22)=4.303.确定确定P值,作出推断结论:值,作出推断结论:由于由于F=41.3764.30,则,则P0.05,故拒绝,故拒绝H0,接受,接受H1,可认为在可认为在a a=0.05 的显著水平上,的显著水平上,NO浓度与车流量之间浓度与车流量之间的回归方程具有统计学意义。的回归方程具有统计学意义。2.计算检验统计量计算检验
21、统计量F值:值:决定系数:回归平方和与总平方和之比。决定系数:回归平方和与总平方和之比。u0R21u反映了自变量反映了自变量X对回归效果的贡献,即对回归效果的贡献,即Y的总变异的总变异中回归关系所能解释的百分比(中回归关系所能解释的百分比(variance account formula,VAF););u反映了回归模型的拟合效果,可作为反应拟合优反映了回归模型的拟合效果,可作为反应拟合优度(度(goodness of fit)的指标)的指标。2R1SSSSSSSS 回归残差总总上例题:上例题:SS总总=0.0812,SS回归回归=0.0530 R2=SS回归回归/SS总总=0.0530/0.0
22、812=0.6527=65.27%解释:解释:说明空气中说明空气中NO浓度总变异的浓度总变异的65.27%与车流量与车流量有关。有关。2.回归系数的假设检验回归系数的假设检验 t 检验检验 =0,说明,说明Y与与X之间并不存在线性关系之间并不存在线性关系 0,说明,说明Y与与X之间存在线性关系之间存在线性关系由总体回归方程由总体回归方程 Y X=+x 当当=0=0时,时,Y X=即:对于即:对于X X 的任何值,总体均数的任何值,总体均数 Y X 没有任何改变,没有任何改变,故建立故建立Y Y与与的直线回归方程就没有任何意义了的直线回归方程就没有任何意义了故故 是否为是否为0,涉及到所建立的回
展开阅读全文