新人教A版(2019)《高中数学》选择性必修第三册第八章PPT课件(全册6份打包).rar.rar
8.1.18.1.1 变量的变量的相关关系相关关系油腻大叔是怎样炼成的油腻大叔是怎样炼成的年龄越大越年龄越大越“油油”?变量量1:年:年龄变量量2:脂肪含量:脂肪含量创设情境创设情境“统计统计”数据获取数据获取数据记录数据记录数据分析数据分析抽抽样方法方法统计图表表数据特征数据特征变量关系量关系适用于适用于单个个变量的分析量的分析适用于两个适用于两个变量的分析量的分析 在对人体脂肪含量和年龄的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如下表,表中每个编号下的年龄和脂肪含量数据都是对同一个个体的观测结果,它们构成了成对数据.编号1 12 23 34 45 56 67 7年龄2323272739394141454549495050脂肪9.59.517.817.821.221.225.925.9 27.527.5 26.326.3 28.228.2编号8 89 910101111121213131414年龄5353545456565757585860606161脂肪29.629.6 30.230.231.431.430.830.833.533.5 35.235.2 34.634.6探究新知探究新知编号1 12 23 34 45 56 67 7年龄2323272739394141454549495050脂肪9.59.517.817.821.221.225.925.9 27.527.5 26.326.3 28.228.2编号8 89 910101111121213131414年龄5353545456565757585860606161脂肪29.629.6 30.230.231.431.430.830.833.533.5 35.235.2 34.634.6探究新知探究新知追问追问1 1:脂肪含量随着年龄的变化有什么规律吗:脂肪含量随着年龄的变化有什么规律吗?从整体上看,脂肪含量随着年龄的增大而增大从整体上看,脂肪含量随着年龄的增大而增大追问追问2 2:根据规律:根据规律,2323岁的脂肪含量一定比岁的脂肪含量一定比3030岁的脂肪含量低吗岁的脂肪含量低吗?不一定不一定变量的相关关系:相关关系是一种不确定性关系相关关系是相对于函数关系而言的 像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.概念形成概念形成说明:正方形面积与边长正方形面积与边长是是确定关系,确定关系,是函是函数关系,数关系,y y可以由可以由x x唯一确定唯一确定1.1.判断下面两变量是否相关关系判断下面两变量是否相关关系(1 1)子女的身高)子女的身高y与父亲身高与父亲身高x(2 2)商品销售收入)商品销售收入y与广告支出与广告支出x(3 3)空气污染指数)空气污染指数y与汽车保有量与汽车保有量x(4 4)粮食亩产量)粮食亩产量y与施肥量与施肥量x(5 5)正方形的面积)正方形的面积y与正方形的边长与正方形的边长x小试牛刀小试牛刀 关系项目函数关系相关关系 相同点都是两个变量间的关系不同点是一种确定关系是一种非确定关系是一种因果关系不一定是因果关系,也可能是伴随关系相关关系与函数关系的异同点探究新知探究新知 因此,在研究两个变量之间的相关关系时,我们需要借助数据说话,即通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或推断.对两个变量之间的相关关系,我们往往会根据自己以往积累的经验作出推断.“经验之中有规律”,经验的确可以为我们的决策提供一定的依据,但仅凭经验推断又有不足.例如经验比较主观、经验不具有普适性等.两个变量之间相关关系的确定探究新知探究新知探究:探究:在对人体脂肪含量和年龄的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如下表,表中每个编号下的年龄和脂肪含量数据都是对同一个个体的观测结果,它们构成了成对数据.编号1 12 23 34 45 56 67 7年龄2323272739394141454549495050脂肪9.59.517.817.821.221.225.925.9 27.527.5 26.326.3 28.228.2编号8 89 910101111121213131414年龄5353545456565757585860606161脂肪29.629.6 30.230.231.431.430.830.833.533.5 35.235.2 34.634.6 根据上述数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?探究新知探究新知散点图问题问题问题问题1 1 1 1:如果用横轴表示年龄,纵轴表示脂肪含量,上述数据如果用横轴表示年龄,纵轴表示脂肪含量,上述数据用直角坐标系中的点表示出来,图有什么特征?用直角坐标系中的点表示出来,图有什么特征?成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们我们把这样的统计图叫做散点图散点图.探究新知探究新知特征特征:散点大致落在一条从左下角到右上角的直线附近:散点大致落在一条从左下角到右上角的直线附近散点图问题问题问题问题2 2 2 2:你能根据散点图的特征来解析数据得到的结论吗你能根据散点图的特征来解析数据得到的结论吗?探究新知探究新知 由散点图可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄值的增加,相应的脂肪含量值呈现增高的趋势.这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系.变量相关关系的分类(一)探究新知探究新知如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现减少的趋势,称这两个变量负相关负相关.当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关正相关.散点图中的点散布在散点图中的点散布在从从左下角到右上角左下角到右上角的区域的区域追问追问1:两个变量正相关、负相关时,成对样本数据的散点两个变量正相关、负相关时,成对样本数据的散点图有什么特点?图有什么特点?1520253035404550556065051015202530354020253035404550556065510152025303540散点图中的点散布在散点图中的点散布在从从左上角到右下角左上角到右下角的区域的区域探究新知探究新知正相关正相关负相关负相关线性相关线性相关 一般地一般地,如果两个变量的取值呈现正相关或负相关,而且如果两个变量的取值呈现正相关或负相关,而且散点散点落在一一条直线附近落在一一条直线附近,我们就称这两个变量,我们就称这两个变量线性相关线性相关.变量相关关系的分类(二)探究新知探究新知 一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.非非线性相关线性相关变量相关关系的分类(二)探究新知探究新知x10151720252832y11.31.822.62.73.3解:(1)散点图如右图所示:(2)由图可知,所有数据点接近直线排列,因此,认为y与x有线性相关关系,且为正相关.1.某公司的利润y(单位:千万元)与销售总额x(单位千万元)之间有如下表对应数据:(1)画出散点图;(2)判断y与x是否具有线性相关关系X30252015100535Y0.511.52 2.53 3.5巩固练习巩固练习1.变量的相关关系2.散点图3.变量相关关系的分类正相关和负相关线性相关和非线性相关课堂小结课堂小结8.2.1一元线性回归模型收集数据收集数据整理数据整理数据分析数据分析数据统计推断统计推断研究统计问题的一般流程:研究统计问题的一般流程:简单随机抽样简单随机抽样分层抽样分层抽样频数分布表频数分布表频率分布直方图频率分布直方图茎叶图茎叶图散点图散点图.众数众数中位数中位数平均数平均数方差方差标准差标准差用样本估计总体用样本估计总体?单单一一数数据据成成对对数数据据单单一一数数据据线性相关系数线性相关系数r.成成对对数数据据离散型随机变量离散型随机变量.连续型随机变量连续型随机变量(正态分布)(正态分布)复习引入问题问题1:生活经验告诉我们,儿子的身高与父亲的身高相关生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,一般来说,父亲的身高较高时,儿子的身高通常也较高父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间为了进一步研究两者之间的关系,有人调查了的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数名男大学生的身高及其父亲的身高,得到的数据如表据如表1所示所示.编号1234567891011121314父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182探究新知172父亲身高父亲身高176174儿子身高儿子身高儿子身高不是父亲身高的函数儿子身高不是父亲身高的函数思考思考1:根据表中的数据,儿子身高和父亲身高这两个变量之间的根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?关系可以用函数模型刻画吗?探究新知编号1234567891011121314父亲身高/cm174 170 173 169 182 172 180 172 168 166 182 173 164 180儿子身高/cm176 176 170 170 185 176 178 174 170 168 178 172 165 182思考思考1:根据表中的数据,儿子身高和父亲身高这两个变量之间的根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?关系可以用函数模型刻画吗?探究新知编号1234567891011121314父亲身高/cm174 170 173 169 182 172 180 172 168 166 182 173 164 180儿子身高/cm176 176 170 170 185 176 178 174 170 168 178 172 165 182170儿子身高儿子身高173169父亲身高父亲身高父亲身高不是儿子身高的函数父亲身高不是儿子身高的函数.利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,将表格中的成对样本数据表示为散点图,如下图所示:立直角坐标系,将表格中的成对样本数据表示为散点图,如下图所示:探究新知思考2:经过刚才的分析,你觉得儿子身高与父亲身高的关系是怎样的?儿子身高与父亲身高不是函数关系,而是相关关系.追问:儿子身高与父亲身高的关系是正相关还是负相关?是线性相关还是曲线相关?随着父亲身高的增加,儿子身高呈增加的趋势,所以是正相关.优先考虑线性相关.儿子身高与父亲身高呈正线性相关关系探究新知思考3:能否进一步验证刚才的结论?样本相关系数为:表明儿子身高和父亲身高正线性相关,且相关程度较高.探究新知探究新知思考4:除父亲身高外,还有哪些因素影响儿子的身高?除父亲身高外,还有哪些因素影响儿子的身高?随机误差随机误差e母亲身高生活环境饮食习惯体育锻炼追问:追问:如何理解随机误差如何理解随机误差e对儿子身高的影响?对儿子身高的影响?假设没有随机误差,则儿子身高x只受父亲身高Y影响,则事实上,相关系数 ,故也可以记作探究新知思考5:随机误差随机误差e有哪些特征?有哪些特征?随机误差e是一个随机变量可取正或取负有些无法测量不可事先设定 因为误差是随机的,即取各种正负误差的因为误差是随机的,即取各种正负误差的可能性一样,所以可能性一样,所以它们均值的它们均值的理想状态应该为理想状态应该为0.探究新知追问1:为什么要假设为什么要假设E(e)=0,而不假设其为某个不为,而不假设其为某个不为0的常数?的常数?探究新知思考6:你能否考虑到上述随机因素的作用,用类似于函数的表达式,表达儿子身高与父亲身高的关系吗?我们称(1)式为Y关于x的一元线性回归模型.如果用x表示父亲身高,Y表示儿子身高,e表示随机误差.假定随机误差的均值为0,方差为与父亲身高无关的定值2,则它们之间的关系可以表示为 其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数.函数模型与函数模型与回归模型有什回归模型有什么区别?么区别?追问1:你能结合父亲与儿子身高的实例,说明回归模型(1)的意义?探究新知追问2:对于父亲身高为xi的某一名男大学生,他的身高yi一定是bxi+a吗?(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等生活环境、饮食习惯和锻炼时间等;(2)在测量儿子身高时,由于测量工具、测量精度所产生的在测量儿子身高时,由于测量工具、测量精度所产生的测量误差测量误差;(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来可以利用一元线性回归模型来近似近似这种关系,这种近似关系也是产生这种关系,这种近似关系也是产生随机误差随机误差e的原因的原因.产生随机误差产生随机误差e的原因有:的原因有:追问3:你能结合具体实例解释产生模型(1)中随机误差项的原因吗?探究新知典例分析2.2.建立一元线性回归模型的步骤建立一元线性回归模型的步骤1.1.一元线性回归模型一元线性回归模型(1)与函数模型的区别 (2)随机误差产生的原因及分布 定性分析定量分析函数关系 or 相关关系 or 没有关系?课堂小结8.2.2一元线性回归模型参数的最小二乘估计问题问题1:为了研究两个变量之间的相关关系,我们建立了一元线性回为了研究两个变量之间的相关关系,我们建立了一元线性回归模型归模型表表达式达式 刻画的是变量刻画的是变量Y与变量与变量x之间的线性相关关系,其中参数之间的线性相关关系,其中参数a和和b未知,未知,我们能否通过样本数据估计参数我们能否通过样本数据估计参数a和和b?参数参数a和和b刻画了变量刻画了变量Y与变量与变量x的线性关系,因此通过样本数据估计的线性关系,因此通过样本数据估计这两个参数,这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近点在整体上与这条直线最接近.与函数模型不同,回归模型的参数一般是与函数模型不同,回归模型的参数一般是无法精确求出的无法精确求出的,只能,只能通过成对样本数据通过成对样本数据估计估计这两个参数这两个参数.问题引入思考1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?思路思路1 1:先画出一条直线,先画出一条直线,测量出各点到直线的距离,测量出各点到直线的距离,然后移动直线,然后移动直线,到达一个到达一个使距离的和最小的位置使距离的和最小的位置,测量出此时的斜率和截距,测量出此时的斜率和截距,就得到一条直线就得到一条直线160 165 170 175 180 儿子身高/cm父亲身高/cm190185180175170165160探究新知思路思路2 2:可以在散点图可以在散点图中选两点画一条直线,中选两点画一条直线,使得直线两侧点的个数使得直线两侧点的个数基本相同基本相同,把这条直线,把这条直线作为所求直线作为所求直线160 165 170 175 180 儿子身高/cm父亲身高/cm190185180175170165160思考1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?探究新知思路思路3 3:在散点图中多取在散点图中多取几对点,确定出几条直线,几对点,确定出几条直线,再分别再分别求出这些直线的斜求出这些直线的斜率、截距的平均数率、截距的平均数作为所作为所求直线的斜率和截距求直线的斜率和截距160 165 170 175 180 儿子身高/cm父亲身高/cm190185180175170165160思考1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?探究新知160 165 170 175 180 185儿子身高/cm父亲身高/cm190185180175170165160 设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),(xn,yn)设 表示点 到直线 的距离,表示点 到直线的竖直距离,表示直线 的倾斜角,则 ,所以思路1可以用中的距离可以用竖直距离替换.探究新知 由 ,得 .显然 越小,表示点 与点 的“距离”越小,即样本数据点离直线的竖直距离越小.因此可以用这n个竖直距离之和 来刻画各样本观测数据与直线 的“整体接近程度”.求求a,b的值,使的值,使Q(a,b)最小最小探究新知残差平方和:残差:实际值与估计值之间的差值,即思考2:如何求a,b的值,使 最小?记记探究新知注意到注意到所以所以当当 取最小值时,取最小值时,取最小值取最小值0,即,即 .此时此时探究新知上式是关于上式是关于b的二次函数的二次函数,因此要使因此要使Q取得最小值取得最小值,当且仅当当且仅当b的取值为的取值为综上,当综上,当a,b的取值为的取值为 时时,Q达到最小达到最小.探究新知易得易得:(1 1)经验回归直线必过样本中心)经验回归直线必过样本中心 ;(2 2)与相关系数与相关系数r符号相同符号相同.我们将我们将 称为称为Y 关于关于x 的的经验回归方程经验回归方程,也称,也称经验回归经验回归函数函数或或经验回归公式经验回归公式,其图形称为,其图形称为经验回归直线经验回归直线,这种求经验回归方,这种求经验回归方程的方法叫程的方法叫最小二乘法,最小二乘法,求得的求得的 ,叫做叫做b,a的的最小二乘估计最小二乘估计探究新知问题问题2:利用上节课的数据,依据用最小二乘估计一元线性回归模型利用上节课的数据,依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高参数的公式,求出儿子身高Y关于父亲身高关于父亲身高x的经验回归方程的经验回归方程.探究新知 利用公式利用公式(2)可以可以计算出计算出b=0.839,a=28.957,得到儿子得到儿子身高身高Y关于父亲身高关于父亲身高x的经验回归方程为的经验回归方程为160 165 170 175 180 185儿子身高/cm父亲身高/cm190185180175170165160相应的经验回归直线如下图所示:相应的经验回归直线如下图所示:追问1:当x=176时,,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?探究新知 儿子的身高不一定会是儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,这是因为还有其他影响儿子身高的因素,回归模型中的回归模型中的随机误差清楚地表达了这种影响随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高时,儿子身高一般在一般在177cm左右左右.如果把父亲身高为如果把父亲身高为176cm的所有儿子身高作为一个子总体,那么的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值是这个子总体均值的估计值.追问2:根据经验回归方程 中斜率的具体含义,高个子的父亲一定生高个子的儿子吗?同样,矮个子的父亲一定生矮个子的儿子吗?根据经验回归方程 中斜率0.839可以解释为父亲身高每增加1cm,其儿子的身高平均增加0.839cm.探究新知 分析模型可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如x=185(cm),则 矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如x=170(cm),则 英国著名统计学家高尔顿把这种后代的身高像中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.探究新知 对于响应变量Y,通过观测得到的数据为观测值,通过经验回归方程得到的 称为预测值,观测值减去预测值称为残差,即 .残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.思考:儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模型的有效性吗?探究新知 残差图残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据或体重估计值等,这样作出的图形称为残差图从上面的残差图可以看出,残差有正有负,残差点比较均匀地分布在横轴的两边,可以判断样本数据基本满足一元线性回归模型对于随机误差的假设.所以,通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假设,从而判断回归模型拟合的有效性.探究新知为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如下图所示:(1)(2)(3)追问:追问:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?机误差的假定?探究新知(4)图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;图(3)说明残差的方差不是一个常数,随观测时间变大而变大图图(4)(4)的残差的残差比较比较均匀地集均匀地集中在以横轴为中在以横轴为对称轴的水平对称轴的水平带状区域内带状区域内.一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.2.残差的平方和越小越好;3.原始数据中的可疑数据往往是残差绝对值过大的数据;4.对数据刻画效果比较好的残差图特征:残差点比较均匀的集中在水平带状区域内探究新知1.残差等于观测值减预测值残差的性质:1.关于残差图的描述错误的是()A.残差图的横坐标可以是样本编号B.残差图的横坐标也可以是解释变量或预报变量C.残差点分布的带状区域的宽度越窄相关指数越小D.残差点分布的带状区域的宽度越窄残差平方和越小C巩固练习2.已知变量x,Y之间具有线性相关关系,其散点图如图所示,则其经验回归方程可能为()A.=1.5x+2B.=-1.5x+2C.=1.5x-2D.=-1.5x-2Bx x2 24 45 56 68 8Y Y303040406060505070703.某种产品的广告支出费用x(单位:万元)与销售额Y(单位:万元)的数据如表:已知Y关于x的经验回归方程为=6.5x+17.5,则当广告支出费用为5万元时,残差为_.当x=5时,=6.55+17.5=50,表格中对应y=60,于是残差为60-50=10.10巩固练习4.根据如下样本数据:得到的经验回归方程为 ,则则()B 巩固练习x2 23 34 45 56 6Y4 42.52.5-0.5-0.5-2-2-3-31.经验回归方程 ,其中2.残差分析课堂小结 残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.8.2.2 一元线性回归模型参数的最小二乘估计1.经验回归方程 ,其中2.残差分析 残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.复习引入编号123456胸径/cm18.120.122.224.426.028.3树高/m18.819.221.021.022.122.1编号789101112胸径/cm29.632.433.735.738.340.2树高/m22.422.623.024.323.924.7 例 经验表明,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程.探究新知解:以胸径为横坐标,树高为纵坐标作散点图如下:散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.探究新知30252015 242216 1820树高/m 35 40 45 胸径/cm 26 探究新知 用d表示胸径,h表示树高,根据据最小二乘法,计算可得经验回归方程为相应的经验回归直线如图所示:30252015 242216 1820树高/m 35 40 45 胸径/cm 26 根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.编号号胸径胸径/cm树高高观测值/m 树高高预测值/m残差残差/m118.1 18.8 19.4-0.6 220.1 19.2 19.9-0.7 322.2 21.0 20.4 0.6 424.4 21.0 20.9 0.1 526.0 22.1 21.3 0.8 628.3 22.1 21.9 0.2 729.6 22.4 22.2 0.2 832.4 22.6 22.9-0.3 933.7 23.0 23.2-0.2 1035.7 24.3 23.7 0.6 1138.3 23.9 24.4-0.5 1240.2 24.7 24.9-0.2 探究新知以胸径为横坐标,残差为纵坐标,作残差图,得到下图.30252015-1.0 -0.5 0.0 0.5 1.0残差/m 35 40 45 胸径/cm 观察残差表和残差图,可以看到残差的绝对值最大是 0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.探究新知编号12345678年份18961912192119301936195619601968记录/s11.8010.6010.4010.3010.2010.1010.009.95 问题 人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.探究新知 以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图1920191019001890 11.511.09.5 10.010.5记录/s 19301940 1950年份 12.01960 1970 在左图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.将经验回归直线叠加到散点图,得到下图:用Y表示男子短跑100m的世界纪录,t表示纪录产生的年份,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系.根据最小二乘法,由表中的数据得到经验回归方程为探究新知1920191019001890 11.511.09.5 10.010.5Y/s 19301940 1950t 12.01960 1970 第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.探究新知思考:从图中可以看到,经验回归方程较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗?1920191019001890 11.511.09.5 10.010.5Y/s 19301940 1950t 12.01960 1970 回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征思考:你能对模型进行修改,以使其更好地反映散点的分布特征吗?仔细观察,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近 注意到100m短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=f(t)=c1+c2ln(t-1895)的周围,其中c1,c2为未知参数,且c20.探究新知1920191019001890 11.511.09.5 10.010.5Y/s 19301940 1950t 12.01960 1970 y=f(t)=c1+c2ln(t-1895)令x=ln(t-1895),则 Y=c2x+c1编号12345678年份/t18961912192119301936195619601968x0.002.833.263.563.714.114.174.29记录/s11.8010.6010.4010.3010.2010.1010.009.95这是一个非线性经验回归函数,如何利用成对数据估计参数c1,c2对数据进行变化可得下表:探究新知对数据进行变化可得下表:得到散点图如下:由表中的数据得到经验回归方程为:探究新知将经验回归直线叠加到散点图,如图所示:上图表明,经验回归方程对于成对数据具有非常好的拟合精度.,得将x=ln(t-1895)代入思考:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?(1)直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程的图象(蓝色)以及经验回归方程的图象(红色).探究新知 我们发现,散点图中各散点都非常靠近的图象,表明非线性经验回归方程对于原始数据的拟合效果远远好于经验回归方程.(2)残差分析:残差平方和越小,模型拟合效果越好.Q2明显小于Q1,说明非线性回归方程的拟合效果要优于线性回归方程.思考:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?探究新知(3)利用决定系数R2刻画回归效果.思考:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?探究新知R2越大,表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.和的R2分别为0.7325和0.9983 在一元线性回归模型中 R2=r2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.显然0R21,R2越接近1,则线性回归刻画的效果越好.在使用经验回归方程进行预测时,需注意以下问题1.回归方程只适用于我们所研究的样本的总体;2.我们所建立的回归方程一般都有时间性;3.样本采集的范围会影响回归方程的适用范围;4.不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.探究新知1.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:推销员编号12345工作年限x/年35679推销金额y/万元23345(1)画出散点图.(2)建立年推销金额 y 关于工作年限 x 的经验回归方程;(3)说明回归模型拟合效果的好坏;(4)若第6名推销员的工作年限为11年,预测他的年推销金额巩固练习参考数据:工作年限x/年工作年限y/年02468100123456解:(1)以工作年限为x轴,推销金额为y轴,画出散点图如下:散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关.巩固练习(2)设所求的线性回归方程为 ,则所以年推销金额y关于工作年限x的线性回归方程为 .巩固练习所以回归模型拟合效果很好.(3)所以可以估计第6名推销员的年推销金额为5.9万元.(4)当x=11时,(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量(2)画出解释变量与响应变量的散点图,观察它们之间的关系 (如是否存在线性关系等)(3)由经验确定回归方程的类型(4)按一定规则(如最小二乘法)估计经验回归方程中的参数.(5)得出结果后需进行线性回归分析.残差平方和越小,模型的拟合效果越好.决定系数R2取值越大,说明模型的拟合效果越好.建立线性回归模型的基本步骤:注意:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可.归纳总结巩固练习2.某企业新研发了一种产品,产品的成本由原料成本及非原料成本.每件产品的非原料成本y(元)与生产的数量x(千件)有关,经统计得到如下数据:根据以上数据,绘制了散点图.x12345678y1126144.53530.5282524 观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型 和指数函数模型 分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为 ,lny与x的相关系数r1=-0.94.(1)用反比例函数模型求y关于x的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;参考公式:对于一组数据(u1,y1),(u2,y2),(un,yn),其回归直线 yabu 的斜率和截距的最小二乘估计分别为:x12345678y1126144.53530.5282524巩固练习183.40.340.1151.5336022385.561.40.135这里解:(1)令 ,则 可转化为因为 ,所以所以y关于x的回归方程为巩固练习已求得用指数函数模型拟合的回归方程为 ,lny与x的相关系数r1=-0.94.(2)y与 相关系数为因为|r1|r2|,所以用反比例函数模型拟合效果更好.当x=10时,所以当产量为10千件时,每件产品的非原料成本为21元.建立非线性经验回归模型的基本步骤:1.确定研究对象,明确哪个是解释变量,哪个是响应变量;2.由经验确定非线性经验回归方程的模型;3.通过变换变换,将非线性非线性经验回归模型转化转化为线性经验回归模型线性经验回归模型;4.按照公式计算经验回归方程中的参数,得到经验回归方程;5.消去新元,得到非线性经验回归方程;6.得出结果后分析残差图是否有异常 归纳总结非线性回归分析非线性回归分析(1)指数型函数指数型函数 y=ebx+a 类类函数函数 y=ebx+a 的图象,如图所示的图象,如图所示线性回归分析线性回归分析两边取对数得两边取对数得ln y=ln ebx+a,即,即 ln y=bx+a令令z=ln y,把原始数据把原始数据(x,y)转化为转化为(x,z),再根据再根据求解线性回归模型的方法求出求解线性回归模型的方法求出a,b.归纳总结(2)对数型函数对数型函数 y=b ln x+a 类类函数函数 y=b ln x+a 的图象,如图所示的图象,如图所示设设u=ln x,原方程可转化为,原方程可转化为 y=bu+a把原始数据把原始数据(x,y)转化为转化为(u,y),再根据,再根据求解线性回归模型的方法求出求解线性回归模型的方法求出a,b.1.残差平方和:2.最小二乘法将 称为Y 关于x 的经验回归方程3.判断模型拟合的效果:课堂小结残差分析8.3.1 分类变量与列联表吸烟的危害吸烟的危害吸烟已成为全球范围内严重危害健康、吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题为此,联合国缩短人类寿命的紧迫问题为此,联合国固定每年固定每年5月月31日为全球戒烟日日为全球戒烟日创设情境 在现实生活中,人们经常需要回答一定范围内的在现实生活中,人们经常需要回答一定范围内的两种两种现象或性质之间是否存在关联性现象或性质之间是否存在关联性或或互相影响互相影响的问题的问题.吸烟是否会增加患肺癌的风险?吸烟是否会增加患肺癌的风险?探究新知分类变量分类变量是区别是区别不同的现象和性质不同的现象和性质的一种的一种特殊的特殊的随机变量随机变量本节主要讨
收藏
- 资源描述:
-
8.1.18.1.1 变量的变量的相关关系相关关系油腻大叔是怎样炼成的油腻大叔是怎样炼成的年龄越大越年龄越大越“油油”?变量量1:年:年龄变量量2:脂肪含量:脂肪含量创设情境创设情境“统计统计”数据获取数据获取数据记录数据记录数据分析数据分析抽抽样方法方法统计图表表数据特征数据特征变量关系量关系适用于适用于单个个变量的分析量的分析适用于两个适用于两个变量的分析量的分析 在对人体脂肪含量和年龄的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如下表,表中每个编号下的年龄和脂肪含量数据都是对同一个个体的观测结果,它们构成了成对数据.编号1 12 23 34 45 56 67 7年龄2323272739394141454549495050脂肪9.59.517.817.821.221.225.925.9 27.527.5 26.326.3 28.228.2编号8 89 910101111121213131414年龄5353545456565757585860606161脂肪29.629.6 30.230.231.431.430.830.833.533.5 35.235.2 34.634.6探究新知探究新知编号1 12 23 34 45 56 67 7年龄2323272739394141454549495050脂肪9.59.517.817.821.221.225.925.9 27.527.5 26.326.3 28.228.2编号8 89 910101111121213131414年龄5353545456565757585860606161脂肪29.629.6 30.230.231.431.430.830.833.533.5 35.235.2 34.634.6探究新知探究新知追问追问1 1:脂肪含量随着年龄的变化有什么规律吗:脂肪含量随着年龄的变化有什么规律吗?从整体上看,脂肪含量随着年龄的增大而增大从整体上看,脂肪含量随着年龄的增大而增大追问追问2 2:根据规律:根据规律,2323岁的脂肪含量一定比岁的脂肪含量一定比3030岁的脂肪含量低吗岁的脂肪含量低吗?不一定不一定变量的相关关系:相关关系是一种不确定性关系相关关系是相对于函数关系而言的 像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.概念形成概念形成说明:正方形面积与边长正方形面积与边长是是确定关系,确定关系,是函是函数关系,数关系,y y可以由可以由x x唯一确定唯一确定1.1.判断下面两变量是否相关关系判断下面两变量是否相关关系(1 1)子女的身高)子女的身高y与父亲身高与父亲身高x(2 2)商品销售收入)商品销售收入y与广告支出与广告支出x(3 3)空气污染指数)空气污染指数y与汽车保有量与汽车保有量x(4 4)粮食亩产量)粮食亩产量y与施肥量与施肥量x(5 5)正方形的面积)正方形的面积y与正方形的边长与正方形的边长x小试牛刀小试牛刀 关系项目函数关系相关关系 相同点都是两个变量间的关系不同点是一种确定关系是一种非确定关系是一种因果关系不一定是因果关系,也可能是伴随关系相关关系与函数关系的异同点探究新知探究新知 因此,在研究两个变量之间的相关关系时,我们需要借助数据说话,即通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或推断.对两个变量之间的相关关系,我们往往会根据自己以往积累的经验作出推断.“经验之中有规律”,经验的确可以为我们的决策提供一定的依据,但仅凭经验推断又有不足.例如经验比较主观、经验不具有普适性等.两个变量之间相关关系的确定探究新知探究新知探究:探究:在对人体脂肪含量和年龄的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如下表,表中每个编号下的年龄和脂肪含量数据都是对同一个个体的观测结果,它们构成了成对数据.编号1 12 23 34 45 56 67 7年龄2323272739394141454549495050脂肪9.59.517.817.821.221.225.925.9 27.527.5 26.326.3 28.228.2编号8 89 910101111121213131414年龄5353545456565757585860606161脂肪29.629.6 30.230.231.431.430.830.833.533.5 35.235.2 34.634.6 根据上述数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?探究新知探究新知散点图问题问题问题问题1 1 1 1:如果用横轴表示年龄,纵轴表示脂肪含量,上述数据如果用横轴表示年龄,纵轴表示脂肪含量,上述数据用直角坐标系中的点表示出来,图有什么特征?用直角坐标系中的点表示出来,图有什么特征?成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们我们把这样的统计图叫做散点图散点图.探究新知探究新知特征特征:散点大致落在一条从左下角到右上角的直线附近:散点大致落在一条从左下角到右上角的直线附近散点图问题问题问题问题2 2 2 2:你能根据散点图的特征来解析数据得到的结论吗你能根据散点图的特征来解析数据得到的结论吗?探究新知探究新知 由散点图可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄值的增加,相应的脂肪含量值呈现增高的趋势.这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系.变量相关关系的分类(一)探究新知探究新知如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现减少的趋势,称这两个变量负相关负相关.当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关正相关.散点图中的点散布在散点图中的点散布在从从左下角到右上角左下角到右上角的区域的区域追问追问1:两个变量正相关、负相关时,成对样本数据的散点两个变量正相关、负相关时,成对样本数据的散点图有什么特点?图有什么特点?1520253035404550556065051015202530354020253035404550556065510152025303540散点图中的点散布在散点图中的点散布在从从左上角到右下角左上角到右下角的区域的区域探究新知探究新知正相关正相关负相关负相关线性相关线性相关 一般地一般地,如果两个变量的取值呈现正相关或负相关,而且如果两个变量的取值呈现正相关或负相关,而且散点散点落在一一条直线附近落在一一条直线附近,我们就称这两个变量,我们就称这两个变量线性相关线性相关.变量相关关系的分类(二)探究新知探究新知 一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.非非线性相关线性相关变量相关关系的分类(二)探究新知探究新知x10151720252832y11.31.822.62.73.3解:(1)散点图如右图所示:(2)由图可知,所有数据点接近直线排列,因此,认为y与x有线性相关关系,且为正相关.1.某公司的利润y(单位:千万元)与销售总额x(单位千万元)之间有如下表对应数据:(1)画出散点图;(2)判断y与x是否具有线性相关关系X30252015100535Y0.511.52 2.53 3.5巩固练习巩固练习1.变量的相关关系2.散点图3.变量相关关系的分类正相关和负相关线性相关和非线性相关课堂小结课堂小结8.2.1一元线性回归模型收集数据收集数据整理数据整理数据分析数据分析数据统计推断统计推断研究统计问题的一般流程:研究统计问题的一般流程:简单随机抽样简单随机抽样分层抽样分层抽样频数分布表频数分布表频率分布直方图频率分布直方图茎叶图茎叶图散点图散点图.众数众数中位数中位数平均数平均数方差方差标准差标准差用样本估计总体用样本估计总体?单单一一数数据据成成对对数数据据单单一一数数据据线性相关系数线性相关系数r.成成对对数数据据离散型随机变量离散型随机变量.连续型随机变量连续型随机变量(正态分布)(正态分布)复习引入问题问题1:生活经验告诉我们,儿子的身高与父亲的身高相关生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,一般来说,父亲的身高较高时,儿子的身高通常也较高父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间为了进一步研究两者之间的关系,有人调查了的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数名男大学生的身高及其父亲的身高,得到的数据如表据如表1所示所示.编号1234567891011121314父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182探究新知172父亲身高父亲身高176174儿子身高儿子身高儿子身高不是父亲身高的函数儿子身高不是父亲身高的函数思考思考1:根据表中的数据,儿子身高和父亲身高这两个变量之间的根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?关系可以用函数模型刻画吗?探究新知编号1234567891011121314父亲身高/cm174 170 173 169 182 172 180 172 168 166 182 173 164 180儿子身高/cm176 176 170 170 185 176 178 174 170 168 178 172 165 182思考思考1:根据表中的数据,儿子身高和父亲身高这两个变量之间的根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?关系可以用函数模型刻画吗?探究新知编号1234567891011121314父亲身高/cm174 170 173 169 182 172 180 172 168 166 182 173 164 180儿子身高/cm176 176 170 170 185 176 178 174 170 168 178 172 165 182170儿子身高儿子身高173169父亲身高父亲身高父亲身高不是儿子身高的函数父亲身高不是儿子身高的函数.利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,将表格中的成对样本数据表示为散点图,如下图所示:立直角坐标系,将表格中的成对样本数据表示为散点图,如下图所示:探究新知思考2:经过刚才的分析,你觉得儿子身高与父亲身高的关系是怎样的?儿子身高与父亲身高不是函数关系,而是相关关系.追问:儿子身高与父亲身高的关系是正相关还是负相关?是线性相关还是曲线相关?随着父亲身高的增加,儿子身高呈增加的趋势,所以是正相关.优先考虑线性相关.儿子身高与父亲身高呈正线性相关关系探究新知思考3:能否进一步验证刚才的结论?样本相关系数为:表明儿子身高和父亲身高正线性相关,且相关程度较高.探究新知探究新知思考4:除父亲身高外,还有哪些因素影响儿子的身高?除父亲身高外,还有哪些因素影响儿子的身高?随机误差随机误差e母亲身高生活环境饮食习惯体育锻炼追问:追问:如何理解随机误差如何理解随机误差e对儿子身高的影响?对儿子身高的影响?假设没有随机误差,则儿子身高x只受父亲身高Y影响,则事实上,相关系数 ,故也可以记作探究新知思考5:随机误差随机误差e有哪些特征?有哪些特征?随机误差e是一个随机变量可取正或取负有些无法测量不可事先设定 因为误差是随机的,即取各种正负误差的因为误差是随机的,即取各种正负误差的可能性一样,所以可能性一样,所以它们均值的它们均值的理想状态应该为理想状态应该为0.探究新知追问1:为什么要假设为什么要假设E(e)=0,而不假设其为某个不为,而不假设其为某个不为0的常数?的常数?探究新知思考6:你能否考虑到上述随机因素的作用,用类似于函数的表达式,表达儿子身高与父亲身高的关系吗?我们称(1)式为Y关于x的一元线性回归模型.如果用x表示父亲身高,Y表示儿子身高,e表示随机误差.假定随机误差的均值为0,方差为与父亲身高无关的定值2,则它们之间的关系可以表示为 其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数.函数模型与函数模型与回归模型有什回归模型有什么区别?么区别?追问1:你能结合父亲与儿子身高的实例,说明回归模型(1)的意义?探究新知追问2:对于父亲身高为xi的某一名男大学生,他的身高yi一定是bxi+a吗?(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等生活环境、饮食习惯和锻炼时间等;(2)在测量儿子身高时,由于测量工具、测量精度所产生的在测量儿子身高时,由于测量工具、测量精度所产生的测量误差测量误差;(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来可以利用一元线性回归模型来近似近似这种关系,这种近似关系也是产生这种关系,这种近似关系也是产生随机误差随机误差e的原因的原因.产生随机误差产生随机误差e的原因有:的原因有:追问3:你能结合具体实例解释产生模型(1)中随机误差项的原因吗?探究新知典例分析2.2.建立一元线性回归模型的步骤建立一元线性回归模型的步骤1.1.一元线性回归模型一元线性回归模型(1)与函数模型的区别 (2)随机误差产生的原因及分布 定性分析定量分析函数关系 or 相关关系 or 没有关系?课堂小结8.2.2一元线性回归模型参数的最小二乘估计问题问题1:为了研究两个变量之间的相关关系,我们建立了一元线性回为了研究两个变量之间的相关关系,我们建立了一元线性回归模型归模型表表达式达式 刻画的是变量刻画的是变量Y与变量与变量x之间的线性相关关系,其中参数之间的线性相关关系,其中参数a和和b未知,未知,我们能否通过样本数据估计参数我们能否通过样本数据估计参数a和和b?参数参数a和和b刻画了变量刻画了变量Y与变量与变量x的线性关系,因此通过样本数据估计的线性关系,因此通过样本数据估计这两个参数,这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近点在整体上与这条直线最接近.与函数模型不同,回归模型的参数一般是与函数模型不同,回归模型的参数一般是无法精确求出的无法精确求出的,只能,只能通过成对样本数据通过成对样本数据估计估计这两个参数这两个参数.问题引入思考1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?思路思路1 1:先画出一条直线,先画出一条直线,测量出各点到直线的距离,测量出各点到直线的距离,然后移动直线,然后移动直线,到达一个到达一个使距离的和最小的位置使距离的和最小的位置,测量出此时的斜率和截距,测量出此时的斜率和截距,就得到一条直线就得到一条直线160 165 170 175 180 儿子身高/cm父亲身高/cm190185180175170165160探究新知思路思路2 2:可以在散点图可以在散点图中选两点画一条直线,中选两点画一条直线,使得直线两侧点的个数使得直线两侧点的个数基本相同基本相同,把这条直线,把这条直线作为所求直线作为所求直线160 165 170 175 180 儿子身高/cm父亲身高/cm190185180175170165160思考1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?探究新知思路思路3 3:在散点图中多取在散点图中多取几对点,确定出几条直线,几对点,确定出几条直线,再分别再分别求出这些直线的斜求出这些直线的斜率、截距的平均数率、截距的平均数作为所作为所求直线的斜率和截距求直线的斜率和截距160 165 170 175 180 儿子身高/cm父亲身高/cm190185180175170165160思考1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?探究新知160 165 170 175 180 185儿子身高/cm父亲身高/cm190185180175170165160 设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),(xn,yn)设 表示点 到直线 的距离,表示点 到直线的竖直距离,表示直线 的倾斜角,则 ,所以思路1可以用中的距离可以用竖直距离替换.探究新知 由 ,得 .显然 越小,表示点 与点 的“距离”越小,即样本数据点离直线的竖直距离越小.因此可以用这n个竖直距离之和 来刻画各样本观测数据与直线 的“整体接近程度”.求求a,b的值,使的值,使Q(a,b)最小最小探究新知残差平方和:残差:实际值与估计值之间的差值,即思考2:如何求a,b的值,使 最小?记记探究新知注意到注意到所以所以当当 取最小值时,取最小值时,取最小值取最小值0,即,即 .此时此时探究新知上式是关于上式是关于b的二次函数的二次函数,因此要使因此要使Q取得最小值取得最小值,当且仅当当且仅当b的取值为的取值为综上,当综上,当a,b的取值为的取值为 时时,Q达到最小达到最小.探究新知易得易得:(1 1)经验回归直线必过样本中心)经验回归直线必过样本中心 ;(2 2)与相关系数与相关系数r符号相同符号相同.我们将我们将 称为称为Y 关于关于x 的的经验回归方程经验回归方程,也称,也称经验回归经验回归函数函数或或经验回归公式经验回归公式,其图形称为,其图形称为经验回归直线经验回归直线,这种求经验回归方,这种求经验回归方程的方法叫程的方法叫最小二乘法,最小二乘法,求得的求得的 ,叫做叫做b,a的的最小二乘估计最小二乘估计探究新知问题问题2:利用上节课的数据,依据用最小二乘估计一元线性回归模型利用上节课的数据,依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高参数的公式,求出儿子身高Y关于父亲身高关于父亲身高x的经验回归方程的经验回归方程.探究新知 利用公式利用公式(2)可以可以计算出计算出b=0.839,a=28.957,得到儿子得到儿子身高身高Y关于父亲身高关于父亲身高x的经验回归方程为的经验回归方程为160 165 170 175 180 185儿子身高/cm父亲身高/cm190185180175170165160相应的经验回归直线如下图所示:相应的经验回归直线如下图所示:追问1:当x=176时,,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?探究新知 儿子的身高不一定会是儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,这是因为还有其他影响儿子身高的因素,回归模型中的回归模型中的随机误差清楚地表达了这种影响随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高时,儿子身高一般在一般在177cm左右左右.如果把父亲身高为如果把父亲身高为176cm的所有儿子身高作为一个子总体,那么的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值是这个子总体均值的估计值.追问2:根据经验回归方程 中斜率的具体含义,高个子的父亲一定生高个子的儿子吗?同样,矮个子的父亲一定生矮个子的儿子吗?根据经验回归方程 中斜率0.839可以解释为父亲身高每增加1cm,其儿子的身高平均增加0.839cm.探究新知 分析模型可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如x=185(cm),则 矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如x=170(cm),则 英国著名统计学家高尔顿把这种后代的身高像中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.探究新知 对于响应变量Y,通过观测得到的数据为观测值,通过经验回归方程得到的 称为预测值,观测值减去预测值称为残差,即 .残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.思考:儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模型的有效性吗?探究新知 残差图残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据或体重估计值等,这样作出的图形称为残差图从上面的残差图可以看出,残差有正有负,残差点比较均匀地分布在横轴的两边,可以判断样本数据基本满足一元线性回归模型对于随机误差的假设.所以,通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假设,从而判断回归模型拟合的有效性.探究新知为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如下图所示:(1)(2)(3)追问:追问:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?机误差的假定?探究新知(4)图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;图(3)说明残差的方差不是一个常数,随观测时间变大而变大图图(4)(4)的残差的残差比较比较均匀地集均匀地集中在以横轴为中在以横轴为对称轴的水平对称轴的水平带状区域内带状区域内.一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.2.残差的平方和越小越好;3.原始数据中的可疑数据往往是残差绝对值过大的数据;4.对数据刻画效果比较好的残差图特征:残差点比较均匀的集中在水平带状区域内探究新知1.残差等于观测值减预测值残差的性质:1.关于残差图的描述错误的是()A.残差图的横坐标可以是样本编号B.残差图的横坐标也可以是解释变量或预报变量C.残差点分布的带状区域的宽度越窄相关指数越小D.残差点分布的带状区域的宽度越窄残差平方和越小C巩固练习2.已知变量x,Y之间具有线性相关关系,其散点图如图所示,则其经验回归方程可能为()A.=1.5x+2B.=-1.5x+2C.=1.5x-2D.=-1.5x-2Bx x2 24 45 56 68 8Y Y303040406060505070703.某种产品的广告支出费用x(单位:万元)与销售额Y(单位:万元)的数据如表:已知Y关于x的经验回归方程为=6.5x+17.5,则当广告支出费用为5万元时,残差为_.当x=5时,=6.55+17.5=50,表格中对应y=60,于是残差为60-50=10.10巩固练习4.根据如下样本数据:得到的经验回归方程为 ,则则()B 巩固练习x2 23 34 45 56 6Y4 42.52.5-0.5-0.5-2-2-3-31.经验回归方程 ,其中2.残差分析课堂小结 残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.8.2.2 一元线性回归模型参数的最小二乘估计1.经验回归方程 ,其中2.残差分析 残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.复习引入编号123456胸径/cm18.120.122.224.426.028.3树高/m18.819.221.021.022.122.1编号789101112胸径/cm29.632.433.735.738.340.2树高/m22.422.623.024.323.924.7 例 经验表明,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程.探究新知解:以胸径为横坐标,树高为纵坐标作散点图如下:散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.探究新知30252015 242216 1820树高/m 35 40 45 胸径/cm 26 探究新知 用d表示胸径,h表示树高,根据据最小二乘法,计算可得经验回归方程为相应的经验回归直线如图所示:30252015 242216 1820树高/m 35 40 45 胸径/cm 26 根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.编号号胸径胸径/cm树高高观测值/m 树高高预测值/m残差残差/m118.1 18.8 19.4-0.6 220.1 19.2 19.9-0.7 322.2 21.0 20.4 0.6 424.4 21.0 20.9 0.1 526.0 22.1 21.3 0.8 628.3 22.1 21.9 0.2 729.6 22.4 22.2 0.2 832.4 22.6 22.9-0.3 933.7 23.0 23.2-0.2 1035.7 24.3 23.7 0.6 1138.3 23.9 24.4-0.5 1240.2 24.7 24.9-0.2 探究新知以胸径为横坐标,残差为纵坐标,作残差图,得到下图.30252015-1.0 -0.5 0.0 0.5 1.0残差/m 35 40 45 胸径/cm 观察残差表和残差图,可以看到残差的绝对值最大是 0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.探究新知编号12345678年份18961912192119301936195619601968记录/s11.8010.6010.4010.3010.2010.1010.009.95 问题 人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.探究新知 以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图1920191019001890 11.511.09.5 10.010.5记录/s 19301940 1950年份 12.01960 1970 在左图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.将经验回归直线叠加到散点图,得到下图:用Y表示男子短跑100m的世界纪录,t表示纪录产生的年份,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系.根据最小二乘法,由表中的数据得到经验回归方程为探究新知1920191019001890 11.511.09.5 10.010.5Y/s 19301940 1950t 12.01960 1970 第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.探究新知思考:从图中可以看到,经验回归方程较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗?1920191019001890 11.511.09.5 10.010.5Y/s 19301940 1950t 12.01960 1970 回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征思考:你能对模型进行修改,以使其更好地反映散点的分布特征吗?仔细观察,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近 注意到100m短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=f(t)=c1+c2ln(t-1895)的周围,其中c1,c2为未知参数,且c20.探究新知1920191019001890 11.511.09.5 10.010.5Y/s 19301940 1950t 12.01960 1970 y=f(t)=c1+c2ln(t-1895)令x=ln(t-1895),则 Y=c2x+c1编号12345678年份/t18961912192119301936195619601968x0.002.833.263.563.714.114.174.29记录/s11.8010.6010.4010.3010.2010.1010.009.95这是一个非线性经验回归函数,如何利用成对数据估计参数c1,c2对数据进行变化可得下表:探究新知对数据进行变化可得下表:得到散点图如下:由表中的数据得到经验回归方程为:探究新知将经验回归直线叠加到散点图,如图所示:上图表明,经验回归方程对于成对数据具有非常好的拟合精度.,得将x=ln(t-1895)代入思考:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?(1)直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程的图象(蓝色)以及经验回归方程的图象(红色).探究新知 我们发现,散点图中各散点都非常靠近的图象,表明非线性经验回归方程对于原始数据的拟合效果远远好于经验回归方程.(2)残差分析:残差平方和越小,模型拟合效果越好.Q2明显小于Q1,说明非线性回归方程的拟合效果要优于线性回归方程.思考:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?探究新知(3)利用决定系数R2刻画回归效果.思考:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?探究新知R2越大,表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.和的R2分别为0.7325和0.9983 在一元线性回归模型中 R2=r2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.显然0R21,R2越接近1,则线性回归刻画的效果越好.在使用经验回归方程进行预测时,需注意以下问题1.回归方程只适用于我们所研究的样本的总体;2.我们所建立的回归方程一般都有时间性;3.样本采集的范围会影响回归方程的适用范围;4.不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.探究新知1.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:推销员编号12345工作年限x/年35679推销金额y/万元23345(1)画出散点图.(2)建立年推销金额 y 关于工作年限 x 的经验回归方程;(3)说明回归模型拟合效果的好坏;(4)若第6名推销员的工作年限为11年,预测他的年推销金额巩固练习参考数据:工作年限x/年工作年限y/年02468100123456解:(1)以工作年限为x轴,推销金额为y轴,画出散点图如下:散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关.巩固练习(2)设所求的线性回归方程为 ,则所以年推销金额y关于工作年限x的线性回归方程为 .巩固练习所以回归模型拟合效果很好.(3)所以可以估计第6名推销员的年推销金额为5.9万元.(4)当x=11时,(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量(2)画出解释变量与响应变量的散点图,观察它们之间的关系 (如是否存在线性关系等)(3)由经验确定回归方程的类型(4)按一定规则(如最小二乘法)估计经验回归方程中的参数.(5)得出结果后需进行线性回归分析.残差平方和越小,模型的拟合效果越好.决定系数R2取值越大,说明模型的拟合效果越好.建立线性回归模型的基本步骤:注意:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可.归纳总结巩固练习2.某企业新研发了一种产品,产品的成本由原料成本及非原料成本.每件产品的非原料成本y(元)与生产的数量x(千件)有关,经统计得到如下数据:根据以上数据,绘制了散点图.x12345678y1126144.53530.5282524 观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型 和指数函数模型 分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为 ,lny与x的相关系数r1=-0.94.(1)用反比例函数模型求y关于x的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;参考公式:对于一组数据(u1,y1),(u2,y2),(un,yn),其回归直线 yabu 的斜率和截距的最小二乘估计分别为:x12345678y1126144.53530.5282524巩固练习183.40.340.1151.5336022385.561.40.135这里解:(1)令 ,则 可转化为因为 ,所以所以y关于x的回归方程为巩固练习已求得用指数函数模型拟合的回归方程为 ,lny与x的相关系数r1=-0.94.(2)y与 相关系数为因为|r1|r2|,所以用反比例函数模型拟合效果更好.当x=10时,所以当产量为10千件时,每件产品的非原料成本为21元.建立非线性经验回归模型的基本步骤:1.确定研究对象,明确哪个是解释变量,哪个是响应变量;2.由经验确定非线性经验回归方程的模型;3.通过变换变换,将非线性非线性经验回归模型转化转化为线性经验回归模型线性经验回归模型;4.按照公式计算经验回归方程中的参数,得到经验回归方程;5.消去新元,得到非线性经验回归方程;6.得出结果后分析残差图是否有异常 归纳总结非线性回归分析非线性回归分析(1)指数型函数指数型函数 y=ebx+a 类类函数函数 y=ebx+a 的图象,如图所示的图象,如图所示线性回归分析线性回归分析两边取对数得两边取对数得ln y=ln ebx+a,即,即 ln y=bx+a令令z=ln y,把原始数据把原始数据(x,y)转化为转化为(x,z),再根据再根据求解线性回归模型的方法求出求解线性回归模型的方法求出a,b.归纳总结(2)对数型函数对数型函数 y=b ln x+a 类类函数函数 y=b ln x+a 的图象,如图所示的图象,如图所示设设u=ln x,原方程可转化为,原方程可转化为 y=bu+a把原始数据把原始数据(x,y)转化为转化为(u,y),再根据,再根据求解线性回归模型的方法求出求解线性回归模型的方法求出a,b.1.残差平方和:2.最小二乘法将 称为Y 关于x 的经验回归方程3.判断模型拟合的效果:课堂小结残差分析8.3.1 分类变量与列联表吸烟的危害吸烟的危害吸烟已成为全球范围内严重危害健康、吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题为此,联合国缩短人类寿命的紧迫问题为此,联合国固定每年固定每年5月月31日为全球戒烟日日为全球戒烟日创设情境 在现实生活中,人们经常需要回答一定范围内的在现实生活中,人们经常需要回答一定范围内的两种两种现象或性质之间是否存在关联性现象或性质之间是否存在关联性或或互相影响互相影响的问题的问题.吸烟是否会增加患肺癌的风险?吸烟是否会增加患肺癌的风险?探究新知分类变量分类变量是区别是区别不同的现象和性质不同的现象和性质的一种的一种特殊的特殊的随机变量随机变量本节主要讨
展开阅读全文