《新编MATLAB&Simulink自学一本通》课件第19章 回归分析理论介绍.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《新编MATLAB&Simulink自学一本通》课件第19章 回归分析理论介绍.ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 新编MATLAB&Simulink自学一本通 新编MATLAB&Simulink自学一本通课件第19章 回归分析理论介绍 新编 MATL
- 资源描述:
-
1、2023-5-5 相关与回归分析概述相关与回归分析概述 一元线性回归一元线性回归 多元线性回归多元线性回归 非线性回归非线性回归主要内容:主要内容:2023-5-5 从高尔顿开始说起从高尔顿开始说起 高尔顿是生物统计学派的高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨奠基人,他的表哥达尔文的巨著著物种起源物种起源问世以后,触问世以后,触动他用统计方法研究智力遗传动他用统计方法研究智力遗传进化问题,第一次将概率统计进化问题,第一次将概率统计原理等数学方法用于生物科学,原理等数学方法用于生物科学,明确提出明确提出“生物统计学生物统计学”的名的名词词.现在统计学上的现在统计学上的“相关相关”和和“
2、回归回归”的概念也是高尔顿的概念也是高尔顿第一次使用的。第一次使用的。Francis Galton 1822.02.161911.01.17England2023-5-5高个子父母的子女,高个子父母的子女,其身高有低于其父母其身高有低于其父母身高的趋势,而矮个身高的趋势,而矮个子父母的子女,其身子父母的子女,其身高有高于其父母的趋高有高于其父母的趋势,势,即有即有“回归回归”到到平均数去的趋势。平均数去的趋势。2023-5-5第一节第一节 相关与回归分析概述相关与回归分析概述2023-5-51.1.变量间的关系变量间的关系确定性关系或函数关系确定性关系或函数关系 y=f(x)人的身高和体重人的
3、身高和体重家庭的收入和消费家庭的收入和消费商品的广告费和销售额商品的广告费和销售额粮食的施肥量和产量粮食的施肥量和产量股票的时间和价格股票的时间和价格学生的期中和期末考试成绩学生的期中和期末考试成绩,不确不确定性定性关系关系x可控变量可控变量Y随机变量随机变量不确定性关系不确定性关系一、一、确定性关系与相关关系确定性关系与相关关系2023-5-5不相关不相关负线性相关负线性相关正线性相关正线性相关非线性相关非线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关2相关关系的图示相关关系的图示2023-5-51.1.从一组样本数据出发,确定变量之间的数学关系式从一组样本数据出发,确定变
4、量之间的数学关系式2.2.对这些关系式的可信程度进行各种统计检验,并从影响对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著哪些不显著3.3.利用所求的关系式,根据一个或几个变量的取值来预测利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制或控制另一个特定变量的取值,并给出这种预测或控制的精确程度的精确程度二、二、什么是回归分析什么是回归分析2023-5-5(x,y)采集样本信息采集样本信息(xi,yi)回归分析回归分析散点图散点图回归方程回归方
5、程回归方程的显著性检验回归方程的显著性检验对现实进行预测与控制对现实进行预测与控制三、回归分析的流程三、回归分析的流程2023-5-5【例例1.1】本人从本人从“雪林山庄雪林山庄甜雨的开心乐园甜雨的开心乐园”中收集了中收集了一组儿童成长记录数据(一组儿童成长记录数据(0-7岁),包括月龄、身高和体重的岁),包括月龄、身高和体重的观测数据。据此绘制散点图,并进行相关性分析。观测数据。据此绘制散点图,并进行相关性分析。2023-5-54060801001200510152025身高体重二元分布密度等高线图2023-5-5第二节第二节 一元线性回归分析一元线性回归分析2023-5-5问题:问题:如何
6、描述如何描述 y 与与 x 的线性相关关系?的线性相关关系?散点图大致如下散点图大致如下1122(,),(,),(,),nnx yxyxy 若可控变量若可控变量x与随机变量与随机变量 y之间有线性相关关系,其之间有线性相关关系,其 n 对对观测值记为观测值记为一、一元线性回归模型一、一元线性回归模型xyxy2023-5-52(0,),1,2,iiiiidiyabxNin显然:显然:),bxa(Ny2ii y 称为称为因变量(响应变量)因变量(响应变量),x 称为称为自变量(预报变量)自变量(预报变量),称为称为随机扰动随机扰动,a,b 称为待估计的称为待估计的回归参数回归参数,下标,下标 i
7、表表示第示第 i 个观测值。个观测值。描述变量描述变量 y 与与 x 的线性相关关系的的线性相关关系的一元线性回归模型一元线性回归模型为为2023-5-51.理论回归方程理论回归方程(|)E y xabxY=二、回归方程二、回归方程xyo对于给定的对于给定的x,y 的均值的均值 是关于是关于 x 的函数,称为理的函数,称为理论回归函数,从而有论回归函数,从而有 y 关于关于 x 的理论回归方程的理论回归方程(|)E y x2023-5-52.经验回归方程经验回归方程 将将a 和和b 的估计量的估计量 代入理论回归方程,可得代入理论回归方程,可得经验经验回归方程回归方程,a byabx记记 ,称
8、之为,称之为残差,残差,残差可视为扰动残差可视为扰动 的估计的估计iiieyyi2023-5-5(xi,yi)(xn,yn)(x1,y1)(x2,y2)ei=yi-yiyabx三、一元线性回归图示三、一元线性回归图示2023-5-5二元函数二元函数 的最小值点的最小值点 称为称为a,b的最小二乘估计的最小二乘估计(,)Q a b(,)a bniiiniibxaybaQ1212)(),(记记n1iii0)bxa(y(2aQn1iiii0 x)bxa(y2bQn1iiin1i2iyxb)x(axnynbxnna,1,111niiniiynyxnx其中其中四、四、a,b 的最小二乘估计的最小二乘估计
9、2023-5-5)xnx(nxxnxnnD22i2i0)(12niixxn所以方程组有解所以方程组有解,解得解得xxxyllbxbya其中其中22211()nnxxiiiilxxxnx11()()nnxyiiiiiilxxyyx ynx y即最小二乘估计所得经验回归方程为即最小二乘估计所得经验回归方程为()yabxyb xx2023-5-5编号编号xiyi编号编号xiyi编号编号xiyi编号编号xiyi1277103626898112861081625594225799.57285103.512269100172699932559382861031324696.5182971094278105
10、927210414255921925795.553061101028510315253942025091例例2.1 钢的强度和硬度都是反映钢质量的指标。现在炼钢的强度和硬度都是反映钢质量的指标。现在炼20炉中炉中碳钢,它们的抗拉强度碳钢,它们的抗拉强度Y与硬度与硬度x的的20对实验值如下表。经计对实验值如下表。经计算得算得 (1)试绘出散点图试绘出散点图 (2)求求Y对对x的经验回归直线方程的经验回归直线方程270.3,100.05,5386.2,1696.2,628.95xxxyyyxylll2023-5-5q 散点图与回归方程散点图与回归方程240250260270280290300310
11、9095100105110115硬度抗拉强度 y=0.3149*x+14.932023-5-52,xxbN bl证明略证明略五、估计量五、估计量 的分布的分布,a b221,()xxxaN anl2023-5-5 上面讨论了如何根据实验数据求得线性回归方程,然而,上面讨论了如何根据实验数据求得线性回归方程,然而,实际上,对于变量和的任意对观测值,只要不全相等,则实际上,对于变量和的任意对观测值,只要不全相等,则无无论变量论变量 和和 之间是否存在线性相关关系,都可根据上面之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回归方程介绍的方法求得一个线性回归方程。显然,这样写出的线性。显
12、然,这样写出的线性方程当且仅当变量方程当且仅当变量 和和 之间存在线性相关关系时才是有之间存在线性相关关系时才是有意义的;若不存在线性相关关系,则这样写出的线性方程就意义的;若不存在线性相关关系,则这样写出的线性方程就毫无意义了。为了使求得的线性回归方程真正有意义,毫无意义了。为了使求得的线性回归方程真正有意义,就就需要进行回归方程的显著性检验。需要进行回归方程的显著性检验。xyxy六、回归方程的显著性检验六、回归方程的显著性检验 2023-5-5 因变量因变量 y 的取值是不同的,的取值是不同的,y 取值的这种波动称为变差取值的这种波动称为变差。变差来源于两个方面:由于自变量变差来源于两个方
13、面:由于自变量 x 的取值不同造成的;的取值不同造成的;除除 x 以外的其他因素以外的其他因素(如如x 对对 y的非线性影响、测量误差的非线性影响、测量误差等等)的影响的影响 对一个具体的观测值来说,变差的大小可以通过该实际对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差观测值与其均值之差 来表示来表示1离差平方和分解离差平方和分解2023-5-5xyyabxyy yyyy),(iiyx离差分解图离差分解图xy(1)离离差平方和分解示意图差平方和分解示意图2023-5-5两端平方后求和有两端平方后求和有 yyyyyy从图上看有从图上看有 SST =SSR +SSE 自由度自由
14、度(df)n-1 =1 +n-2222111nnniiiiiiiyyyyyy总变差平方和总变差平方和(SST 或或 lyy)回归平方和回归平方和(SSR)残差平方和残差平方和(SSE 或或 Qe)(2)三个平方和的关系三个平方和的关系2023-5-5 总平方和总平方和(SST)反映因变量的反映因变量的 n 个观察值与其均值的总离差个观察值与其均值的总离差 回归平方和回归平方和(SSR)反映自变量反映自变量 x 的变化对因变量的变化对因变量 y 取值变化的影响,取值变化的影响,或者说,是由于或者说,是由于 x 与与 y 之间的线性关系引起的之间的线性关系引起的 y 的取值变化,也称为可解释的平方
15、和的取值变化,也称为可解释的平方和 残差平方和残差平方和(SSE)反映除反映除 x 以外的其他因素对以外的其他因素对 y 取值的影响,也称取值的影响,也称为不可解释的平方和或剩余平方和为不可解释的平方和或剩余平方和(3)三个平方和的意义三个平方和的意义2023-5-5回归平方和占总离差平方和的比例回归平方和占总离差平方和的比例2221122111nniiiiiRnnTiiiiyyyySSrSSyyyy 反映回归直线的拟合程度反映回归直线的拟合程度 取值范围在取值范围在 0,1 之间之间 r2 1,说明回归方程拟合的越好;,说明回归方程拟合的越好;r20,说明回归方程拟合的越差说明回归方程拟合的
16、越差 判定系数等于相关系数的平方,即判定系数等于相关系数的平方,即r2(r)22判定系数判定系数 r2(1)定义定义(2)判定系数的意义判定系数的意义2023-5-5 提出假设提出假设 H0:b=0 H1:b 0 3线性关系的检验(线性关系的检验(F 检验)检验)(1)检验的步骤检验的步骤定理定理2.1 对于一元线性回归,有对于一元线性回归,有22 (2);ESSn202 (1);RSSH成成立立时时,ERSSSS和和相相互互独独立立。2023-5-52102111(1,2),22niiRnEiiiyySSFFnHSSnyyn成立时 计算检验统计量计算检验统计量F 确定显著性水平确定显著性水平
展开阅读全文