数学模型(第五版)-姜启源-(9)课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数学模型(第五版)-姜启源-(9)课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学模型 第五 姜启源 课件
- 资源描述:
-
1、回归模型回归模型是用是用统计方法统计方法建立的最常用的一类模型建立的最常用的一类模型.机理分析和机理分析和统计分析统计分析是数学建模的两种基本方法是数学建模的两种基本方法通过对数据的通过对数据的统计分析找出统计分析找出与数据拟合最好与数据拟合最好的模型的模型. 不涉及回归分析的数学原理和方法不涉及回归分析的数学原理和方法 . 通过通过实例实例讨论如何讨论如何选择选择不同类型不同类型的的回归回归模型模型 . 对软件得到的结果进行对软件得到的结果进行分析分析,对模型进行,对模型进行改进改进. 第九章 统计模型通过实例介绍通过实例介绍判别分析、主成分分析判别分析、主成分分析等模型等模型. 第九章 统
2、计模型9.1 孕妇孕妇吸烟与胎儿吸烟与胎儿健康健康9.2 软件开发人员的薪金软件开发人员的薪金9.3 酶促反应酶促反应9.4 投资额投资额与生产总值和与生产总值和物价指数物价指数9.5 冠心病冠心病与年龄与年龄9.6 蠓虫蠓虫分类分类判别判别9.7 学生学生考试成绩综合评价考试成绩综合评价9.8 艾滋病艾滋病疗法的评价和疗效的疗法的评价和疗效的预测预测9.1 孕妇吸烟与胎儿健康孕妇吸烟与胎儿健康吸烟有害健康!孕妇吸烟是否会伤害到腹中的胎儿?吸烟有害健康!孕妇吸烟是否会伤害到腹中的胎儿?对于对于新生儿新生儿体重,体重,吸烟吸烟比妇女怀孕前身高、体重、受孕比妇女怀孕前身高、体重、受孕历史等因素的影
3、响更为历史等因素的影响更为显著显著美国公共卫生总署美国公共卫生总署警告警告1.新生儿体重新生儿体重(oz)1201131281231082.孕妇怀孕期(天)孕妇怀孕期(天)2842822799992823.新生儿胎新生儿胎次次(1第第1胎胎,0非第非第1胎胎)101014.孕妇怀孕时年龄孕妇怀孕时年龄27332836235.孕妇怀孕前身孕妇怀孕前身高高(in)62646469676.孕妇怀孕前孕妇怀孕前体重体重(lb)1001351151901257.孕妇吸烟孕妇吸烟状况状况(1吸烟吸烟,0 不不吸烟吸烟)00111美国儿童保健和发展美国儿童保健和发展项目项目(CHDS)提供的数据提供的数据(
4、1236个出生个出生后至少存活后至少存活28天男性天男性单胞胎单胞胎新生儿体重新生儿体重及其母亲及其母亲的资料的资料)data 0901.m研究目的研究目的利用利用CHDS的数据建立新生儿体重与孕妇怀孕期、的数据建立新生儿体重与孕妇怀孕期、吸烟状况等因素的数学模型,定量地讨论:吸烟状况等因素的数学模型,定量地讨论:孕妇吸烟是否会使孕妇吸烟是否会使早产率增加早产率增加,怀孕期长短对,怀孕期长短对新生儿体重有影响吗;新生儿体重有影响吗;对于新生儿体重来说,对于新生儿体重来说,孕妇吸烟孕妇吸烟是否是比孕妇是否是比孕妇年龄、身高、体重等年龄、身高、体重等更为显著的决定因素更为显著的决定因素;对对每个年
5、龄段每个年龄段来说,孕妇吸烟对新生儿体重和来说,孕妇吸烟对新生儿体重和早产率的影响是怎样的。早产率的影响是怎样的。问题背景及分析问题背景及分析美国公共卫生总署的美国公共卫生总署的警告警告容易容易受到受到人们的人们的质疑质疑:按照按照是否吸烟划分人群所做是否吸烟划分人群所做的研究,只能的研究,只能依赖于依赖于观测数据,观测数据,而而无法无法做人为的实验做人为的实验,很难,很难确定新生确定新生儿体重的差别儿体重的差别是是因为因为吸烟,还是其它因素吸烟,还是其它因素(如如怀孕怀孕期期长短长短、吸烟孕妇吸烟孕妇多是多是体重体重较较轻轻的的年青年青人等人等).“孕妇吸烟可能导致胎儿受损、早产及新生儿低体
6、孕妇吸烟可能导致胎儿受损、早产及新生儿低体重重”的的警告不如警告不如“吸烟导致肺癌吸烟导致肺癌”来得强来得强,是,是由于由于对孕妇吸烟与胎儿对孕妇吸烟与胎儿健康间的生理学关系健康间的生理学关系研究得研究得不够不够.参数估计参数估计 吸烟比不吸烟孕妇新生儿吸烟比不吸烟孕妇新生儿体重体重平均低平均低9 oz (250g ), 新生儿新生儿体重低的体重低的比例明显高比例明显高. 吸烟比不吸烟孕妇怀孕期吸烟比不吸烟孕妇怀孕期平均短平均短2天天,早产率差不多早产率差不多.参数估计参数估计不吸烟孕妇(不吸烟孕妇(n=742)吸烟孕妇(吸烟孕妇(n=484)新生儿新生儿体重均值体重均值的点估计的点估计 y0
7、=123.0472 y1=114.1095新生儿体重均值的区间估计新生儿体重均值的区间估计 121.7932 124.3011112.4930 115.7260新生儿体重低比例的点估计新生儿体重低比例的点估计 r0=0.0310r1=0.0826怀孕期均值怀孕期均值的点估计的点估计 x0=280.1869(n=733) x1= 277.9792怀孕期均值的区间估计怀孕期均值的区间估计278.9812 281.3926276.6273 279.3311早产率的点估计早产率的点估计q0=0.0764q1=0.0854新生儿体重和怀孕期的差别在统计学上是否显著?新生儿体重和怀孕期的差别在统计学上是否
8、显著?prog0901a.m假设检验假设检验 吸烟吸烟孕妇的新生儿体重比不吸烟孕妇的低、孕妇的新生儿体重比不吸烟孕妇的低、且且 新生儿新生儿体重低的比例高体重低的比例高,在,在统计学统计学上有上有显著显著意义意义.假设检验假设检验假设假设检验结果检验结果(=0.05)新生儿体重新生儿体重均值均值H0: y0 y1, H1: y0 y1拒绝拒绝H0, 接受接受H1新生儿体重低新生儿体重低比例比例 H0: r0r1, H1: r0 x1拒绝拒绝H0, 接受接受H1 早早产率产率H0: q0= =q1, H1: q0q1接受接受H0, 拒绝拒绝H1(t=0.5663)吸烟与不吸烟吸烟与不吸烟孕妇孕期
9、孕妇孕期和早产率的和早产率的差别差别难以难以肯定肯定是显著是显著的的(若若=0.01将接受将接受怀孕期均值怀孕期均值相等的假设相等的假设)prog0901a.m一元线性回归分析一元线性回归分析假设检验假设检验结果:结果:孕妇孕妇吸烟状况对吸烟状况对新生儿体重大小有新生儿体重大小有显著影响显著影响,但是对怀孕期长短的影响难以确定,但是对怀孕期长短的影响难以确定。新生儿新生儿体重与体重与怀孕期怀孕期的的关系关系如何?如何?直线直线y=b0+b1x描述描述了了数据的数据的变化趋势,但是变化趋势,但是拟合拟合得不好得不好.怎样怎样衡量由拟合得到的衡量由拟合得到的模型的模型的有效性有效性?模型模型系数精
10、确度系数精确度和模型和模型预测的数值预测的数值范围多范围多大?大?480位吸烟孕妇的位吸烟孕妇的怀孕怀孕期期x和和新生儿体重新生儿体重y220240260280300320340406080100120140160180 xy拟合直线拟合直线 y=b0+b1x一元线性一元线性回归回归模型模型 y=b0+b1x+ 随机随机变量变量 除除x外外, 影响影响y的随机因素的的随机因素的总和总和,对于不同的对于不同的x,相互独立相互独立且且服从服从N(0,2)分布分布.系数系数 系数估计值系数估计值系数置信区间系数置信区间b0-51.2983-77.5110 -25.0856b10.59490.5008
11、 0.6891R2=0.2438, F=154 , pF(1,n-2)= 3.8610 ( =0.05),应,应拒绝拒绝H0: b1=0的假设,模型有效的假设,模型有效。b1置信区间置信区间较长,决定系数较长,决定系数R2较小较小(y的的24.38%由由x决定决定),剩余方差剩余方差s2较大较大,模型模型的精度不的精度不高高.480位位吸吸烟烟孕妇孕妇数数据据 x,y模型模型求解求解怀孕期怀孕期x, 新生儿新生儿体重体重y模模型型检检验验prog0901b.m 吸烟孕妇怀孕期增加吸烟孕妇怀孕期增加一天,一天,新生儿体重平均增加约新生儿体重平均增加约0.6 oz. 不不是是x=0时时y的的估计估
12、计, 只能只能在数在数据据范围范围内内(x=220340天天) 估计估计.一元线性一元线性回归回归模型模型 y=b0+b1x+ 怀孕期怀孕期x, 新生儿新生儿体重体重y模模型型解解释释模模型型预预测测模型精度不模型精度不高导致预测区间高导致预测区间如此之如此之大!大!一元线性一元线性回归回归模型模型 y=b0+b1x+ 怀孕期怀孕期x, 新生儿新生儿体重体重y误差误差的的估计值估计值(均值均值为为0的的正态分布正态分布)50100150200250300350400450-60-40-200204060Residual Case Order PlotResidualsCase Number若若
13、数据残差数据残差的置信区间不含的置信区间不含零点零点,称为称为异常异常点点(偏离偏离整体整体数据的变化数据的变化趋势趋势),应剔除应剔除。系数系数 系数估计值系数估计值系数置信区间系数置信区间b0-53.6126-77.0606 -30.1645b10.60070.5164 0.6850 R2= 0.3040 F=196 p0.0001 s2 = 182虽然虽然b0和和b1的估计值变化不大,但置信区间变短,的估计值变化不大,但置信区间变短,且且R2 和和F变大,变大,s2减小,说明减小,说明模型精度得到模型精度得到提高提高.prog0901b.m一元线性一元线性回归回归模型模型 y=b0+b1
14、x+ 怀孕期怀孕期x, 新生儿新生儿体重体重y系数系数 系数估计值系数估计值系数置信区间系数置信区间b033.533014.9989 52.0671b10.32010.2541 0.3860 R2= 0.1165 F=90 p0.0001 s2 = 181690位位不吸烟孕不吸烟孕妇妇数据数据x,y (剔除剔除异常点异常点后后)不不吸烟孕妇怀孕期增加吸烟孕妇怀孕期增加一天,一天,新生儿体重新生儿体重平均平均只只增加增加0.32oz. 对对吸烟孕妇吸烟孕妇是是增加增加约约0.6oz,二者相差很大!二者相差很大!将将吸烟吸烟状况作为状况作为另另一自变量一自变量,建立新生儿体重建立新生儿体重与与2个
15、自变量的回归模型个自变量的回归模型,利用,利用全体全体孕妇数据进行孕妇数据进行分析分析. prog0901c.m多多元元线性回归分析线性回归分析y新生儿体重新生儿体重, x1孕妇怀孕期孕妇怀孕期, x2=0,1 不吸烟不吸烟, 吸烟吸烟.模型模型 y=b0+b1x1+b2x2+ x1相同相同时时,吸烟比不吸烟比不吸烟吸烟孕妇孕妇的的新生儿体重平均约低新生儿体重平均约低8.8oz. 对于吸烟状况对于吸烟状况x2相同的孕妇相同的孕妇,x1增加一天增加一天y平均增加平均增加0.44oz. 在在吸烟孕妇吸烟孕妇的的0.6与不与不吸烟孕妇吸烟孕妇的的0.32oz之间之间.与参数估计与参数估计的的数值数值
16、相同相同,但增加但增加了了x1相同相同的的条件条件.1145位位全部孕妇全部孕妇数数据据 (剔除异常点剔除异常点后后)多多元元线性回归分析线性回归分析系数系数 系数估计值系数估计值系数置信区间系数置信区间b034.092515.4605 52.7244b10.31810.2517 0.3844 b2-87.0738-116.9656 -57.1820b30.28040.1734 0.3875R2=0.2766 F=145 p0.0001 s2 =183模型模型 y=b0+b1x1+b2x2+ 模型有效模型有效, 但是但是R2较小较小, s2较大较大, 仍仍有有改进改进余地余地.增加乘积项增加乘
17、积项x1x2 x1和和x2对对y的的综合综合影响影响y=b0+b1x1+b2x2+b3x1x2+ x2=0 x2=1不吸烟孕妇吸烟孕妇的一元模型的一元模型吸烟吸烟孕妇孕妇的一元模型的一元模型prog0901d.m变量选择与逐步回归变量选择与逐步回归CHDS提供的数据中提供的数据中除孕妇除孕妇怀孕期和吸烟状况怀孕期和吸烟状况外外,还有还有孕妇孕妇怀孕怀孕时的年龄、体重、身高和胎次时的年龄、体重、身高和胎次状况状况.变量变量选择选择 从从应用的应用的角度希望角度希望将将所有影响所有影响显著的自显著的自变量都变量都纳入模型纳入模型,又希望最终的模型尽量,又希望最终的模型尽量简单简单.逐步回归逐步回归
18、 迭代迭代式的变量选择式的变量选择方法方法.新生儿体重模型新生儿体重模型中中是否应该加入是否应该加入其他的其他的自变量?自变量?利用利用CHDS数据提供的全部数据提供的全部信息信息, 通过逐步回归通过逐步回归方法方法选择变量选择变量, 建立建立新生儿体重新生儿体重的线性回归模型的线性回归模型.x1 (孕妇怀孕期孕妇怀孕期), x2 (胎胎次次状况状况), x3 (年龄年龄), x4 (身高身高), x5 (体重体重), x6 (吸烟状况吸烟状况) 组成组成候选变量候选变量集合集合S.选取选取x1, x6为初始为初始子集子集S0 用逐步回归用逐步回归方法方法建立建立新生儿新生儿体重体重y的线性回
19、归模型的线性回归模型 继续继续进行,直到不能引入和移出为止进行,直到不能引入和移出为止 . 从从S0外外的的S中中引入引入一个一个对对y影响影响最大最大的的x, S0 S1 . 对对S1中中的的x进行进行检验,检验,移出移出一个一个影响最小影响最小的的, S1 S2 . 引入引入和移出都以给定的和移出都以给定的显著性水平显著性水平为标准为标准. 显著性水平取显著性水平取缺省值缺省值(引入引入 =0.05, 移出移出 =0.10)-10-8-6-4-202X1X2X3X4X5X6Coefficients with Error Bars Coeff. t-stat p-val 0.451168 1
20、5.2000 0.0000 -3.26733 -3.0320 0.0025 0.104543 1.2775 0.2017 1.31198 7.1138 0.0000 0.118183 5.2127 0.0000 -8.3744 -8.6027 0.0000115161718Model HistoryRMSE MATLAB统计工具箱中的逐步回归统计工具箱中的逐步回归逐步回归命令逐步回归命令stepwise第第1个输出个输出图形图形按照提示按照提示点击,引入点击,引入x4x1, x6在模型中,给出在模型中,给出系系数估计值和置信区间数估计值和置信区间prog0901e.m MATLAB统计工具箱中
21、的逐步回归统计工具箱中的逐步回归-10-8-6-4-202X1X2X3X4X5X6Coefficients with Error Bars Coeff. t-stat p-val 0.444076 15.2759 0.0000 -3.28762 -3.0933 0.0020 -0.00895031 -0.1043 0.9170 1.15497 5.6415 0.0000 0.0498335 1.9910 0.0467 -8.3939 -8.8248 0.0000123415.51616.5Model HistoryRMSE按照提示按照提示点击,依次引入点击,依次引入 x4, x2, x5最终模
22、型最终模型包含包含除除x3 外的所有自变量外的所有自变量654213939. 80498. 01550. 12876. 34441. 07132.80 xxxxxy用逐步回归用逐步回归方法方法建立建立新生儿新生儿体重体重y的线性回归模型的线性回归模型x1 (怀孕期怀孕期), x2 (胎次胎次状况状况), x4 (身高身高), x5 (体重体重), x6 (吸烟吸烟状况状况).x1,x2 ,x4, x5相同相同时时,吸烟吸烟比不比不吸烟吸烟孕妇孕妇的的新生儿体重新生儿体重平均低平均低8.4 oz. 孕妇孕妇的怀孕期、身高、体重对的怀孕期、身高、体重对新生儿体重的新生儿体重的影响是正面影响是正面的
23、的. 第第1胎新生儿体重比非第胎新生儿体重比非第1胎胎平均平均约约低低3.3 oz (第第1胎胎x2=1). yx1x2x3x4x5x6y1.00000.4075-0.04390.02700.20370.1559-0.2468x1 1.00000.0809-0.05340.07050.0237-0.0603x2 1.0000-0.35100.0435-0.0964-0.0096x3 1.0000-0.00650.1473-0.0678x4 1.00000.43530.0175x5 1.0000-0.0603x6 1.0000y和各自变量和各自变量的的相关系数矩阵相关系数矩阵 与与y相关性相关性
24、较强的是怀孕期较强的是怀孕期x1, 吸烟吸烟状况状况x6, 身高身高x4. 自变量间自变量间相关性较强的有:孕妇体重相关性较强的有:孕妇体重x5与身高与身高x4的的正相关正相关;年龄年龄 x3与胎次状况与胎次状况x2的的负相关负相关(年龄年龄越大第越大第1胎胎x2=1越少越少).相关分析相关分析当当几几个个自变量间自变量间有有较强相关性较强相关性时时, 删除删除多余的只多余的只保留一保留一个个不会不会对对模型有效性模型有效性和精确度有多大和精确度有多大影响影响.不同年龄段孕妇吸烟对新生儿体重的影响不同年龄段孕妇吸烟对新生儿体重的影响 小于小于25岁岁2530岁岁3035岁岁大于大于35岁岁b0
25、-66.3893-39.1296-157.1307-130.1740b1(怀孕期怀孕期) 0.39720.35210.59510.6728b2-0.9978-7.4124-0.0932-4.1835b41.21440.84091.68280.8747b5-0.00210.09590.05570.0732b6(吸烟状况吸烟状况)-8.4119-8.2656-10.5411-6.4008R20.25490.23300.33940.3136s2211.6359239.7201272.6021304.7208n444362211157孕妇孕妇按年龄分组按年龄分组建立建立y与与x1, x2, x4, x
展开阅读全文