数学建模-第二章-概率统计模型课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数学建模-第二章-概率统计模型课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 第二 概率 统计 模型 课件
- 资源描述:
-
1、第二章 概率统计模型一个例子一个例子 二战时期,为了提高飞机的防护能力,英国的科学家、设计师和工程师决定给飞机增加护甲.为了不过多加重飞机的负载,护甲必须加在最必要的地方,那么是什么地方呢?统计学家将每架中弹但仍返航的飞机的中弹部位描绘在图纸上,然后将这些图重叠,形成了一个密度不均的弹孔分布图.统计学家拿着这张分布图,指着那些没有弹孔的地方说,这就是要增加护甲的地方,因为这地方中弹的飞机都 没能返回。例子的背后例子的背后 上面的例子可以领略到统计学的精彩之处。统计模型是数学模型的重要组成部分,尤其对具有大量数据的对象,统计建模具有极其重要的作用。大量的数据挖掘工作,就其本质而言,就是对于这些海
2、量数据的大量的数据挖掘工作,就其本质而言,就是对于这些海量数据的统计处理。统计处理。概率统计模型概率统计模型2.12.1概率统计模型的基本概率统计模型的基本理论理论2.1.12.1.1蒙特卡洛蒙特卡洛方法的一般原理方法的一般原理蒙特卡洛方法解题的基本步骤蒙特卡洛方法解题的基本步骤()确定所要模拟的目标以及实现这些目标的随机变量,一般情况下,目标就是这些随机变量的期望;()找到原问题中随机变量的分布规律;()大量抽取随机样本(在如今的计算机时代,一般是利用计算机抽取相应分布的伪随机数来作为随机样本)以模拟原问题的随机量;()求出随机样本的样本均值.2.1.22.1.2马尔科夫方法的一般原理马尔科
3、夫方法的一般原理马尔科夫马尔科夫过程过程 现实中很多问题都可以看作马尔科夫过程:如布朗运动、传染病爆发过程、车站候车人流量等。马尔科夫模型也在网站流量分析、教学质量评估、股票期权等方面得到了广泛的应用。马尔科夫过程的特性在于未来的演变不依赖于它过去的演变。例如明天是否会下雨不依赖于昨天是否下雨。这种性质被称作无后效性。马尔科夫链马尔科夫链121,ki iii j-L12110kkkttttt-+L111111(|,)(|)kkkkktttktttP Xj XiXiXiP Xj Xi+-+-=L转移概率矩阵转移概率矩阵EjmnmiXjXP1)|(遍历性与极限分布遍历性与极限分布平稳分布平稳分布平
4、稳分布与遍历性关系平稳分布与遍历性关系 当马尔科夫链具有遍历性时,极限分布必定存在且唯一。当马尔科夫链不具有遍历性时,极限分布必定不存在,而平稳分布可能存在且不唯一。当有限马尔科夫链具有遍历性,极限分布必定是平稳分布;当无限马尔科夫链具有遍历性,如果极限分布存在,则极限分布必定是平稳分布。2.1.32.1.3 逻辑回归方法的一般逻辑回归方法的一般原理原理逻辑回归 实际问题中,我们经常需要探讨变量之间的关系。当两个变量之间或者多个变量之间具有较高的相关关系,而又需要我们通过某个(些)变量 的变化来解释另一个(些)变量 的变化情况,则我们会先尝试采用线性回归的方法探讨解释变量对响应变量的影响。当响
5、应变量为定性变量时,相应回归方法的改进就称为LOGISTIC回归模型,中文称为逻辑回归模型。logitlogit 变换变换)1ln()(logitppp一元一元LogisticLogistic回归方程回归方程 设有一个自变量,用logit(p)与建立起回归关系为 这里的 为回归系数,为随机误差。用回归方法求出回归系数,代入上式,经过简单运算可得下式:01logit()+px01,0101(1|)1xxepp Yxebbbb+=+多元多元LogisticLogistic回归方程回归方程 如果解释变量不止一个,则可以将一元logistic回归推广到多元logistic回归,得到模型如下:即可类似求
6、得Y=1的概率:01 122logit()ln()+1mmppxxxpL01 12 201 12 21m mm mxxxxxxepebbbbbbbb+=+LL参数检验参数检验 回归系数的检验,即检验每个解释变量对响应变量的影响是否有统计学上的意义。若有m个回归系数 ,假设检验为:常用的回归系数检验方法有Wald统计量:式中分子为解释变量的参数估计值,分母为参数估计值Wald的标准误。1,mL01:0:0(j1,2,m)jjHHbb=L22/()jjWaldse模型评价模型评价 一般情况下,Wald检验的结果趋向于保守。当样本量较小时,可能会产生一个很大的标准误,从而导致Wald值变得很小,增加
7、犯第二类错误的可能。这种情况下采用似然比检验更为可靠。当Wald检验与似然比检验结果出现不一致时,一般似然比检验结果更为可取。模型估计完成后,要评价模型有效匹配观测数据的程度。若模型的预测值与对应的观测值有较高的一致性,则认为该回归模型拟合数据,即所谓“拟合优”,否则需重新估计模型,这就是拟合优度检验。2.1.42.1.4 聚类分析方法的一般原理聚类分析方法的一般原理聚类分析过程聚类分析过程 面对大量的数据和变量,如何快速将具有相近特质的样本或变量分在一类,从而达到降维和寻找共性的目的就成为一个重要的研究方向。聚类分析正是这样一种快速将大量数据分类的统计方法,有很强的应用价值。宗旨:根据数据样
8、本的性质,将具有相近特质的样品或变量分在一组,既可以根据不同组的特性进行不同的处理,也可以对同组数据进行更进一步的分析。Q Q型聚类型聚类 对样品进行分类处理,距离由样品相似性来度量。R R型聚类型聚类 对变量进行分类处理,距离由变量相似性来度量。样品相似性度量样品相似性度量 样品相似性的度量包括闵可夫斯基距离、马氏距离和兰氏距离等等。闵可夫斯基距离 当q=1,称绝对距离,当q=2,称欧氏距离。马氏距离 马氏距离又称为广义欧几里得距离。qdkqjkikjixxxxd11)|(),()()()(12jijiijXXXXMddkjkikjkikijxxxxdLd1|1)(变量相似性度量变量相似性度
9、量pkjkpkikpkjkikijxxxx12121cos相关系数相关系数经常用来度量变量间的相似性。代表第i个变量xi的平均值,则第i个变量和第j个变量的相关系数定义为ixpkjkjikipkjkjikijijiijxxxxxxxxyxxxr1221)()()()var()var(),cov(分析分析 采用不同的距离公式,会得到不同的聚类结果。在聚类分析时,可以根据需要选择符合实际的距离公式。在样品相似性度量中,欧氏距离具有非常明确的空间距离概念,马氏距离有消除量纲影响的作用;如果对变量作了标准化处理,通常可以采用欧氏距离。聚类分析方法分类聚类分析方法分类 系统聚类系统聚类按照距离的远近,把
10、距离接近的数据一步一步归为一类,直到数据完全归为一个类别为止。第一步 将每个样品独自聚成一类,共有n类;第二步 根据所确定的样品“距离”公式,把距离较近的样品聚合成一类,其他的样品仍各自为一类;第三步 将“距离”最近的类进一步聚成一类;以上步骤一直进行下去,直至最后将所有的样品聚成一类。K均值聚类K均值聚类首先人为确定分类数,起步于一个初始的分类,然后通过不断的迭代把数据在不同类别之间移动,直到最后达到预定的分类数为止。第一步 将所有的样品分成K个初始类;第二步 逐一计算每一样品到各个类别中心点的距离,把各个样品按照距离最近的原则归入各个类别,并计算新形成类别的中心点。第三步 按照新的中心位置
11、,重新计算每一样品距离新的类别中心点的距离,并重新进行归类,更新类别中心点。第四步 重复第三步,直到达到一定的收敛标准,或者达到分析者事先指定的迭代次数为止。类间距离类间距离 类间距离:类与类之间的距离 由类间距离定义的不同会产生不同的系统聚类法。常用的类间距离定义有最短距离法、最长距离法、中间距离法、重心法、类平均法、可变法和离差平法和法。最短距离法:两个类别中距离最短的样品距离为类间距离。最长距离法:两个类别中距离最长的样品距离为类间距离。min,|min,jlGlGjqpjlpqdGlGjdDqpmax,|max,jlGlGjqpjlpqdGlGjdDqp)()(2qpqppqXXXXD
12、1(,)pqGiji Gj GpqDp qdn n挝=邋方法选择方法选择 当数据量不大的时候,一般会利用系统聚类法,从而达到最佳聚类结果。如果要聚类的数据量很大,则利用系统聚类法会消耗太多计算时间,一般选择K均值法,可以大大减少计算时间。2.22.2蒙特卡洛模型蒙特卡洛模型应用应用2.2.1 2.2.1 投针算圆周率问题投针算圆周率问题 蒲丰问题早在1777年,蒲丰提出求解圆周率的一个另类思路:其过程是首先在纸上画一组间距为a的平行横线,然后随机往里投针,针长b(bu。假定u=50米/分钟,道口宽度50米;3.红灯时间为c,绿灯时间为d(在模拟例子中,假设c=1分钟,d=5分钟);4.黄灯时间
13、忽略,假定车子看到红灯后可以立即停车;5.开始模拟时间没有候车。6.开始模拟时间为刚由绿灯转为红灯;7.暂不考虑出现交通事故的可能。分析:分析:在绿灯期间,车子以速度v正常驶过路口,不会拥堵。红灯期间,车子停在路口,车子到达按泊松分布,即在红灯等候时间c里,到达路口并停下等候的车为n辆的概率为:这里a是到达强度,需要根据路口情况事先确定。假如a=2,c=1,那么在红灯时间段,到达道口等红灯的车辆数的概率如下表:(),0,1,2,.!nacacenn 模型求解:模型求解:1.抽取0,1之间均匀分布的随机数,确定这次模拟路口停红灯的车数,例如,抽到0.732,则这个数落在区间(0.671,0.85
14、7)的范围里,所以这次模拟停车数为3;2.计算红灯转为绿灯后,在绿灯延续期间d(如题设5分钟)内,这部车以速度u通过道口共需时间t=(50/50)*3(分钟),如果td,那么道口发生堵塞,在本次模拟中t=3分钟,没有发生堵塞;3.抽取随机数很多次,如10000次,记下其中多少次发生堵塞,从而估算出道口发生堵塞的概率。2.2.3 2.2.3 电梯问题电梯问题 问题高层商务楼中一般配备了多台电梯,如何安排好各台电梯的运行方式,既能保证大楼内各公司员工的正常工作和出行,又能降低能耗,节约成本。在一般高层商务楼中,经常采用的是分层次或单双层的运行方式,或者某部电梯直达某高层以上的方法,试建立一个适合的
15、电梯运行方案(高峰时),并具体评价这些方案的优劣。分析:分析:评价电梯运行方案往往以电梯高峰期运行时间为依据。一般来说,可以预估电梯可能停靠楼层数、电梯运载次数、电梯停靠时间等参数来计算电梯高峰期运行总时间。但这种估计的方法十分粗略,可能与实际结果相差巨大。我们的目的是模拟电梯一次循环所需的平均时间,并设计电梯停靠方案以使这个时间最短。这里的主要随机量是各楼层乘客的到达数。可以考虑采用蒙特卡罗方法对电梯上下楼的方案进行随机模拟。假定:假定:1.高层商务楼一共有fl层,每层有people人上班;一共有n台电梯,每台电梯最多承载elvn人;2.假设1到4层为商场,顾客上下楼不通过商务电梯,即认为1
16、到4楼没有人等电梯;3.上下班时,一段时间内等电梯的员工数服从泊松分布,设平均每分钟到达poisson人;4.因为刚上班时选择下楼的人数很少,可以忽略下楼人数对电梯运营的影响。上班时认为不会有人下楼,同理,下班时认为不会有人上楼;5.电梯从启动到匀速需要时间,电梯加速比匀速多用的时间记为elva,而电梯匀速经过一层楼需要elvrun秒,电梯加速需要elvrun-elva秒;6.电梯开关门需要时间。假设电梯开关门时间一样,为elvclose秒。员工进入电梯需要时间,假设每个人进入电梯需要elvout秒;7.不会有两台以上的电梯同时抵达同一层接员工;8.上班时,当电梯运载超过90%人上楼后认为高峰
17、期结束,下班同理。三种电梯运行方案三种电梯运行方案 方案一为层层停:n部电梯每层楼都能抵达;方案二为单双层运行:部分电梯只停单层,部分电梯只停双层;方案三为高低层电梯:部分电梯只达某高层以上,部分电梯只能到达某高层以下。方案一框图方案方案一一 基本基本编程思路编程思路 由于电梯在上下行的过程存在两种状态:停靠或运行,所以以电梯改变状态为循环依据。如果某电梯的状态即将发生改变,则一次循环结束。以此为思想,首先计算每个电梯到其状态改变所需要的时间,找出最短的时间p以及对应的电梯k;其次计算电梯i到新的改变状态需要的时间,其余电梯到其状态改变的时间要减去时间p。按以上方法进行循环,对电梯运载进行模拟
18、,此外还需要考虑电梯载满客后去一楼等特殊情况,停止准则为电梯运载超过90%的员工进入电梯。结果解读结果解读 用MATLAB 进行3次模拟,每次模拟对3种方案各模拟10000次后取平均,单位为分钟,结果如下表所示:显然,对题设数据,方案三运行时间最少,电梯分高低层的方法值得采纳。2.32.3马尔科夫模型应用马尔科夫模型应用2.3.1 2.3.1 疾病健康问题疾病健康问题 问题描述人的健康状态随着时间的推移会随机地发生转变,保险公司要对投保人未来的健康状态作出估计,以制订保险金和理赔金的数额。人的健康状况分为健康和患病两种状态,设对特定年龄段的人,今年健康、明年保持健康状态的概率为0.8,今年患病
展开阅读全文