-(大学课件)动态规划方法简介P88-PPT.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《-(大学课件)动态规划方法简介P88-PPT.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学课件 大学 课件 动态 规划 方法 简介 P88 PPT
- 资源描述:
-
1、 动态规划方法简介动态规划方法简介 docin/sundae_mengdocin/sundae_mengdocin/sundae_meng12n状态状态决策决策状态状态决策决策状态状态状态状态决策决策图示图示 docin/sundae_meng 动态规划是用来解决多阶段决策过程最优动态规划是用来解决多阶段决策过程最优化的一种数量方法。其特点在于,它可以把一化的一种数量方法。其特点在于,它可以把一个个n 维决策问题变换为几个一维最优化问题,从维决策问题变换为几个一维最优化问题,从而一个一个地去解决。而一个一个地去解决。需指出:动态规划是求解某类问题的一种需指出:动态规划是求解某类问题的一种方法,
2、方法,是考察问题的一种途径是考察问题的一种途径,而不是一种算,而不是一种算法。必须对具体问题进行具体分析,运用动态法。必须对具体问题进行具体分析,运用动态规划的原理和方法,建立相应的模型,然后再规划的原理和方法,建立相应的模型,然后再用动态规划方法去求解。用动态规划方法去求解。docin/sundae_meng二、多阶段决策问题举例二、多阶段决策问题举例1)工厂生产过程工厂生产过程:由于市场需求是一随着时间而:由于市场需求是一随着时间而变化的因素,因此,为了取得全年最佳经济效变化的因素,因此,为了取得全年最佳经济效益,就要在全年的生产过程中,逐月或者逐季益,就要在全年的生产过程中,逐月或者逐季
3、度地根据库存和需求情况决定生产计划安排。度地根据库存和需求情况决定生产计划安排。docin/sundae_meng 2)2)设备更新问题设备更新问题:一般企业用于生产一般企业用于生产活动的设备,刚买来时故障少,经济效益活动的设备,刚买来时故障少,经济效益高,即使进行转让,处理价值也高,随着高,即使进行转让,处理价值也高,随着使用年限的增加,就会逐渐变为故障多,使用年限的增加,就会逐渐变为故障多,维修费用增加,可正常使用的工时减少,维修费用增加,可正常使用的工时减少,加工质量下降,经济效益差,并且,使用加工质量下降,经济效益差,并且,使用的年限越长、处理价值也越低,自然,如的年限越长、处理价值也
4、越低,自然,如果卖去旧的买新的,还需要付出更新果卖去旧的买新的,还需要付出更新费因此就需要综合权衡决定设备的使用费因此就需要综合权衡决定设备的使用年限,使总的经济效益最好。年限,使总的经济效益最好。docin/sundae_meng3)3)连续生产过程的控制问题连续生产过程的控制问题:一般化工一般化工生产过程中,常包含一系列完成生产生产过程中,常包含一系列完成生产过程的设备,前一工序设备的输出则过程的设备,前一工序设备的输出则是后一工序设备的输入,因此,应该是后一工序设备的输入,因此,应该如何根据各工序的运行工况,控制生如何根据各工序的运行工况,控制生产过程中各设备的输入和输出,以使产过程中各
5、设备的输入和输出,以使总产量最大。总产量最大。docin/sundae_mengdocin/sundae_meng4)4)运输网络问题(最短路问题)运输网络问题(最短路问题):如图如图1所示的运输网络,点间连线上的数字表所示的运输网络,点间连线上的数字表示两地距离示两地距离(也可是运费、时间等也可是运费、时间等),要,要求从求从v1至至v10的最短路线。的最短路线。这种运输网络问题也是静态决策问题。这种运输网络问题也是静态决策问题。但是,按照网络中点的分布,可以把它但是,按照网络中点的分布,可以把它分为分为4个阶段,而作为多阶段决策问题个阶段,而作为多阶段决策问题来研究。来研究。docin/s
6、undae_meng 以上所举问题的发展过程都与时间因以上所举问题的发展过程都与时间因素有关,阶段的划分常取时间区段来表示,素有关,阶段的划分常取时间区段来表示,并且各个阶段上的决策往往也与时间因素并且各个阶段上的决策往往也与时间因素有关,这就使它具有了有关,这就使它具有了“动态动态”的含义,的含义,所以把处理这类动态问题的方法称为动态所以把处理这类动态问题的方法称为动态规划方法。不过,实际中尚有许多不包含规划方法。不过,实际中尚有许多不包含时间因素的一类时间因素的一类“静态静态”决策问题,就其决策问题,就其本质而言是一次决策问题,是非动态决策本质而言是一次决策问题,是非动态决策问题,但是也可
7、以人为地引入阶段的概念问题,但是也可以人为地引入阶段的概念当作多阶段决策问题,应用动态规划方法当作多阶段决策问题,应用动态规划方法加以解决。加以解决。docin/sundae_meng 三、动态规划方法导引三、动态规划方法导引 例例1 1:为了说明动态规划的基本思想方法和为了说明动态规划的基本思想方法和特点,下面以图特点,下面以图1 1所示为例讨论的求最短路问题所示为例讨论的求最短路问题的方法。的方法。第一种方法称做第一种方法称做全枚举法全枚举法或或穷举法穷举法。它的。它的基本思想是列举出所有可能发生的方案和结果,基本思想是列举出所有可能发生的方案和结果,再对它们一一进行比较,求出最优方案。这
8、里再对它们一一进行比较,求出最优方案。这里从从v v1 1到到v v1010的路程可以分为的路程可以分为4 4个阶段。第一段的走个阶段。第一段的走法有三种,第二三两段的走法各有两种,第四法有三种,第二三两段的走法各有两种,第四段的走法仅一种,因此共有段的走法仅一种,因此共有3 32 22 21 11212条条可能的路线,分别算出各条路线的距离,最后可能的路线,分别算出各条路线的距离,最后进行比较,可知最优路线是进行比较,可知最优路线是v v1 1 v v3 3 v v7 7 v v9 9 v v10 10,最短距离是最短距离是1818docin/sundae_meng 显然,当组成交通网络的节
9、点很多显然,当组成交通网络的节点很多时,用穷举法求最优路线的计算工作量时,用穷举法求最优路线的计算工作量将会十分庞大,而且其中包含着许多重将会十分庞大,而且其中包含着许多重复计算复计算 第二种方法即所谓第二种方法即所谓“局部最优路径局部最优路径”法,是说某人从法,是说某人从k k出发,他并不顾及全线出发,他并不顾及全线是否最短,只是选择当前最短途径,是否最短,只是选择当前最短途径,“逢近便走逢近便走”,错误地以为局部最优会,错误地以为局部最优会致整体最优,在这种想法指导下,所取致整体最优,在这种想法指导下,所取决策必是决策必是v1 v3 v5 v8 v10 v1 v3 v5 v8 v10,全程
10、长度是全程长度是2020;显然,这种方法的结果;显然,这种方法的结果常是错误的常是错误的docin/sundae_meng 第三种方法是第三种方法是动态规划方法动态规划方法。动态规。动态规划方法寻求该最短路问题的基本思想是,划方法寻求该最短路问题的基本思想是,首先将问题划分为首先将问题划分为4 4个阶段,个阶段,每次的选择总每次的选择总是综合后继过程的一并最优进行考虑是综合后继过程的一并最优进行考虑,在,在各段所有可能状态的最优后继过程都已求各段所有可能状态的最优后继过程都已求得的情况下,全程的最优路线便也随之得得的情况下,全程的最优路线便也随之得到。到。为了找出所有可能状态的最优后继过为了找
11、出所有可能状态的最优后继过程,动态规划方法总是从过程的最后阶段程,动态规划方法总是从过程的最后阶段开始考虑,然后逆着实际过程发展的顺序,开始考虑,然后逆着实际过程发展的顺序,逐段向前递推计算直至始点。逐段向前递推计算直至始点。docin/sundae_meng 具体说,此问题先从具体说,此问题先从v v1010开始,因为开始,因为v v1010是终是终点。再无后继过程,故可以接着考虑第点。再无后继过程,故可以接着考虑第4 4阶段上阶段上所有可能状态所有可能状态v v8 8,v v9 9的最优后续过程因为从的最优后续过程因为从v v8 8,v v9 9 到到v v1010的路线是唯一的,所以的路
12、线是唯一的,所以v v8 8,v v9 9 的最的最优决策和最优后继过程就是到优决策和最优后继过程就是到v v1010 ,它们的最短,它们的最短距离分别是距离分别是5 5和和3 3。接着考虑阶段接着考虑阶段3 3上可能的状态上可能的状态v v5 5,v v6 6,v v7 7,到到v v1010的最优决策和最优后继过程在状态的最优决策和最优后继过程在状态V V5 5上,上,虽然到虽然到v v8 8是是8 8,到,到v v9 9是是9 9,但是综合考虑后继过程,但是综合考虑后继过程整体最优,取最优决策是到整体最优,取最优决策是到v v9 9,最优后继过程是最优后继过程是v v5 5v v9 9
13、v v10 10,最短距离是,最短距离是1212同理,状态同理,状态v v6 6的的最优决策是至最优决策是至v v8 8 ;v v7 7的最优决策是到的最优决策是到v v9 9。docin/sundae_meng 同样,当阶段同样,当阶段3 3上所有可能状态的最上所有可能状态的最优后继过程都已求得后,便可以开始考虑优后继过程都已求得后,便可以开始考虑阶段阶段2 2上所有可能状态的最优决策和最优上所有可能状态的最优决策和最优后继过程,如后继过程,如v v2 2的最优决策是到的最优决策是到v v5 5,最优路最优路线是线是v v2 2v v5 5v v9 9v v10 10,最短距离是,最短距离是
14、1515依依此类推,最后可以得到从初始状态此类推,最后可以得到从初始状态v v1 1的最的最优 决 策 是 到优 决 策 是 到v v3 3最 优 路 线 是最 优 路 线 是v v1 1v v3 3v v7 7v v9 9v v10 10,全程的最短距离是,全程的最短距离是1818。图。图5 51 1中粗实线表示各点到中粗实线表示各点到v v1010的最优的最优路线,每点上方括号内的数字表示该点到路线,每点上方括号内的数字表示该点到终点的最短路距离。终点的最短路距离。docin/sundae_meng 综上所述可见,全枚举法虽可找出最优方案,综上所述可见,全枚举法虽可找出最优方案,但不是个好
15、算法,局部最优法则完全是个错误方但不是个好算法,局部最优法则完全是个错误方法,只有法,只有动态规划方法属较科学有效的算法动态规划方法属较科学有效的算法。它。它的基本思想是,的基本思想是,把一个比较复杂的问题分解为一把一个比较复杂的问题分解为一系列同类型的更易求解的子问题系列同类型的更易求解的子问题,便于应用计算,便于应用计算机。整个求解过程分为两个阶段,机。整个求解过程分为两个阶段,先按整体最优先按整体最优的思想逆序地求出各个子问题中所有可能状态的的思想逆序地求出各个子问题中所有可能状态的最优决策与最优路线值,然后再顺序地求出整个最优决策与最优路线值,然后再顺序地求出整个问题的最优策略和最优路
16、线。问题的最优策略和最优路线。计算过程中,系统计算过程中,系统地删去了所有中间非最优的方案组合,从而使计地删去了所有中间非最优的方案组合,从而使计算工作量比穷举法大为减少。算工作量比穷举法大为减少。docin/sundae_meng四、动态规划的基本概念与基本方程四、动态规划的基本概念与基本方程 使用动态规划方法解决多阶段决策使用动态规划方法解决多阶段决策问题,首先要将实际问题写成动态规划问题,首先要将实际问题写成动态规划模型,同时也为了今后叙述和讨论方便,模型,同时也为了今后叙述和讨论方便,这里需要对动态规划的下述一些基本术这里需要对动态规划的下述一些基本术语进一步加以说明和定义语进一步加以
17、说明和定义:docin/sundae_meng (一)阶段 为了便于求解和表示决策及过程的发展顺序,而把所给问题恰当地划分为若干个相互联系又有区别的子问题,称之为多段决策问题的阶段。一个阶段,就是需要作出一个决策的子问题,通常,阶段是按决策进行的时间或空间上先后顺序划分的。用以描述阶段的变量叫作阶段变量,一般以k表示阶段变量阶段数等于多段决策过程从开始到结束所需作出决策的数目,图1所示的最短路问题就是一个四阶段决策过程,。1,2,3,4k docin/sundae_meng (二)状态二)状态 1.状态与状态变量。用以描述事物用以描述事物(或或系统系统)在某特定的时间与空间域中所处位置在某特定
18、的时间与空间域中所处位置及运动特征的量,称为状态及运动特征的量,称为状态。反映状态变化的量叫做状态变量。状态变量必须包含在给定的阶段上确定全部允许决策所需要的信息。按照过程进行的先后,每个阶段的状态可分为初始状态和终止状态,或称输入状态和输出状态,阶段阶段k k的初始状态记作的初始状态记作s sk k,终止状,终止状态记为态记为s sk+1k+1。但为了清楚起见,通常定义阶段的状态即指其初始状态。状态应描述过程特征状态应描述过程特征;能直接或间接观测能直接或间接观测;具有无后效性具有无后效性.某阶段的状态给定后,则过程未来发展不受该阶段以前各阶段状态的影响某阶段的状态给定后,则过程未来发展不受
19、该阶段以前各阶段状态的影响docin/sundae_meng 2可能状态集 一般状态变量的取值有一定的范围或允许集合,称为可能状态集,或可达状态集。通常可能状态集用相应阶段状态sk的大写字母Sk表示,skSk,可能状态集可以是一离散取值的集合,也可以为一连续的取值区间在图1所示的最短路问题中,第一阶段状态为v1,状态变量s1的状态集合S1=v1;第二阶段则有三个状态:v2 ,v3 ,v4,状 态 变 量s2的 状 态 集 合S2=v2 ,v3 ,v4;第三阶段也有三个状态:v5 ,v6 ,v7,状态变量s3的状态集合S3=v5,v6,v7;第四阶段则有二个状态:v8,v9,状态变量s4的状态集
20、合S4=v8,v9;docin/sundae_meng (三)决策三)决策 所谓决策,就是确定系统过程发展的方案。决策的实质是关于状态的选择,是决策者从给定阶段状态出发对下一阶段状态作出的选择。用以描述决策变化的量称之决策变量,和状态变量一样,决策变量可以用一个数,一组数或一向量来描述,也可以是状态变量的函数,记以u uk k=u uk k(s sk k),表示于阶段k状态sk时的决策变量。决策变量的取值往往也有一定的允许范围,称之允许决策集合。决策变量uk(sk)的允许决策集用U Uk k(s sk k)表示,u uk k(s sk k)U)Uk k(s sk k)允许决策集合实际是决策的约
21、束条件。docin/sundae_meng (四)状态转移方程(四)状态转移方程 系统在阶段k处于状态sk,执行决策uk(sk)的结果是系统状态的转移,即系统由阶段k的初始状态sk转移到终止状态sk+1,系统由阶段k到阶段k+1的状态转移完全由阶段k的状态sk和决策uk(sk)所确定,与系统过去的状态s1,s2,sk-1及其决策u1(s1),u2(s2)uk-1(sk-1)无关。系统状态的这种转移,用数学公式描述即有:)(,(1kkkkksusTs(1)docin/sundae_meng (五)、策略(五)、策略 策略(Policy)也叫决策序列策略有全过程策略和k部子策略之分,全过程策略是指
22、具有n个阶段的全部过程,由依次进行的n个阶段决策构成 的 决 策 序 列,简 称 策 略,表 示 为p1,nu1,u2,un。从k阶段到第n阶段,依次进行的阶段决策构成的决策序列称为k部子策略,表示为pk,nuk,uk+1,un,显然当k=1时的k部子策略就是全过程策略。在实际问题中,由于在各个阶段可供选择的决策有许多个,因此,它们的不同组合就构成了许多可供选择的决策序列(策略),由它们组成的集合,称之允许策略集合,记作P1,n,从允许策略集中,找出具有最优效果的策略称为最优策略。docin/sundae_meng (六)指标函数 用来衡量策略或子策略或决策的效果的某种数量指标,就称为指标函数
23、。它是定义在全过程或各子过程或各阶段上的确定数量函数。对不同问题,指标函数可以是诸如费用、成本、产值、利润、产量、耗量、距离、时间、效用,等等。例如:图1的指标就是运费。docin/sundae_meng (1)(1)阶段指标函数(也称阶段效应)。阶段指标函数(也称阶段效应)。用用v vk k(s sk k,u,uk k)表示第表示第k k段处于段处于s sk k状态且所作决策为状态且所作决策为u uk k(s sk k)时的指标,则它就是第时的指标,则它就是第k k段指标函数段指标函数。(2)(2)过程指标函数(也称目标函数)。过程指标函数(也称目标函数)。不仅跟当前状态不仅跟当前状态s s
24、k k有关,还跟该子过程策略有关,还跟该子过程策略p pk,nk,n(s sk k)有关,表示为有关,表示为:,()k nk nkVpsdocin/sundae_meng 适于用动态规划求解的问题的过程指标函数适于用动态规划求解的问题的过程指标函数(即目标函数),必须具有关于阶段指标的可分(即目标函数),必须具有关于阶段指标的可分离形式对于部子过程的指标函数可以表示为:离形式对于部子过程的指标函数可以表示为:,1,1,1()(,()k nk nkkkkknknkVpssu Vps (2),11,1,1()(,)(,)(,)(,)()nk nk nkiiiiknkkkiiiikkkkknknkV
25、psvs uvsuvs uvsuVps docin/sundae_meng (七七)最优解最优解 用用f fk k(s sk k)表示第表示第k k子过程指标函数在状态子过程指标函数在状态s sk k下的最下的最优值优值,即即 相应的子策略称为相应的子策略称为s sk k状态下的最优子策略,记状态下的最优子策略,记为为p pk,nk,n*(s sk k);而构成该子策赂的各段决策称为该;而构成该子策赂的各段决策称为该过程上的最优决策,记为过程上的最优决策,记为 ;有有 ,()()()(*(),1,2,k nk nkkkk nk nkk nk nkpPsfsoptVpsVpskn )(,),()
展开阅读全文