13讲-动态规划基本理论课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《13讲-动态规划基本理论课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 13 动态 规划 基本理论 课件
- 资源描述:
-
1、第第6章章 动态规划动态规划动态规划的基本理论动态规划的基本理论 (2学时)学时)确定型动态规划确定型动态规划 (2学时)学时)随机型动态规划随机型动态规划 (1学时)学时)动态规划的软件计算动态规划的软件计算(1学时)学时)第13讲 动态规划的基本理论(6.1)多阶段决策过程多阶段决策过程动态规划的基本概念和基本方程动态规划的基本概念和基本方程动态规划的最优性原理动态规划的最优性原理最短路问题(逆推法、顺推法)最短路问题(逆推法、顺推法)引例:引例:如图给定一个线路网络,两点之间连线上的数字表示两点间的距离(或费用)。试求一条从A到G的铺管线路,使总距离最短(或总费用最小)。AC1E3E2E
2、1F2F1GD3D2D1C4C3C2B2B1531366822354876533312526638433多阶段决策过程(6.1.1)多阶段决策过程最优化问题:多阶段决策过程最优化问题:有一些活动,它在时间有一些活动,它在时间或空间上可以分成若干个阶段,需要对每个阶段进行决或空间上可以分成若干个阶段,需要对每个阶段进行决策,使得活动的策,使得活动的整体效果最好整体效果最好。每个阶段的决策都不是可以任意确定的,它依赖于当每个阶段的决策都不是可以任意确定的,它依赖于当前的状况,同时,它的决策结果又影响到以后的决策。前的状况,同时,它的决策结果又影响到以后的决策。组成了一个决策序列。组成了一个决策序列
3、。这样的决策过程是在变化的过程中产生的,故有这样的决策过程是在变化的过程中产生的,故有动态动态的含义。处理它的方法称为动态规划的方法。的含义。处理它的方法称为动态规划的方法。方法:方法:多阶段问题转化成一系列互相联系的较容易的多阶段问题转化成一系列互相联系的较容易的单阶段问题。单阶段问题。12n.状态状态决策决策状态状态决策决策决策决策状态状态状态状态状态状态即在系统发展的不同时刻(或阶段)根据系统即在系统发展的不同时刻(或阶段)根据系统所处的状态,不断地做出决策;所处的状态,不断地做出决策;每个阶段都要进行每个阶段都要进行决策决策,目的是使整个过程的决策目的是使整个过程的决策 达到最优效果。
4、达到最优效果。动态决策问题的特点:动态决策问题的特点:系统所处的状态和时刻是进行决策的重要因素;系统所处的状态和时刻是进行决策的重要因素;找到不同时刻的最优决策以及整个过程的最优策略。找到不同时刻的最优决策以及整个过程的最优策略。多阶段决策问题:多阶段决策问题:是动态决策问题的一种特殊形式;是动态决策问题的一种特殊形式;在多阶段决策过程中在多阶段决策过程中,系统的动态过程可以按照时间系统的动态过程可以按照时间进程分为进程分为状态状态相互相互联系联系而又相互而又相互区别区别的各个的各个阶段阶段;(一)、基本概念(一)、基本概念 1、阶段:、阶段:把一个问题的过程,恰当地分为若干个相互联系把一个问
5、题的过程,恰当地分为若干个相互联系的的阶段阶段,以便于按一定的次序去求解。,以便于按一定的次序去求解。描述阶段的变量称为描述阶段的变量称为阶段变量阶段变量,常用常用k表示。阶段表示。阶段的划分,一般是根据时间和空间的自然特征来进行的,的划分,一般是根据时间和空间的自然特征来进行的,但要便于问题转化为多阶段决策。但要便于问题转化为多阶段决策。年、月、年、月、路段路段 K1,2,3,4,5,6动态规划的基本概念(6.1.2)2、状态:表示每个阶段开始所处的、状态:表示每个阶段开始所处的自然状况或客自然状况或客观条件观条件。通常一个阶段有若干个状态,描述过程状。通常一个阶段有若干个状态,描述过程状态
6、的变量称为态的变量称为状态变量,状态变量,常用常用Sk表示。表示。一个数、一个数、一组数、一组数、一个向量一个向量 状态变量的取值有一定的允许集合或范围,此集状态变量的取值有一定的允许集合或范围,此集合称为合称为状态允许集合状态允许集合。注意:注意:要明确每个阶段状态的集合或者范围。要明确每个阶段状态的集合或者范围。“状态状态”具有具有“无后效性无后效性”(“马尔科夫性马尔科夫性”):):如果某阶段的状态给定后,当前的状态是以往历史如果某阶段的状态给定后,当前的状态是以往历史的总结,则在这阶段以后过程的发展不受这阶段以的总结,则在这阶段以后过程的发展不受这阶段以前各阶段的影响。前各阶段的影响。
7、如:如:S2=B1,B2;S3=C1,C2,C3,C4 3、决策:表示当过程处于某一阶段的某个状态时,、决策:表示当过程处于某一阶段的某个状态时,可以作出不同的决定,从而确定下一阶段的状态可以作出不同的决定,从而确定下一阶段的状态,这这种决定称为种决定称为决策决策。描述决策的变量,称为描述决策的变量,称为决策变量决策变量。决策变量是状态变。决策变量是状态变量的函数。可用一个数、一组数或一向量(多维情形)量的函数。可用一个数、一组数或一向量(多维情形)来描述。来描述。Uk(Sk)表示第表示第k阶段处于阶段处于Sk状态时的决策变量。状态时的决策变量。如:如:U2(B1)C2,表示处于第二阶段,以,
8、表示处于第二阶段,以B1为始点为始点选择选择C2作为第二阶段的终点。作为第二阶段的终点。Dk(Sk)表示第表示第k k阶段处于阶段处于S Sk k状态时的状态时的允许决策集合。允许决策集合。D2(B1)C1,C2,C3。Uk(Sk)Dk(Sk)。在实际问题中决策变量的取值往往在某一范围之内,在实际问题中决策变量的取值往往在某一范围之内,此范围称为此范围称为允许决策集合允许决策集合。4 4、策略:是一个按顺序排列的决策组成的集合。在、策略:是一个按顺序排列的决策组成的集合。在实际问题中,可供选择的策略有一定的范围,称为实际问题中,可供选择的策略有一定的范围,称为允允许策略集合,许策略集合,用用P
9、来表示来表示。从允许策略集合中找出达到。从允许策略集合中找出达到最优效果的策略称为最优效果的策略称为最优策略最优策略。把从第一阶段开始到最后阶段终止的整个决策过程,把从第一阶段开始到最后阶段终止的整个决策过程,称为问题的全过程;而把从第称为问题的全过程;而把从第k k阶段开始到最后阶段阶段开始到最后阶段终止的决策过程,称为终止的决策过程,称为k k子过程。子过程。在全过程上,各阶段的决策按顺序排列组成的决策序在全过程上,各阶段的决策按顺序排列组成的决策序列列p p1,n1,n u u1 1,u,u2 2,u,un n 称为全过程策略,简称策称为全过程策略,简称策略;略;而在而在k k子过程上的
10、决策序列子过程上的决策序列p pk,nk,n u uk k,u,uk+1k+1,u,un n 称为称为k k子过程策略,也简称子策略。子过程策略,也简称子策略。5 5、状态转移方程:、状态转移方程:若第若第k k阶段的状态变量值为阶段的状态变量值为s sk k,当决策变量当决策变量u uk k的取值决定后,下一阶段状态变量的取值决定后,下一阶段状态变量s sk+1k+1的值也就完全确定。即的值也就完全确定。即s sk+1k+1的值对应于的值对应于s sk k和和u uk k的值。的值。这种对应关系记为这种对应关系记为s sk+1k+1T Tk k(s(sk k,u,uk k),称为状态转移方称
11、为状态转移方程。状态转移方程描述了由一个阶段的状态到下一程。状态转移方程描述了由一个阶段的状态到下一阶段的状态的演变规律。阶段的状态的演变规律。如:如:S3=T2(S2,U2)C2T2(B1,C2),(),(),(221112211231112kkkkusususTsususTsusTs 图示如下:图示如下:状态转移方程是确定状态转移方程是确定过程由一个状态到另过程由一个状态到另一个状态的演变过程。一个状态的演变过程。如果第如果第k阶段状态变量阶段状态变量sk的值、该阶段的决策的值、该阶段的决策变量一经确定,第变量一经确定,第k+1阶段状态变量阶段状态变量sk+1的值的值也就确定。也就确定。状
12、态转移方程(一般形式)状态转移方程(一般形式)12ks1u1s2u2s3skuksk+1 能用动态规划方法求解的多阶段决策过程是一类能用动态规划方法求解的多阶段决策过程是一类特殊的多阶段决策过程,即特殊的多阶段决策过程,即具有无后效性具有无后效性的多阶段的多阶段决策过程。决策过程。如果状态变量不能满足无后效性的要求,应适当如果状态变量不能满足无后效性的要求,应适当地改变状态的定义或规定方法。地改变状态的定义或规定方法。),(),(),(122231112kkkkusTsusTsusTs 动态规划中能动态规划中能处理的状态转移处理的状态转移方程的形式方程的形式。状态具有无后效性的多阶段决策过程的
13、状态转状态具有无后效性的多阶段决策过程的状态转移方程如下移方程如下无后效性无后效性(马尔可夫性马尔可夫性)如果某阶段状态给定后,则在这个阶段以后过如果某阶段状态给定后,则在这个阶段以后过程的发展不受这个阶段以前各段状态的影响;程的发展不受这个阶段以前各段状态的影响;过程的过去历史只能通过当前的状态去影响它未过程的过去历史只能通过当前的状态去影响它未来的发展;来的发展;构造动态规划模型时,要充分注意是否满足构造动态规划模型时,要充分注意是否满足无后效性的要求;无后效性的要求;状态变量要满足无后效性的要求状态变量要满足无后效性的要求;6 6、指标函数和最优值函数:用来衡量所实现过程、指标函数和最优
14、值函数:用来衡量所实现过程优劣的一种数量指标,为优劣的一种数量指标,为指标函数指标函数。常用Vk,n表示。Vk,nVk,n(Sk,Uk,Sk1,,Sn+1)k=1,2,n 在不同的问题中,指标函数的含义是不同的,它在不同的问题中,指标函数的含义是不同的,它可能是距离、利润、成本、产量或资源消耗等。可能是距离、利润、成本、产量或资源消耗等。动态规划模型的指标函数,应具有动态规划模型的指标函数,应具有可分离性可分离性,并,并满足满足递推递推关系关系。即即Vk,n可表示为可表示为Sk,Uk,Vk1,n的函数。的函数。Vk,n(Sk,Uk,Sk1,Sn+1)k(Sk,Uk,Vk1,n(Sk1,Uk1,
15、Sn+1)常见的指标函数有常见的指标函数有:1)整个过程和它的任一子过程的指标函数是它所包含的各阶段的指标的和和。Vk,n(Sk,Uk,Sk1,,Sn+1)Vk,n(Sk,Uk,Sk1,,Sn+1)vk(sk,uk)+Vk+1,n(Sk+1,Uk+1,Sk2,,Sn+1)2)整个过程和它的任一子过程的指标函数是它所包含的各阶段的指标的乘积乘积,即:Vk,n(Sk,Uk,Sk1,,Sn+1)nkjjjjusv),(nkjjjjusv),(Vk,n(Sk,Uk,Sk1,,Sn+1)vk(sk,uk)Vk+1,n(Sk+1,Uk+1,Sk2,,Sn+1)指标函数的最优值称为指标函数的最优值称为最优值
16、函数,最优值函数,记为记为f fk k(s(sk k)。表示从第k阶段的状态s sk k开始到第n阶段的终止状态的过程,采取最优策略所得到的指标函数值。如:f1(A)18,f2(B1)13。即即 f fk k(s(sk k)opt V opt Vk,nk,n(s(sk k,u,uk k,s,sn n,u,un n)(u uk k,u,un n)式中式中的的“optopt”(optimizationoptimization)可根据具体问题而取可根据具体问题而取minmin或或maxmax。一般情况下,k阶段和k+1阶段之间的递推关系式递推关系式可写成:fk(Sk)opt vk(Sk,Uk(Sk)
17、+fk+1(Sk+1)k=n,n-1,2,1 fk(Sk)opt vk(Sk,Uk(Sk)+fk+1(Uk(Sk)k=n,n-1,2,1 边界条件为:fn+1(Sn+1)=0这种递推关系式称为动态规划的基本方程动态规划的基本方程。12ks1u1s2u2s3skuksk+1v1(s1,u1)v2(s2,u2)vk(sk,uk)小结小结:),()(1,susVoptsfnkknkkkuunk),(,111,1nkknkkkksusVus方程方程 :状态转移方程状态转移方程),(1kkkkusTs概念概念 :阶段变量阶段变量k k状态变量状态变量s sk k决策变量决策变量u uk k;指标指标:)
18、,(111,nkkkknknksususVV动态规划本质上是多阶段决策过程动态规划本质上是多阶段决策过程;效益效益指标函数形式指标函数形式:和、和、积积无后效性无后效性),(111,nkkkknksususV可递推可递推,*2*1nuuu,*2*1nsss解多阶段决策过程问题,求出解多阶段决策过程问题,求出 最优策略最优策略,即最优,即最优决策序列决策序列 susvoptsfnkknkkkuunk1,f1(s1)最优轨线最优轨线,即执行最优策略时的即执行最优策略时的状态序列状态序列 最优目标函数值最优目标函数值),(*1*1*,1*,1nnnnususVV从从 k 到终点最优策略到终点最优策略
19、子策略的最优目标函数值子策略的最优目标函数值 1、动态规划方法的关键在于正确地写出基本的递推、动态规划方法的关键在于正确地写出基本的递推关系式和恰当的边界条件(简称基本方程)。要做到关系式和恰当的边界条件(简称基本方程)。要做到这一点,就必须将问题的过程分成几个相互联系的阶这一点,就必须将问题的过程分成几个相互联系的阶段,恰当的选取状态变量和决策变量及定义最优值函段,恰当的选取状态变量和决策变量及定义最优值函数,从而把一个大问题转化成一组同类型的子问题,数,从而把一个大问题转化成一组同类型的子问题,然后逐个求解。即从边界条件开始,逐段递推寻优,然后逐个求解。即从边界条件开始,逐段递推寻优,在每
20、一个子问题的求解中,均利用了它前面的子问题在每一个子问题的求解中,均利用了它前面的子问题的最优化结果,依次进行,最后一个子问题所得的最的最优化结果,依次进行,最后一个子问题所得的最优解,就是整个问题的最优解。优解,就是整个问题的最优解。(二)、动态规划的基本思想和基本方程(二)、动态规划的基本思想和基本方程 2、在多阶段决策过程中,动态规划方法是既把当前、在多阶段决策过程中,动态规划方法是既把当前一段和未来一段分开,又把当前效益和未来效益结合一段和未来一段分开,又把当前效益和未来效益结合起来考虑的一种最优化方法。因此,每段决策的选取起来考虑的一种最优化方法。因此,每段决策的选取是从全局来考虑的
21、,与该段的最优选择答案一般是不是从全局来考虑的,与该段的最优选择答案一般是不同的同的.最优化原理:作为整个过程的最优策略具有这样的最优化原理:作为整个过程的最优策略具有这样的性质:无论过去的状态和决策如何,相对于前面的决性质:无论过去的状态和决策如何,相对于前面的决策所形成的状态而言,余下的决策序列必然构成最优策所形成的状态而言,余下的决策序列必然构成最优子策略。子策略。”也就是说,一个最优策略的子策略也是最也就是说,一个最优策略的子策略也是最优的。优的。3、在求整个问题的最优策略时,由于初始状态是、在求整个问题的最优策略时,由于初始状态是已知的,而每段的决策都是该段状态的函数,故最优已知的,
22、而每段的决策都是该段状态的函数,故最优策略所经过的各段状态便可逐段变换得到,从而确定策略所经过的各段状态便可逐段变换得到,从而确定了最优路线。了最优路线。最短路问题最短路问题:如图给定一个线路网络,两点之间连线上如图给定一个线路网络,两点之间连线上的数字表示两点间的距离的数字表示两点间的距离(或费用或费用)。试求一条从。试求一条从A到到G的铺的铺管线路,使总距离最短管线路,使总距离最短(或总费用最小或总费用最小)。AC1E3E2E1F2F1GD3D2D1C4C3C2B2B1531366822354876533312526638433从A点到G点可分成6个阶段。以A为起点,终点有两个B1、B2,
23、有两个选择。若选择B2,则B2为第一阶段决策的结果。同时它又是第二阶段的开始状态。当每个阶段做出决策的结果,直接影响到后面的选择和决策的结果。最短路线有一个重要特性最短路线有一个重要特性:如果从起点A经过C2点和D1点到达终点G是一条最短的路线,则由C2 点经过D1 点到达G点的这条子路线,是由C2 点出发到达G点所有路线中的最短路线。寻找最短路线的方法寻找最短路线的方法,从最后一段开始,由后向前逐步推进,找出各点到G点的最短路线,最后就能确定一条从A点到G点的最短路线。阶阶 段段 6 本阶段始点本阶段始点(状态)(状态)本阶段各终点本阶段各终点(决策)(决策)到到G点的最短点的最短距离距离本
24、阶段最优终本阶段最优终点点(最优决策)(最优决策)G F14 4 GF233G 最短路线F1G 最短路线F2G阶阶 段段 5本阶段始点本阶段始点(状态)(状态)本阶段各终点本阶段各终点(决策)(决策)到到G点的最短点的最短距离距离本阶段最优终本阶段最优终点点(最优决策)(最优决策)F1F2E13475387F1E25492355F2E364106399F2 最短路线E1F1G 最短路线E2F2G 最短路线E3F2G阶阶 段段 4本阶段始本阶段始点点(状态状态)本阶段各终点(决策)本阶段各终点(决策)到到G点的点的最短距离最短距离本阶段最优本阶段最优终点终点(最优决策)(最优决策)E1E2E3D
25、1279257 7E2D215629116E2D335839128E2 最短路线D1E2F2G 最短路线D2E2F2G 最短路线D3E2F2G阶阶 段段 3本阶段始本阶段始点点(状态状态)本阶段各终点(决策)本阶段各终点(决策)到到G点的点的最短距离最短距离本阶段最优本阶段最优终点终点(最优决策)(最优决策)D1D2D3C16+7=138+6=14 13D1C23+7=10 5+6=11 10D1C3 3+6=93+8=119D2C4 8+6=144+8=1212D3C1D1E2F2GC2D1E2F2GC3D2E2F2GC4D3E2F2G阶阶 段段 2本阶段本阶段始点始点(状状态态)本阶段各终
展开阅读全文