第八九讲动态规划运筹学基础清华大学王永县课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第八九讲动态规划运筹学基础清华大学王永县课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 动态 规划 运筹学 基础 清华大学 王永县 课件
- 资源描述:
-
1、第十七、十八讲第八、九讲第八、九讲 1 引言 2 动态规划的计算方法递推方式 第十七、十八讲 动态规划是运筹学的重要分支之一,它是解决多阶段决策过程最优化的一种方法。该法是由美国数学家贝尔曼(R.Bellman)等人在本世纪50年代首先提出的。R.Bellman于1957年发表的“动态规划”一书是动态规划方面的第一本著作。目前,动态规划已成功地用于解决资源分配、货物装运、设备更新、生产计划以及复合系统可靠性等许多问题。第十七、十八讲 一、动态规划求解问题的思路某旅客需从号站到达号站,试指出一条最短路径。交通状况如图3-1所示。解一种习惯求解法是首先计算所有可能路线的距离,然后经比较选出一条最短
2、路线,这称为显枚举或穷举法,当维数增大时,该法计算量将急剧增大,从而变得不可行。动态规划是采用递推方式使计算量大减,现简介其思路。第十七、十八讲108976543211644236136176619103710988,96129109895468444108108第5阶段 第4阶段第3阶段第2阶段第1阶段图3-1 最优旅行路线问题 图3-1中,圆圈内数字表示旅行可能通过的站号(状态号);共分5个阶段;箭头表示旅行路线,箭头旁边数字表示距离。第十七、十八讲 令x表示状态(站)号;fi(x)表示从第i阶段x状态到达终点的最短距离;di(x)表示从第i阶段x状态到达终点取最短路线时应到达的下一个状态
3、(站)号。1)假设旅客已到达第4阶段的状态(i)若已到达状态,则只一条路可到达故 f4(8)=8 d4(8)=10(ii)若已到达状态,同理得f4(9)=4,d4(9)=10。第十七、十八讲 2)假设旅客已到达第3阶段的状态(i)若已到达状态,有2条路可选:及此时应检查这两种选择中能达到的最短距离,即,比较下述i)及ii)并找出最小值。i)从到的距离与到终点的最短距离和ii)从到的距离与到终点的最短距离和。这两个值分别为4+f4(8)=12和8+f4(9)=12,两种费用相等,故得 f3(5)=12 d3(5)=8或9第十七、十八讲(ii)若已到达状态,同理可得f3(6)=min =min =
4、10对应d3(6)=9(iii)若已到达状态,同样得f3(7)=min =8d3(7)=9按照同样方法,可算出旅客已到第2阶段和第1阶段的结果。)9(6)8(944ff4689)9(4)8(544ff第十七、十八讲 把上述计算结果全部标在图3-1上的状态点附近。其中,圆圈上方数字表示该状态点的最短距离,圆圈下方数字表示该状态点的最优决策。最后,根据计算结果,可找出从到的最短路线为。第十七、十八讲 二、最优化原理最优化原理可阐述如下:“一个最优策略具有这样的性质:不论初始状态和初始决策如何,相对于第1个决策所形成的状态来说,余下决策必定构成一个最优策略”。如图3-2中,若路线I和II是A到C的最
5、优路线,则根据最优化原理,路线II必是从B到C的最优路线。A CBII 图3-2II 第十七、十八讲 三、动态规划中的主要名词术语1阶段(Stage):把问题分成几个相互联系的有顺序的几个环节,通常用k表示。2状态(State):表示某阶段的出发位置或状态值,通常用x表示。3决策(Decision):从某阶段的1个状态演变到下一阶段某状态的选择,通常用d或u表示。第十七、十八讲 三、动态规划中的主要名词术语4策略(Policy):由开始到终点的全过程中,由每段决策组成的决策序列称为全过程策略,简称策略,通常用P表示。5目标函数(或费用函数):在优化过程中,衡量实现过程的优劣的准则,通常用f或J
6、表示。第十七、十八讲根据动态规划所求解问题的不同情况可采用后向(逆序)动态规划和前向(顺序)动态规划两种。一、后向动态规划法已知:目标函数 J=min 约束条件(状态转移方程)x(k+1)=gx(k),u(k),k则,递推公式为NkkuxL0),(1)()(min)(kkuxgIkuxLkxIUu,第十七、十八讲起步:其中,I(x,k)从k阶段x状态出发采取最优策略到达过程终点所获得的最优目标值;L(x,u,k)k阶段x状态采取决策u所获得的本段目标函数值,又称直接项;U决策变量u的集合。)(min)(NuxLNxIUu,第十七、十八讲例3-2供电系统的投资规划问题某工厂为满足用电需求增加量,
7、计划在1980年,1985年及1990年投资兴建发电站。电站有500MW和1000MW两种,每年最多兴建一座电站,其投资额示如表3-1,下列表内金额全折合到1980年标准。表3-1 兴建电站投资表 (单位:106元)投资额 年份容量 1980 1985 1990500MW1000MW 1.0 0.5 0.25 1.6 0.8 0.4第十七、十八讲电站投资兴建后5年发电。工厂各年需新增加的累积电功率示如表3-2。表3-2 工厂各年需新增电功率年份 需新增电功率(MW)1985199019954008001200第十七、十八讲工厂任何一年缺电量不能超过400MW,缺电400MW以内需罚款,罚款数目
8、示如表3-3。表3-3 历年缺电罚款表 (单位:106元)罚款 年份缺电量 1980 1985 1990100MW200MW300MW400MW 0.2 0.1 0.050.4 0.2 0.1 0.6 0.3 0.150.8 0.4 0.2第十七、十八讲问:在1980年、1985年、1990年及1995年应如何兴建电站才能使建电站费与罚款费用总和最小?解 依据题意,选阶段变量k=0,1,2,3分别对应1980年、1985年、1990年及1995年;状态变量x(k)表示阶段k时已有的新增总电量,单位为兆瓦(MW);决策变量u(k)表示阶段 k时兴建的电站容量,单位为兆瓦(MW)。第十七、十八讲令
9、x(0)=0,工厂最大需求新增电量为1200MW,因此,x的离散值为0,500,1000,1500,u的离散值为0,500,1000。把建站费用和罚款费用表达成k,x及u的关系式,令L1(u,k)表示 k阶段决策值为u时的建站费用,L2(x,k)表示k阶段状态值为x时的罚款费用。L1和L2的值分别列于表3-4及表3-5中。第十七、十八讲 表3-4 建站费用L1(u,k)表 (单位:106元)L1 ku 0 1 205001000 0.0 0.0 0.0 1.0 0.5 0.25 1.6 0.8 0.4第十七、十八讲表3-5 罚款费用L2(x,k)表 (单位:106元)L2 ku 0 1 2 3
10、050010001500 0 0.8 0 0 0.3 0 0 0 0.1 0 0 0 0号表示不容许状态 第十七、十八讲则,递推公式为I(x,k)=k=0,1,2I(x,3)=L2(x,3)(1995年不需建电站)根据题意,将表达离散状态变量值的初始网格示如图3-3。计算时,从k=3起步,逐步后退进行。)1()()(min21kuxIkxLkuLu,x1500500100000123 k80859095年图3-3 初始网格第十七、十八讲1)设已到达k=3阶段,此时,不需再建新电站,因新电站兴建后5年,即2000年才提供电力,而本题对2000年的电力未提要求,于是,此时建站费用(L1(u,3)=
11、0,故该阶段的最优费用I(x,3)=L2(x,3)(罚款费用)。查表3-5知:x=1500,I(1500,3)=0 不罚款x=1000,I(1000,3)=0.1 罚款 不允许0500 xx第十七、十八讲2)退回k=2阶段(i)设x(2)=1500,此时u(2)必为0,最优费用为I(1500,2)=L1(0,2)+L2(1500,2)+I(1500,3)=0+0+0=0(ii)设x(2)=1000令u(2)=0,得此时的最优费用为I(1000,2)=L1(0,2)+L2(1000,2)+I(1000+0,3)=0+0+0.1=0.1第十七、十八讲令u(2)=500,得此时的最优费用为I(100
展开阅读全文