混合策略纳什均衡课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《混合策略纳什均衡课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 混合 策略 均衡 课件
- 资源描述:
-
1、12/9/20221混合策略纳什均衡 Mixed Strategy Nash Equilibrium理学院 顾聪12/9/20222两个参与人各拿一枚硬币,并选择出正面向上还是反面向上。若两枚硬币是一致的(即全部正面或全部反面),则参与人2赢走参与人1的硬币;若两枚硬币不一致(一正一反),参与人1赢得参与人2的硬币。支付矩阵如下:参与人1参与人2 -1,1 1,-1 1,-1 -1,1正面反面正面反面由划线法可知,该博弈不存在纳什均衡。所以采取纯策略不存在稳定的纳什均衡解。4.1 4.1 严格竞争博弈和混合策略严格竞争博弈和混合策略1.1.混合策略的提出混合策略的提出猜硬币博弈猜硬币博弈12/
2、9/20223在这类博弈中,不存在纯策略纳什均衡。参与人的支付取决于其他参与人的策略;以某种概率分布随机地选择不同的行动。每个参与人都想猜透对方的策略,而每个参与人又不愿意让对方猜透自己的策略。这种博弈的类型是什么?如何找到均衡?上述博弈的特征是:上述博弈的特征是:12/9/20224策略:参与人在给定信息集的情况下选择行动的规则,它规定参与人在什么情况下选择什么行动,是参与人的“相机行动方案”。纯策略:如果一个策略规定参与人在每一个给定的信息情况下只选择一种特定的行动,称为纯策略,简称“策略”,即参与人在其策略空间中选取唯一确定的策略。混合策略:如果一个策略规定参与人在给定的信息情况下以某种
3、概率分布随机地选择不同的行动,称为混合策略。参与人采取的不是明确唯一的策略,而是其策略空间上的一种概率分布。2.2.混合策略、混合策略博弈和混合策略纳什均衡混合策略、混合策略博弈和混合策略纳什均衡12/9/20225 混合策略 vs.纯策略(不确定性 vs.确定性)在博弈 中,博弈方 的策略空间 ,则博弈方 以概率分布 随机在其 个可选策略中选择的“策略”,称为一个“混合策略”,其中 对 都成立,且 纯策略可以理解为混合策略的特例,即在诸多策略中,选择该纯策略的概率为1,选其他纯策略的概率为0.为何参与人可能会选择带不确定性的混合策略而放弃确定性的纯策略?参与人主观因素造成的犹豫不决 外在客观
4、因素的不确定性带来应对策略的不确定性 迷惑对手:为了让其它参与人不能清楚了解自己的选择,;,11nnuuSSGi,1ikiissSki1(,)iiikppp10ijpkj,1 11iikpp12/9/20226),(*21n*1 2 )iiiiiiiiiinuuSui即,如果对于所有的,有(,(,),其中,表示参与人 的期望效用。混合策略扩展博弈:博弈方在混合策略的策略空间(概率分布空间)的选择看作一个博弈,就是原博弈的“混合策略扩展博弈”。混合策略纳什均衡(MNE):由最优的混合策略构成的混合策略组合:12/9/20227121212121212111()(,)nnnnmmmijjnjijj
5、njjjjE pppp u sss 对于任意混合策略组合:若各参与人最终确定的组合(纯策略组合)为参与人的支付为发生此情况的概率为 参与人的期望效用:121(,),(,)iniiimipp pppppP12121(,),)nijjnjiiimsssSss1212(,)nijjnju sss1212njjnjppp3.3.期望效用期望效用(Expected Payoff)(Expected Payoff)12/9/20228 由于混合策略伴随的是支付的不确定性,因此参与人关心的是其期望效用。最优混合策略:是指在给定对方的混合策略的情况下,使期望效用函数最大的混合策略。在两人博弈里,混合策略纳什均
6、衡是两个参与人的最优混合策略的组合。12/9/20229 23,3-1,1-1,00,流浪流浪流浪汉流浪汉政府政府救济救济不救济不救济寻找工作寻找工作虽这模型没有PNE,却有下述的MNE:参与人以一定的概率选择某种策略,然后计算相应于不同概率的期望效用。4.4.一个例子一个例子社会福利博弈社会福利博弈12/9/202210设:设:政府政府救济的概率救济的概率=1/2;不救济的概率不救济的概率1-1-=1/2。流浪汉流浪汉寻找工作的期望效用:寻找工作的期望效用:1/22+1/2 1=1.5流浪的期望效用:流浪的期望效用:1/23+1/2 0=1.53 ,2-1 ,3-1 ,1 0 ,0救济救济不
7、救济不救济1-1-寻找工作寻找工作 游荡游荡1-1-此时,流浪汉选择任何混合策略的期望效用都是1.5,则流浪汉的任何一种策略(纯的=1或=0或混合的01)都是政府所选择的混合策略的最优反应。12/9/202211 30.21 0.80.2 1 0.200.80.2 救济:不救济:3 ,2-1 ,3-1 ,1 0 ,0救济救济不救济不救济1-1-寻找工作寻找工作 游荡游荡1-而当而当 =0.2 1-=0.8 游荡游荡 寻找工作寻找工作如果流浪汉选择这个混合策略,政府的任何策略(混合的或纯的)带给政府的期望效用为-0.2。特别的,以1/2的概率分别选择救济和不救济当然也是政府对于流浪汉所选择的混合
8、策略的最有反应。这样,我们得到一个混合策略组合,每一个参与人的混合策略都是给定对方混合策略是的最优选择,从而构成混合策略纳什均衡。策略 期望收益政府 (0.5,0.5)-0.2流浪汉 (0.2,0.8)1.5 既然参与人在构成混合策略时选择不同纯策略之间是无差异的,他为什么不选择一个特定的纯策略而要以特定的概率随机地选择不同的纯策略呢?一个参与人选择混合策略目的是给其他参与人造成不确定性。海萨尼(Harsanyi,1973)对混合战略的解释是,混合策略均衡等价于不完全信息下的纯策略均衡:如社会福利博弈中,假定有两类特征的流浪汉,一类选择寻找工作,另一类选择游荡;每个流浪汉都知道自己的特征,但政
9、府并不知道流浪汉的准确特征,只知道流浪汉20%概率属第一类,80%概率属第二类。在这种情况下,政府在选择自己的策略时似乎面临的是一位选择混合策略的流浪汉。12/9/202213支付最大化法支付等值法最优反应函数法4.2 4.2 混合策略纳什均衡的求解混合策略纳什均衡的求解12/9/202214参与人1的混合策略为1=(q,1-q)(分别以概率q和1-q选择正面和反面),参与人2的混合策略为2=(r,1-r)(分别以概率r和1-r选择正面和反面)。参与人1参与人2 -1,1 1,-1 1,-1 -1,1r 正面1-r 反面q 正面1-q 反面1.1.支付最大化法求纳什均衡支付最大化法求纳什均衡猜
10、硬币博弈猜硬币博弈12/9/202215参与人1参与人2 -1,1 1,-1 1,-1 -1,1r 正面1-r 反面q 正面1-q 反面E1(正面)=(-1)r+1(1-r)=1-2r参与人1选取反面的期望效用为 E1(反面)=1r+(-1)(1-r)=2r-1当给定参与人2选择混合策略1=(r,1-r)时,参与人1的选取正面的期望效用为 12/9/202216类似地,得到参与人2的期望效用为E2=E2(正面)r+E2(反面)(1-r)=(1-2q)(2r-1)由一阶条件:*12*121 11 1(,)*(,)122 22 2 (,)和分别是参与人 和参与人 的混合纳什均衡策略,为猜币博弈的纳
11、什均衡。122(12)0,2(12)011,22EErqqrrq参与人1的期望效用为 E1=E1(正面)q+E1(反面)(1-q)=(1-2r)(2q-1)12/9/202217 23,3-1,1-1,00,流浪流浪1-流浪汉流浪汉政政府府救济救济不救济不救济1-工作工作*(,1)(1)()(3(1)(1)(1)(0(1)(51)5100.2GLGLGvv 假定政府的混合策略是;流浪汉的混合策略是,。政府的期望效用函数为:,求微分,得到政府最优化的一阶条件:故即:流浪汉以0.2的概率选择寻找工作,0.8的概率选择流浪。同理可以根据流浪汉的期望效用函数找到政府的最优混合策略。社会福利博弈社会福利
展开阅读全文