混合策略纳什均衡合集课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《混合策略纳什均衡合集课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 混合 策略 均衡 课件
- 资源描述:
-
1、第二章第二章 完全信息静态信息博弈完全信息静态信息博弈-纳什均衡纳什均衡n一一 博弈的基本概念及战略表述博弈的基本概念及战略表述n二二 占优战略均衡占优战略均衡n三三 重复剔除的占优均衡重复剔除的占优均衡n四四 纳什均衡纳什均衡n五五 混合战略纳什均衡混合战略纳什均衡n六六 纳什均衡存在性及相关讨论纳什均衡存在性及相关讨论五五 混合策略纳什均衡混合策略纳什均衡 混合策略与期望支付混合策略与期望支付 计算混合策略纳什均衡的三种方法计算混合策略纳什均衡的三种方法 支付最大值法支付最大值法 支付等值法支付等值法 反应函数法反应函数法 多重纳什均衡及其甄别多重纳什均衡及其甄别 混合博弈在现实经济中的运
2、用案例混合博弈在现实经济中的运用案例五五 混合策略纳什均衡混合策略纳什均衡 纯策略纯策略(pure strategies):如果一个策略规:如果一个策略规定参与人在一个给定的信息情况下只选择一定参与人在一个给定的信息情况下只选择一种特定的行动。种特定的行动。混合策略混合策略(mixed strategies):如果一个策:如果一个策略规定参与人在给定的信息情况下,以某种略规定参与人在给定的信息情况下,以某种概率分布随机地选择不同的行动。概率分布随机地选择不同的行动。在静态博弈里,纯策略等价于特定的行动,在静态博弈里,纯策略等价于特定的行动,混合策略是不同行动之间的随机选择。混合策略是不同行动之
3、间的随机选择。期望支付期望支付 与混合策略与混合策略(mixed strategies)相伴随的一个问相伴随的一个问题题,是局中人支付的不确定性是局中人支付的不确定性(uncertainty).可用可用期望支付期望支付(expected payoff)来描述来描述有个有个n可可能的取值能的取值X1,X2,Xn,并且这些取值发生的概率,并且这些取值发生的概率分别为分别为p1,p2,pn,那么我们可以将这个数量指,那么我们可以将这个数量指标的期望值定义为发生概率作为权重的所有可能标的期望值定义为发生概率作为权重的所有可能取值的加权平均,也就是取值的加权平均,也就是nnAXpXpXpEU.2211政
4、府和流浪汉的博弈政府和流浪汉的博弈 政府想帮助流浪汉,但前提是后者必须试图寻找工政府想帮助流浪汉,但前提是后者必须试图寻找工作,否则,不予帮助;而流浪汉若知道政府采用救作,否则,不予帮助;而流浪汉若知道政府采用救济策略的话,他就不会寻找工作。他们只有在得不济策略的话,他就不会寻找工作。他们只有在得不到政府救济时才会寻找工作。他们获得的支付如图到政府救济时才会寻找工作。他们获得的支付如图所示:所示:(3,2)(-1,3)(-1,1)(0,0)流浪汉流浪汉寻找工作寻找工作 游闲游闲政府政府救济救济不救济不救济 思考:思考:政府会采用纯策略吗?流浪汉呢?这政府会采用纯策略吗?流浪汉呢?这个博弈有没有
5、纯策略的纳什均衡?个博弈有没有纯策略的纳什均衡?那么政府和流浪汉最有可能采用什么策略?那么政府和流浪汉最有可能采用什么策略?使自己的预期支付最大化。使自己的预期支付最大化。若能够猜的对方的策略,就可以采用针若能够猜的对方的策略,就可以采用针对性的策略,使自己的支付增加。对性的策略,使自己的支付增加。政府和流浪汉的博弈政府和流浪汉的博弈求解混合策略纳什均衡求解混合策略纳什均衡1、假定政府采用混合策略:、假定政府采用混合策略:2、流浪汉的混合策略为:、流浪汉的混合策略为:的概率选择游闲。的概率选择寻找工作,即流浪汉以11,L的概率选择不救济。的概率选择救济,即政府以11,G15101113Gu解一
6、解一:支付最大化支付最大化政府的期望效用函数为:政府的期望效用函数为:流浪汉流浪汉找工作找工作 游荡游荡0,0-1,1-1,33,2政府政府救济救济不救济不救济假设政府救济的概率为假设政府救济的概率为 ;流浪汉找工作的概率为;流浪汉找工作的概率为 ;则则15101113Gu对上述效用函数求微分,得到政府最优化的一阶条对上述效用函数求微分,得到政府最优化的一阶条件为:件为:2.0015Gu 就是说,从政府的最优化条件找到流浪汉混就是说,从政府的最优化条件找到流浪汉混合策略合策略流浪汉以流浪汉以0.2的概率选择寻找工作,的概率选择寻找工作,0.8的概率选择游闲。的概率选择游闲。解一解一:支付最大化
7、支付最大化解一解一:支付最大化支付最大化流浪汉流浪汉找工作找工作 游荡游荡0,0-1,1-1,33,2政府政府救济救济不救济不救济3)12(1031112Lu假设政府救济的概率为假设政府救济的概率为 ;流浪汉找工作的概率为;流浪汉找工作的概率为 ;则流浪汉的期望效用函数为:则流浪汉的期望效用函数为:流浪汉的期望效用函数为:流浪汉的期望效用函数为:5.0012Lu解一解一:支付最大化支付最大化3)12(1031112Lu2.0,5.0)1(3)1(2max)(1()1(3max则uuLG解二解二:支付等值法支付等值法 政府选择救济策略政府选择救济策略 政府选择不救济策略政府选择不救济策略1141
8、13,1Gu期望效用0101,0Gu期望效用如果一个混合策略是流浪汉的最优选择,那一定意味如果一个混合策略是流浪汉的最优选择,那一定意味着政府在救济与不救济之间是无差异的,即:着政府在救济与不救济之间是无差异的,即:2.0,014,1GGuu 解二解二:支付等值法支付等值法 如果一个混合策略是政府的最优选择,那一定意如果一个混合策略是政府的最优选择,那一定意味着流浪汉在寻找工作与游闲之间是无差异的,味着流浪汉在寻找工作与游闲之间是无差异的,即:即:5.0,031,1LLuu流浪汉流浪汉找工作找工作 游荡游荡0,0-1,1-1,33,2政府政府救济救济不救济不救济 如果政府救济的概率小于如果政府
9、救济的概率小于0.5;则流浪汉的最优选择是寻找工作;则流浪汉的最优选择是寻找工作;如果政府救济的概率大于如果政府救济的概率大于0.5;则流浪汉的最优选择是游闲等待救济。则流浪汉的最优选择是游闲等待救济。如果政府救济的概率正好等于如果政府救济的概率正好等于0.5;流浪汉的选择无差异。流浪汉的选择无差异。政府和流浪汉的博弈政府和流浪汉的博弈讨讨 论论 上面的均衡要求每个参与人以特定的概率选择纯上面的均衡要求每个参与人以特定的概率选择纯策略。也就是说,一个参与人选择不同策略的概策略。也就是说,一个参与人选择不同策略的概率不是由他自己的支付决定的,而是由他的对手率不是由他自己的支付决定的,而是由他的对
10、手的支付决定的。的支付决定的。正是由于这个原因,许多人认为混合策略纳什均正是由于这个原因,许多人认为混合策略纳什均衡是一个难以令人满意的概念。衡是一个难以令人满意的概念。事实上,正是因为它在几个(或全部)策略之间事实上,正是因为它在几个(或全部)策略之间是无差异的,他的行为才难以预测,混合策略纳是无差异的,他的行为才难以预测,混合策略纳什均衡才会存在。什均衡才会存在。讨讨 论论 尽管混合策略不像纯策略那样直观,但它确实是尽管混合策略不像纯策略那样直观,但它确实是一些博弈中参与人的合理行为方式。扑克比赛、一些博弈中参与人的合理行为方式。扑克比赛、垒球比赛、划拳就是这样的例子,在这一类博弈垒球比赛
11、、划拳就是这样的例子,在这一类博弈中,参与比赛的总是随机行动以使自己的行为不中,参与比赛的总是随机行动以使自己的行为不被对方所预测。被对方所预测。经济学上的监督博弈也是这样一个例子。如经济学上的监督博弈也是这样一个例子。如税收税收检查检查、质量检查质量检查、惩治犯罪惩治犯罪、雇主监督雇员雇主监督雇员等都等都可以看成猜谜博弈。可以看成猜谜博弈。扑克牌对色游戏扑克牌对色游戏 AB玩扑克牌对色游戏,每人都有红黑两张玩扑克牌对色游戏,每人都有红黑两张扑克牌,约定如果出牌颜色一样,扑克牌,约定如果出牌颜色一样,A输输B赢,赢,如果出牌颜色不一样,则如果出牌颜色不一样,则A赢赢B输。输。找到这个博弈的纳什
12、均衡。找到这个博弈的纳什均衡。-1,11,-11,-1-1,1红红黑黑BA红红黑黑例例 扑克牌对色游戏扑克牌对色游戏B红红 黑黑-1,11,-11,-1-1,1A红红黑黑假设A出红牌的概率为 ;B出红牌的概率为 ;则pq)12()21(2),(qqpqpUA因此A的最佳反应函数为2/12/12/1,1,1,0,0qqqp当当当)12()12(2),(ppqqpUB因此B的最佳反应函数为2/12/12/1,0,1,0,1pppq当当当同理同理)2/1,2/1(),(*qP纳什均衡是:纳什均衡是:A和和B出红牌还出红牌还是出黑牌的概率都是是出黑牌的概率都是1/2.反应函数法反应函数法练习练习1:利
13、用反应函数法找出政府与流浪汉博弈的纳什均衡:利用反应函数法找出政府与流浪汉博弈的纳什均衡流浪汉流浪汉找工作找工作 游荡游荡0,0-1,1-1,33,2政府政府救济救济不救济不救济321,)15(21uu假设政府救济的概率为 ;流浪汉找工作的概率为 ;则5/15/15/1,1,1,0,0rrr当当当2/12/12/1,0,1,0,1当当当r)5/1,2/1(),(*r纳什均衡是:政府以纳什均衡是:政府以1/2的概的概率选择救助,流浪汉以率选择救助,流浪汉以1/5的的概率选择找工作。概率选择找工作。练习练习2:利用反应函数法找出情侣博弈的所有纳什均衡:利用反应函数法找出情侣博弈的所有纳什均衡丽娟丽
14、娟足球足球 芭蕾芭蕾1,20,00,02,1大海大海足球足球芭蕾芭蕾激励的悖论激励的悖论 一小偷欲偷有守卫看守的仓库,若小偷去偷时一小偷欲偷有守卫看守的仓库,若小偷去偷时守卫睡觉(不负责),则小偷偷窃成功(令其守卫睡觉(不负责),则小偷偷窃成功(令其价值是价值是V),若守卫没有睡觉(尽职尽责),),若守卫没有睡觉(尽职尽责),则小偷会被抓住坐牢(设其效用为则小偷会被抓住坐牢(设其效用为-A);再假);再假设守卫睡觉而未被偷的效用为设守卫睡觉而未被偷的效用为S,守卫睡觉而,守卫睡觉而被偷则被解雇,其效用为被偷则被解雇,其效用为-D。写出得益矩阵,。写出得益矩阵,并分析如果想减少小偷偷东西的现象发
展开阅读全文