完全完美信息动态博弈课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《完全完美信息动态博弈课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完全 完美 信息 动态 博弈 课件
- 资源描述:
-
1、 1.参与者1从可行集A1中选择一个行动a1; 2.参与者2观察到a1之后从可行集A2中选择一个行动a2; 3.两人的收益分别为u1(a1,a2)和u2(a1,a2); 完全且完美信息动态博弈的主要特点是: (1)行动是顺序发生的; (2)下一步行动选择之前,所有以前的行动都可被观察到; (3)每一可能的行动组合下参与者的收益都是共同知识。4.1.1 阶段和扩展性表示动态博弈中一个博弈方的一次选择行为。 动态博弈最好的表示方法:扩展型(博弈树)。 例子:仿冒和反仿冒博弈 并不是所有的动态博弈都 可以用扩展形表示,比如 动态博弈的阶段很多:象棋。 战略空间是连续函数:产量。ABBA不制止制止(-
2、2,5)(2,2)(10,4)(5,5)不仿冒(0,10)仿冒不制止制止仿冒不仿冒4.1 动态博弈的表示法和特点4.1.2 动态博弈的基本特点是在整个博弈中所有选择、行为的计划,不能分割。是上述“计划型”策略的策略组合,构成一条路径.对应每条路径,而不是对应每步选择、行为. 动态博弈的非对称性先后次序决定动态博弈必然是非对称的。先选择、行为的博弈方常常更有利,有“先行优势”。4.2 可信性和纳什均衡的问题 动态博弈中各个博弈方的策略是自己设定的,在各个博弈阶段,针对实际情况可以进行随机的选择,这称为“相机选择”。 相机选择的存在使得博弈方的策略的可信性值得怀疑,也就是说博弈方是否会真正始终按照
3、自己策略所设定的方案行为还是临时改变主意? 比如下面的例子: 在这个例子中, 关键是对甲的行为有所约束。4.2.1 相机选择和策略中的可信性问题乙甲(0,4)(2,2)(1,0)不借借分不分开金矿博弈不同版本的开金矿博弈分钱和打官司的可信性不借乙甲乙借不分分(1,0)不打打(0,4)(1,0)(2,2)有法律保障的开金矿博弈分钱打官司都可信乙甲乙打(2,2)不分分不借借(0,4)(-1,0)不打(1,0)法律保障不足的开金矿博弈分钱打官司都不可信 第一个图中,通过法律手段使乙的利益得到保障,这样乙的完整策略:“第一阶段借,如果第二阶段甲不分,第三阶段打官司。”甲的完整策略是:“第二阶段分。”这
4、是这个3阶段动态博弈的解。 但是第二个图中,乙的利益在法律的情况下仍然得不到保障,可以看出法律在社会中的重要性。4.2.2 纳什均衡的问题 第三种开金矿博弈中, (不借-不打,不分)和(借-打,分)都是纳什均衡。但后者不可信,不可能实现或稳定。 结论结论:纳什均衡在动态博弈可能缺乏稳定性,也就是说,在完全信息静态博弈中稳定的纳什均衡,在动态博弈中可能可能是不稳定的,不能作为预测的基础。 根源根源:纳什均衡本身不能排除博弈方策略中包含的不可信的行为设定,不能解决动态博弈的相机选择引起的可信性问题4.2.3 逆推归纳法定义定义:从动态博弈的最后一个阶段博弈方的行为开始分析,逐步倒推回前一个阶段相应
5、博弈方的行为选择,一直到第一个阶段的分析方法,称为“逆推归纳法逆推归纳法”。 逆推归纳法是动态博弈分析最重要、基本的方法。乙不借借(1,0)甲不分分(0,4)(2,2) 一个两阶段动态博弈逆向归纳法的公式化表达: 当在博弈的第二阶段参与者2行动时,由于其前参与者1已选择行动a1,他面临的决策间题可用下式表示: 假定对A1中的每一个a2,参与者2的最优化问题只有惟一解,用R 2(a1)表示,这就是参与者2对参与者1的行动的反应(或最优反应)。 由于参与者1能够和参与者2一样解出2的问题,参与者1可以预测到参与者2对1每一个可能的行动a1所作出的反应,这样1在第一阶段要解决的问题可以归结为: 假定
6、参与者1的这一最优化问题同样有惟一解,表示为a1*,我们称 是这一博弈的逆向归纳解。 逆向归纳解不含有不可置信的威胁:参与者1预测参与者2将对1可能选择的任何行动a1做出最优反应,选择行动R2(a1)。 由于动态博弈中纳什均衡是不可靠的,不具备稳定性,因此要发展能排除不可信行为的新的均衡概念。赛尔腾(1965)提出了子博弈完美纳什均衡(Subgame Perfect Nash Equilibrium)的概念。 要介绍子博弈完美纳什均衡,必须先了解子博弈的概念。4.3 子博弈和子博弈完美纳什均衡3.3.1 子博弈定义:由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的,有初始信息集和进行
7、博弈所需要的全部信息,能够自成一个博弈的原博弈的一部分,称为原动态博弈的一个“子博弈”。 首先子博弈不能包含原博弈的第一个阶段,这意味着动态博弈本身不会是他自己的子博弈。 其次子博弈必须有一个明确的信息集,不能分割任何信息集,在多节点信息集合的不完美信息集中有可能不存在子博弈。乙甲不借借不分分(1,0)(0,4)(2,2)乙(-1,0)3.3.2 子博弈完美纳什均衡定义定义: 子博弈完美纳什均衡本身也是纳什均衡,不过它是比纳什均衡更强的解。 子博弈完美纳什均衡能够排除均衡策略中不可信的威胁和承诺,因此是真正稳定的。 子博弈是倒着看的,从最小的子博弈开始我们就找稳定策略组合,直至最开始的节点,那
8、么当然是稳定的了。大家会发展这正是逆推归纳法。 逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。 我们将定义子博弈完美纳什均衡为:一个完全且完美信息动态博弈可能会有多个均衡,但惟一的子博弈完美纳什均衡就是与逆向归纳解相对应的均衡。正如我们在前面所观察到的,有些博弈会有多个纳什均衡,但有一个均衡明显占优,成为博弈的解。 比如,上例分钱博弈中,双方的策略组合“乙第一阶段选择借,第二阶段选择打;甲第二阶段选择分”虽然是整个博弈的一个纳什均衡,但这个策略组合中乙的策略要求乙在第三阶段单人博弈构成的子博弈中选择的“打” 不是该子博弃的一个纳了卜均衡,因此根据子博弈完美纳什均衡的定义判断,这个
9、策略组合不是子博弈完美纳什均衡。这也是上述纳什均衡策略组合不稳定的根源。 策略组合“乙在第一阶段选择不借、如果有第三阶段选择则选择不打;甲如果有第二阶段选择选不分”,则是了博弈完美纳什均衡,因为该策略组合的双方策略不但在整个博弈中构成纳什均衡,而且在两级子博弈中也都构成纳什均衡。 值得注意的是,当两个博弈方按照上述子博弈完美纳什均衡策略组合行为时,实际上不会进行到博弈的第二、第三阶段,两个博弈方在第二、二阶段的行为实际上不会发生。我们称此时第二阶段甲的选择点和第三阶段乙的选择点为的,两博弈方的策略在这两个节点的选择称为“不在均衡路径上的选择”。我们必须强调,子博弈完关纳什均衡必须对博弈方在所有
10、选择节点处的选择都作出规定,包括最终不在均衡路径土几的节点,不管是在均衡路径上的选择还是不在均衡路径。 最后,我们探讨逆向归纳法背后的理性假定。看下面的例子: 我们用博弈树表示一个动态博弈,树上每一枝的末端都有两个收益值,上面代表参与者1的收益,下面代表参与者2的收益。考虑下面的三步博弈,其中参与者1有两次行动:4.3.3 逆向归纳法背后的理性假设 为计算出这一博弈的逆向归纳解,我们从第三阶段(即参与者1的第二次行动)开始。这里参与者1面临的选择是L。那么在第二阶段,参与者2预测到一旦博弈进入到第三阶段,则参与者1会选择L ,这会使2的收益为0,从而参与者2在第二阶段的选择为:L可得收益1,
11、R“可得收益0,于是L是最优的。 这样在第一阶段,参与者1预测到如果博弈进入到第二阶段,2将选择L,使参与者1的收益为1,从而参与者1在第一阶段的选择是:L收益为2, R收益为1,于是L是最优的。 上述的求解过程求出:参与者1在第一阶段的最优选择是L,从而博弈结束。 但是即使逆向归纳预测博弈将在第一阶段结束,我们论证过程的重要部分却是考虑如果博弈不在第一阶段结束时可能发生的情况。 比如在第二阶段,当参与者2预测如果博弈进入第三阶段,则1会选择L,这时2假定1是理性的。由于只有在1偏离了博弈的逆向归纳解,才能轮得到2选择行动,而这时2对1的理性假定便看似是矛盾的,即如果1在第一阶段选择了R,那么
12、第二阶段2就不能再假定1是理性的了。但这种理解是不对的。 如果1在第一阶段选择了R,则两个参与者都是理性的就不可能是共同知识,但这时1仍有理由在第一阶段选择R,却不与2对1的理性假定相矛盾。 一种可能是“参与者1是理性的”是共同知识,但“参与者2是理性的”却不是共同知识:如果1认为2可能不是理性的,则1就可能在第一阶段选择R,希望2在第二阶段选择R,从而给1以机会在第三阶段选择L。另一种可能是“参与者2是理性的”是共同知识,但“参与者1是理性的”却不是共同知识:如果1是理性的,但推测2可能认为1是非理性的。 这时1也可能在第一阶段选择R,希望2会认为1是非理性的而在第二阶段选择R,期望1能在第
13、三阶段选择R。逆向归纳中关于1在第一阶段选择R的假定可通过上面的情况得到解释。不过在有些博弈中,对1选择了R的更为合理的假定是1确实是非理性的。4.4 四个经典的动态博弈例子 1.1.斯塔克尔贝里双头垄断模型斯塔克尔贝里双头垄断模型 斯塔克尔贝里(1934)提出一个双头垄断的动态模型,其中一个支配企业(领导者)首先行动,然后从属企业(追随者)行。比如在美国汽车产业发展史中的某些阶段,通用汽车就扮演过这种领导者的角色(这一例子把模型直接扩展到允许不止一个追随企业,如福特、克莱斯勒等等)。根据斯塔克尔贝里的假定,模型中的企业选择其产量,这一点和古诺模型是一致的(只不过古诺模型中企业是同时行动的,不
14、同于这里的序贯行动)。 这里P(Q)=a-Q,是市场上的总产品Q=q1+q2时的市场出清价格,c是生产的边际成本,为一常数(固定成本为0)。 为解出这一博弈的逆向归纳解,我们首先计算企业2对企业1任意产量的最优反应,R2(q1)应满足: 博弈的时间顺序如下: (1)企业1选择产量q1 0; (2)企业2观测到然后选择产量q2 0 (3)企业1的收益由下面的利润函数给出: 对上面的通过求极值可得: 已知q1 w(S)-S w(E) w(S)+E-S其经济含义是只有代理人努力工作的报酬到达偷懒的时候的基本报酬,还有至少一个不低于能补偿努力和偷懒的负效用的增加额才可以。参与约束:22R(E)-w(E
15、), w(E)-E拒绝接受拒绝接受R(0),0R(S)-w(S), w(S)-SR(0),0接受:w(E)-E0接受:w(S)-S0参与约束 委托人的选择(面临两种情况)11不委托委托委托R(S)-w(S), w(S)-SR(0),0R(E)-w(E), w(E)-E不委托R(0),0委托: R(E)-w(E) R(0)不委托: R(E)-w(E) R(0)不委托: R(S)-w(S) 0不委托: 0.1*20-w(S) +0.9*10-w(S)0不委托:0.9*20-w(E)+0.1*10-w(E)0.1*w(20)-S+0.9*w(10-S)接受:0.9*w(20)-E+0.1*w(10)
展开阅读全文