第10章贝叶斯博弈与贝叶斯Nash均衡汇编课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第10章贝叶斯博弈与贝叶斯Nash均衡汇编课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 章贝叶斯 博弈 贝叶斯 Nash 均衡 汇编 课件
- 资源描述:
-
1、第三部分:不完全信息静态博弈第十章贝叶斯博弈与贝叶斯第十章贝叶斯博弈与贝叶斯Nash均衡均衡主要内容:一、贝叶斯博弈二、贝叶斯Nash均衡三、贝叶斯Nash均衡的应用四、关于混合战略Nash均衡的一个解释主要内容:一、贝叶斯博弈二、贝叶斯Nash均衡三、贝叶斯Nash均衡的应用四、关于混合战略Nash均衡的一个解释第十章贝叶斯博弈与贝叶斯第十章贝叶斯博弈与贝叶斯Nash均衡均衡Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng一、贝叶斯博弈 前面两部分我们讨论了完全信息博弈问题,但在现实生活中我们遇
2、到更多的可能是不完全信息博弈问题。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng例如 在“新产品开发”博弈中,企业对市场的需求可能并不清楚;在连锁店博弈中,潜在的进入者可能并不知道连锁店在市场上的盈利情况,等等。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 将这种博弈开始时就存在事前不确定性的博弈问题是不完全信息博弈问题。Control Science and Engineering,HUST
3、All Rights Reserved,2007,Luo Yunfeng例如:“斗鸡博弈”考察这样的情形:假设参与人可能有这样的两种性格特征(类型)“强硬”(用s表示)或“软弱”(用w表示)。所谓“强硬”的参与人是指那些喜欢争强好胜、不达目的誓不罢休的决斗者;而“软弱”的参与人是指那些胆小怕事、遇事希望息事宁人的决斗者。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 显然,当具有不同性格特征的决斗者相遇时,所表现出来的博弈情形是不同的。令U表示冲上去;D表示退下去,则每种情况下博弈情形如下图所示
4、。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng当参与人都为强硬者时 博弈存在两个纯战略Nash均衡(U,D)和(D,U)。-4,-42,-2-2,20,0UD21UDControl Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng当参与人1为强硬者参与人2为软弱者时 博弈存在唯一的Nash均衡(U,D)。-4,-42,0-2,00,1UD21UDControl Science and Engineering,HU
5、ST All Rights Reserved,2007,Luo Yunfeng当参与人1为软弱者参与人2为强硬者时 博弈存在唯一的Nash均衡(D,U)。-4,-40,-20,21,0UD21UDControl Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng当参与人都为软弱者时 博弈存在唯一的Nash均衡(D,D)。-4,-40,00,01,1UD21UDControl Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng-4,-42
6、,-2-2,20,0UD21UD-4,-42,0-2,00,1UD21UD-4,-40,-20,21,0UD21UD-4,-40,00,01,1UD21UD(1)参与人都为强硬者(2)参与人1为强硬者参与人2为软弱者(3)参与人1为软弱者参与人2为强硬者(4)参与人都为软弱者Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 在“斗鸡博弈”中,虽然在博弈开始之前每位决斗者都了解(知道)自己的性格特征,但对对手的性格特征往往不甚了解或了解不全。在这种情况下即使所有的决斗者都看到了上面的四个战略式博弈,
7、但对决斗者来讲,仍存在着所谓的事前不确定性即博弈开始之前就不知道的信息。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 对于“强硬”的参与人1来讲,虽然他看到了上面的战略式博弈,但他不知道对手是“强硬”的还是“软弱”的,所以博弈开始之前他无法确定博弈是根据(1)还是(2)进行。这意味着“强硬”的参与人1面临着事前无法确定的信息。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 同样,“软弱”的参与人
8、1也会面临类似的问题。此时,“斗鸡博弈”就是一个不完全信息博弈问题。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 对于不完全信息博弈问题,是不可能应用前面两部分介绍的方法进行求解的。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 这是因为给定参与人1为“强硬”的决斗者,如果对手是“软弱”的,那么博弈就只存在惟一的Nash均衡(U,D),参与人1有惟一的最优选择“冲上去”;如果对手是“强硬”的,则
9、博弈就会出现两个Nash均衡(U,D)和(D,U),参与人1的最优选择取决于对手的选择。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 但由于参与人1不知道对手究竟是“强硬”的还是“软弱”的,因此,此时的参与人1就觉得自己似乎是在与两个决斗者进行决斗,一个是“强硬”的,另一个是“软弱”的。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 当一个参与人并不知道在与谁博弈时,博弈的规则是没有定义的,如何
10、处理不完全信息?Harsanyi提出了Harsanyi转换。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 为了分析,对“斗鸡博弈”进行简化。假设参与人1是“强硬”的决斗者,参与人2可能是“强硬”的也可能是“软弱”的,参与人1不知道但参与人2清楚,而且这一假设为所有的参与人所知道。Control Science and Engineering,HUST All Rights Reserved,2007,Luo YunfengHarsanyi转换 对于简化的“斗鸡博弈”,Harsanyi转换是这样
11、处理的:在原博弈中引入一个“虚拟”参与人“自然”(nature,用N表示),构造一个参与人为两个决斗者和“自然”的三人博弈。Control Science and Engineering,HUST All Rights Reserved,2007,Luo YunfengHarsanyi转换-4,-42,-2-2,2UD0,0-4,-42,0-2,00,1N()p强硬(1)p软弱220 x1x2xDDDDDUUUUU1“自然”首先行动决定参与人2的性格特征(即选择参与人2是“强硬”的还是“软弱”的),“自然”的选择参与人1不知道,但参与人2知道。Control Science and Engin
12、eering,HUST All Rights Reserved,2007,Luo Yunfeng在“自然”选择后,参与人1和2再进行“斗鸡博弈”。-4,-42,-2-2,2UD0,0-4,-42,0-2,00,1N()p强硬(1)p软弱220 x1x2xDDDDDUUUUU1Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng-4,-42,-2-2,2UD0,0-4,-42,0-2,00,1N()p强硬(1)p软弱220 x1x2xDDDDDUUUUU1在新构造的三人博弈中,“自然”的支付不必考虑。参
13、与人1和2的支付由“斗鸡博弈”决定。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng-4,-42,-2-2,2UD0,0-4,-42,0-2,00,1N()p强硬(1)p软弱220 x1x2xDDDDDUUUUU1如果“自然”选择参与人2的性格特征是“强硬”的,则意味着参与人1与“强硬”的参与人2进行决斗,博弈进入决策结x1,其支付(1)决定;Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng-4,-4
14、2,-2-2,2UD0,0-4,-42,0-2,00,1N()p强硬(1)p软弱220 x1x2xDDDDDUUUUU1如果“自然”选择参与人2的性格特征是“软弱”的,则意味着参与人1与“软弱”的参与人2进行决斗,博弈进入决策结x2,其支付由(2)决定。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng Harsanyi通过引入“虚拟”参与人,将博弈的起始点由x1(或x2)提前至x0,从而将原博弈中参与人的事前不确定性转变为博弈开始后的不确定性(即参与人1不知道“自然”的选择)。这种通过引入“虚拟”
15、参与人来处理不完全信息博弈问题的方法亦称Harsanyi转换。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng考察不完全信息博弈问题参与人的决策 用p1表示参与人1认为“自然”选择参与人2为“强硬”的概率,v1(U)和v1(D)分别表示参与人1认为自己选择行动U和D时所能得到的期望收益;用x表示“强硬”的决斗者2选择行动U的概率。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 当 即 时,对参与人1
16、来讲,其最优选择是U(即“冲上去”)。由于 ,所以当 即参与人1认为参与人2是“强硬”决斗者的可能性不超过1/2时,就会选择“冲上去”。1111()42(1)2(1()26v Upxxpxp1111()20(1)0(12()v Dpxxpxp 11()()v Uv D11/(2)xp1x 11/2p Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 考察参与人2的选择。用q1表示参与人2关于“参与人1关于自然选择的推断”的推断,即q1表示参与人2认为“参与人1认为参与人2是强硬的”概率。Contr
17、ol Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 由前面的分析可知:如果 ,则参与人2认为“U(即冲上去)是参与人1的最优选择”;与此同时,如果 ,则参与人1的最优选择与参与人2的预测一致。但是,如果 而 ,则参与人1的最优选择就可能与参与人2的预测不一致。11/2q 11/2p 11/2p 11/2q Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 在Harsanyi转换中规定:参与人关于“自然”选择的推断
18、为共同知识。也就是说,两个决斗者不仅同时一起看到了“自然”随机选择参与人2的性格特征,而且同时一起看到了“自然”以一定的概率分布随机选择参与人2的性格特征。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 不完全信息博弈经Harsanyi转换之后得到的完全但不完美信息博弈。(x,y)表示参与人1的性格特征为x,参与人2的性格特征为y;pxy表示“自然”选择(x,y)的概率,这里pxy为共同知识。UDUDUD-4,-42,-2-2,20,012UDUDUD-4,-42,0-2,00,12UDUDUD
19、-4,-40,-20,21,01UDUDUD-4,-40,00,01,1N(s,w)0 x2x3x4x5x(s,s)(w,w)(w,s)SSpSWpWSpWWp2222Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng在应用Harsanyi转换时,需要注意以下问题:1)“自然”的选择。在一般的不完全信息博弈问题中,Harsanyi转换规定“自然”选择的是参与人的类型(type)。除了根据参与人的支付来划分参与人的类型以外,还可以根据参与人的行动空间,甚至根据参与人掌握信息的多少(或程度)来来划分参与
20、人的类型。此外,需要注意的是,参与人的类型必须是其个人特征的一个完备描述。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 用ti表示参与人i的一个特定的类型,Ti表示参与人i所有类型的集合(亦称类型空间,type space),即 ,t=(t1,tn)表示一个所有参与人的类型组合,t-i=(t1,ti-1,tn)表示除参与人i之外其他参与人的类型组合。所以,t=(ti,t-i)。iitTControl Science and Engineering,HUST All Rights Reserve
21、d,2007,Luo Yunfeng 2)参与人关于“自然”选择的推断。用p(t1,tn)表示定义在参与人类型组合上的一个联合分布密度函数,Harsanyi转换假定:对于一个给定的不完全信息博弈问题,存在一个参与人关于“自然”选择的推断p(t1,tn),且p(t1,tn)为共同知识。也就是说,Harsanyi转换假定所有参与人关于“自然”行动的信念(belief)是相同的,并且为共同知识。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 用 表示参与人i在知道自己类型为ti的情况下,关于其他参与人
22、类型的推断(即条件概率),则 其中,为边缘密度函数。()iiip tt(,)(,)()(,)iiiiiiiiiiiitTttttp tttttpppp()ip tControl Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 假设pss=0.2,psw=0.3,pws=0.25,pww=0.25。虽然决斗者1不知道决斗者2 的类型,但由于决斗者1知道自己的类型,因此他可以根据贝叶斯公式推知决斗者2的类型分布。Control Science and Engineering,HUST All Rights Rese
23、rved,2007,Luo Yunfeng例如 根据贝叶斯规则,“强硬”的决斗者1可以推知:决斗者2是“强硬”的概率为 决斗者2是“软弱”的概率为“软弱”的决斗者1可以推知:决斗者2是“强硬”的概率为 决斗者2是“软弱”的概率为 1(0.2)0.40.20.3p s s1(0.3)0.60.20.3p w s1(0.25)0.50.250.25p s w1(0.25)0.50.250.25p w wControl Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 这里不同类型的决斗者1所形成的关于“自然”选择的推
24、断是不同的,究其原因,Harsanyi认为:虽然理性的参与人在掌握同样的信息时对同一事件会形成相同的概率推断,但参与人各自掌握的信息不同时对同一事件就会形成不同的概率推断。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng 这说明在Harsanyi转换中,参与人对包括自己在内的所有参与人的类型的联合概率推断(分布)都是一样的,但由于参与人掌握的私人信息不同,使得各自对其他参与人的类型的概率分布的推断不同。Control Science and Engineering,HUST All Rights
25、Reserved,2007,Luo Yunfeng 贝叶斯博弈(the static Bayesian game)是关于不完全信息静态博弈的一种建模方式,也是不完全信息静态博弈的标准式描述。Control Science and Engineering,HUST All Rights Reserved,2007,Luo Yunfeng贝叶斯博弈的定义贝叶斯博弈包含以下五个要素:(1)参与人集合 ;(2)参与人的类型集T1,T2;(3)参与人关于其他参与人类型的推断 (4),;(5)参与人类型相依的行动集A(t1),A(tn);(6)参与人类型相依的支付函数 (7),。1,2,.,n 111()
展开阅读全文