博弈论基础PPT精品课程课件全册课件汇总.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《博弈论基础PPT精品课程课件全册课件汇总.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 博弈论 基础 PPT 精品课程 课件 汇总
- 资源描述:
-
1、授课人:XX XX PPT内容可自行编辑博弈论基础博弈论基础精品课程精品课程策略博弈2th,阿维纳什 迪克西特,苏珊 斯克丝策略:博弈论导论。乔尔 沃森博弈论基础罗伯特 吉本斯博弈入门马丁 奥斯本研究生:博弈论D.弗登博格,让 梯若尔 博弈论R.迈尔森博弈论教程M.奥斯本,A.鲁宾斯坦参考书 在所有社会,人们经常互动。有时,互动是合作,其他的时候,互动是竞争。在这两种情况下,都可以用一个术语,即相互依赖性来表示一个人的行为对另外一个人的福利造成的影响。相互依赖的情形可称为策略环境。因为人们为了确定所采取的最优行动,必须考虑他周围的其他人会怎样选择行动。1 概述 策略对于社会的运行来说,是非常基
2、本的。我们要学会了解在策略环境下,人们实际上是如何采取行动的,以及他们应该怎样采取行动。相互依赖的情形可称为策略环境。因为人们为了确定所采取的最优行动,必须考虑他周围的其他人会怎样选择行动。这种系统的研究形成了应该策略互动的理论。1 概述 这个理论在许多方面都是有用的。首先,它提供了一种语言。其次,它提供了应该框架,能够指导我们建立策略环境模型。其三,它有助于我们追朔,对行为假设的逻辑推理过程。1 概述 这个理论在许多方面都是有用的。首先,它提供了一种语言。其次,它提供了应该框架,能够指导我们建立策略环境模型。其三,它有助于我们追朔,对行为假设的逻辑推理过程。1 概述 好几百年前,数学家就开始
3、研究室内游戏,试图构造最优的游戏策略。在1713年,沃尔德格雷夫就某种纸牌游戏的解决方法,与他的同事德莫特和贝努利进行交流。沃尔德格雷夫的解决方法,与现代理论的结论相一致。1 概述在19世纪的前10年,古诺对寡头模型的均衡进行了研究。而埃奇沃思解决了交易经济中的议价问题。1 概述1913年,关于博弈的第一个定理(关于象棋游戏的结论)被泽梅罗证明。接着,博雷尔开创性地提出了“策略”的概念。1 概述博弈论发展的关键事件是1944年冯诺依曼和奥斯卡摩根斯坦的著作博弈论和经济行为的出版。此书奠定了该领域的基石。接下去的几十年中,数学家和经济学家丰富了它的基础,逐步打造了社会科学最强大和最有影响力的工具
4、箱之一。1 概述1994年诺贝尔奖颁给了,在20世纪50-70年代对博弈论做出了重大贡献的3位经济学家:约翰纳什,约翰海萨尼和莱茵哈特泽尔腾。1 概述接着荣膺诺贝尔经济学奖金桂冠的经济学家有,诸如信息和合约方面的专家-威廉维克里和詹姆斯米利斯(1996年)。1 概述还有2001年获奖的米歇尔斯彭斯,约瑟夫斯蒂克利茨和乔治阿克洛夫。1 概述目前,博弈论被许多来自不同领域的专业人士使用,这些领域包括经济学、政治学、法律、生物、国际关系哲学以及数学。事实上,大多数情形即包含了冲突元素,也包含了合作的元素。我们对博弈的组成要有一个广义的理解。简而言之,博弈是策略环境的正式描述。因此,博弈论是研究相互依
5、赖情形的正式的方法论。这里,“正式”是指一种以数学化的精确,以及逻辑上的一致见长的结构。利用正确的理论工具,我们可以研究各种情况下的行为,从而更好地理解经济中的相互作用。1 概述 1.1 什么是博弈论?博弈论帮助我们理解,决策者互动的情形。Creates a double record of bank transactions.Bank reconciliation.导言MovieCricketMovie2,10,0Cricket0,01,22 扩展型 在数学上,有几种方法描述一个博弈:1 博弈有一组参与人;2 对于参与人可能采取的行动的完整描述(即它们的可行行动集);3 对于参与人采取行动时
6、,所知信息的描述;4 对于参与人的行为将如何导致博弈结果的规定;5 对于参与人对结果偏好的定义。2 扩展型迪斯尼工作室的虫子的一生和梦工场的蚂蚁。卡曾伯格被迪斯尼的老板艾斯纳从派拉蒙招贤,以重振迪斯尼动画部。卡氏于1994年8月辞职。不久,艾斯纳接受了提议,于是虫子的一生进入了制作阶段。大概同时,卡氏与斯皮尔伯格等组建了梦工场。开始制作蚂蚁。两个工作室是在决定制作两部影片之后,才得知对方的决定的。2 扩展型迪斯尼准备在1998年感恩节期间,发行虫子的一生。而这正是梦工场原定埃及艳后的上映时间。梦工场于是决定,把埃及艳后推迟到圣诞节。争取在虫子的一生上映之前,让蚂蚁上映。最后,蚂蚁为梦工场创造了
7、超过0.9亿美元的利润,而虫子的一生确保了超过1.6亿美元的利润。2 扩展型让我们用一个数学模型讲述这个故事。为了把它转化成数学的抽象语言,我们必须对故事进行适当的简化和程式化。我们的目标应该是从中分析得出一两个策略要素。这可以帮助我们从理论学者的角度,理解这个决策环境。2 扩展型 K E K K fghlmLSPNPNPNRNabcde我们可以用一个树状结构表示两个公司之间的互动。树状结构由节点和分支组成。节点表示事件的发生点,分支表示可以选择的不同的行为方案。我们用实心圆表示节点,用连接节点的箭头表示分支。这个树状结构称为扩展型表述。a称为初始点,a,b,c,d,e称为决策点。f,g,h,
8、l,m称为终止点。表示博弈的结果。2 扩展型 K E K K fghlmLSPNPNPNRNabcde我们用信息集来定义参与人在博弈中的决策节点所拥有的信息。有一些信息集只包括一个节点,例如在节点a,b。节点c,d则包含在一个信息集中。每个信息集只能做出一个决策。而正如在故事中所说的,双方都不知道对方是否制作影片之前,决定制作自己的影片。虚线表示K知道自己处于这两个节点之一,但是不能区分自己处于c还是d。即K缺乏信息。2 扩展型 K K K 40,11013,1200,14080,00,0LSPNPNPNRNabcdeE参与人对于结果的偏好性。K是否更希望博弈终止点f而不是h上结束?我们必须知
9、道参与人关心什么,才能将终止点根据每个参与人的偏好排列。通常用数字表述参与人的偏好排序最为简便。这也称为支付(payoff),或者效用(utilities)。2 扩展型 K K K 40,11013,1200,14080,00,0LSPNPNPNRNabcdeE我们引入一些数学符号来考察博弈。我们来看看一个市场博弈,两个厂商通过选择高价或者低价进行竞争。我们用参与人i表示任何一个参与人的数字代码。即在一个有n个参与人的博弈中,i=1,2,n。在某些博弈中,一个参与人可以在无限多个行动中进行选择。2 扩展型 12pyesnop,100-p0,0一个简单的讨价还价模型,即最后通牒议价。假设1希望卖
10、一幅画。各方只有一次出价的机会。假设卖方先出价,买方2可以决定是否接受这个价格。如果画没有成交,双方均一无所获。如果成交,卖方获得等于价格的收益,买方获得自己的价值。2 扩展型 12pyesnop,100-p0,01.1 什么是博弈论?博弈论帮助我们理解,决策者互动的情形。Creates a double record of bank transactions.Bank reconciliation.导言MovieCricketMovie2,10,0Cricket0,01,23 策略 策略是博弈中的一组参与人完整的相机的行动计划。这里的“完整的相机计划”是对一个参与人行为的完整描述。它包含了它
11、的每一个决策点上的行为。因为信息集表示的是在博弈中各个参与人的决策点,所以,一个参与人的策略描述的是,在它的每个信息集中,它所做出的决策。3 策略 例如,在下面的博弈中,你的策略必须包括在所有的节点,即a,c-d,以及e的信息集中,所有选择的行动。即使你打算在节点a选择“留下”,你也必须对上述所有决策进行定义。3 策略 K K K 40,11013,1200,14080,00,0LSPNPNPNRNabcdeE例子:该图描述了一个简单的市场博弈。两个厂商为其生产的一种相同的产品,分别选择高价或者低价进行相互竞争。3 策略 1 2 HLLHHL1,10,22,01/2,1/2,正式地说,给定某个
12、博弈。我们用Si来表示参与人i的策略空间。也称为策略集合。即Si包含了参与人i的每一个可能的策略集合。对前一个博弈,参与人1的策略空间S1=H,L。而参与人2的策略空间是S2=HH,HL,LH,LL。我们用小写字母表示单个策略(即这个集合中的一个元素),则si Si是博弈中参与人i的一个策略。例如,s1=L,s2=LH。3 策略 一个策略组合是关于策略的向量,每一项表示一个参与人。在研究一个有n个参与人的博弈。一个典型的策略组合就是这样一个向量,s=(s1,s2,sn)。其中si是参与人i的策略,i=1,2,n。S表示策略组合的集合。在数学上表示为S=S1XS2XXSn。X表示笛卡尔乘积。如果
13、S1=A,B,S2=X,Y,那么,S=S1XS2=A,X),(A,Y),(B,X),(B,Y)。3 策略 举个例子,我们看下图的博弈。S1=OA,OB,IA,IB,S2=O,I请注意,在这个博弈中,参与人1的策略。不仅要定义它在开始时怎么做,还要定义在第二个信息集中,它将采取什么行动。你可能会问,如果参与人1在博弈开始时选择退出,为什么它还要在第二个信息集中,决定该怎么做?3 策略 211IIOOAB2,21,33,44,2原因一是,出于理性的研究,我们需要的是对于博弈中,任意一点的最优行动的明确评估。这种评估与参与人对彼此的信念有关。原因而在于,万一参与人犯了错误,它们可能会需要一个意外状况
14、下的计划。3 策略 211IIOOAB2,21,33,44,2另外一个例子,在这个博弈树中,另外一个例子,在这个博弈树中,S S1 1=U,D=U,DS S2 2=AC,AE,BC,BE=AC,AE,BC,BES3=RP,RQ,TP,TQS3=RP,RQ,TP,TQ3 策略 1 3 9,2,52,4,40,5,43,0,0UDABRTPQ22,2,21,2,26,3,2CEPQ3 24 标准型 标准型是另一种表示博弈的正式方法。在某些情况下,标准型更加简洁,可以优先使用。对于一个用扩展型表示的博弈,每一个策略组合能够告诉我们,该博弈在博弈树中所遵循的路径。同时告诉我们,在博弈结束时,终止点是哪
15、个。与每个终止点相对应的是,各个参与人的收益向量。因此需要注意的是,每一个策略组合,给出了一个收益向量。4 标准型 对于每一个参与人i,我们可以定义一个函数ui=S R(该函数的定义域是策略组合的集合,值域是实数)。对于各个参与人所选择的每一个策略组合,sS,ui(s)是参与人i 在博弈中的收益。这个函数ui称为参与人i的收益函数。4 标准型 举个例子,我们看下图的博弈。S1=OA,OB,IA,IB,S2=O,I该博弈的策略组合是S=(OA,O),(OA,I),OB,O),(OB,I),(IA,O),(IA,I)(IB,O),(IB,I)参与人i的收益是定义在S之上的。因此,当博弈采取策略组合
16、s时,ui(s)给出了参与人i在博弈中的收益。例如,u1=(OA,O)=2,u1(IA,I)=4,u2(IA,O)=34 标准型 211IIOOAB2,21,33,44,2对于各参与人具有的策略数量有限的两方博弈,表示各参与人的策略空间的一种简便方法,是画出它们的收益矩阵。矩阵的每一行对应参与人1的一个策略。而每一列对应参与人2的一个策略。4 标准型12IOOA2,22,2OB2,22,2IA4,21,3IB3,41,3囚徒的困境。警察逮捕了两个嫌疑犯,警察拥有的证据只能证明他们犯了较轻的罪。警察分别把他们关在不同的房间。每个囚犯都被要求高发另一个囚犯。告发对应于策略D(背叛),不告发对应于策
17、略C(指合作)。囚犯被告知,如果他们选择告发,将被免罪。他们的证据将被用于给对方定罪。如果他们都选择告发,他们都将入狱。但是他们的刑期由于合作将会较短。4 标准型 局中人:两个嫌疑犯。行动:每个嫌疑犯的行动集是沉默,告密偏好:嫌疑犯1的行动组合序列是(最好到最差):(告密,沉默),(沉默,沉默),(告密,告密),(沉默,告密);嫌疑犯2的是:(沉默,告密),(沉默,沉默),(告密,告密),(告密,沉默)4 标准型嫌疑犯嫌疑犯12沉默沉默 告密告密沉默2,20,3告密3,01,1我们研究囚徒的困境的重要性,不在于想了解囚徒的动机,而在于许多其他的情形,都具有类似的结构。每当两个局中人的任何一个,
18、有两种选择。那么囚徒的困境模拟了局中人的情形。例如:合作项目。4 标准型12努力工作努力工作 游手好闲游手好闲 努力工作 2,20,3游手好闲 3,01,1双寡头垄断。4 标准型12高价高价 低价低价 高价 1000,1000-200,1200低价 1200,-200600,600公地悲剧。4 标准型12少吃少吃 多吃多吃 少吃 2,20,3多吃 3,01,1在囚徒困境中,主要问题是局中人是否合作。在以下的博弈中,局中人同意合作好于不合作,但是他们在最好的结局上存在分歧。局中人:两个朋友。行动:每个嫌疑犯的行动集是沉默,告密偏好:嫌疑犯1的行动组合序列是(最好到最差):(告密,沉默),(沉默,
19、沉默),(告密,告密),(沉默,告密);嫌疑犯2的是:(沉默,告密),(沉默,沉默),(告密,告密),(告密,沉默)4 标准型嫌疑犯嫌疑犯12沉默沉默 告密告密沉默2,20,3告密3,01,1在囚徒困境中,主要问题是局中人是否合作。在以下的博弈中,局中人同意合作好于不合作,但是他们在最好的结局上存在分歧。性别战。局中人:两个朋友。行动:两个朋友必须决定去看电影还是听歌剧。偏好:他们都愿意待在一起。但是参与人1更喜欢歌剧,参与人2更喜欢电影。4 标准型12歌剧歌剧 电影电影 歌剧 2,10,0电影 0,01,2斗鸡博弈。局中人:鹰和鸽。行动:保持原方向和转向。偏好:如果他们都保持原方向,就会撞车
20、。如果都转向,就都保住了面子。如果只有对方转向,就会被称为硬汉。4 标准型12保持保持 转向转向 保持 0,0 3,1转向 1,32,2智猪博弈。局中人:大猪和小猪。行动:按下按钮和不按。偏好:如果他们都保持原方向,就会撞车。如果都转向,就都保住了面子。如果只有对方转向,就会被称为硬汉。4 标准型12按下按下 不按不按 按下 4,2 2,3不按 6,-10,05 信念、混合策略和期望效用 以后,我们将提出某些进行博弈的理性行为的概念。这些概念的基础想法,是通过某些过程,互相形成对方行为的信念。因为我们的目的是,建立决策的数学模型,我们需要精确地表示一个参与人的信念。我们使用概率。例如,参与人1
21、的信念,是参与人2的策略的概率分布。参与人1的信念是,参与人2以概率p选择C;以概率1-p选择D。5 信念、混合策略和期望效用让我们正式定义标准型概率的信念。在数学上,参与人i的一个信念,是其他参与人的策略的一个概率分布。我们用-i来表示这个概率分布。且有-iS-i。其中,S-i是指除了参与人i之外的所有其他参与人,所采取的策略的概率分布的集合。例如,在两方博弈中(因此有-i=j),假设每一个参与人都有有限数量的策略。参与人i对参与人j所采取的行为的信念是一个函数-iS-i,其中,对于参与人j的每个策略sjSj,(sj)可以解释为,参与人i认为参与人j可能采取策略sj的概率。5 信念、混合策略
22、和期望效用作为一个概率分布,-i具有这样的性质,对于每个sjSj,(sj)0,且sjSj(sj)=1。一个参与人的混合策略是指,他根据一个概率分布来选择策略行为。正式地说,混合策略和信念是相似的概念,它们都是概率分布。我们一般表示参与人i的混合策略为iS-i。5 信念、混合策略和期望效用我们可以把效用函数的定义,通过一个期望值的概念,扩展到混合策略和信念中。当参与人i对其他人的策略具有信念-i,并计划选择si时,他的期望收益,等于他采取策略si,而其他人根据-i采取行动时的“平均”收益。用数学表示为5 信念、混合策略和期望效用),()(),(iiiiiSsiiissussuii以下图的博弈为例
23、。假设参与人1相信,有1/2的可能性参与人2采取策略L,有1/4的可能性采取策略M,有1/4的可能性采取策略R。即他的信念2满足2(L)=1/2,2(M)=1/4,2(R)=1/4。这个信念的常用的简写方式是(1/2,1/4,1/4)。如果参与人1选择U,那么他的期望收益是u1(U,2)=(1/2)8+(1/4)0+(1/4)4)=5 5 信念、混合策略和期望效用12LMPL8,10,24,0M3,31,20,0P5,02,38,1局中人:两个嫌疑犯。行动:每个嫌疑犯的行动集是沉默,告密偏好:嫌疑犯1的行动组合序列是(最好到最差):(告密,沉默),(沉默,沉默),(告密,告密),(沉默,告密)
24、;嫌疑犯2的是:(沉默,告密),(沉默,沉默),(告密,告密),(告密,沉默)5 信念、混合策略和期望效用嫌疑犯嫌疑犯12沉默沉默 告密告密沉默2,20,3告密3,01,1第二部分 静态行为分析 博弈论的要点在于,通过正式模型的使用,帮助我们理解在各种经济和社会环境中的策略要素。这些环境包括市场结构、协议、公司之间的竞争、公司的内部组织、讨价还价、政治和普遍的关系。所有这些环境的全面研究过于复杂。因此,给定特定的环境,我们将试图将某些明确的特征,加入必要简化的模型,描述为一个博弈。模型可以提供一个有用的框架,用它可以探索参与人的行为。第二部分 静态行为分析在我们的博弈论研究中,我们的目标有,解
25、释和理解人们实际的行为,预测人们在特定的情况下如何行动,描述人们在特定的情况下应该如何行动。第二部分介绍研究理性行为的基本工具。这些工具将策略和收益作为基础。即使用博弈的标准型设定。这里的分析可以很容易地应用于扩展型的设定。此后,我们的分析建立在参与人都理解它们进行的博弈的假设的基础上。它们都了解该标准型。第二部分 静态行为分析本章讨论策略互动理论中最基本的两个概念:占优和最优反应。这两个概念是大部分关于理性行为的概念的基础。占优。占优。观察下表的博弈。假设你是参与人1。策略U有一个有趣的特性,不管参与人2选择哪个,策略U都比策略D的收益绝对地高。用专业术语说,我们称策略D劣于策略U。所以策略
展开阅读全文