码迷,mamicode.com
首页 > 其他好文 > 详细

《众智科学》:博弈

时间:2021-06-11 18:11:25      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:成绩   分配   多重   参与   策略   tab   两种   分享   打猎   

博弈

概念

研究博弈论时,我们的目的是研究人们在不同的博弈环境下倾向于采取怎样的决策。

基本要素
  • 参与者( 不少于两人,简单起见只考虑两人)
  • 策略
  • 收益
基本假设
  • 每个参与者都对博弈结构充分了解
  • 参与者之间无法交流,也不会考虑个人收益之外的因素
  • 每个参与者选择的策略都是为了达到自身收益最大化
最佳应对

? 假设S是参与者1采取的策略,T是参与者2采取的策略,记\(P_1(S,T)\)是参与者1在当前状况下取得的收益。设参与者1的其他策略组成集合\(S‘\),若满足\(P_1(S,T)>=P_1(S‘,T)\),则称参与者1的策略S是参与者2的策略T的最佳应对。

? 若满足\(P_1(S,T)>P_1(S‘,T)\),则称参与者1的策略S是参与者2的策略T的严格最佳应对。

占优策略

? 在最佳应对讨论的问题中,若参与者1有策略M,使得M对参与者2的每一种策略都是最佳应对,即无论参与者2选择何种策略,参与者1都能通过策略M取得最大收益,则称策略M是占优策略。同理,若M对参与者2的每一种策略都是严格最佳应对,则称策略M是严格占优策略。

? 显然参与者会采取严格占优策略,但占优策略可能不止一个。如果存在多个潜在的占优策略,结果就难以预测。

博弈类型

在有限参与者和有限策略集的情况下,博弈总会存在均衡。 ——纳什

纳什均衡——博弈双方都无严格占优策略

若参与者1选择策略S,参与者2选择策略T,且S是T是最佳应对,T也是S的最佳应对,则策略组\((S, T)\)是一个纳什均衡。

此时,任何参与者都没有动机改变策略,因此系统处于均衡的状态中。

考试临近,由于时间紧迫,同一小组的学生A和学生B两人都必须独立作出决定:是复习考试,还是准备报告。不同方案的最终成绩如下:

(学生A,学生B) 复习 报告
复习 (88, 88) (86, 92)
报告 (86, 92) (90, 90)

对于学生A,如果学生B选择报告,则他应该选择复习以取得最大收益(92分);如果学生B选择复习,则他应该选择复习以取得最大收益(88分)。学生B同理。因此纳什均衡为(复习,复习)。

有些博弈中存在一个以上的纳什均衡,称为多重均衡。以下是一些多重均衡的例子。

协调博弈

两个参与者的目标是策略上的协调,也就是二者采取同样的策略时双方收益都最大。此时存在多个纳什均衡。

托马斯·谢林指出,由于社会习俗等与博弈本身无关的自然原因,参与者的选择会集中在某一个纳什均衡上。

假设你与队友合作展示项目,双方已经做好了分工,但无法联系。你必须决定是用PowerPoint还是Keynote来制作幻灯片。如果你们使用同样的软件制作,幻灯片就容易合并,否则就难以合并,甚至需要重新制作。

如果你事先知道你的队友使用Windows系统,而且你也是Windows系统,显然你应该用PowerPoint制作。

猎鹿博弈(协调博弈的变式)

两个猎人外出打猎,若他们合作,则可以打到鹿;若他们单独行动,则只能打到兔。若其中一个猎人想猎鹿而另一个只想猎兔,猎兔的猎人仍能得到兔,但猎鹿的猎人一无所获。

(猎人1, 猎人2) 猎鹿 猎兔
猎鹿 4, 4 0, 3
猎兔 3, 0 3, 3
鹰鸽博弈(又称懦夫博弈)

两只动物同时得到了一堆食物,它们可以选择争夺食物(鹰派策略)或分享食物(鸽派策略)。若两只动物都选择分享,它们均匀分配食物,各得到3;若其中一只选择争夺,另一只选择分享,争夺方能得到5,分享方只能得到1;若两只动物都选择争夺,混战会给它们带来损失,二者都得到0.

(动物1, 动物2) 争夺 分享
争夺 0, 0 5, 1
分享 1, 5 3, 3

鹰鸽博弈中存在两个纳什均衡(鹰,鸽)和(鸽,鹰)。在没有充分掌握两只动物的情况时,无法预测哪种均衡会形成。

有些博弈中不存在纳什均衡,此时通过引入随机性来扩大参与者的策略集,进而预测策略。纳什指出,在有限参与者和有限策略集的情况下,博弈总会存在均衡。与此相关最简单的一类博弈称为攻防博弈。

混合策略:攻防博弈

两名参与者分别为进攻方和防守方。他们分别有两种策略可以采用。若防守方采取的策略正好对上进攻方的策略,则防守方收益大;否则进攻方收益大。

两参与者各持一枚硬币,同时展示该硬币。若两硬币朝向相同,参与者1赢得参与者2的硬币;反之,参与者2赢得参与者1的硬币。

(人1, 人2)
1, -1 -1, 1
-1, 1 1, -1

此类博弈中参与者的总收益是0,称为零和博弈。

现在向硬币博弈中引入随机性,参与者1有概率p选择正面,概率(1-p)选择反面(0<p<1). 同理,参与者2有概率q选择正面, 概率(1-q)选择反面(0<q<1). 此时我们可以计算出参与者1的收益期望:

参与者1选择正面:\(E_H=q-(1-q)=2q-1\) 参与者1选择反面:\(E_T=1-q-q=1-2q\)

显然,若\(E_H≠E_T\), 参与者1就有理由选择收益更大的策略,而参与者2也可以据此选择收益更大的策略。因此每个参与者都应该随机化自己的行为,即令\(P_H=P_T\)。此时\(2q-1=1-2q,\ q=0.5\),形成混合策略均衡。

帕累托最优

当每个参与者都从一个策略集中选择了一个策略,且不存在其他策略使所有参与者都得到至少和目前一样高的回报,且至少一个参与者能得到严格较高的回报,此时这组策略选择成为帕累托最优。

然而,如同上文中的考试问题,(报告,报告)、(报告,复习)、(复习,报告)都是帕累托最优,但(考试,考试)却是唯一的纳什均衡。即使参与人双方都知道存在另一个更优策略,除非有强有力的协议,否则也无法更换为更优策略。

社会最优

若一组策略选择使得参与者的回报之和最大,成为社会福利最大化(或社会最优)。

社会最优也一定是帕累托最优。但纳什均衡和社会最优可能一致。

《众智科学》:博弈

标签:成绩   分配   多重   参与   策略   tab   两种   分享   打猎   

原文地址:https://www.cnblogs.com/kamigen/p/14872797.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!