《众智科学》：博弈

时间：2021-06-11 18:11:25 阅读：0 评论：0 收藏：0 [点我收藏+]

标签：成绩分配多重参与策略 tab 两种分享打猎

博弈

概念

研究博弈论时，我们的目的是研究人们在不同的博弈环境下倾向于采取怎样的决策。

基本要素

参与者（不少于两人，简单起见只考虑两人）
策略
收益

基本假设

每个参与者都对博弈结构充分了解
参与者之间无法交流，也不会考虑个人收益之外的因素
每个参与者选择的策略都是为了达到自身收益最大化

最佳应对

? 假设S是参与者1采取的策略，T是参与者2采取的策略，记\(P_1(S,T)\)是参与者1在当前状况下取得的收益。设参与者1的其他策略组成集合\(S‘\)，若满足\(P_1(S,T)>=P_1(S‘,T)\)，则称参与者1的策略S是参与者2的策略T的最佳应对。

? 若满足\(P_1(S,T)>P_1(S‘,T)\)，则称参与者1的策略S是参与者2的策略T的严格最佳应对。

占优策略

? 在最佳应对讨论的问题中，若参与者1有策略M，使得M对参与者2的每一种策略都是最佳应对，即无论参与者2选择何种策略，参与者1都能通过策略M取得最大收益，则称策略M是占优策略。同理，若M对参与者2的每一种策略都是严格最佳应对，则称策略M是严格占优策略。

? 显然参与者会采取严格占优策略，但占优策略可能不止一个。如果存在多个潜在的占优策略，结果就难以预测。

博弈类型

在有限参与者和有限策略集的情况下，博弈总会存在均衡。 ——纳什

纳什均衡——博弈双方都无严格占优策略

若参与者1选择策略S，参与者2选择策略T，且S是T是最佳应对，T也是S的最佳应对，则策略组\((S, T)\)是一个纳什均衡。

此时，任何参与者都没有动机改变策略，因此系统处于均衡的状态中。

考试临近，由于时间紧迫，同一小组的学生A和学生B两人都必须独立作出决定：是复习考试，还是准备报告。不同方案的最终成绩如下：

(学生A，学生B) 复习报告

复习 (88, 88) (86, 92)

报告 (86, 92) (90, 90)

对于学生A，如果学生B选择报告，则他应该选择复习以取得最大收益（92分）；如果学生B选择复习，则他应该选择复习以取得最大收益（88分）。学生B同理。因此纳什均衡为（复习，复习）。

(学生A，学生B)	复习	报告
复习	(88, 88)	(86, 92)
报告	(86, 92)	(90, 90)

有些博弈中存在一个以上的纳什均衡，称为多重均衡。以下是一些多重均衡的例子。

协调博弈

两个参与者的目标是策略上的协调，也就是二者采取同样的策略时双方收益都最大。此时存在多个纳什均衡。

托马斯·谢林指出，由于社会习俗等与博弈本身无关的自然原因，参与者的选择会集中在某一个纳什均衡上。

假设你与队友合作展示项目，双方已经做好了分工，但无法联系。你必须决定是用PowerPoint还是Keynote来制作幻灯片。如果你们使用同样的软件制作，幻灯片就容易合并，否则就难以合并，甚至需要重新制作。

如果你事先知道你的队友使用Windows系统，而且你也是Windows系统，显然你应该用PowerPoint制作。

猎鹿博弈（协调博弈的变式）

两个猎人外出打猎，若他们合作，则可以打到鹿；若他们单独行动，则只能打到兔。若其中一个猎人想猎鹿而另一个只想猎兔，猎兔的猎人仍能得到兔，但猎鹿的猎人一无所获。

(猎人1, 猎人2) 猎鹿猎兔

猎鹿 4, 4 0, 3

猎兔 3, 0 3, 3

(猎人1, 猎人2)	猎鹿	猎兔
猎鹿	4, 4	0, 3
猎兔	3, 0	3, 3

鹰鸽博弈（又称懦夫博弈）

两只动物同时得到了一堆食物，它们可以选择争夺食物（鹰派策略）或分享食物（鸽派策略）。若两只动物都选择分享，它们均匀分配食物，各得到3；若其中一只选择争夺，另一只选择分享，争夺方能得到5，分享方只能得到1；若两只动物都选择争夺，混战会给它们带来损失，二者都得到0.

(动物1, 动物2) 争夺分享

争夺 0, 0 5, 1

分享 1, 5 3, 3

(动物1, 动物2)	争夺	分享
争夺	0, 0	5, 1
分享	1, 5	3, 3

鹰鸽博弈中存在两个纳什均衡（鹰，鸽）和（鸽，鹰）。在没有充分掌握两只动物的情况时，无法预测哪种均衡会形成。

有些博弈中不存在纳什均衡，此时通过引入随机性来扩大参与者的策略集，进而预测策略。纳什指出，在有限参与者和有限策略集的情况下，博弈总会存在均衡。与此相关最简单的一类博弈称为攻防博弈。

混合策略：攻防博弈

两名参与者分别为进攻方和防守方。他们分别有两种策略可以采用。若防守方采取的策略正好对上进攻方的策略，则防守方收益大；否则进攻方收益大。

两参与者各持一枚硬币，同时展示该硬币。若两硬币朝向相同，参与者1赢得参与者2的硬币；反之，参与者2赢得参与者1的硬币。

(人1, 人2) 正反

正 1, -1 -1, 1

反 -1, 1 1, -1

此类博弈中参与者的总收益是0，称为零和博弈。

(人1, 人2)	正	反
正	1, -1	-1, 1
反	-1, 1	1, -1

现在向硬币博弈中引入随机性，参与者1有概率p选择正面，概率(1-p)选择反面(0<p<1). 同理，参与者2有概率q选择正面，概率(1-q)选择反面(0<q<1). 此时我们可以计算出参与者1的收益期望：

参与者1选择正面：\(E_H=q-(1-q)=2q-1\) 参与者1选择反面：\(E_T=1-q-q=1-2q\)

显然，若\(E_H≠E_T\)，参与者1就有理由选择收益更大的策略，而参与者2也可以据此选择收益更大的策略。因此每个参与者都应该随机化自己的行为，即令\(P_H=P_T\)。此时\(2q-1=1-2q,\ q=0.5\)，形成混合策略均衡。

帕累托最优

当每个参与者都从一个策略集中选择了一个策略，且不存在其他策略使所有参与者都得到至少和目前一样高的回报，且至少一个参与者能得到严格较高的回报，此时这组策略选择成为帕累托最优。

然而，如同上文中的考试问题，（报告，报告）、（报告，复习）、（复习，报告）都是帕累托最优，但（考试，考试）却是唯一的纳什均衡。即使参与人双方都知道存在另一个更优策略，除非有强有力的协议，否则也无法更换为更优策略。

社会最优

若一组策略选择使得参与者的回报之和最大，成为社会福利最大化（或社会最优）。

社会最优也一定是帕累托最优。但纳什均衡和社会最优可能一致。

《众智科学》：博弈

标签：成绩分配多重参与策略 tab 两种分享打猎

原文地址：https://www.cnblogs.com/kamigen/p/14872797.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行