策略式博弈_政治学博弈论-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

策略式博弈

即使是非常简单的博弈，当用扩展式表述时也很快就变得比较复杂。因此，我们常常把博弈用简化的形式来分析。我们称这种形式为策略式（strategic form），又称为标准式（normal form）。在策略式里，我们把每位参与者的选择简化为从一个关于如何进行该博弈的完整计划中所作的挑选。我们假定对策略的选择在博弈开始之前就被作出。

定义：参与者i的一个策略Si为给定博弈的参与者i的每个信息集分配一个行动。

一个策略就是一个特定参与者对进行一个博弈所制定的一个完整计划。它规定在每种情形下参与者要作出什么移动。想象一下，各位参与者被安排好在某个确定时间进行比赛。然而，一位参与者在他们要进行比赛的时候有一个紧迫的任务。裁判员问该参与者要一个打好他或她的位置的全面计划。该计划必须对该参与者要做的全部可能移动都规定一个移动，即使对于那些该参与者认为不会发生的移动也如此。然后，裁判员仅仅通过照着这位参与者的策略去做就能帮这位参与者进行比赛，即使这位参与者缺席也没关系。参与者还可以通过定义在一个信息集内所有可供采取的行动上的概率分布来作出概率性的移动。不包含任何概率性移动的策略称为纯策略（pure strategies）。

我们运用参与者的策略来把一个博弈简化为在参与者的纯策略之间的一个互动。在我们知道各位参与者的纯策略以后，我们就能够机械地还原出它们的扩展式互动，并推导出该博弈的结果。这就好像所有参赛者在比赛开头就把他们的策略装在信封里上交。我们只需要打开信封，并照着他们的说明去做就能决定比赛的结果。

定义：一个策略式的n人博弈就是一个由所有参与者的纯策略所组成的n维阵列，该阵列的每一格都被各位参与者对于由特定策略组合所导致的结果（也可以是关于多个结果的概率分布）的效用所填满。

举例：为了寻找硬币配对博弈的策略式，我们规定每位参与者的纯策略。每位参与者有一个内含两个可能行动的信息集。这样每个行动就只能有两个可能的策略（正面或者反面）。这两个策略构成一个2×2的表格（如图3.10所示）。为了得出每对参与者策略所导致的结果，我们还原出如果参与者根据他们的策略参与博弈的话该博弈的结果。在左上方的格子里，参与者1出正面而参与者2也出正面。根据该博弈的规则，参与者1赢得全部两枚硬币，并且参与者1和参与者2从这一结果得到的收益分别为1和-1。图3.10给出了完整的策略式。

图3.10　硬币配对的策略式

练习3.4：

（1）如果参与者1必须在参与者2选择其行动之前把他的行动展示给后者，请画出硬币配对的扩展式。

（2）找到该博弈的策略式。（提示：参与者2是否仍然只有两个可能策略？）

扩展式越复杂，它所形成的策略式也越大。让我们来看本章开始时所讨论的威慑博弈，它在图3.5中被表示为一个博弈树。让我们从挑战者的策略开始。挑战者有两个信息集，每个信息集内有两个移动。因此，它有四个可能的策略。我列出这些策略，前面是它在第一个节点的移动，后面是它在第二个节点的移动。这些策略分别是：“不挑战，继续推进”，“不挑战，退却”，“挑战，继续推进”，“挑战，退却”。防御者也有两个信息集，每一个也有两个移动，这就给出它的四个可能策略。这些策略分别是：“总是抵抗”，“若是坚决的，则抵抗，若是不坚决的，则不抵抗”，“若是坚决的，则不抵抗，若是不坚决的，则抵抗”，“从不抵抗”。让我们回忆一下，在博弈树的上面分枝，防御者是坚决的（或者有决心的——我对这两个词的使用是可以互换的）。它的第一个策略是在上面分枝就选择抵抗，在下面分枝就选择不抵抗。我把这一策略概括为“若是坚决的，则抵抗，若是不坚决的，则不抵抗”，以便使该策略指导参与者所做的事情有一种直觉的味道。

在我的描述中，我并不明确该威慑博弈的扩展式的两个要素：一个是在博弈开头决定该防御者是否坚决的机会移动的概率，另一个是参与者对于结果的效用。假定这些概率分布是，有1/2的可能性防御者是坚决的，并有1/2的可能性它是不坚决的。至于参与者的效用，我把挑战者和防御者对于结果O的效用分别记为uCH（O）和uD（O）。

威慑博弈的策略式要求有一个4×4的阵列，因为每位参与者都有四种可能策略。图3.11显示了这一阵列。我们追溯每对策略的结果，从而确定两位参与者对于这些策略的期望效用，在这些期望效用中包含机会移动对于结果的效应。例如，当挑战者采取“挑战，继续推进”的策略而防御者采取“若是坚决的，则抵抗，若是不坚决的，则不抵抗”的策略时（在第一列的第二个方格），会形成什么样的期望效用呢？机会移动的结果会影响结果，既通过改变防御者在回应挑战时所采取的移动，又通过改变结果本身。如果防御者是坚决的，它会抵抗挑战，导致挑战者继续推进挑战，从而产生结果W。如果防御者是不坚决的，它对挑战不抵抗，从而导致C*的结果。这些可能性中的每一种发生的概率都是1/2。挑战者对于这对策略的期望效用是1/2 uCH（W）+1/2 uCH（C*），而防御者的期望效用则为1/2 uD（W）+1/2 uD（C*）。这些数字定义了威慑博弈的策略式。

图3.11　在存在对两种类型抵抗者的不确定性的情况下威慑博弈的策略式

你也许会觉得奇怪，我为挑战者区分了“不挑战，继续推进”策略和“不挑战，退却”策略。毕竟，如果挑战者在其第一步移动时就不挑战的话，那么博弈就结束了。这两个策略总是产生同样的结果。由于不管防御者的策略为何这些策略都有同样的结果，因此这些策略是等价的。

定义：当且仅当参与者i的两个策略和对于i的对手的所有纯策略都带来同样的在各种结果上的概率分布时，这两种策略是等价（equivalent）的。

由于等价的策略总是有同样的结果，一组等价的策略可以被合并为一个策略。这一策略代表整个一组等价策略。这样我们就可以通过把所有等价的策略合并为一个而把一个策略式博弈简化为一个简化的策略式。在威慑博弈的例子中，我为了完备起见而把挑战者的各个等价策略作区分。我喜欢看到全部的可行策略。正如我们在后面会看到的，是否合并等价策略对于分析一个博弈这个目的而言关系不大。

一个策略式博弈包含以下要素：

（1）一个由n位参与者组成的集合，这些参与者从1到n被编号；

（2）n个纯策略集合Si，每位参与者有一个纯策略集合；

（3）n个收益函数Mi，每位参与者有一个收益函数。

参与者i从s1，s2，……，sn等策略得到的收益可以记为Mi（s1；s2；……；sn）。全部参与者从s1，s2，……，sn等策略得到的收益可以记为M（s1；s2；……；sn）=[M1（s1；s2；……；sn），M2（s1；s2；……；sn），……，Mn（s1；s2；……；sn）]。收益函数既体现导致结果的策略选择，又体现对这些结果的效用评价。

练习3.5：找出以下练习中的博弈的策略式：

（1）练习3.1。

（2）练习3.2。

我们可以运用以上的表示方法来定义那些具有无穷个纯策略的博弈的策略式。这样的博弈不能被表示为一个阵列。相反，我们运用收益函数来定义具有无穷个策略集的策略式博弈。这些函数把每位参与者的收益设为参与者们选择的策略的函数。

经典博弈论分析策略式博弈，但是扩展式博弈比策略式更为根本。策略式是扩展式的简化。许多常用的策略式博弈假定一个并不体现策略互动的次序的特定的扩展式。所有策略式博弈背后的扩展式都是参与者同时选择它们的策略。如果参与者在扩展式中并非同时选择它们的行动的话，它们就能够对其他参与者的先前移动作出反应。扩展式向我们清楚表明移动的次序。策略式则把这一次序隐含在策略集合中。当参与者有序贯性的移动时，它们的策略必须明确对于其他参与者的先前移动的多种回应。正如练习3.4那样，改变参与者的次序和信息会改变它们能够采取的策略，从而改变其策略式。

不同的扩展式有时会被简化成同样的策略式。让我们看图3.12的两个扩展式博弈。这两个博弈有同样的策略式（如图3.13所示）。这里的这个策略式去除了两个博弈之间的一个关键差异。在图3.12右边的扩展式博弈中，参与者2在她必须决定其行动时她知道参与者1已经做了什么。而在另一个博弈中，她不知道参与者1已经做了什么。图3.13的策略式阵列并不体现这一差异。的确，由于两个博弈产生同样的结果，你可以说，在图3.12左边的扩展式博弈中，参与者2在上面的节点的行动是一个非行动，因为如果参与者2到达她上面的节点的话，不管她选择什么，两位参与者的收益都是1。然而，正如我们在后面会发现的，在左边的博弈里，参与者2在必须选择时对参与者1的移动的不知情能够改变对于什么行动在策略上是说得通的这个问题的答案。

图3.12　两个不同的扩展式产生同样的策略式

图3.13　图3.12中两个博弈的策略式

对扩展式的选择很可能是任何博弈论模型的最关键的步骤。它决定了各位参与者的选择以及这些参与者如何策略性地互动。太多的时候，学者们假定策略式博弈是根本，然而我们应当始终谨记，策略式博弈是从对该博弈的更具体的描述推导出来的。