二博弈论与伦理规范_现代科学与伦理世界：道德哲学的探索与反思-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

二博弈论与伦理规范

以上关于道德起源及其作用的唯象理论或半唯象理论，是关于理性人怎样变成伦理人的初步分析。由于系统科学和数学的发展，现在可以给出一个数学模型来对此加以说明。这个数学模型就是“囚犯困境”（prisoner's dilemma）和博弈论（game theory）。

所谓囚犯困境，直译为囚犯的两难处境。有合伙罪犯A、B二人，被警方分别隔离审查。如果他们都不招供，警方没有足够证据判他们重罪，只能各判1年；如果他们都招供，均被判6年。然而若一人招供，一人不招供，招者将获释，不招者被判10年。这就是通常所说的“坦白从宽、抗拒从严、立功受奖”。写成一个支付矩阵（pay off matrix）就是：

　　　A₁（招）　　A₂（不招）

B₁（招）　　　（-6，-6）（0，-10）

B₂（不招）　　（-10，0）（-1，-1）

在这里从B的立场出发，他有两个方案B₁与B₂，哪个方案最好？如果A招供，对B来说，招比不招好（-6＞-10）；如果A不招，对B来说，也是招比不招好（0＞-1），即从个人理性，即只关心自己不关心别人使自己利益最大化考虑，B采取了招供的方案。而同理，A也采取招供方案，结果每人都判刑6年。可是从这个矩阵中我们可以明显看到，如果A与B能事先订立一个攻守同盟，彼此合作解决问题，即从集体理性出发，最好的结果还是大家不招供，每人只判刑一年，一年后便可释放。囚犯两难的实质就是个人理性与集体理性的矛盾，这就是“困境”。从系统论的观点看，这就是整体不等于部分和，集体理性不等于个人理性之和。从集体理性出发，A与B二人应采取A₂、B₂方针，其结果是（-1）+（-1）＞（-10）+（0）＞（-6）+（-6），为最佳方案。个人理性之所以达不到这个方案，因为A与B都只从个人利益最大化考虑，忽略了A与B之间的关系与结构，忽略了整体效应。

囚犯两难处境的博弈解适合于我们讨论伦理的起源问题，即经济人怎样变成伦理人的问题。不过例子本身讨论的问题是去作案犯罪，用它来讨论道德准则的形成虽无逻辑障碍但似有心理障碍，所以还不如改一个例子可能更为容易理解与论证。假设有两个处于自然状态的原始人A与B，合作去捕捉一头猛兽。由于这头猛兽非常凶狠，如果A在战斗中临阵逃跑对他自己的利益来说是较大的，因为一则他无受伤之危险，二则若月擒获猛兽之后，还可坐享其成。现假定这样做对他的个人利益来说得到10分，而对方B由于单身战斗，虽能擒获猛兽，但有被咬伤的较大危险，从他的利益来说便只得0分了。如果A与B同时逃跑，他们虽然都没有擒得猛兽，不过被猛兽反扑的危险比那种留给别人去斗而自己逃跑的逃跑者来说处境要差一些，而比同伴逃跑留下自己与猛兽斗的处境要好一些，假定各人只得2分。为什么A、B二人同时逃跑还要记他们各得2分呢？因为我们假定他们可利用这段不与野兽战斗的时间来采集野果之类。而如果他们合力战斗肯定能擒得猛兽，他们分别各得6分。这个“得分”，即计量个人利益所得的值，是个变量，在博弈论中叫作支付函数（pay off function），它是所有博弈参与人采取策略的函数V。这样他们的支付矩阵如下：

　　　A₁（逃跑）　　A₂（合作）

B₁（逃跑）　　　（2，2）（10，0）

B₂（合作）　　　（0，10）（6，6）

这里，对于B来说，T=V_1，2=10，表示对不合作的“诱惑”；

　　　　　　　　R=V_2，2=6，表示对双方合作的“奖赏”；

　　　　　　　　P=V_1，1=2，表示对双方不合作的“惩罚”；

　　　　　　　　S=V_2，1=0，表示对“笨蛋”（别人逃跑你合作）的“报酬”。

由于A与B的对称性，A的T、R、P、S值与B是完全一样的，在支付矩阵的得分中，前者是B的得分V^B，后者是A的得分V^A。无论囚犯困境和合作狩猎的例子的得分设计都要符合两个条件。

（1），即T＞R＞P＞S。下标的1代表采取不合作（逃跑或招供）的策略，2代表采取合作的策略，下标前一个数是自己的策略，后一个数是对方的方案。在本例中是10＞6＞2＞0。

（2），即R＞（T+S）/2。这个式子表明，双方合作的利益总和大于一方合作一方不合作的利益总和。在本例中是6+6＞10+0。

在合作狩猎的例子中，如同囚犯困境的例子一样，是一个二人博弈的问题，即二人各自寻求最好对策的问题。由于二人在对局中一人的得分（支付数值）并不恰好是对方得分的负值，即V^A+V^B≠0，所以叫作非零和博弈（non-zero-sum games），又由于一方不知对方所采取什么策略（是逃跑还是合作），也不知他们采取某种策略的概率有多大，而且这个博弈是作一次的，所以叫作二人的不确定性的非零和一次博弈。根据博弈论中不确定性的非零和博弈的某种特例的解法，叫作最大最小准则（maximin criterion），或叫作小中求大的准则。在合作狩猎的例子中，A的支付矩阵是：

其中A₁表示A采取逃跑方案，A₂表示A采取合作方案，B₁表示B的逃跑方案，B₂表示B的合作方案。矩阵中的值是A方案与B方案的函数，即V^A=F（B，A）。

当A采取方案1时他最小得分为2，

即，。

当A采取方案2时他最小得分为0，

即。按小中求大或最大最小准则，A的最优选择为：

。

即逃跑为最佳选择。同理B的最优选择的值也是2，即也采取逃跑的方针。

那么，个人理性如何能导致集体的理性？他们必须订立一个契约，大家都预先定好双方合作的方案，不准临阵逃跑，这就等于A与B同时都同等地放弃自己的某些选择的自由。但如何能够保证他们不会从个人理性出发撕毁合作契约呢？上节讨论了有两种手段：（1）法律。大概原始部落和现代军队对临阵逃跑者都会给予纪律处罚，这相当于在合作狩猎的例子中降低当一方合作时另一方逃跑时逃跑者得分的数目，即降低他们的收益值T，使逃跑没有多少吸引力。摆脱“囚犯困境”，促进“合作狩猎”正是一个政府的主要职能。（2）道德。原始人的正直与勇敢，军队中的守纪律与忠诚如同一切利他主义者一样是一条看不见的心理锁链，将人们维系在合作的共同目标中。

不过博弈论还有一个更大的成就，就是它证明如果不是一次博弈，而是对策者再次相遇和多次博弈，无须外部的控制和政府的干预，也会自动导致合作的出现，用系统论的语言来说就叫作自组织。这就是说理性人是通过多次博弈而转变为伦理人的，霍布斯难题就这样解决了。当然这个解决并不是主张取消政府，而只是说政府及其法律的强制只是顺应着人类社会的合作趋势而建立的，其目的是促进本来就存在的人们之间基于自身利益的合作趋势。社会的公民不是群氓，他们是有能力监督政府执行其职能的。博弈学家罗伯特·艾克罗特（Robert Axelrod）于1980年运用电脑让各种不同的解决“囚犯困境”的程序进行相互竞赛 ^[7]，竞赛结果表明：多次博弈的最优策略并不是最大最小原则所得出来的“总是不合作”的策略，优胜者竟然是心理学教授、多伦多大学A.拉帕波（Anatol Rapoport）提出的异常简单的策略，“一报还一报”的策略，即在多次重复博弈中（如A、B二罪犯多次作案多次被隔离审问，A、B两个原始人二人多次合作狩猎），第一次是“合作”，然后各次都采用对方上一步的选择。上次你合作，我就回报你合作，上次你不合作，下次我也不合作。正是这种“以冤报冤，以德报德，从德开始”的策略以及由此导致对方采取双方合作的方针而不是最大最小原则对自己最为有利。为什么在这种情况下最大最小原则行不通。因为如果A方采取“一报还一报”的策略，B采取最大最小原则，即总是“不合作”，因而你第一次占了便宜，得到了合作狩猎的例子中的10分（我们已经记这种占便宜的“诱惑”为T，即T=10）。但在此之后，你只能得到双方都不合作的“惩罚”（记作P，这里P=2）。根据无穷递减等比级数和的公式，你所预期的各次得分的总和为

这里W系数指的是未来对于现在的重要性，它总是小于1的，并且随着时间推移，未来的重要性越来越小。假定W=90%，则

但是，当A方采取“一报还一报”策略，如果B也采取“一报还一报”的策略，即采用“合作”的策略，则每次他得到合作的“奖励”6分，记作R=6。他的得分总值为：

当然，当A采用“一报还一报”的策略时，B也可以采用不合作与合作交替的策略。别人不合作你合作，你便得到做“笨蛋”的报应（记作S）。在合作狩猎例子中S=0。这样你的不合作与合作交替使用的策略得到的总分为

还是不如合作好。

所以，在未来影响较大的情况下（即W较大），基于回报的合作，即与“一报还一报”的人合作是最优策略。以上讨论的二人博弈原则，同样适合于多人的博弈，即社会成员之间的选择问题。经济人或理性人就是通过这个多次博弈成为伦理人的。因为通过多次博弈，人们学习到“从合作开始，一报还一报”的策略是最有利于个人利益的策略。这个策略不过是说，从合作的愿望出发，“人不利我，我不利人，人若利我，我必利人”，渐渐地达到“人人利我，我利人人或人人为我，我为人人”的互惠性利他主义境界。这个过程就是一个不断学习、不断归纳、不断总结经验，放弃自己的某些自由，采取合作方针，从单纯为自己利益的最大值而奋斗转变为共同利益即整体利益的最大值而奋斗，产生某种集体主义精神，产生某些仁爱。这个结果相当于功利主义原则：一个行为或行为准则是正当的，它必定是能够增进最大多数人的最大幸福，或最大限度增进全体成员的幸福总量。这就是边沁和穆勒的功利原则。功利和功利主义一词常常被人误解，以为是“唯利是图”“自私自利”或“急功近利”的意思，甚至用这个词来骂人。这真是天大的误解，功利（utility）一词经济学上译作效用或效益，功利主义（utilitarianism）不过是一种以全体成员的最大利益为行为的最高标准的主义，它表达了健全社会的一个最基本的道德准则。许多马克思主义者都是某种意义上的功利主义者。毛泽东公开宣布自己的道德立场是“革命的功利主义”，而“三个有利于”“不论白猫黑猫”则实际上是“改革的功利主义”。这里我们不想改变功利主义的译名，而只想改变人们对功利主义的误解。不过我们在这里要强调的是：（1）在我们的有关理性人在不确定性情景下的博弈模型中，存在着一个功利主义的方案提供人们作理性选择。这个方案就是上述的“囚犯困境”或“合作狩猎”案例中的A₂B₂。A₂B₂方案是在所有方案中社会成员的“幸福总量”或“对阵者的个人利益的总和量”最大，即（如6+6＞10+0＞2+2）。因此，这方案代表了集体的理性即集体利益的最大化，代表了功利主义原则。（2）理性人或自利的个人之所以选择这个方案，选择功利主义原则，并不是出于在不确定情景下个人所作的一次的或短期的期望效用最大化原则（the principle of expected-utility maximization），而是依据在反复博弈中，从长期来看的个人期望效用总量最大化的原则。罗尔斯认为理性人在不确定情景下不会选择功利主义作为社会建构和人类行为规范的基本原则，我们认为，这个看法是不对的。如果从短期行为看，理性人的确不选择功利主义即集体利益最大化的原则；但如果他们从长计量，博弈论证明，他们会放弃使个人利益在短期里最优化的选择，转而选择自己长期利益的最优化，这样他们便达到了集体的理性，达到了所谓联合帕累托最优，从而接受了功利主义的原则。

同样，博弈论的伦理模型，不但能解释功利原则，而且还能解释我们在下一章将要讨论的正义原则，并说明这两个原则在本质上是相容的。这里我们应该看到下列几点：（1）在囚犯困境和合作狩猎的案例中，的确存在着一种不正义的方案可供选择。这就是A₁B₂或A₂B₁的方案，这个方案是一种不平等的安排：一方获得最大的利益，而另一方获得最小的利益。在合作狩猎的例子中，一方孤军作战所得利益为0分，另一方临阵逃跑，损人利己，所得利益为10分。如果A能胁迫、支配B接受A₁B₂或者相反B能胁迫、支配A，使之接受A₂B₁方案。这就是一种剥削与压迫、损人来利己的社会状态，或如霍布斯所说的一部分人有“为所欲为”^[8]的权利。（2）理性的个人为什么不选择可能导致他得到最大利益的这种方案呢？首先因为他们是在不确定情景下进行决策的，他们不能确定对方是采取对策1还是对策2。如果对方采取对策1，他就不是获得10分，而是只获得2分。其次假定我们的选择是在意志自由和人身自由下的理性人对社会状态的选择，所以A无法胁迫B接受A₁B₂方案，或者B无法胁迫A接受A₁B₁方案。再次A、B双方都经过反复的博弈，都学会了“一报还一报”的策略，这就导致了他们抛弃社会状态的A₁B₂或A₂B₁的安排。（3）他们选择了带功利主义色彩的A₂B₂方案，抛弃了带不正义色彩的A₁B₂或A₂B₁方案。这就意味着理性的个人在不确定性情景下依个人期望长期效用最大化的决策原则选择了人的行为规范和社会制度建构的正义原则：平等的权利和平等的自由的原则，即抛弃损人利己的社会安排，放弃别人也同样愿意放弃的一些权利（如获得10分），在别人也同样程度地约束他们自由的情况下约束自己的自由。这就是霍布斯所说的：“当他人也一样愿意时，一个人是应该愿意放弃运用一切物的权利的。至于他个人对于别人享有的自由，应当以他自己允许别人对于他自己所享有的自由的程度为满足。”^[9]这也就是下一章我们要说到的罗尔斯第一个正义原则“每个人都拥有一种与其他人的类似自由相容的最广泛的基本自由的平等权利”。不过正义论者从正面说的内容，我们的博弈论模型从反面来加以论述，使用归谬法进行论述罢了。

不过，我们在下一章中将会看到，罗尔斯还是不同意功利主义的原则。他还提出了正义论的第二个正义原则，即差异原则，大意是说社会的经济的不平等应这样安排，使社会上处于最不利地位的人也有利，它包含某种社会福利政策和平等主义的内容。这个正义第二原理，的确是不能从集体理性或一般功利主义中完全推出和直接推出。于是罗尔斯使用了博弈论中对不确定性非零和一次博弈的一种特殊解法或近似解法，即“最大最小原则”的解法，推出他的正义论的两个原则。关于这个问题要等到下一章才能展开，不过这里我们要说明的是，尽管最大最小原则并不是非零和不确定博弈问题的一般解法，也不是道德问题的一般解法。^[10]功利主义的联合帕累托最优解和罗尔斯的最大最小解是相容的。因为他们所谈的是不同的博弈问题，不同的支付函数，有不同的适用范围。功利主义的最大最小原则所讨论的系统是理性人在不断博弈对策中导致合作追求集体的最大的幸福，它的个人支付函数之和达到最大值，即所谓联合帕累托最优。这里支付函数就是人们的主观效用，即我们在上一章所说的主观价值量度。这里说的是合作的理性的人们的共同目标问题，而正义论的最大最小原则尽管不是非零和不确定博弈的一种普遍解法，但也可以看作谋求自身利益的理性人相互博弈中的一种策略。使用这种策略时需要特别注意的是，这里的支付函数并不是主观的效用，而是客观的基本的善或基本的价值即自由、平等、自尊的基础以及生活的基本需要等，正如我们在上一章指出的，这里对价值采用了第二种度量。由于这里的支付函数是所谓基本的善，是现代健全社会的成员最低限度需要的东西，因此在这些关系到自己生存的基本需要问题上，人们自然不愿冒很大的风险，而宁愿采取最大最小的原则或小中求大的原则以便获得人们最低限度的需要：平等的自由，推行某种福利保障政策，分配的不平等以使境况最差的人也有所改善为限度等。功利主义及其“最大最小”原则讲的是人们要追求的最高共同目标的东西；正义原则讲的是人们在追求共同目标时要保证个人最低限度具有的东西。功利原则讲的是最大限度追求人类的福利，正义原则讲的是这些福利如何适当和公正地进行分配。一个矩阵讨论了集体最高的共同目标，另一个矩阵讨论了个人最低限度的要求。集体与个人，最高与最低，少数服从多数，多数保护少数，这不正好是相互补充了吗？

我们力图摆正功利原则和正义原则各自的位置，再加上我们在第一章和3.1节所讲的有限资源和环境保护原则以及仁爱原则（包括仁爱的扩展原则、仁爱的有限性原则和仁爱的递减传播原则），我们便有了规范伦理的四项基本原则。我们将在本章的其余部分以及第四章、第五章和第六章中更为具体地论证这四项基本原则。

二 博弈论与伦理规范

二博弈论与伦理规范