21世纪数量经济学(第13卷)
上QQ阅读APP看书,第一时间看更新

1.6 初始实力非对称对实验者博弈策略选择的影响

李爽 石磊[1]

摘要:解释合作行为的演化以及合作系统稳定性维持机制一直是生物学家和社会、经济学家试图解决的重要问题之一。现有的很多研究合作演化的实验设计都是基于对称的思想来进行的,其实验者的初始实力都是相同的。然而在现实中,很多现象是基于非对称思想发展的。因此,本文在Dreber et al.(2008)、Wu et al.(2009)研究的基础上,增加了初始实力的非对称条件进行实验。研究发现,初始实力的非对称性不仅促使人们更倾向于明哲保身,还增加了参与者的理性惩罚行为。而在非对称系统内部,初始实力弱者倾向于合作且疏于惩罚,从而使自己获得了相对较高的收益。

关键词:初始实力非对称 合作 惩罚

1.6.1 前言

囚徒困境(prisoner’s dilemma)模型经常被用来研究合作行为。在囚徒困境中,博弈双方都有合作和不合作两种策略可以选择。当双方都选择合作时,他们的总收益是高于双方都选择不合作时的总收益的。但是,当一方选择不合作而另一方选择合作时,不合作的一方会获得博弈中出现的最高收益,合作的一方则会得到最低收益(参见表1)。[2]在这种情况下,通常博弈双方都会选择不合作作为自己的最优策略。

表1 策略含义及支付矩阵

(1)说明当选择合作策略时,己方损失c单位而对方获得b单位的收益,当选择不合作策略时,己方获得d单位的收益而对手损失d单位。其中bcd都为正数,且bc。(2)说明当博弈双方选择不同策略时,己方可能获得的收益,是单方的收益矩阵。同时,要求b+db-c>-d-c>0且

然而,单次发生的囚徒困境和多次重复的囚徒困境结果会不一样。重复的囚徒困境(iterated prisoner’s dilemma)中,博弈被反复地进行,因而每个参与者都有可能从合作策略中获得较高的收益,当然也会有投机者在博弈过程中选择不合作而给自己带来更高的收益[1]。在这种博弈中,参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。而当博弈的次数是无限次,即参与者不知道博弈什么时候结束时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。

Dreber et al.(2008)设计了一种重复性囚徒困境博弈实验。他们在经典囚徒困境理论的基础上,增加了一种“花费性”的惩罚策略供双方选择,从而研究这种惩罚策略对合作行为的影响[2]。Wu et al.(2009)在Dreber et al.(2008)的研究基础上,组织北京高校学生进行了相似的实验,以探究文化差异对博弈策略的影响[3]

笔者发现,在Dreber et al.(2008)和Wu et al.(2009)的研究中,实验参与者的初始成本都相同,即是建立在初始实力对称的基础之上的。然而,他们都没有考虑到初始实力的非对称性对实验参与者策略选择的影响,即合作系统建立在非对称的基础之上的情况。不难了解,在现实经济生活中,进行合作的双方的实力往往是不相同的,甚至是悬殊的。不仅如此,很多学者都意识到合作系统中合作双方可能是非对称性地相互作用的,现实的合作系统极可能是一个非对称的系统。他们设计并进行了一系列的实验来对比实力的非对称对于博弈双方策略选择的影响[4-10]。但是,这些研究都没有考虑到初始实力的非对称对于博弈策略的影响,而且也没有考虑到惩罚策略存在的情况。

因此本文以此为切入点,引入初始实力的非对称,从而探究在此条件下博弈双方策略选择将会如何演化。

1.6.2 实验设计

我们在云南财经大学统计与数学学院实验室对102位参与者进行了二人重复型囚徒困境博弈实验。在这个实验中,随机配对的参与者通过计算机屏幕进行匿名的博弈游戏,他们并不知道每一轮的实验要进行多久,但是知道和该对手再次进行决策交互的可能性是75%。在每一个特定的轮次中,参与者同时在可供选择的策略中进行决策选择。每回合的实验结束之后,双方在本回合的策略选择、收益以及自己当前的总收益都会在屏幕上显示。在该轮实验结束后,参与者会匿名、随机地和其他人重新配对进行下一轮的决策交互过程。在所有的实验轮数结束后,根据参与者的最终收益,我们将支付他们相应的报酬。

我们设计了两种处理性实验T1和T2(其中,T1实验是与Dreber et al.(2008)的T1实验设计完全相同的)。在这两种实验中,参与者在每一回合中都有三种策略可以选择,即合作、不合作和惩罚。合作(C)被定义为参与者付出一单位的成本而使对方得到两单位的收益;不合作(D)被定义为参与者自己获得一单位收益而使对方失去一单位;惩罚(P)被定义为参与者付出一单位的成本作为代价而使对方失去四单位(我们采取4∶1的惩罚系数,是因为该系数已被证明是提高合作水平最有效的参数设置[11])。实验的支付矩阵参见表2。在T1实验中,所有参与者的初始成本都为50单位。在T2实验中,我们随机的选择一半的参与者初始成本为50单位,而另一半参与者的初始成本为100单位。

表2 实验策略含义及支付矩阵

(1)矩阵表示单边策略时的支付,参与者共有三种策略,即合作(C)、不合作(D)和惩罚(P)。合作的含义是指付出1单位的成本是对方获得2单位的收益。不合作的含义是指自己获得1单位的收益,而对方失去1单位。惩罚的含义是指自己付出1单位的成本而使对方损失4单位。(2)矩阵表示当双方都作出策略选择时,自己可能得到的收益或损失的支付矩阵。

本文进行了四次实验(其中,T1实验2次,T2实验2次),共有102名平均年龄为21.7岁的大学生参与实验,将其分为四组,每组26人左右,每名参与者只能参与一组实验,不能重复进行。根据所收集到的数据的特点及其初步分析的结果(参见附录),我们将同类型的各组实验分别合并进行分析。

1.6.3 结果分析

首先,从非对称性实验(T2)内部的行为分析可以得出,初始实力较弱者的合作使用率为12.2%,而初始实力较强者的合作使用率为9.7%;初始实力较弱者的惩罚使用率为7.0%,初始实力较强者的惩罚使用率为13.2%;初始实力较弱者的不合作率为80.8%,初始实力较强者的不合作率为77.1%(参见表3)。同时,通过分析发现,初始实力较弱者的平均收益(-0.35)是高于初始实力较强者的平均收益(-0.45)的,由此可见,当初始实力存在差异时,初始实力较弱者反而可能会获得相对高的收益。

表3 非对称实验参与者策略选择情况

在对比两个处理性实验T1和T2时,发现初始实力的非对称性使合作率下降,在T1中,16.6%的决策是合作的,而在T2中,合作策略的使用比重下降到10.9%。同时,初始实力的非对称性并没有使惩罚的使用率上升,惩罚的使用率从T1中的11.6%下降到T2中的10.1%。T2实验的不合作使用率(78.9%)高于T1实验(71.8%)(参见表4)。经过统计检验发现,两种实验的不合作策略的选择是有着显著差异的(Mann-Whitney U检验:p=0.021,z=-2.307)。在比较两种实验参与者的平均收益时发现,初始实力的非对称并没有降低平均收益,二者是基本保持稳定的(T1参与者的平均收益为-0.42,T2参与者的平均收益为-0.40)。

表4 两种处理性实验参与者策略选择情况

从实验参与者个体的角度分析其行为时,发现T1实验的平均收益与合作使用没有显著的相关性(Kendall’s τ=-0.088,p=0.354),但是在T2实验中二者存在着显著的负相关性(Kendall’s τ=-0.354,p=0.001)。同时可以了解到,在T1和T2实验中平均收益和不合作策略的使用数均存在显著的正相关性,而平均收益和惩罚策略的采用均存在显著负相关性(T1:Kendall’s τ=0.351,p=0.000;T2:Kendall’s τ=0.671,p=0.000)(参见图1)。需要注意的是,虽然在进行相关系数的检验时,渐进双尾检验的p值都拒绝了相关系数为0这一零假设,但是其相关系数的值都不是非常接近-1或者1,所以虽然我们从图中可以看出一定的趋势,但是并不能说明二者之间必然存在相关性。

通过数据分析可知,在两种实验中,收益越少的参与者却相对强烈倾向于做出惩罚行为,这与Dreber et al.(2008)的分析“赢者明哲保身”相一致。但是在T2实验中,收益排名在后面的参与者并没有做出过惩罚的策略,这就说明“明哲保身者未必赢”。

为了进一步了解在实验中参与者采取惩罚行为的动机,因此本文还对实验中使用惩罚策略的前提条件进行了分析。T2实验的参与者以惩罚回应对方上一回合的不合作(P to D)的比重高于对称性实验(T1);同时,T2实验参与者的回合开始即使用惩罚(first P)的比重和T1相比基本持平;而T2实验参与者以惩罚回应对方上一回合的惩罚(P to P)以及在对方上一回合采取合作时,自己在本回合采取惩罚策略(P to C)的比重均低于对称实验(T1)(参见图2)。

1.6.4 结论与讨论

1.6.4.1 非对称性对合作存在消极影响

从前面的分析可以得到,对合作行为而言,初始实力非对称实验中的参与者与初始实力对称实验中参与者在合作策略的使用上存在显著的差异。这说明,初始实力的非对称性使得参与者的合作行为是显著地减少的。这一结论与Lave(1965)、McKeown et al.(1967)、Sheposh和Gallo(1973)、Talley(1974)以及Martin et al.(2007)等人实验的结论是一致的,他们的研究也发现非对称性导致了合作率的降低。

1.6.4.2 非对称性促使明哲保身

图1

注:左边4张图表示T1实验(参与者初始成本都为50单位),右边4张图表示T2实验(参与者初始成本实力非对称,为50或100单位)。前6张图显示:T1实验中,每一回合的平均收益与合作策略的选用没有显著相关性,但是在T2实验中,平均收益与合作的选用存在显著负相关。在这两个实验中,每一回合的平均收益与不合作以及惩罚策略的采用都存在显著的相关性。最下面的两张图显示,从整体来看,最终收益排名越靠前的参与者所采用的惩罚策略的平均数总是少于排名靠后的参与者。

图2

注:T1和T2实验参与者惩罚策略(P)使用前提条件。first P表示参与者在一轮实验中,第一回合就采取P(惩罚)策略的比重。P to D表示参与者在实验中,当对手在上一回合选取D(不合作)策略时,采取P(惩罚)策略进行回应的比重。P to P表示实验者在一轮实验中,当对手在上一回合选取P(惩罚)策略时,采取P(惩罚)策略进行回应的比重。P to C表示实验者在一轮实验中,当对手在上一回合选取C(合作)策略时,采取P(惩罚)策略进行回应的比重。

根据实验设定的条件知,不合作策略的含义是自己获得一定的收益而使对方受到一定的损失,因此我们将不合作策略看作是一种“自保”行为,因为它可以为参与者提供固定的收益。相对地,合作策略的含义是指自己付出一定的成本而给对方带来收益,惩罚策略的含义是指自己付出一定的成本使对方遭受损失,那么从自己获得高收益的角度出发,可以将合作以及惩罚行为均理解为“冒险”行为。

从前面的分析可以看出,初始实力非对称的实验比对称性实验的合作率和惩罚率都有所下降,相应地不合作率上升,而且可以通过统计方法检验出这两种实验的不合作使用是存在显著的差异的,由此可知初始实力的非对称性使得参与者更加显著地倾向于选择“自保”策略,达到“明哲保身”的目的。

此外需要引起注意的是,初始实力的非对称性并没有大幅度提高平均收益,也就是说,虽然T2实验的参与者更加“明哲保身”,但是这并没有给他们带来显著的高收益,因此参与者很可能需要在谨慎的同时适当的选择一些“冒险”行为来博取高收益。

1.6.4.3 非对称性增加理性惩罚

从整体看,T1和T2实验都存在着一个现象:参与者收益排名越靠前,其采取的惩罚策略越少,这也就是Dreber et al.(2008)所说的“赢者明哲保身”。而在我们的研究中还发现,即使参与者并不做出惩罚的行为,但是也未必一定会获得高收益,即“明哲保身者未必赢”。

从惩罚策略使用的目的来分析,研究惩罚策略使用时是出于何种前提条件,我们将惩罚行为分为四类,分别是:理性惩罚行为(指参与者以惩罚行为来回应对方在上一回合所采取的不合作行为)、“下马威”行为(指参与者在新一轮博弈开始时即采取惩罚策略)、“以牙还牙”行为(指参与者以惩罚策略来回应对方在上一回合所采取的惩罚行为)和“非理性”惩罚行为(指参与者以惩罚策略来回应对方在上一回合所采取的合作策略)。

在这一分类的基础上,研究发现:初始实力非对称会在一定程度上增进理性惩罚行为;T2实验参与者的“下马威”行为(first P)和T1相比基本持平;而T2实验参与者的“以牙还牙”行为(P to P)以及“非理性”惩罚行为(P to C)均低于对称实验(T1)。显然由此可以看出,初始实力的非对称性会提升实验参与者在选择惩罚策略时的理性。

1.6.4.4 初始实力弱者倾向于合作而疏于惩罚

通过对T2实验进行分析,我们发现初始实力较弱的参与者更倾向于合作,这说明初始实力弱者期望通过合作来向对方示好,从而争取达到相互合作,为双方都带来收益。但是,在McKeown et al.(1967)、Sheposh和Gallo(1973)、Talley(1974)以及Martin et al.(2007)等人的研究中都发现,非对称导致的低合作率是来自于弱者的,这显然与本文的结论完全相反。这应该是由于在本研究中,每名实验参与者除了有合作和不合作策略可以选择之外,还有冲突性更强的惩罚策略的存在。在这样对于弱者相对不利的情形下,弱者则倾向于合作,在此时,初始实力较弱者所关注的将不再是传统研究中所认为的收益均等性,而是更加关注双方的共同利益。初始实力弱者低于初始实力占优势者的惩罚使用率也可以看出,前者更为理性,以图尽量减少或避免矛盾的发生。而正可能是由于初始实力较弱者更加倾向于合作策略以“示好”的行为和“明哲保身”的不合作策略,使得其在博弈中的纯平均收益高于初始实力较强者,为自己赢得了高于在博弈初始占有优势一方的收益。

从初始实力较强者的角度来看,他们的行为表现得更为倾向于惩罚,而导致他们这样表现的原因很可能正是在刚开始时,他们获得了较弱者两倍的收益,使其处于优势位置,这种优势不单是在物质上,更是在心理上的。这种优越感,使得他们在做出自己的策略选择时,并不一定会考虑到后果。所以,一旦他们遇到对方的不合作行为,就会更倾向于选择惩罚策略而不是相对“保守”的不合作策略以显示自己的优势。

此外,导致本文结论与其他学者结论有出入的原因也可能是由于东西方的文化差异,从Wu et al.(2009)的研究可以看出,在惩罚策略存在的情形下,中国实验参与者的行为与美国实验参与者的行为有着较为明显的差异。

综上所述,我们有理由认为:在本文的研究前提下,初始实力较弱的一方更倾向于合作并避免冲突;而实力较强者则可能更多地发起或者陷入冲突。

参考文献

[1]阿克塞尔罗德 R.2007.合作的进化.中译本.上海:上海人民出版社。

[2]Anna D,David G R,Drew F,Martin A N. 2008. Winners don’t punish. Nature,452.

[3]Wu J J,Zhang B Y,Zhou Z X,He Q Q,Zheng X D,Cressman R Tao Y. 2009. Costly punishment does not always increase cooperation. Proceedings of The National Academy of Sciences of The United States of America,106(41):17448.

[4]Schellenberg J A. 1964. Distributive justice and collaboration in non-zero-sum games. Journal of Conflict Resolution,8(2):147-150.

[5]Sheposh J P Gallo P S. 1973. Asymmetry of payoff structure and cooperative behavior in the prisoner’s dilemma game. Journal of Conflict Resolution,17:321-333.

[6]Talley M B.1974. Effects of asymmetry of payoff and asymmetry of information in a prisoner’s dilemma game. PhD thesis. Arlington:University of Texas.

[7]Croson R T A. 1999. The disjunction effect and reason-based choice in games. Organizational Behavior and Human Decision Processes,80:118-133.

[8]Lave L B. 1965. Factors affecting co-operation in the prisoner’s dilemma,Behavioral Science,10:26-38.

[9]Martin B,Heike H S,Frank P M R. 2007. Cooperation in symmetric and asymmetric prisoner’s dilemma games. Discussion paper. Max Planck Society,Bonn.

[10]Pruitt D G. 1981. Negotiation Behavior. Academic Press.

附录:数据预处理与初步检验

将收集到的四次实验数据进行预处理,得到每位实验参与者在实验过程中策略选择和最终收益情况。由于同一类型的实验来自于同一总体分布,因此将同一实验类型的两组实验合并进行分析。在初步分析中,主要涉及以下五个指标:

(1)合作使用率(fc),是指每名实验参与者在所参加的实验中,合作策略的使用次数与自己所做策略总数之比。需要说明的是,从实验的设计原理来看,每名实验参与者的策略总数与实验的回合数是相等的。

(2)不合作使用率(fd),是指每名实验参与者在所参加的实验中,不合作策略的使用次数与自己所做策略总数之比。

(3)惩罚使用率(fp),是指每名实验参与者在所参加的实验中,惩罚策略的使用次数与自己所做策略总数之比。

(4)平均收益(at),是指每名实验参与者在所参加的实验中,最终收益与实验回合总数之比。其中,实验参与者的最终收益是其最终分数与其初始分数做差后得到的。

(5)年龄(age),是指实验参与者的年龄(周岁)。

表5 两种实验相关变量的Shapiro-Wilk检验

在得到相应的指标值后,对所得到的数据进行Shapiro-Wilk正态性检验,表5展示了两组实验中策略选择、平均收益以及年龄的正态性检验结果。结果表明,本文中所得到的数据经检验均拒绝了总体为正态分布的零假设(按照显著性水平为0.05的标准)。因此,本文将不使用传统的假定总体服从正态分布的方法分析,而是采用非参数方法和更符合实验本身的方法对问题进行研究。

对分属于T1和T2实验内部的两组实验分别进行Mann-Whitney U检验,结果发现,内部的实验在策略选择、平均收益以及年龄上均无显著差异,由此在下文中,作者将对称性的两组实验以及非对称性的两组实验分别合并进行分析。


[1] 李爽,女,1986年生,在读博士,首都经济贸易大学,中国数量经济学会会员;石磊,男,1965年生,博士,统计与数学学院院长,教授,博士生导师,云南财经大学,中国数量经济学会常务理事。

[2] “囚徒困境”游戏在1950年由Merrill Flood和Melvin Dresher始创,此后由顾问Albert Tucker以囚徒方式阐述而由此得名。