书城成功励志博弈全书
39805400000005

第5章 走出零和游戏——“囚徒困境”的破解(1)

1.“囚徒困境”的故事

在博弈论的所有案例和模型中,“囚徒困境”无疑是最著名的,甚至可以说,不谈“囚徒困境”,我们就无法谈博弈论。

1950年,数学家塔克在担任斯坦福大学客座教授期间,给一些心理学家作讲演时,用两个囚犯的故事,将当时专家们正研究的一类博弈论问题作了形象化的解释。从此以后,类似的博弈问题便有了一个专门的名称——“囚徒困境”。“囚徒困境”在经济学、伦理学、社会学、政治学、哲学乃至生物学等学科中获得了极为广泛的应用。

由于应用广泛,“囚徒困境”的版本很多,并不断被完善,现在被普遍使用的“囚徒困境”大致是这样的:

甲、乙两个人一起携枪准备作案,被警察发现抓了起来。因为没有其他犯罪证据,警方只能以非法携带枪支的轻罪处罚他们。但是警方怀疑这两个人可能还犯有其他重罪,于是分别进行审讯。为了分化瓦解对方,警方告诉他们:如果主动坦白,可以减轻处罚;顽抗到底,一旦同伙招供,你就要受到严惩。当然,如果两人都坦白,那么所谓“主动交待”意义就不大了,在这种情况下,两人还是要受到严惩,只不过会因为认罪态度较好,而比一个人顽抗到底所受的惩处要轻一些。

在这种情形下,两个囚犯都可以作出自己的选择:或者供出他的同伙,即与警察合作;或者保持沉默,也就是与他的同伙合作。这样就会出现以下几种情况(为了更清楚地说明问题,我们给每种情况设定具体刑期):

如果两人都不坦白,警察会以非法携带枪支罪而将两人各判刑1年;如果其中一人招供而另一人不招,坦白者作为证人将被免予起诉,另一人将会被重判15年;如果两人都招供,则两人都会因抢劫罪被各判10年。

这两个囚犯该怎么办呢?是选择相互合作还是相互背叛?从表面上看,他们应该相互合作,保持沉默,因为这样他们俩得到对双方来说都是最好的结果——只判刑1年。但他们又不得不仔细考虑对方可能采取什么选择。问题就这样出现了,甲、乙两个人都十分精明,而且都只关心减少自己的刑期,并不在乎对方被判多少年(人都是有私心的嘛)。

甲会这样推理:

假如乙不招,我只要招供,马上可以获得自由,而不招却要坐牢1年,显然招比不招好;假如乙招了,我若不招,则要坐牢15年,招了只坐10年,显然还是招认为好。可见无论乙招与不招,我的最佳选择都是招认。还是招了吧。

也就是说,如果你认为对方将合作,你背叛能得到更多;如果你认为对方将背叛,你背叛也能得到更多。你背叛总是好的,无论对方采取什么样的行动。

到现在为止,你似乎知道该怎样做了。但是,相同的逻辑对另一个人也是同样适用的。因此,另一个人也会选择背叛,而不管你如何做。

于是两人都选择招供,这对他们个人来说都是最佳的,即最符合他们个体理性的选择。按照博弈论的说法,这是他们双方的“优势策略”,也是本问题的唯一平衡点。只有在这一点上,任何一人单方面改变选择,他只会得到较差的结果。

现在问题出现了:按照他们的选择,他们将是双方背叛,只能一起坐牢15年,这比他们双方合作所能得到的“奖励”(只需短期服刑)差很多。个体的理性导致双方得到的比可能得到的少,这就是“困境”。

为什么聪明的囚犯却无法得到最好的结果?两个人都招供,对两个人而言并不是集体最优的选择。无论对哪个人来说,两个人都不招供,要比两个人都招供好得多。

“囚徒困境”这个问题为我们探讨合作是怎样形成的提供了极为形象的解说方式,产生不良结局的原因是因为二人都基于自私的角度考虑问题,这正是合作没有达成的原因。

囚徒博弈是完全信息下的静态博弈,两个罪犯是知道双方各自策略下的支付的。我们上面已经分析了囚徒对局各个策略下的结果或支付以及其他的均衡。它的均衡是:双方均选择“招认”的策略。

“囚徒困境”是一些非常普遍而有趣的情形的简单抽象,可以说是理性的人类社会活动最形象的比喻。它准确地抓住了人性的不信任和需要相互防范这种真实的一面。从个体的角度来说,背叛是最好的选择,但双方背叛会导致不甚理想的结果。

2.现实中的“囚徒困境”

在现实生活中,我们可以遇到很多囚徒困境的例子。

做假账的会计师

会计师就像过去在安达信(Author Andersen)会计师事务所服务的人一样,职责就是担任公司和股东之间的仲裁者,理论上讲,这些会计师应该保证公司诚实地公开其商业活动,这样,股东才能在投资方面作出明智的决定。可是,会计师都是受雇于一个团队,即公司。所以他们一定会左右为难。会计师在道德上有义务确保公布的报表内容准确无误,但又希望对他们所审计的公司伸出援手,以取得它们的信任。

一旦有少数会计师不诚实,囚徒困境就可能使诚实的会计人员丢掉工作。假设在某个世界里,所有的会计师都很诚实,你是其中一员并且正在争取一笔审计的业务。如果你答应稍微帮助一下某家潜在客户,这样做是不是不好呢?毕竟会计准则本来就有一些不明确,因此,如果你能获得这一业务,你何不保证利用这些不明确为客户谋利?

当然,如果有少数会计师开始过度偏袒客户,别的会计师就必须跟着调整自己的道德规范,否则只能坐以待毙。此时如果要取得竞争优势,你可能必须比善用会计准则的不明确性做得更多一点不过你不用担心,因为只要股市不断上扬,就没有人会揭穿你的假账。

做假账事实上会成为会计师的优势策略。如果其他每个人都这么做,只有你洁身自好,那么你就没什么业务可做。可是,如果只有你这么做,你想不发财也难。当然,如果每个人都不诚实,那就没有人会具备竞争优势,但囚徒困境还是会迫使所有的会计师采取不诚实的做法。

安达信的垮台将极大地解除会计师的这个困境。其实,证监会和原告律师会用黑手党的手段来解决这个囚徒困境,也就是对违反规定的人处以停业极刑。

公地悲剧

资源只要是大家共有,就会被滥用。假设有一个湖,鱼量很丰富,并且每个人都有权捕捞。如果捕捞过度,这个湖就会失去它的再生功能。遗憾的是,从鱼量和渔夫的角度讲,过度捕捞可能才是优势策略。假设你是1000位渔夫中的一个,而且你们都可以选择多捕或是少捕。如果大多数人都捕得很多,湖里的鱼就会被打光。可是,如果只有你选择少捕捞一点,情况也不会有任何改善。因此,无论是基于长期还是短期的考虑,你一定会大肆捕捞,以增加捕鱼量。由于每个人都过度捕捞,这个湖中的鱼很快就会枯竭,所以如果所有的渔夫都少捕而不多捕,大家就可以相互得利。但就像其他博弈中的囚徒困境一样,渔夫注定会采取自私的做法,最后使每个人都身受其害。

当没有人拥有垄断权时,公地悲剧就会发生。如果这个湖归你有,确保有足够的活鱼可以自我繁衍以确保鱼量源源不绝就符合你的利益。

共享的秘书

公地悲剧也可能累死共享的秘书。假设有一位秘书被派去协助五位严格的律师,而且每位律师都有首要工作和次要工作要交派给这位秘书。如果每个人几乎都把这两种工作一起交给这位秘书,他就会因为负担过重而效率低下。在这种情况下,如果这些律师只把首要工作交给秘书,而不要把首要和次要工作都交给他,大家就可以共享其利。但对律师个人来说,把所有的工作都交给秘书,多半对自己有利。因此,囚徒困境和公地悲剧注定会使这位秘书因为过度劳累而效率低下。解决这个秘书困境的办法就跟所有的公地悲剧一样,必须限制使用,而且要使某个人有权限制交付给秘书的工作量。

“囚徒困境”并非完全很糟糕。有时候设计得当,人们也可从策略性地运用“囚徒困境”机制中得到好处。开动你聪明的头脑,你一定还可以寻找到更多的可运用“囚徒困境”获利的地方。策略性派系斗争:利用囚徒困境稳固自己的政治地位。在政治中有各种派别,大到国家政治、小到组织政治,都是如此。为什么这些派别会产生?原因当然很多,最根本的是存在不同的利益集团。但是,有时候这种利益集团正是政治领袖创造出来的。无论在历史或现实中,每个政治领袖的上台,都是在一些势力的支持下而取得政治地位的。同样,如果存在较大的反对势力则领袖的政治地位也是不牢固的。所以,上台后的领袖常常会有意实施歧视性惩罚,使得潜在的反对势力被瓦解并陷入相互争斗的囚徒困境,互相消耗力量,从而使领袖本人的政治地位得到巩固。

很多时候,大家都很纳闷为什么独裁政权可以长期存在。按理,如果人民反对独裁,那么他们应该联合起来推翻独裁政权。精明的独裁者当然也意识到这一点——早在1400多年前唐太宗就认识到“水可载舟,亦可覆舟”。于是,他们往往构造起类似于囚徒困境的社会制度,让人民内耗于其中,从而达到其统治的长治久安。比如,他可以创造一种奖励和竞争系统,如果别人反对而你却为独裁者服务则可以得到丰厚的奖励,如果别人为独裁者服务而你必须也更积极地为其服务才不致受到惩罚,这样使人们陷入争相取宠于独裁者的“囚徒困境”之中。譬如,中国的科举制,不能不说是与独裁者分离社会阶层有关。于是,中国过早地实现了国家的“大统一”。

3.模拟“囚徒困境”

如果你和同一个对手玩了100次的囚徒困境博弈,会出现什么情况?

如果你只进行一次博弈,你一定会使坏。而如果你的对手使坏,你也跟着使坏就会得1分,好心则会得0分。如果你的对手好心,你使坏就会得3分,好心则会得2分。因此,无论对手怎么做,如果这个博弈只进行一次,坏心对你一定比较有利。但如果你们要玩100次,情况会变成什么样子?你应该依下面的逻辑思考吗?

如果在整个博弈中,我们两个都使坏心,每次双方就只能各得1分的支付。可是,如果我们两个一直使好心,双方的支付就是每次得2分。如果我开始使坏,对手就会跟着使坏,于是双方就会形成只得1分支付的僵局。所以我宁可先表现出善意,希望他也跟进。如果他使好心,我的确可以占他便宜而使一次坏心。不过,等这次结束后,他也就不会再使好心了。接下来我就会陷入每次只得1分的窘境,因为自此之后,他大概会一直使坏。因此,我至少应该保持好心,直到他对我使坏为止。

遗憾的是,最后一次的问题会使得所谓理性的双方不会善待对手,就算是第一次也一样。想想看,在第100次,也就是最后一次时,你应该采取什么策略?在这一次中,使坏心带给你的支付一定比使好心更高。如果你会在某一次选择好心,惟一可能的原因就是为了让对手在下一次也选择好心(还记得在类似的一次性博弈中,当你行动的时候,对手并不知道你会怎么做。因此,你在任何一次的选择都不会影响对手在这一次的行动)。不过,最后一次显然不必考虑后面的行动。因此,在第100次博弈时,你肯定会选择使坏心,你的对手也会考虑这么做。既然如此,你在第99次应该怎么选择?你在第99次选择使坏心一定可以得到比较高的支付。如果你不想在第99次选择使坏心,惟一的理由就是为了让对手在第100次对你用好心。但前面已经说过,无论怎么样,你的对手在第100次都会对你使坏心。因此,双方在第99次应该都选择使坏心。当然,这表示你们两个在第98次也应该选择使坏心,因为双方在第99次和第100次一定会选择使坏心。你可以把这个逻辑一直往后推,并由此证明,你在第1次就应该选择使坏心!因此,就算这个囚徒困境博弈进行100次、1000次或是10亿次,理性的局中人在每一次都应该选择使坏心,只要这个博弈存在确定的最后一次。

如果存在囚徒困境的重复博弈没有最后一次,那么就会出现双方皆使好心的结果。由于最后一次一定是以背叛收场,因此局中人在最后一次绝对不可能使好心。但在现实生活中,有很多博弈并没有最后一次。如果存在囚徒困境的博弈要永远进行下去,你可能就会顺理成章地采取一直使好心直到对手对你使坏为止的策略。如果两个人都采取这种策略,双方就可以在每一次都得到很好的结果。即使存在囚徒困境的博弈不是永无止境,但只要没有明确的结束日期,双方均使好心的结果还是会出现。举例来说,如果有两个人在进行存在囚徒困境的重复博弈,此时他们要丢硬币来决定该不该再进行下去。如果他们要等到硬币的正面朝上时才停手,那么这场博弈就等于没有一定会形成背叛的最后一次。

在没有最后一次的重复性博弈中,理想的结果是你保持使坏心,而对手保持用好心,但这种结果几乎不可能出现,更有可能的结果是双方都使好心。别忘了,在囚徒困境中,任何一个理性的人之所以会选择使好心,唯一的理由就是要诱使对手在下一次选择使好心,因此,如果要诱使对手选择使好心,一定要让他觉得只要他使坏,你就会跟着使坏。在博弈论的领域中,只有当使好心对自己有利时,局中人才会使好心。可惜的是,仅仅因为存在囚徒困境的重复博弈要一直进行下去并不表示局中人一定会一直彼此善待对方。