书城成功励志博弈全书
39805400000007

第7章 走出零和游戏——“囚徒困境”的破解(3)

孙膑鉴于魏军训练有素,又彪悍善战,向来轻视齐军,为了迷惑魏军,采用“退兵减灶”之法:与魏军稍加接触,就假装败退,撤军途中,第一天造十万灶生火做饭,第二天造五万灶,第三天只造三万灶,造成齐军大量逃亡的假象,诱惑魏军追击,在运动中歼灭敌人。

庞涓追踪齐军三天,看见齐军灶锐减,认为齐军已经军心涣散,大量逃亡,于是丢下步兵,带领轻装精锐部队,日夜兼程,追逐齐军。

孙膑计算庞涓的行军速度,天黑时应该到达马陵,而此地道路狭窄,两旁又多天然险阻,大部队无法展开,于是决定在此伏击魏军。孙膑令人将道路旁边大树的树皮削掉,写下“庞涓死于此树之下”,又命令齐军万名优秀射手,埋伏在道路两旁,约定:天黑以后,看见火光举起,就一起放箭。半夜,庞涓追至此地,见白树干上有字,命人点火阅读。齐军万箭齐发,魏军无法躲避,死伤无数。

庞涓兵败如山倒,自知无法生还,于是满怀怨恨地自杀,他却没有想到今日之死是当年残害同门的结果。齐军集中兵力,乘胜追击,消灭十万魏军,俘虏太子申。魏国经过两次惨败,一蹶不振,从此只能苟延残喘。而孙膑则天下扬名。

这两场战争,实际上就是两场相当高明的博弈。在这两场战争中,孙膑用的战略都是一样的,即把握战争的主动权,以逸待劳,集中优势兵力战胜敌人。以第一次战争为例。孙膑的最终目的是救赵,他要么直接奔赴邯郸与新胜士气正旺的魏军决战,要么围魏救赵,引诱魏军回师,然后半途伏击,击破魏军。他绝对不会真的在大梁城下与回师的魏军决战。

而对庞涓来说,要么回师救赵,要么按兵不动。如果庞涓按兵不动,孙膑直接救赵,魏军已经攻破赵国,齐赵两国里应外合的机会不存在;而魏军攻下邯郸,士气正盛,齐军远道而来,魏军反而以逸待劳。所以齐军必败。

而孙膑围魏救赵,庞涓如果仍然按兵不动,任由齐军在魏国扫荡一番,齐军没有达到救赵目的,可谓受到损失。但魏国虽然占领邯郸,国内受损,可谓得失相当,而对庞涓就不一样了,魏王必然大怒,庞涓丢失官职也不一定,所以这是双方都不愿意看到的结果。因此,庞涓必然是回师救魏。孙膑如果直接攻魏,与魏军硬碰硬,毫无技巧可言,齐军的损失必然大于魏军。但孙膑采用伏兵,半路拦截魏军,终于使“围魏救赵”一计流传后世。

至于12年后,这对师兄弟再次交手,孙膑的策略实际上与围魏救赵如出一辙。只是,庞涓是让孙膑残废,而孙膑是让师兄丧命疆场,所以,谁比谁更残忍就很难说了。可见,较之幕后操纵,站在明处的对手,实力再强大,也总会吃亏的。

5.我们不是现实中的囚徒

“囚徒困境”是否宣判了合作可能性的死刑?如果是这样,现实生活中人们的相互合作又如何解释?人们在现实中的博弈,与在游戏模型中有何不同?在前文中,我们谈到了社会人与“理性人”是有区别的,那么区别又在哪里呢?换言之,为什么可以在逻辑上得到完美证明的“囚徒困境”,并不能成为人们普遍遵循的选择?

于是,问题变成了去发现合作出现的充分和必要条件了。显然,生活中的人们打交道通常不是一次性的,那么,增加博弈次数又会怎样?如果两位自私者玩一次这个游戏,他们的选择会是背叛。这样,每一方所得到的将少于双方合作所能得到的。

设想这个游戏要进行多次,而且双方知道具体次数,但是双方仍然没有合作的动机,为什么呢?首先,最后一次大家显然是不合作。在倒数第二次时,双方还是没有合作的动机,因为他预知对方在最后一次将会背叛。如此推理下去,对两位自私者任何已知次数的游戏来说,从第一步开始就是双方的背叛。

然而,这个推理并不适用于游戏要进行无限多次的情况。在大多数实际情况下,对策者不能肯定什么时候是他们的最后一次对局。当游戏次数无限多时,合作有出现的可能。

对未来的预期,是影响我们行为的重要因素。一种是预期收益:我们这样做,将来会有什么好处;一种是预期风险:这样做可能面临的问题。这两种预期会影响个人选择的策略,如学生读书,为了将来考上好的大学。在公共汽车上,两个陌生人会为一个座位争吵,可如果他们认识,则会互相谦让。在相互联系紧密的人际关系中,人们普遍比较注意礼仪道德,因为都需要这个环境。

道德、法律、权力、利益的划分,都与“还要见面”有关。从消极一面看,我们互不侵犯,是为了避免没完没了、两败俱伤的循环报应。如果两个原始人见面,一个拿着兽皮,一个拿着野果,他们都想把对方的东西据为己有。如果他们的见面是偶然的,可能相互抢劫;可是如果他们都生活在附近,考虑到对方家族的报复,抢劫的风险就大了,所以不去打对方的主意——所有权就这样产生了。如果他们确实想得到对方的东西,他们可以选择合作——以物易物,交易就这样产生了。

还有一点不同是,在生活中,人与人的博弈不是孤立的,你可能一直都把另一个人踩在脚下,但是如果这导致你们都生活得很糟的话,那么,把他踩在脚下就不是什么明智的选择了。

两个相邻的国家,如果相互敌对,是一件非常不幸的事。它们不可能各自“搬家”,又不可能消灭对方(这是现代国际关系准则所不允许的关系),这个死结就可能困扰它们许多年。遗憾的是,当今的国际政治关系中像这样的邻国关系还不少,如巴以、印巴、两伊等,这样的相互纠缠,对于双方来说都是沉重的负担。

为了验证在“囚徒困境”时人们可选择的策略以及这些策略的有效程度,美国的国际关系学者罗伯特·爱克斯罗德组织了一次以此为主题的计算机竞赛。竞赛要求参加者根据这一“困境”设计程序,并将程序输入计算机,通过各种程序的相互对局的最后得分评判优劣。

“囚徒困境”的游戏方法是:

游戏双方都在不知对方将如何选择的情况下,选择合作或背叛。这些选择放在一起就产生了四个可能的结果,即:合作,合作;合作,背叛;背叛,合作;背叛,背叛。在这个游戏中,如果双方选择合作,双方都能得到较好的结果R,即“对双方合作的奖励”。在这个例子中R为3分,3也可以代表参赛者得到的奖金数。如果一方合作而另一方背叛,那么,背叛者得到“对背叛的诱惑”T=5。而合作者则得到“给笨蛋的报酬”S=0。如果双方都背叛,那么双方都得到P=1,即“对双方背叛的惩罚”。当然,最后以得分多少判定名次。

你可能忍不住要问:“什么是最好的策略?”换句话说,什么策略能使对策者得到可能的最高分?这个问题问得很好。但是就像以后要说明的一样,独立于对方所用策略之外的最好决策规则是不存在的。在这里,游戏者的利益并不是完全冲突的。双方可以通过合作而得到“对双方合作的奖励”R,也可以通过背叛而得到“对双方背叛的惩罚”P。如果你假定对方总是走你不希望他走的一步,那么,你就会认为其他人总是不合作,这就会使你也不合作,最后招来无休止的惩罚。所以与下棋不同,在“囚徒困境”中假定对方一心要赢你是不可靠的。

事实上,在“囚徒困境”中表现最好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方的合作留出多大的余地。总的来说,如果你认为今后将难以与对方相遇,如果你不太关心自己未来的利益,那么,你现在最好是背叛,而不用担心未来的后果。

这样,我们得到了第一个正式的结论,但却是一个令人伤心的结论,即:如果未来是重要的,就不存在最优策略。

参赛者提出了各种程序,但是大致可分为“善良的”、“邪恶的”和“随意的”三类,竞赛的结果也许有些出人意料:“善良”即“以合作为主”的策略大获全胜,而“邪恶”即“以占便宜为主”的策略成绩不佳,而最成功的策略是最简单的:“一报还一报”,即在第一步合作之后,以后的每一步都重复对方的上一步。

现在考虑一个双方对局的例子。一个对策者采用的策略是每一步都背叛,即“总是背叛”,另一个对策者采用的策略是“一报还一报”。“一报还一报”意味着在对方每一次背叛之后就背叛一次。当对方采用“一报还一报”时,采用“总是背叛”的对策者,将在第一局得到收益,在而后的对局中都得到相应的回击。这时,这个背叛者只是在第一局得到5分,而在以后的每局都只能得到1分,最终他可能会“战胜”对手,但由于总分仍然很低而被淘汰出局。

区分善良规则好坏的一个特征是,看它们如何迅速地和可靠地对来自对方的挑战作出反应。一个规则可以被称为“报复性的”,对方背叛后立即以背叛相报复。除非一个策略能迅速回应来自对方的挑战,否则,对方将简单地从这样一个策略身上寻找到越来越多的好处。对付这类挑战性规则的最好办法是时刻准备报复来自对方的背叛。因此,善良能得到好处,报复也能得到好处。“一报还一报”综合了这些优点,它是善良的、宽容的和具有报复性的。他从不首先背叛,但是不管过去相处的关系如何好,他总会被一个背叛激怒,而迅速作出反应。

“一报还一报”的所有记录是令人难忘的。任何最终想占“一报还一报”便宜的规则最终将伤害自己。“一报还一报”之所以能从自己的不可欺负性中得到好处,是因为以下三个条件得到了满足:

1.遇到“一报还一报”的可能性是显著的。

2.一旦相遇,“一报还一报”很容易被识别出来。

3.一旦被识别出来,“一报还一报”的不可欺负性就显示出来。

因此,“一报还一报”从它自己的清晰性中得到好处。

另一方面,“一报还一报”放弃了占他人便宜的可能性。尽管占他人便宜有时是有利可图的,但是试图占便宜所引来的问题也多种多样。首先,如果一个规则用背叛试探是否可以占便宜,它就得冒被那些可激怒的规则报复的风险。第二,双方的反击一旦开始,就很难自行解脱。