第3章重复博弈：作废的自律支票

人们都明白"一报还一报"的道理，所以在重复博弈中，同样是出于利己行为，人们则会选择最优的策略，而这显然也是对双方都有利的策略。

许多耳熟能详的俗语其实也是一种潜在的游戏规则，比如"以牙还牙"、"人不犯我，我不犯人"等，都揭示了人们行事的准则。

"鱼死网破"的婚姻或者分道扬镳的一夜情，都属于一次性或有次数的博弈行为，其中"背叛"的情况是常见的，因为当人们一旦知道博弈即将结束或者是最后一次博弈的时候，他就可能不再害怕以后对方对他的报复，从而会在博弈时做出背叛的选择，就像商家的一次买卖和一夜情一样，总有因背叛而获利的一方，而重复博弈则不会出现这种情况。人人都明白"一报还一报"的道理

艾克斯罗德在进行合作研究之前，设立了两个前提：其一，每位合作者都是自私的；其二，没有什么可以干预个人决定，也就是说，参与者能完全按照自己利益最大化的想法进行决策。

于是在这两个前提下，合作会研究3个问题：

（1）我为什么要合作；

（2）在什么样的情况下该合作，在什么样的情况不该合作；

（3）怎样让别人与自己合作。

实际生活中，各个领域都会涉及合作的问题，其实合作也是一种博弈，至于最后合作双方的利益如何分配，就要看其是属于单次博弈或者有限次博弈还是重复博弈，这决定着合作的结果。拿两个国家之间的关税报复来说，对别的国家商品提高关税有利于保护本国的经济，可是国家之间互提关税会造成产品价格的升高，于是竞争力就丧失了，这就损害了国际贸易之间互补的优势，也可以说两国都陷入了"囚徒困境"中，但是，这种困境在现实社会中虽时有发生，却不会长久。我们可以从下面的解释中找到答案。

甲和乙各表示一个人，选择A代表合作，选择B代表不合作。如果甲乙双方都选择A，则两人各得3分；假如一方选A，一方选B，则选A者得0分，选B者得5分；假如甲乙都选B，双方各得1分。

在这种情况下，因为"囚徒困境"在起作用，双方都会选择B。但是如果双方都知道这种博弈要进行很多次，而且次数不明，两个人都会意识到在持续地采取合作态度时，双方都将持续各得3分，假如双方一直不肯合作的话，每个人每次都只能得1分。因此，双方就产生了合作的动机，因为双方都知道只要自己一次不合作，下一次对方也不愿意与自己合作了，或者在下次合作中将背叛或报复自己，而这将使得自己的利益减少，所以合作当然是上策。

艾克斯罗德曾邀请多人来参加一个实验，其得分规则和上面"囚徒困境"中提到的矩阵一样，而且人们都不知道游戏什么时候结束。艾克斯罗德要求每位参与的人把追求得分最多的方法编入计算机程序，之后用单循环赛的方法使参赛程序两两博弈，以得出哪种策略得分最多。

游戏第一轮有14个程序参与，再加上艾克斯罗德的一个随机程序，即以二分之一的概率选取合作或者不合作，在程序运转了300次后，得分最高的程序是加拿大学者罗伯布写的"一报还一报"。这个程序的特点是：在第一次对弈时采取合作的策略；其后的每一步都跟随对方前一步的策略，也就是说你上次没合作，这次我也不会合作；你上次合作了，那么这次我也将选择合作。

艾克斯罗德在得分排在前面的程序中还发现了几个特点：人们不愿意首先表示背叛；如果被对方背叛了，下次一定会报复，不能总和他们合作；不能对方背叛一次，你就没完没了的背叛，如果对方改为合作，自己也会宽容地与之合作。

为了进一步验证这个结果，艾克斯罗德又邀请更多人做这个游戏，并把上一次的游戏结果告诉大家。第二次他征集到了62个程序，然后加上他的随机程序，又进行了一次演示，其结果仍然和上次相同。

显然，人们都明白"一报还一报"的道理，所以在重复博弈中，同样是出于利己的心理，人们通常会选择最优的策略，而这显然也是对双方都有利的策略。

现实生活中也有很多重复博弈的例子。

成都的一家报摊就体现了重复博弈所产生的最优策略。

如果报摊也像无人售票车一样实行自动投币的方法，会不会有人拿走报纸不给钱？

在成都的一个报架上，写着"请给5角买报"的字样，在报纸旁边摆着一个放钱的口袋，而且这个无人售报摊居然创造了3年从没少过钱的诚信奇迹。

诚然，那些买报者都是理性的人，但并不是无欲无求的天使，也有利己心理，而且难保在生活的其他方面做些不够诚信的事。可是这个无人卖报摊3年没少过钱的事情，也值得人们从中悟出一些道理。

其实，这种诚信并不是一两天就能形成的，在无人售报摊开业的第一天，里面的钱比实际卖出去的报纸应得的收入少两元钱，也就是说有4份报纸没有付钱就被拿走了，也许拿走这4份报的人中就有不诚信的机会主义者。交易的双方在第一天内就进行了一次关于诚信问题的简单博弈，在这次博弈里，讲诚信的卖报人利益上受到了一些损失，在这种情况下，他完全有可能不顾其他买报人方便与否，在第二天取消无人卖报摊，这样一来，交易的双方其实都陷入了诚信的"囚徒困境"中，这对双方来说都比较费事，也就是对交易双方都不利。

但卖报者并没有取消而是坚持下来，结果在第二天，钱袋里就多出2元钱。当然，也不能排除有人没有零钱的可能，但毕竟对买报人和卖报人来说，都是没有损失的。后来，这个无人售报摊居然坚持了3年都没少过一分钱。

从博弈的角度看，头一次那种"每位参与博弈的人都只关心个人利益和一次性支付的简单博弈"已经慢慢变成"连续、重复进行的博弈"，在连续重复博弈的过程里，拿报纸却不付钱的人一定会担心卖报人或者其他人对其采取暗中观察、抓住自己示众等报复行为，所以，拿报纸的人也会理性地克服自己的投机心理，选择和卖报者诚信合作，于是，就出现了双方都讲诚信的博弈局面。

无人售报摊3年不少一分钱是完全符合博弈原理的，它没有一点不妥的地方，也不和其他博弈理论相矛盾，依然是理性的人，但是把单次博弈替换成重复博弈，其效果就会完全不同。

合作约束--重复博弈会产生好结果

假如仅是单次的博弈行为，双方合作的几率非常小，而无限次的博弈则可能产生与之相反的效果，博弈的双方很可能会全力合作，以创造最佳的收益。

很多商业行为都可以诠释这种现象。比如商家准备做一次性买卖时，觉得不可能和对方再有合作的机会，就会尽力谋取高利而且很可能带有一些欺骗性质，而商家对于"回头客"的态度往往是通过薄利行为使得双方的合作关系能够继续下去。

多次重复的博弈之所以和单次发生的博弈结果不同，是因为在重复的博弈中，每个人都有机会去报复对方的背叛行为，因为人们欺骗的动机可能会受到惩罚和威胁，所以参与者很可能出现"利他"心理，从而导致一个比较好的合作结果，"纳什均衡"也就慢慢趋向于"帕累托最优"。

第一次博弈其实和一次性"囚徒困境"的博弈差不多，就拿前一章的"囚徒困境"来说，博弈的双方都明白这是唯一的一次博弈，所以双方都明白即使自己不招供，对方也难免招供，这对自己是没有好处的，于是，作为一个理性的人，双方都会坦白。甚至可以说只要是有限次数的重复博弈，他们的思路就都是相同的，商业中的价格往往是这样，众多商家很难形成统一战线，他们每次价格博弈的纳什均衡就是全体降价。

可是在人们生活中进行的也有很多是重复博弈，即有的博弈是没有次数限定的。

通过"囚徒困境"的基本博弈结构，可以很明白地分析"囚徒困境"：

有两位参与者和一个庄家，参与者都拿着一式两张的卡片，卡片背面印着"背叛"、"合作"。参与者都把一张卡片面朝下拿到庄家面前。这样两位参与者是不可能知道对方选择的。之后，庄家翻开参与者的卡片，根据下面的规则判定得失：

一人合作，一人背叛：合作者不计分（受骗支付），背叛者得5分（背叛诱惑）。

两个人都选择合作：两个人都得3分（合作报酬）。

两个人都背叛：两个人都得1分（背叛惩罚）。

一般形式的囚徒困境支付矩阵为：

背叛：5，01，1

合作：3，30，5

以"胜－负"术语表示为：

背叛：大负负-负=大胜

合作：胜大负-大胜=胜

现在我们用"T、R、P、S"的符号来表示合作和背叛：

背叛：T，SP，P

合作：R，RS，T

简单博弈获得的分数可以得出下面的结论：

T：单独背叛可以成功获得5分。

R：同时合作可以获得3分。

P：共同背叛可以获得1分。

S：被单独背叛不得分。

以个人选择得分而言，可得出以下公式：T>R>P>S，也就是5>3>1>0；但是以整体得分来说，会得出下面的不等式：2R>2P或2R>T S，也就是2×3>2×1或2×3>5 0，双方合作会得6分，比起互相背叛所得的2分和单独背叛得到的5分，合作的结果显然比背叛要高。而重复博弈的人因为双方会不停合作，所以这将会让参与者从关注T>R>P>S到关注2R>T S，这将让参与者脱离困境。这个理论是道格拉斯·霍夫施塔特提出的。

严格的"囚徒困境"有一个前提条件，即博弈双方不能进行合作，所以他们不会制订出有约束力的协议，其"纳什均衡"点并不会改变。可在现实生活中，在很多情况下，人们是愿意进行合作的，比如组织国防、兴修水利、创建企业，这些都是由合作产生的，哲学家卢梭曾写了一本叫做《社会契约论》的书，他认为契约是整个社会存在的前提之一。

其实，恋爱关系或者婚姻也是一种合作，也可以说它们是一种重复性质的博弈。男女双方在交往的时候，随时都在进行博弈，因为在交往中，他们随时都可能因为某件事即"背叛"事件分手，因为背叛者获得的利益是比较大的。可是从博弈论的角度看，婚姻就好像是男女双方签订的一种协议，它对男女双方都有一定的约束力，一旦一方背叛了婚姻，就会面临社会舆论的谴责和家庭的压力还有财产的纠纷，这对"背叛"者来说往往是不划算的，从很多富豪、大亨都保留"元配"的位置可以看出这点。

其中也不乏"鱼死网破"的婚姻或分道扬镳的一夜情，这些都属于一次性或有次数的博弈行为，其中"背叛"的情况是常见的，因为当人们一旦知道博弈将要结束，或者将要时行的是最后一次博弈的时候，他就可能不再害怕以后对方对他的报复，从而会在博弈时做出背叛的选择，就像商家的一次买卖和一夜情一样，总有因背叛而获利的一方。这种情况就另当别论了。

重复博弈和一般的动态博弈是不一样的。在多轮动态博弈里，参与的人可以了解到博弈的每一步，也可以推测出另外一些参与者会在这种情况下做出什么选择，采取什么行动，而重复博弈的双方则无法了解到博弈中的每个步骤和另一方的策略选择，因为生活的变化是不可预知的。即使是"囚徒困境"，一旦它的性质转变为重复博弈，其情况也会发生很大的变化，博弈的结局也就是"纳什均衡"点可能会产生颠覆性的改变。

国外的黑手党组织非常严谨，对于背叛者的惩罚也是极其残忍的。如果一个黑手党成员告发其他黑手党成员，就会被组织谋杀甚至诛杀全家。一旦他们不幸入狱，也很难招出同党，因为他们宁愿被判无期徒刑，也不愿在出狱后被同伙杀掉，甚至让全家人受连累。

由此可见，在重复的博弈中，签订合作协议对双方具有很强的约束力，这个合作契约的建立一定要牵制对方利益，假如不是这样，即使在合作协议签订之后，博弈双方都有可能产生"作弊"动机。

博弈方面的专家用无数事实证明，在无限次重复博弈的情况下，其合作关系将趋于稳固。假如不是出于无奈，两个理性的人是不会在重复博弈时背叛对方的。

一锤子买卖与长期合作

在2005年，获得诺贝尔经济奖的托马斯·谢林和奥曼两位经济学家，通过聚焦效应和重复博弈等合作博弈论研究，指出冲突双方基于重复博弈过程得益的总体情况，从而认识到"合作有利于自身利益的选择，从而使合作的机会大大增加。"

在公共场合，两个陌生人很可能会为一个座位甚至是谁踩谁一脚而争吵，但是，如果这两个人是认识的，他们就会互相谦让，因为他们还有可能进行长期的交往；另外，像旅游景点和火车站，这种人群流动性较大的地方，可能商品的质量、价格以及服务都非常差，而且还有假货横行的现象，这些商家其实就是抱着和买者之间不会有"下一次"交易的心理，因为旅客很少因为他商品的物美价廉而再次光临，所以在正常情况下，商家会选择一锤子买卖。在其他领域中也是这样。

有限次的博弈产生了"囚徒困境"，这种例子在现实中屡见不鲜，不过这些问题都是有条件限制的，而在无限次重复的博弈里，合作是非常有可能的。

中美双方纺织品贸易的持续进行也因利益的分配而发生了一些变化，矛盾和冲突不断出现，慢慢地双方便形成了一种重复博弈的模式。因而为了双方长期甚至是永久性的利益，两国都选择了合作。

因为在中国和美国纺织品贸易的博弈里，双方的合作收益显然远远高于不合作的收益，所以双方最理想的选择应该是引致正和，赢得合作。而且这种合作还会不断地产生新的共赢。

2005年11月8日，中美双方就纺织品贸易签订了一项协议，对美国来说，它们对纺织品行业实施了一定程度的保护，使其实现了向纺织品一体化的顺利过渡，而且还获得了有关人民币汇率等方面问题的进展；对中国来说，中国在3年的协议期内市场份额和出口增长量比2004年有所提升，而且美国明确表示对协议外产品克制使用242条款。这些协议内容表明，中美双方都对此前各自坚持的利己立场做了让步，说明中美双方都对维护稳定贸易环境的重要性做了充分的考虑，并在很大程度上顾及到双方合作的利益，这可以说是一个双赢的协议。

在博弈关系中，虽然一次性博弈时博弈双方都会努力寻求对自己最有利的结果，采用"占优策略"来博弈，可是这种非合作性质的博弈会导致双方同时进入"囚徒困境"的"纳什均衡"，最终反而得到较差的结果，对双方而言，一次性的博弈很难实现"帕累托最优"。可是当博弈发展至重复博弈时，在有限次的重复博弈里，每个阶段也可能出现单次博弈的均衡结果，也就是说有限次的重复博弈也无法抑制投机行为，而且同样很难使双方都选择合作，因此它也不是博弈者的最佳选择，有限次博弈一般会产生非合作均衡。但是无限次的博弈却会使"囚徒困境"在重复博弈里获得纠正。

中美双方长期的纺织品贸易博弈是一个和无限次重复博弈类似的随机结束的重复博弈，在这样的情况下，博弈双方决策和分析的思路都和无限次重复博弈类似。所以最终产生了合作行为。

其实，无论哪种博弈，博弈者的策略选择都是依据自身利益的大小而定的，这个条件在重复博弈里依然是成立的。可问题是重复博弈的得益和有限博弈不一样，因为它们的每个阶段本身也是一种博弈，双方都有得益，而不是整个博弈完成后才产生的收益，因此，博弈双方必须考虑得很长远，考虑到下一次甚至下几次的博弈，假如每位博弈者都根据当前阶段的得益进行选择，那么等于是把重复博弈分割成了一个个博弈，重复博弈也就没有意义了。所以在重复博弈中，双方的行为、策略一定是兼顾其他阶段的得益并考虑整个重复博弈过程得益的总体情况。

如果双方还会进行合作或竞争，他们就会共同找出一个利于双方的办法。但这并不是说友谊是博弈双方合作的必要条件，博弈毕竟也是一种交易，有时即使是敌人，只要互相都有利可图，并且满足其关系持续的条件，就有可能合作。

比如，第一次世界大战期间，英军和德军在战壕战中遇到了3个月的雨季，于是双方在这3个月里达成了一种协议，不攻击对手的粮草供养，在大反攻的时候可以拼个你死我活。

虽然在重复博弈里，长期的合作可能纠正人们短期冲动的行为，可是也需要注意，也许双方签订某个协议并不难，可难的是博弈双方是否仍然会因为随机事件或者自己可能获得的更大利益而选择"背叛"，这时就要看双方所定的协议对各方是否具有非常强的约束力。此时，就需要一些带有惩罚意味的约束形成，我们可以把这种契约称为带剑的契约，这对保证双方的合作关系是十分有效的，这种带剑的契约一般为法律，不遵守契约的一方将会受到惩罚，因此，双方就更不愿意在重复博弈中背叛对方了。

为什么要有游戏规则

博弈论认为，无论是一次性还是有限次重复博弈，人们从自身利益的角度出发，最终会使已经制定的合作协议无法稳定地存在。事实上，决定合作协议是否能够被双方同时执行最关键问题有两个，第一个是承诺，即在"囚徒困境"中，双方互许承诺，告知对方在下次博弈时会选择对对方有利的行为；当然单有承诺是不可靠的，对方往往还有出卖自己的可能，此时威胁也是一种游戏规则，以避免使自己受到损失，这便是游戏规则的力量，这种带糖也带刺的契约是人们合作的基础和保障。

其实，在生活中，这种承诺和威胁是非常普遍的现象。比如女人会告诉自己的丈夫，假如他敢不忠于婚姻，只要被发现一次，就马上离婚，这就是一种威胁，而丈夫出于多方面考虑，会向她发誓，这便是承诺。这些都揭示了人们行事的准则。

至于合作成功与否，关键看承诺和威胁力度有多大。比如一个软弱且遇人不淑的女人，在一次又一次原谅胡作非为的男人时，其结果往往是男人的得寸进尺，因为对方知道无论如何，只要用一些花言巧语就能让女人原谅自己。在这样的情况下，女人的威胁对男人是没有作用的。其他合作也是一样，假如合约对双方的约束力很小，那么合作的可能性就很小了。

如果是一个可信度非常小的承诺或威胁。就好像参加考试的同学承诺在没有老师监考的情况下也不作弊一样，实在难以想象，没有老师监考的考场将会是一种怎样的情景。

并不是每个学生都是道德非常高尚且极具自制力的人，即使监考老师在场，依然有学生敢顶风作案，这时，假如监考老师制定一条规则，告诉他们假如有同学作弊定然会严惩不贷，比如直接判定考试成绩为零分，学生们便会主动和监考老师合作了。

从现实生活来看，如果在有限次重复博弈中想取得好结果，最佳方法就是合作约束，也就是靠某种形式约束对方，这种形式可以是某种规则，比如法律。

法律是一种规则，也是让人愿意主动遵守约定的一种最有效的方法，在法律的约束下，囚徒困境往往能得以改观。

甲公司和乙公司是商业上的合作伙伴，甲公司经常向乙公司购买原材料，因为两家公司位于不同的城市，所以两家公司经过商谈之后签下了买卖合同，通常在每周的最后一天，甲公司会把现金打到乙公司的银行账户中，而乙公司则立刻发货到甲公司，如果一方违约，将处以交易额2～6倍的罚款。

事实上，从博弈角度看，假如甲公司和乙公司都是理性的人，那么他们的合作将算是一个有限次数重复博弈，也就是说在没有法律约束存在的情况下，他们两家公司中无论哪次交易，都可能出现不遵守合约的行为，即使是乙公司货源充足，甲公司现金充足也难以避免这种现象。

可是，在合约约束的情况下，甲公司与乙公司的最佳策略都是合作。假设甲乙两家公司每年的交易都是十次，每笔交易为100万元，双方各获利20万，如果一方违约，则会被罚款200万元以上。

在这场博弈中，甲公司和乙公司都选择合作，双方均收益20万；

如果甲公司付款了，而乙公司没有发货，则甲公司损失100万，乙公司获益100万；

假如甲公司没有付款，而乙公司发货了，甲公司收益则为120万，乙公司损失80万；

双方均未有所动作，则双方收益为零。

很显然，这可以算是一种有限次重复博弈的"囚徒困境"，在没有合同约束的情况下，双方可能选择不合作以获得更大的利润。可是在有合同约束的情况下，双方则都选择了合作，因为如果自己违约了，对方将有权罚款，而且有司法部门强制执行。于是理性人也选择了合作的策略，主动完成合约对各方所要求的行为。简单一点说，这其实是一种游戏规则，也就是法律改变了两家公司博弈的均衡结果。

一种游戏规则能规定对某种行为采取一定的惩罚措施，可是假如惩罚措施缺乏力度，除去惩罚以外，背叛者仍然能从"背叛"行为中获得好处，而且这种好处远远大于他采取合作策略所带来的好处时，那么这种游戏规则则是无效率或者说是低效率的。所以从这个意义上看，游戏规则制定的越严格越有效率。

强制性和有游戏规则是十分重要的。比如在冷战时期，美苏两个超级大国40多年的军备竞赛就是因为缺乏一个强有力的规则。虽然这两个国家都签订了一些制止军备竞赛的合约，可是因缺乏一个具有强制性的法律环境，双方依然陷入了无法摆脱的"囚徒困境"中。

游戏规则也可以是道德上的约束，它是外界强加于人身上的，让人们不能违约，它可以破解"囚徒困境"的问题，化解个人理性和群体理性的冲突，使整个群体走向稳定。比如人们会因为畏惧社会舆论而主动放弃"背叛"，选择合作。

一位动物学家曾经做了这样一个试验：他准备了一只很大的笼子，并在笼子顶端安装了喷水装置，在笼子的另一端挂着一个桃子，还安放了一架梯子直达这个桃子，之后在笼子的另一端放进4只猴子。

猴子A发现桃子，可是在它的爪子刚触摸到梯子时，试验人员马上把笼子顶端的喷水装置打开了，笼子内顿时下起了"倾盆大雨"，猴子A马上收回双臂遮住脑袋，其他3只猴子也赶忙用双臂遮雨，等没有猴子触摸梯子时，喷水装置就关闭了。

雨过天晴后，猴子A又准备顺着梯子去拿桃子，可是当它的爪子再次触摸到梯子时，实验人员又开启喷水装置，不过A还是拿到了桃子，但它同时也领悟到桃子和被雨淋之间的模糊关系，于是放弃了再拿桃子的念头，自动返回到笼子的另外一端。

过了一段时间，猴子B准备去拿桃子，它走到梯子跟前，在爪子碰到梯子时，喷水装置开启了，猴子B吃到桃子，可是大家都因此挨淋了。猴子们慢慢发现，虽然有少数猴子吃到桃子，可是其他猴子都被淋湿了，重复了很多次后，有一伙猴子就自觉地行动起来，当另一批猴子被放到笼子里时，它们就会打那个猴子一顿，每当新来的猴子想去拿桃子，以前的猴子就会打它，最后猴子们合作起来，没有猴子去动那个桃子了。

在这个故事中，猴子间产生了"道德"。假如这群猴子能构成一个社会，它们也将告诉自己的后代拿那只桃子对其他猴子不利，所以不要为了自己而拿桃子，因为这种背叛的行为会让大家遭殃，而且自己也会受到一定的惩罚。这个故事同时也反映了人类道德的形成过程。

虽然人的天性是自私的，每个人都努力让自己获得最大的利益，可是当面对众人的压力时，人们也不得不放弃一部分利益。不过，这种约束远远没有法律的约束力强，在生活中的道德约束失灵也很常见。假设一个人捡到很少钱的话，有可能会上交，因为这会为他带来美誉，可是如果他捡到上百万元的话，则极有可能据为己有，因为道德上的满足感比起巨大的利益来说已经算不了什么了。在道德作用失效的情况下，强制的法律规则就不可替代地成为约束理性人的主要办法。

第3章 重复博弈：作废的自律支票

第3章重复博弈：作废的自律支票