不让对手洞悉自己,而采取混合策略的做法,在某些对抗中非常普遍。玩牌、划拳以及足球、篮球等比赛中都是如此。
在巴蜀地区,有一句话叫“黄棒手硬”,意思是说某些活动中(比如划拳、赌酒、打牌),新手的运气特别好。真是如此吗?划拳、赌酒这些游戏没有纯策略均衡,如果出招太有规律,被对手发现就会导致更多的失败。而对于那些“黄棒”(新手),因为他是新手所以谁也难以摸清他的规律,结果他反而使自己从经验缺乏中获得了好处,倒并不一定真的是他的“手太硬”(运气太好)。
个体类型推断
对混合策略的另一种解释是,将其看做对参与人类型的一种推断。比如流浪汉的博弈中,读者运用前面的知识会发现,该博弈没有纯策略均衡。给定政府救济,流浪汉最好继续游荡;给定政府不救济,流浪汉最好是去求职;给定流浪汉求职,政府最好选择救济;给定流浪汉游荡,政府最好不救济。
同时,大家经过分析之后还可发现该博弈存在一个混合策略纳什均衡:{(0.5,0.5),(0.2,0.8)},即政府以0.5的概率选择救济、以0.5的概率选择不救济,流浪汉以0.2的概率选择求职、以0.8的概率选择游荡。
对上述混合策略的一种解释是,假定这个流浪汉是从一群流浪汉中抽取出来的,政府不知道他的特征。政府只知道全部的流浪汉包括两种类型,一种类型是努力求职型,另一种类型是继续游荡型,两类流浪汉在全部流浪汉中所占的比例分别为0.2和0.8。当随机从流浪汉群体中抽取一个流浪汉,政府将以0.5的概率救济他、以0.5的概率不救济他。
集体行为推测
混合策略有时也被看做是对集体行为的推测。譬如对流浪汉博弈的另外一个解释是,用众多的流浪汉代替单个流浪汉,这些流浪汉有相同的偏好和赢利函数。在混合策略均衡下,每个流浪汉就像在单个流浪汉的情形下一样,以0.2的概率选择求职。但是,在众多流浪汉的情况下则有一个纯策略均衡:20%的流浪汉选择纯策略求职而80%的流浪汉选择纯策略游荡。
警察与小偷博弈,也可作如此解释。
可以发现,流浪汉博弈没有纯策略均衡,但是有一个混合策略均衡{(1/3,2/3),(3/5,2/5)},即警察以1/3的概率巡逻、以2/3的概率睡觉;小偷以3/5的概率不行窃、以2/5的概率行窃。对这个混合策略也可看做集体行为来解释:一大群警察跟一大群小偷博弈,将会有2/3的警察选择睡觉而1/3的警察选择巡逻;而小偷中有3/5的人不行窃、2/5的人选择行窃。
似乎这是现实的情况。如果盗窃案件上升(更多的小偷选择行窃),则警察就会出动更多的巡逻力量;而一旦警察出动更多的巡逻力量,则行窃的小偷就会下降;行窃的小偷下降,警察出动大量巡逻力量就不再是合适的,于是他们又减少巡逻力量;然后盗窃案件又上升……在均衡状态,恰好应是1/3的警察巡逻而2/5的小偷行窃。
更高层次的纯策略
寻求对混合策略之解释还有一个思路是,把混合策略看做参与人的纯策略。也就是说,把参与人的策略空间扩大,不仅包括纯策略,还包括混合策略。纯策略可作为混合策略的一种退化形式;或者更进一步,可以把混合策略看做是更高层次的纯策略——参与人在这个扩大后的策略空间中确定性地而不是随机地选择“纯策略”,而其中的某些“纯策略”其实是较低级层次上的混合策略。
实际上,1994年诺贝尔经济学奖得主、博弈论专家海萨尼(Harsanyi)曾在1973年的文章中提出一个纯化定理。其意思是说,任何一个混合策略均衡,都可以通过一系列扰动博弈的纯策略贝叶斯均衡来逼近。如果要反过来说,那么它也表达着这样的意思:博弈中一点微小的“扰动”,就足以影响人们选择纯策略。由于博弈中的完全信息是一种理想化的假设,所以有所扰动可能是最正常不过的了。从这一点出发,纯策略和混合策略的区别也许只是表面的,而且也不像人们想像的那么重要。正如海萨尼所证明的,纯策略与混合策略之间的区别也许只是人为的问题而已。
9.混合策略的麻烦
混合策略的思想的确美妙,显得我们的世界中博弈结果更复杂和丰富。但是也有一些学者告诫人们不要太迷恋混合策略均衡的想法。
国家大事岂可儿戏
回顾古巴导弹危机博弈,我们在前面提到,美国和苏联各自都将有混合策略(2/3,1/3):美国以2/3的概率选择封锁,以1/3的概率选择空袭;苏联以2/3的概率选择拆除导弹,以1/3的概率选择保留导弹。历史上真实发生的结果是,美国选择了封锁,而苏联选择了拆除——当然,我们曾指出,的确有可能是双方采取混合策略所导致的一个后果。
但是,如果把国家的存亡这样的大事决定于抛硬币一样的行为,无论如何人们难以赞成。事实上,且不说博弈作为现实的简化版可能遗漏了双方可考虑的诸多策略,即便现实中美国和苏联双方的策略确如模型所言,我们也可能有理由预期(封锁,拆除)会出现——尽管它不是纳什均衡。政治家的决策通常不会一下子把自己置于不可回旋的余地。而美国若一开始就选择了空袭,那么美国就失去了对局势的控制能力,再无回旋余地。美国的空袭固然可能迫使苏联拆除而取得胜利,但是也可能被苏联视为威胁到其国家利益而与美国针锋相对,最终爆发一场核战争;而若美国选择封锁,就会有更大的主动权,它一边封锁一边要求苏联拆除,并声称在苏联不拆除的情况下将升级到空袭。从苏联这一方来看也是如此,它固然可以坚持保留导弹,但这确实可能引发核战,一旦美国封锁则似乎没有必要再坚持到最后激化出核战争而搞得鱼死网破。从这一思路来看,古巴导弹危机的真实结果,可能并不是随机做出的。
持不要迷恋混合策略均衡观点的人的另一些依据主要是认为在2×2(两个参与人,每人有两个策略)的离散策略模型中,所能够模型化的赢利水平是线性的,但现实中,赢利水平可能不是线性的。比如,警察与小偷的博弈中,警察延长巡逻时间的成本可能是边际递增的,由此2/2的模型就是有问题的。因此有些学者指出,若存在纯策略均衡,则不宜太迷恋混合策略均衡。
迪克西特(Dixit)和斯凯恩(Skeath)在《策略的博弈》(Games of Strategy)一书中提到一个故事。在1964年的纽约市(皇后区的Kew花园),一个叫吉诺维斯(Kitty Genovese)的妇女被歹徒杀害。残忍的袭击持续了半个小时,她一直在尖叫,很多人也听到了她的尖叫声,超过30人在命案现场,但没有人帮助她,也没有人报警。
这个故事引起了轰动。新闻界以及大部分公众都认为纽约人——或大城市居民,或美国人乃至所有人——对于他们的同胞冷漠无情。
但是,稍微观察一下就会让你相信,其实大家还是很关心自己的同胞的,甚至是陌生人。社会学家对情况做了不同的解释,称为多元无知(pluralisticignorance)。因为没有人知道发生了什么事,是否要帮助而又要帮助多少,他们互相看着对方寻找线索,并尝试解读其他人的行为,如果没有人去帮助,他们就解读成这位妇女不需要帮助,所以他们就不帮助她。
这似乎有道理,但却不能完全解释吉诺维斯这样的命案。尖叫的妇女需要帮助,这是强烈的合理假设。旁观者究竟在想什么——在拍电影?如果是的话,那灯光呢?摄像机呢?其他演员呢?
有个解释比较好:每个旁观者会因吉诺维斯的受害而难过,也会因她获救而高兴,但帮助吉诺维斯要付出代价,比如报警时要出示身份,还要充当证人,等等,所以我们看到大家都宁愿等别人报警解救吉诺维斯,这样自己就能不付出任何代价,而得到高兴的收益。
社会心理学家对这种不付代价获益的思想有不同的解释。他们将之解释为责任分散(diffusion of responsibility),也就是大家都同意帮助是必要的,但他们彼此不沟通,无法协调出谁来帮助,每个人都认为帮助是他人的责任,而且团体越大,每个人就越是以为有其他人会出来帮助,所以自己就可以省却麻烦。
社会心理学家做了一些实验来检验这一假说。他们在不同规模的人群中设计出某些需要他人帮助的情形,结果发现人群数量越多,就越得不到帮助。
责任分散的思想似乎可以解释这种情况,但也不尽然。它说人数越多则大家越不可能帮助,不过虽然人多,但只需要一个人报警即可。所以要让帮助的可能性降低,必须让每个人帮助的概率加速减少,才能超过人数增加的效应。而要知道是不是如此我们必须用博弈论来进行分析。
在市民责任博弈中,当目睹犯罪现场的时候,张三和李四均可以选择旁观或报警。如果大家都不报警,则大家都没有赢利;若大家都报,则大家都得到收益10单位,但报警需付出成本3单位,最后净赢利各自都为7单位;若只有一人报警,则报警者得到净赢利7单位,而旁观者得到10单位。分析市民责任博弈可以得到两个纯策略均衡:(报警,旁观)以及(旁观,报警)。此外还有一个混合策略均衡:{(0.3,0.7),(0.3,0.7)},即张三和李四都会以0.3的概率选择旁观、以0.7的概率选择报警。
由此可以计算各种情况出现的概率:两个人都报警的概率为0.49,两个人中一人报警的概率为0.42,两个人都不报警的概率为0.09。因此,警方最终得到报告的概率是0.49+0.42=0.91。由此看来,报警的概率还是很大的,吉诺维斯被警察解救的可能性也是很大的。
但是,如果博弈的参与人不是两个,而是很多个的时候,情况可能就会有所变化。假设存在N个参与人,若张三选择旁观,则无人报警时张三的赢利为0、有人报警时张三的赢利为10;若张三选择报警,则无论其他人报警与否张三的赢利都为7。假设张三认为其他人旁观的概率为q,则:
·张三选择旁观的赢利为:0×qN-1+10(1-qN-1)=10-10qN-1·张三选择报警的赢利为:7×qN-1+7(l-qN-1)=7·则,均衡状态下张三的最优混合策略应使得上面两式相等:
10-lOqN-1=7→q′=0.31/(N-1)
设其他参与人均与张三一样,则该博弈存在对称的混合策略均衡解,每个人选择旁观的概率为q′=0.31/(N-1)。把这个概率画出来,可以发现,参与人越多,则每个人袖手旁观的概率越大,当N趋于无穷大时,每个人袖手旁观的概率接近于1。可以计算,无任何一人报警的概率将会是0.31/(N-1),它也随N的增加而增加。
在吉诺维斯谋杀案中,N=38位邻居的情况下,每个人将以0.97的概率选择旁观(这是多高的概率了),而无一人报警的概率约0.29(不算是小概率了),结果无一人报警也就不足为奇了。道理很简单,参与人越多则每个人越寄希望于别人去承担报警的成本,但最后却陷入了囚徒困境——没有人去报警。
吉诺维斯谋杀案这样的情况在现实中是经常存在的。最常见的是在大街上碰到某些不法行为,其实每个人都可以站出来制止,但是率先站出来的人势必要承担更大的制止成本,而若别人站出来,则自己也可以跟着有好处——尤其是,当人数众多的时候,每个人都认为别人可能站出来,等待着别人站出来,结果反而没有人站出来。这样的混合策略结果本身是符合每个个体的理性的,但是其结果的确有可能是不好的。
如何可以避免这种不好的混合策略均衡结果?一种可行的办法是,通过某种方式,使得多重纯策略均衡中的结果成为一个聚点均衡。比如,强行要求某些人承担起报警的责任来——现实中,我们的法律对军人、警察以及政府官员见死不救都会追究责任,于是他们通常会在遇到违法行为时首先站出来;或者教师承担着社会道德范本的角色,因此他们也可能在责任驱使下首先站出来;或者,也可以通过现场指挥来实现责任的分配,比如张三对李四大声喊“去报警”,那么此时李四就不可能再试图等待其他人去报警了。
这个例子也说明,在某些存在多重纯策略均衡的博弈中,有必要建立起责任分配制度或依靠文化传统,以期得到某种聚点均衡,避免陷入无效率的混合策略均衡。