书城管理博弈
47454200000010

第10章 不会令人后悔的“均衡”

在纳什均衡中,你不一定满意其他人的策略,但你的策略是回馈对手招数的最佳策略。

从“囚徒困境”中我们会发现,作为博弈各方的行动就是针对对方行动而确定的最佳对策,而一旦知道对方在做什么,就没人愿意改变自己的做法。博弈论学者把这么一个结果称为“均衡”。这个概念是由普林斯顿大学数学家约翰·纳什提出的,因此被称为“纳什均衡”。

诺贝尔经济学奖获得者萨缪尔森有句名言,你可以将一只鹦鹉训练成经济学家,因为它所需要学习的只有两个词:供给与需求。博弈论专家坎多瑞引申说:“要成为现代经济学家,这只鹦鹉必须再多学一个词,这个词就是‘纳什均衡’。”

1950年,还是一名研究生的纳什写了一篇论文,题为《N人博弈的均衡问题》,该文只有短短一页纸,可就这短短一页纸成了博弈论的经典文献。

纳什的贡献是,他证明了在这一类的竞争中,在很广泛的条件下是有稳定解存在的,只要是别人的行为确定下来,竞争者就可以有最佳的策略。

那么,什么是纳什均衡呢?简单说,就是一策略组合中,所有的参与者面临这样的一种情况:给定你的策略,我的策略是我最好的策略;给定我的策略,你的策略也是你最好的策略。即双方在对方给定的策略下不愿意调整自己的策略。

纳什均衡从此成为经济学家用来分析商业竞争到贸易谈判种种现象的有力工具。所以纳什均衡是对冯·诺依曼和摩根斯坦的合作博弈论的重大发展,甚至可以说是一场革命。

纳什均衡首先对亚当·斯密“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。从纳什均衡引出一个悖论:从利己的目的出发,结果损人不利己。“囚徒困境”就是如此。从这个意义上说,纳什均衡提出的悖论实际上动摇了西方经济学的基石。

纳什的想法成为我们指导“同时行动博弈”的最后一个法则的基础。这个法则如下:走完寻找优势策略和剔除劣势策略的捷径之后,下一步就是寻找这个博弈的均衡。所谓博弈均衡,它是一稳定的博弈结果。均衡是博弈的一结果,但不是说博弈的结果都能成为均衡。博弈的均衡是稳定的,因而是可以预测的。

在囚徒困境中存在惟一的纳什均衡点,即两个囚犯均选择“招认”,这是惟一稳定的结果。

有些博弈的纳什均衡点不止一个。如下述“夫妻博弈”(或称性别之战)中有两个纳什均衡点。

丈夫和妻子商量晚上的活动。丈夫喜欢看拳击,而妻子喜欢欣赏歌剧。但两人都希望在一起度过夜晚。在这个“夫妻博弈”中有两个纳什均衡点:要么一同去看歌剧,要么一同去看拳击。在有两个或两个以上纳什均衡点的博弈中,其最后结果难以预测。在“夫妻博弈”中,我们无法知道,最后结果是一同欣赏歌剧还是一起去看拳击。

是不是所有的博弈均存在纳什均衡点呢?不一定存在纯策略纳什均衡点,但至少存在一个混合策略均衡点。

这里所谓纯策略是指参与者在他的策略空间中选取惟一确定的策略;所谓混合策略是指参与者采取的不是惟一的策略,而是其策略空间上的概率分布。

我们下面将在“警察与小偷”的博弈中给出混合策略的说明。

在西部片里,我们常能看到这样的故事:某个小镇上只有一名警察,他要负责整个镇的治安。现在我们假定,小镇的一头有一家酒馆,另一头有一家银行。再假定该地有一个小偷,要实施偷盗。因为分身乏术,警察一次只能在一个地方巡逻;而小偷也只能去一个地方。假定银行需要保护的财产价格为2万元,酒馆的财产价格为1万元。若警察在某地进行巡逻,而小偷也选择了去该地,就会被警察抓住;若警察没有巡逻的地方而小偷去了,则小偷偷盗成功。警察怎么巡逻才能使效果最好?

一个明显的做法是,警察对银行进行巡逻,这样,警察可以保住2万元的财产不被偷窃。可是如此,假如小偷去了酒馆,偷窃一定成功。这种做法是警察的最好做法吗?有没有对这种策略改进的措施?

这个博弈没有纯策略纳什均衡点,而有混合策略均衡点。这个混合策略均衡点下的策略选择是每个参与者的最优(混合)策略选择。

对于这个例子,对于警察的一个最好的做法是,警察抽签决定去银行还是酒馆。因为银行的价值是酒馆的两倍,所以用两个签代表银行,比如抽到1、2号签去银行,抽到3号签去酒馆。这样警察有2/3的机会去银行进行巡逻,1/3的机会去酒馆。

而小偷的最优选择是:以同样抽签的办法决定去银行还是去酒馆偷盗,只是抽到1、2号签去酒馆,抽到3号签去银行,那么,小偷有1/3的机会去银行,2/3的机会去酒馆。

警察与小偷之间的博弈,如同小孩子之间玩“剪刀石头布”的游戏,在这样一个游戏中,不存在纯策略均衡,对每个小孩来说,自己采取出“剪刀”、“布”还是“石头”的策略应当是随机的,不能让对方知道自己的策略,哪怕是“倾向性”的策略。如果对方知道你选择其中一个策略的“可能性”大,那么你在游戏中输的可能性就大。因此,每个小孩的最优混合策略是采取每个策略的可能性是1/3。在这样的博弈中,每个小孩各取三个策略的1/3是纳什均衡。

由此可见:纯策略是参与者一次性选取的,并且坚持他选取的策略;而混合策略是参与者在各种备选策略中采取随机方式选取的。在博弈中,参与者可以改变他的策略,而使得他的策略选取满足一定的概率。当博弈是零和博弈时,即一方所得是另外一方的所失时,此时只有混合策略均衡。对于任何一方来说,此时不可能有纯策略的占优策略。

从纳什均衡中我们还可以悟出一条真理:合作是有利的“利己策略”,但它必须按照你愿意别人对你的方式来对别人,只有他们也按同样的方式行事才行,也就是中国人所说的“己所不欲,勿施于人”,但前提是“人所不欲,勿施于我”。其次,“纳什均衡”是一种非合作博弈均衡,在现实中非合作的情况要比合作情况更普遍。

当你身处类似“囚徒困境”这样同时行动的博弈中时,你的最佳策略是什么?决定胜负的因素又是什么?双方的策略选择往往是有迹可循的,并形成某种“定数”——即纳什均衡。纳什均衡的威力来自于它的稳定。不管其他人怎么做,每个人都很满意自己的做法,所以没有人想要改变自己的策略。

“纳什均衡”是指一个不会令人后悔的结果,不管其他人怎么做,各方对于自己的策略都很满意。在纳什均衡中,你不一定满意其他人的策略,但你的策略是回馈对手招数的最佳策略,纳什均衡中的各方绝对不会合作,而且总是认定自己改变不了对手的做法。