囚徒困境与纳什均衡

2009-11-09马立强

科学大众（中学） 2009年9期

马立强

“纳什均衡”法则内容

当对手知道了你的决定之后，就能做出对自己最有利的决定。

——普林斯顿大学数学家约翰·纳什

战国时期，楚成王与太子商臣发生矛盾，想废商臣，立小儿子职为太子，但又怕商臣谋反作乱。犹豫之时，宫内已有人把这个动向传给了商臣。商臣向老师潘崇问计。潘崇说：“你的姑母江芊久住宫中，必定知晓此事。她性情急躁，你设宴招待她，故意加以怠慢，激她发怒，怒中之言，必定泄漏。”

商臣依计行事，把江芊请到宫中，恭恭敬敬地迎拜。上了三道菜之后，商臣就不递菜了，而是让仆人直接把菜罐子放在姑妈面前，自己也不起身，还故意和别人说小话，江芊两次问话，他也带答不理。

这种不礼貌的举动果然激怒了姑妈，她拍桌打椅地骂道“贱东西，你休得如此无礼，大王早就想杀你而立职为太子”然后，一边骂一边上车走了。

商臣连夜与潘崇商议，部署宫中兵甲，半夜围住王宫。潘崇拿着剑和绳子奔入王宫，勒死楚成王。商臣随后出讣告说，父亲害急病死了。遂自立为王，即楚穆王。

在这场父与子之间血淋淋的博弈中，除了“祸从口出”这个古训外，我们还看到了博弈论中最重要的概念——“纳什均衡”当你知道了对手的决定之后，就能做出对自己最有利的决定。

这个概念是由普林斯顿大学数学家约翰·纳什于1950年建立的。由于对博弈论做出奠基性的贡献，他在1984年荣获诺贝尔经济学奖。

囚徒困境

著名的“囚徒困境”，是“纳什均衡”理论的经典案例。

1950年，梅里尔·弗勒德和梅尔文·德雷希尔拟定出相关困境的理论，后来由顾问艾伯特·塔克以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

若一人认罪并作证检控对方(“背叛”对方)，而对方保持沉默，此人将即时获释，沉默者将判监10年。

若二人都保持沉默(互相“合作”)，则二人同样判监半年。

若二人都互相检举(互相“背叛”)，则二人同样判监2年。

如同博弈论的其他例证，囚徒困境假定每个囚徒都是利己的，即都寻求最大自身利益。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁，并不知道对方选择。试设想困境中两名理性囚徒会如何作出选择：

若对方沉默，背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。

这场博弈的纳什均衡，显然不是最优解决方案。如果两人都保持沉默，两人都只会被判刑半年。但根据以上假设，二人均为理性的个人，均衡状况会使两个囚徒都选择背叛。这就是“困境”所在。

寻找“纳什均衡点”

在现实中，“纳什均衡”理论影响着人们的行为。比如，在有些国家，报亭既无管理员也不上锁，买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱(背叛)，但由于大家认识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果，这种情形很少发生。

社会科学中的经济学、政治学和社会学，以及自然科学的动物行动学、进化生物学等学科，很多事件都可用上述理论分析。

在政治学中，经常发生两国之间出现军备竞赛的事件。两国都可以有两种选择：增加军备(背叛)，或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。虽然增加军备会是两国的“理性”行为，但结果却显得“非理性”，比如，军费投入过多，会对本国经济发展造成影响。这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。

在商业活动中，也会出现各种囚徒困境例子。两个公司互相竞争，他们的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。因此，这两家公司可以有两个选择1.互相达成协议，减少广告的开支(合作)；2.增加广告开支，设法提升广告的质量，压倒对方(背叛)。若两家公司不信任对方，无法合作，背叛成为支配性策略时，他们将陷入广告战，而广告成本的增加损害了两家公司的收益，这就是陷入囚徒困境。在现实中，要互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。

在自行车赛事或者长跑赛事中，也会出现一种博弈。例如，每年都举办的环法自由车赛中有以下情况选手们在到终点前的路程常以大队伍方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。因此，在起先阶段，大家都不愿意在最前面(共同背叛)，所以，这个时段，整体的速度很慢：而后，通常会有几位选手骑到前面，然后一段时间内互相交换最前方位置，以分担风的阻力(共同合作)，使得全体的速度有所提升：而这时，如果前方的其中一人试图一直保持前方位置(背叛)，其他选手以及大队伍就会赶上(共同背叛)。通常的情况是，在最前面次数最多的选手(合作)，通常会到最后被落后的选手赶上(背叛)，因为后面的选手骑在前面选手的冲流之中，比较不费力。

用科学的语言来描述纳什均衡，指的是在一策略组合中，所有的参与者面临这样的一种情况当其他人不改变策略时，他此时的策略是最好的。在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。

听起来很拗口，但却是不折不扣的科学，而且备受经济学家的青睐。诺贝尔经济学奖获得者萨缪尔森有一句幽默的话：你可以将一只鹦鹉训练成经济学家，因为它所需要学习的只有两个词：供给与需求。博弈论专家坎多瑞引申说要成为现代经济学家，这只鹦鹉必须再多学一个词，这个词就是“纳什均衡”。