摆脱“囚徒困境”对策研究
2014-04-29宋贵玉
宋贵玉
【摘要】“囚徒困境”是博弈论中的一个经典案例,对这个问题的研究涉及经济学、政治学、社会学、哲学、伦理学等广泛的领域。本文通过分析“囚徒困境”及其假设条件,找出“囚徒困境”的缺陷,进而结合案例提出摆脱“囚徒困境”的方法。
【关键词】“囚徒困境”;理性人;信息不对称;重复博弈
一、“囚徒困境”的含义及其提出
博弈论是西方经济学中的重要理论,而“囚徒困境”是博弈论中的一个经典案例,人们经常运用“囚徒困境”来分析一些实际问题。在现实世界中,“囚徒困境”也是随处可见,正所谓“你我皆囚徒,何处无困境”。
(一)定义
“囚徒困境”(prisoner's dilemma)是指两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困難的①。
(二)提出及其模型分析
1950年,由就职于兰德公司的梅里·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。
“囚徒困境”是博弈论的经典案例,常被用来解释生活中的一些现象,如公共物品提供不足,垄断行业价格同盟的破坏等[2],它的具体内容如下:两个嫌疑犯A、B 合伙作案后被警察抓住,由于缺乏足够的证据指证他们所犯的罪行,分别把他们关在不同的屋子里审讯以防止他们串供。警察分别告诉他们:如果两个人都认罪坦白,各判八年;如果两个人都抵赖不坦白,各判一年(或许因证据不足);如果其中一人坦白另一人抵赖,坦白的被释放,不坦白的判刑十年(“坦白从宽,抗拒从严”)。
在两个囚犯都是理性人的前提假设下,囚犯A会进行权衡抉择:如果B坦白了,A选择坦白被判8年,不坦白被判10年,坦白是优势策略;如果B不坦白,A坦白被释放,不坦白被判1年,同样对于A来说坦白是优势策略,这样A就选择了坦白。囚犯B基于同样的考虑,也选择了坦白,两人都被判8年。易知囚徒双方都独立地追求个人利益最大化,坦白成为了两个囚徒的优势策略,是唯一的纳什均衡:(坦白、坦白),其结果是(- 8,- 8),但是最终却未能达到帕累托最优的集体利益最大化结果(- 1,- 1)。显然如果两个囚徒都抵赖,下场会好于都坦白,两人只会被判1年而不是8年,即好于纳什均衡的情况。两个囚徒陷入了“求之不得”却又“身不由己”的困境[3]。
二、“囚徒困境”的缺陷
(一)给定他人的战略条件不充足
“囚徒困境”这一模型中,给定他人的战略条件不充足,因为当囚徒A看到对方“抵赖”时囚徒A选择坦白,实际上囚徒B同时也在考虑这个问题,B想到A选择坦白,囚徒B就不会选择“抵赖”,这样你假设的“给定他人的战略”就变了,成了他人的战略不确定[6]。这个模型虽然是静态博弈,但是博弈双方考虑整个过程时都在模拟对方的选择,这其中有动态的成分(你假设对方抵赖,你选择坦白,实际对方猜到你选择坦白,他会改变自己的策略不再抵赖也选择坦白,最后达到均衡(坦白,坦白),这个决策过程有先后顺序,实际上是动态博弈过程),所以完全按照静态博弈方法分析会有问题,导致“囚徒困境”的产生。
(二)博弈双方并不是真正的理性人
“囚徒困境”博弈模型中个体理性和集体理性的冲突对经济学的基本假设——“理性经济人”造成了严重挑战。其实“囚徒困境”中之所以出现个体理性导致了集体的非理性,这种表面的理性冲突是因为囚徒并非真正“理性人”[7]。双方相互不能猜透对方,从而各自只能采取自己的优势策略。如果是两个嫌疑人都是理性人,而且都是博弈论专家,他们相互理解对方且确信对方的策略,最后博弈均衡就会变为(抵赖,抵赖)。所以说参与人实际上是不完全理性的。
(三)利己主义者的前提不成立
有人认为“囚徒困境”的产生源于利己主义,而在小说《麦琪的礼物》中吉姆和德拉在圣诞节都想给对方买礼物,因拮据吉姆卖了心爱的金表,买了漂亮发卡,德拉卖了心爱的头发,买了表链和表袋。但是失去了头发的德拉得到了漂亮发夹也无法发挥发夹的作用,同样,没有了金表,吉姆得到的表链也变得毫无价值。他们无私利他的选择却使两人的利益受损,可见“囚徒困境”无须受限于利己的假设,只要局中人受非理性因素(感情、信念、同情心等)的影响,就无法避免个体理性和集体理性的矛盾[8]。
三、摆脱“囚徒困境”的途径
(一)利用强化的力量
当出现“囚徒困境”时,靠囚徒们的自律,并不总是能够走出困境。一个鲜活的例子是中国彩电企业首次 “价格联盟” 的失败[9],当不合作有很高的 “利润” 诱惑时,没有哪家企业愿意合作。此时政府可以通过制度、政策、奖惩措施等强化手段约束成员的个人理性与行为,鼓励和激发创新与奉献,通过强化手段的诱发和约束,加大群体成员进行更具建设性选择的酬赏与份量,引发成员在引入了新的强化因素后做出更具合理性的个人选择,打破原有利益格局中的纳什均衡,建立起更有利于群体进化和群体成员利益的新的“纳什均衡”,克服多人“囚徒困境”所带来的群体内耗[10]。
例如当两家烟草公司——万宝路与骆驼用广告来吸引相同的顾客时,它们面临与“囚徒困境”类似的问题,并且最终走出困境的方法也颇具意义。如果两家烟草公司都不做广告,它们瓜分市场。如果两家公司都做广告,它们依然瓜分市场,但利润减少了,因为每家公司都要承担广告费用。但如果一家公司做广告而另一家不做,做广告的一家就把另一家的顾客吸引走了,不做广告的一家利润就会减少。
做广告是骆驼和万宝路两家公司的优势策略,所以两家公司都选择了做广告,但其实两家企业都不做广告,状况会更好,分别得到40亿美元利润而不仅仅是30亿美元利润。
这种广告理论的检验出现在1971年,当时美国国会通过了禁止在电视上做香烟广告的法律。另许多观察者奇怪的是,烟草公司并没有利用他们在政治上相当大的影响力去反对这项法律。当该法律实施后,香烟广告减少了,烟草公司的利润却增加了。这项法律为烟草公司做了一件它们自己做不到的事:它通过强制禁止实现了低广告高利润的合作,成功解决了“囚徒困境”问题。
(二)由外部环境决定的依存关系有可能使双方摆脱囚徒的困境
有时候,由于来自外部环境的威胁,进行“囚徒困境”博弈的两个囚徒之间的合作(抵赖、抵赖)可能作为一种受迫性反应而出现[11]。还是“囚徒困境”中的两个囚徒A、B,不同的是这里假设A、B被抓前一起得罪过一个流氓C,囚徒A、B 都知道若他们同在一起生活,C不敢报复(可能是A、B 在一起,实力较强,C 斗不过),但若A、B 有一个在监狱中,另一个在社会上一定会遭到C 的报复而得- 2 单位的支付。C 报复A、B 之一可得到4 单位的支付,不实施报复可得零单位支付。
此模型用逆向归纳法很容易地解出此两阶段动态博弈的唯一纳什均衡②是:A 抵赖,B 抵赖;C 当A、B 不合作时报复其中坦白者。均衡结果是(- 1,- 1,0),均衡时该博弈实际上不会进入第二阶段,也即囚徒A、B 不会给C 以报复的机会[12],这或许可以解释如下事实:当村民们修公共防水堤时,人们的劳动力供给成了公共物品,当未涨水时,人们懒散、窝工现象严重,陷入“囚徒困境”,公共防水堤的质量不高;当涨水且岌岌可危时,人们更加齐心合力修建水堤,公共防水堤的质量明显提高,走出了囚徒的困境。以上例子说明:来自外部的竞争压力会凸显集体的重要,合作可以作为一个受迫性反应出现[13],从而迫使囚徒进行合作而走出困境。
(三)运用“重复博弈”走出“囚徒困境”
囚徒两难的困境抓住了人与人之间不信任和需要相互防范背叛这种真实的一面,但是在现实世界里,信任与合作很少达到如此两难的境地。无论在自然界还是在人类社会,合作都是一种随处可见的现象。通过无限次重复博弈,合作的可能性增强,就有可能走出困境。
假定有甲、乙两个厂商,他们都以追求自身利润最大化为目的并且不能控制对方的决策。他们签有100万元的商品购销合同。在合同即将履行前,来了一位“倒爷”,分别对这两个厂商的主要负责人施以小利并游说它们:如甲厂商将商品销给“倒爷”则甲厂商可获得120万的收入,但乙厂商则不得不以更高的价格获得这些商品从而使得乙厂商获益减少至60万;或者如果乙厂商从“倒爷”手中价购入可获得120万的收益,但甲厂商则只能低价出售从而使其获益减少至60万;或者两厂商同时违约分别从“倒爷”手中购销该产品从而使“倒爷”获取渔翁之利,致双方获利都降至80万。
显然,如果甲乙双方做的是“一锤子买卖”[14],对于甲乙厂商来说,他们的优势策略是选择违约,但实际上如果双方选择守约实行合作,将获得100万的收益而不仅仅是80万,双方陷入“囚徒困境”最终导致资源的浪费和效率的降低。如果甲乙厂商是长期合作伙伴,那么“囚徒困境”就会迎刃而解,因为甲乙厂商会进行多次重复博雾,产生了新的动力结构,违约不再是优势策略。在重复性“囚徒困境”下,理性博弈者将考虑:如果我拒绝合作,执行背叛,为了减少你的损失你也会背叛。如果博弈者不仅关心眼前收益也关心未来收益,而且博弈没有确定的时间限度,被惩罚的威胁似乎足以高到保证每一博弈阶段的稳定合作。这样,每个厂商都理性地克制投机行为,进行重复博弈和长期合作,实现双方策略上的“合作均衡”和综合利益最大化,将成为他们的最优选择。每一厂商会努力在重复博弈中建立起自己的好名声,减少道德风险,降低交易成本,以较低的边际成本获取较高的边际收益。他们深知,要是欺骗的话最多在博弈中只能占一次便宜,如上表中所示,得到120万,这比守约的报酬多20万,但这一欺骗却带来了长期的损失。
所以一方面,重复博弈使得博弈双方都在更大程度上了解了对方的信息,使得更多的私人信息变为博弈双方的公共信息。另一方面,重复博弈使得“一报还一报”式的报复得以实现。“一报还一报”[15]式的报复指的是博弈一方永远不先背叛对方,而且还会在下一轮中对对手的前一次合作给予回报,但它也会采取背叛的行动来惩罚对手前一次的背叛。这样囚徒在经过多次博弈之后,它们采取合作的态度逃避法律制裁的可能性就会大大增强,就有可能走出“囚徒困境”。
参考文献:
[1]曼昆.经济学原理[M].机械工业出版社,2003(8).
[2]张维迎.博弈论与信息经济学[M].上海人民出版社,2004(11).
[3]冯晓明.寡头垄断市场竞争下的“囚徒困境”与突破策略[J].合作经济与科技,2011(2).
[4]王玉珍.理性只是对自利最大化的追求吗[J].经济学家.2004.(6):84—89.
[5]高鸿业.微观经济学(第3 版)[M],中国人民大学出版社.
[6]郭洪伟.“囚徒困境”的均衡辨析[J].技术经济与管理研究,2011(2).
[7]崔志军.浅析“囚徒困境”模型中的“理性”假设[J].经济研究☆,2011(12).
[8]李伯聰,李军,关于”囚徒困境”的几个问题[J],自然辩证法通讯,1996(4)
[9]陶章华.企业 “竞争—合作” 博弈研究[J].西南交通大学博士学位论文(98 级).
[10]曼瑟尔.奥尔森.集体行动的逻辑[M].陈郁等译.上海:上海人民出版社,1995.13.
[11]朱晓宁,赵爽.“囚徒困境”下的抉择[J].商业文化学术探讨,2007(4)
[12]马本江,邱菀华.论摆脱“囚徒困境”的途径[J],生产力研究.,2004(10).
[13]刘辉.人才群体中的“囚徒困境”及其克服[J].中国人才,1999,(1):13-15
[14]代礼忠,翟江涛.重复博弈的制度安排:走出信用制度建设“囚徒困境”的必由之路[J],甘肃理论学刊,2005(5).
[15]周厚虎.运用“重复博弈”走出“囚徒困境”[J],探索,2011(1).
注释:
①曼昆的《经济学原理》里指出“囚徒困境”是两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的。
②朱晓宁,赵爽.“囚徒困境”下的抉择[J].商业文化学术探讨,2007(4)