互惠利他理论对霍布斯问题的破解及其启示

2014-04-11饶异

山西师大学报（社会科学版） 2014年6期

饶异

(仲恺农业工程学院思想政治理论课教学部，广州 510225)

“霍布斯问题”(Hobbesian Problem)是西方社会哲学史上的一个著名的伦理学问题。这个概念先后在1949 年和1981 年被社会学家帕森斯、哲学家哈贝马斯所采用，它反映了一个问题，即指人们在追求自身利益最大化的同时，怎样实现合作，保持社会秩序不陷入“一切人反对一切人的战争中”[1]280。“霍布斯问题”是一个经久不衰的问题，它构成了社会生活的核心问题。对于如何破解“霍布斯问题”，互惠利他理论提供了某种启示。互惠利他理论是一种生物学理论，该领域合作与竞争问题的提出和模型的建立为我们提供了一种简单明了的行为解释方式。从人类发展的历程来看，正是因为有了合作与利他行为，人类社会才免于在霍布斯丛林中分崩离析。

一、合作的难题：霍布斯问题

基于人性恶的假设，霍布斯认为自然资源具有稀缺性，要满足每个人的欲望，必定存在竞争，在此基础上，他提出了二元人性观。一方面，人具有动物性，人有“自然欲望”，这个欲望的根源在于人的感官享受禀性，即他的动物性。人像其他动物一样，这些感性知觉自动地唤起欲望和厌恶，于是他的生活就像其他动物一样，在欲望的支配下充满着对自然的贪婪。另一方面，人类具有理性。人不会像动物一样只受刹那间的感性知觉支配，人具有设想未来的能力，因而成为最掠夺成性和最危险的高级动物。由于物质产品的相对匮乏和人在欲望支配下对自然的贪婪，使得人们欲求同一事物而又无法同时享用时，彼此就会成为仇敌，人与人之间就形成了竞争。在人的天性中，由于竞争、猜疑和荣誉，使得人们之间相互争斗。霍布斯称这种状态为自然状态，在这种状态中，每个人都要实现自己占有一切的“自然权利”，“人对人像狼一样”，彼此争斗不已，从而出现了“一切人反对一切人的战争”状态。

人们长期处于恐惧与痛苦之中，必然会产生求取和平、摆脱战争状态的迫切愿望，可谓“苦乱久矣，人心思定”。那么，人类怎样才能摆脱自然状态中的无序、恐怖状态？自然法作为道德的原则正是一种理性的箴言，为人们处理好与社会的关系提供了一种理性的思维模式——每一个人应当服从那些大家必须遵守的共同的准则和公约。在自然法中，为了和平，人们必须放弃力图占有一切的自然权利，承认他人和自己具有同样多的权利，做出对权利的放弃和转让。自然法为人们由战争状态向和平状态过渡提供了基本法则，使人们摆脱自然状态成为可能。但自然法只是一种内在的道德约束力量，如果没有强有力的外在规范，它就得不到贯彻执行。由此，霍布斯进一步提出了他的国家学说。

霍布斯认为，尽管有自然法，但如果没有外部强制力量，信约便只是毫无约束力的一纸空文，所有人的生命安全都没法得到保障。他说：“要是没有建立一个权力或权力不足以保障我们的安全的话，每一个人就会、而且也可以合法地依靠自己的力量和计策来戒备所有其他的人。”[2]128为了使“自然法”得到切实的遵守，人们便订立契约，放弃每个人的自然权利，把大家的权利交给一个人，或一些人组成的团体，这个人或团体能把大家的意志变成一个意志，能把大家的人格统一为一个完整的人格，这个人格就是作为国家的“法人”，国家一旦出现，所有的人就必须接受并服从他的意志和判断。这样订立的协议就叫做“社会契约”，其根本目的是谋求一种人与人之间和平相处、社会安定有序的良好状态。[2]131—132国家的权力是至高无上的，如同《圣经》中提到的海中巨兽——“利维坦”一样，使人敬畏，国家不断运用强制力量来限制个人私欲，使“人对人像狼一样”的自然状态得以终结。总而言之，霍布斯在解决个人利益与集体利益的冲突问题上，是通过订立相互合作的协议来实现的，而合作的动力是为了结束野蛮的战争状态，创造和平生活。

二、合作的进化：互惠利他理论

人类合作与利他行为是生物进化和社会发展的综合产物，对这个问题的研究历来受到社会科学各分支以及生物学的重视，其中当代生物学的研究成果使这一探索别具一格。在达尔文进化论思想的基础上，人们提出了亲缘选择理论、互惠利他理论和驯顺性理论对合作与利他行为做出了解释。[3]亲缘选择理论和驯顺性理论分别对亲缘利他和纯粹利他行为给出了较为系统的分析。然而，无论在自然界还是在人类社会，个体之间的行为选择更常见的是非近亲个体之间的互惠利他行为。

1971年，哈佛大学生物学家特里弗斯提出了互惠利他理论[4]，指出非近亲个体之间的利他行为是以互惠为基础的。互惠利他行为即两个无亲缘关系的个体为了回报而相互提供帮助的行为，施惠者帮助受惠者期待的是日后再次相遇时获得更大利益的回报。互惠利他行为实质上是一种基于回报的合作。互惠利他思想提出之后，1981年，艾克斯罗德与汉密尔顿采用囚徒困境模型，发展了合作进化理论。他们认为，在非零和博弈中，由于部分利益冲突，有机体相互竞争的制胜之策是合作而不是背叛策略。……个体的合作和利他行为实际上也是一种生存策略。[5]1—2

囚徒困境模型是博弈论的经典模型，也是互惠利他理论的研究原型，该模型所反映出的深刻问题是个人理性与集体理性之间的矛盾。在单局性或局数一定的囚徒困境对局中不会有合作的产生，对每一个均无法获知对方决策信息的对局者来说，占优策略只能是背叛。如何摆脱这种困境实现长期而稳定的合作，艾克斯罗德的重复囚徒困境博弈实验为寻求困境消解的方法提供了路径。实验以竞赛的方式进行，在两轮竞赛中，参赛者提交了很多复杂而精巧的策略，但最后得分最高的是程序最简单的一报还一报(TFT ,tit for tat.即第一步选择合作，以后重复对方在上一步的策略，对方合作，自己合作；对方背叛，自己背叛)策略，该策略是一种基于回报的互惠合作策略。在竞赛中具有成功特性的合作策略在现实生活中能否奏效？如果基于回报的合作能够产生的话，还需解决这样几个问题：第一，在现实生活中需要什么条件才能培育合作，即考虑没有集权的利己主义者之间合作如何出现？第二，潜在的合作策略如何才能在不合作占优势的环境中取得最初的立足之地？这个问题是策略的初始成活性问题。第三，如何在各种策略的较量中脱颖而出？这个问题是策略的强健性问题。第四，在复杂的策略环境中，合作策略是如何成为进化稳定策略(ESS，evolutionary stable strategy)的，即合作策略怎样能抵御不合作策略的侵入，从而在群体中完全立足？这是策略的稳定性问题。

艾克斯罗德总结了TFT策略获胜的原因与特点：第一, TFT策略是不嫉妒的，它能够赢得竞赛不是靠打击对方，而是靠从对方引出使双方都有好处的合作。即便会存在对手的得分高于自己的情况，然而由于TFT策略的不嫉妒，能坚持引出双方有利的结果，从而使它在重复博弈中的收益居高不下。第二，TFT策略是善良的，它从不做首先的背叛者，以避免陷入被别人报复的泥潭，这为合作的出现提供了前提条件。第三，TFT策略具有报复性，它不仅回报合作，也回击背叛，具有强可激怒性。这能很好地对付畏强欺弱者，使对方一旦背叛后就不敢坚持，这为合作的维系提供了必要保证。如果博弈双方只相遇一次的话，善良的策略是没有机会报复背叛的，所以如果博弈双方会再次相遇，基于对未来的预期，每个对局者就可以用潜在的报复来威胁对方，从而使合作得以维系。第四，TFT策略是宽容的，是维护合作的必要让步，有助于小的冲突之后重新恢复合作。不能对方背叛一次,就无休止地报复，应该在对方改为合作时，重新与其合作。缺乏宽容性的策略，双方收益不会高，不利于自身的发展。最优的宽容水平既能防止高频率的报复导致陷入恶性循环因而破坏合作，又能避免过低频率惩罚而鼓励了背叛者被占更多便宜。第五，TFT策略的清晰性明确了合作的效用，让对方很快发现规律，从而不得不采取合作的态度。

为了证明TFT策略的强健性，艾克斯罗德进一步用生态学的原理设计了生态竞赛。在动态的进化群体中，所有策略的对局都遵循一定的规则：第一，遗传。善于合作的策略，它的后代的合作基因就变多。第二，试错。在各种各样的策略环境中，最初人们不知道什么是好的策略，通过不断的试错来发现好的策略。第三，学习。通过个体之间的学习，好的策略会在群体中传播开来。实际上，进化的过程就是找到、模仿、遗传高分策略的过程。通过一代又一代的生态模拟，TFT策略的增长率远远大于其他策略。因此，TFT策略不仅是一种强健性策略，也是一种进化稳定策略，最终能取代其他策略而被固定下来，并可以抵挡其他变异策略的入侵。单个的合作者难以入侵全是背叛策略的极端环境，但如果是合作群体，即便是小的群体，彼此有机会交往，双方的合作所带来的好处远大于小人之间背叛所带来的低收益，从而入侵一个背叛广泛存在的世界。但是，相反的情况则不会出现，也就是说一报还一报策略固定下来后,不能被单个背叛者打入，也不能被背叛的小群体入侵。这是合作策略在进化过程中优于全背叛策略的地方。[6]

三、合作的自发生成：霍布斯问题求解

霍布斯以精辟的论证构建了一个强大的利维坦理论体系，其目的是为了摆脱“每个人对每个人的战争”状态。在自然状态中，人们往往并不采取合作行为。因为如果一个人自己交出了武装，但无法确信其他人是否也能交出武装，那么他就处于被杀的危险之中。在这种充满极端不确定性的状态中，选择纯粹利他，毋庸置疑是不明智且难以保存下去的行为策略，因而，每个人都会选择保持武装作为最有利的策略。霍布斯的“这一基本的政治和社会问题清楚地证明——超出亲缘关系范围的十分明显的自私自利的个体组合为什么和如何避免陷入混战，是17世纪的伟大成就”[7]1。博弈论可以从这里找到哲学的理论先驱者。在霍布斯的理论进路中，他阐释了囚徒困境面临的问题并寻求如何走出困境的解决方案。

我们可以用博弈论的语言还原霍布斯问题。假设A、B为自然状态下的两个人，两人能力相等，每个人都会面临两种策略选择：合作(不战争，保持和平)或背叛(战争)，这样就会出现四种情况：如果A和B都背叛，彼此处于战争状态，每个人或者要花时间和精力来保护自己的利益不被对方抢去，或者两败俱伤，假设双方收益为1∶1；如果A和B都合作，保持和平，每个人都得到了自己的利益，假设双方收益为2∶2；如果A和B两人中，有一方进攻，处于战争状态，获得了更多的利益，假设其收益为6，另一方因为保持和平，处于危险境地的同时利益被抢夺，假设其收益为0。事实上，双方都背叛，彼此处于战争状态会使所有人都比在解除武装保持和平的情况下过得更加糟糕，但每个人都面临着自己解除武装对方保持战争状态的担心。这实际上就陷入了一个囚徒困境博弈，双方都背叛(战争，战争)成为这场博弈的纳什均衡，个人理性的选择得到了令人悲观的结果，个人理性与集体理性相冲突。这就是霍布斯的自然状态博弈论的结构。

那么，如何消解这种困境？自私自利的人能否实现合作而和睦相处，从而改善人与人之间狼对狼的关系呢？霍布斯期望的是依靠拥有绝对至高无上的政治权威的国家来解决背叛和冲突问题，他相信绝对权威对任何违反协议的背叛者能进行有效的惩罚与制裁。我们假定国家对每个人通过法律强制性地实施这样的惩罚措施：如果某人采取战争的策略，那么罚去5；如果采取和平的策略，不奖不罚，这样，自然状态下人与人之间的支付就会发生变化：A与B都合作，双方的收益为2∶2；A与B都背叛，双方的收益则为-4∶-4；A和B两人中，一人保持和平，一人处于战争状态，背叛的一方收益为1，合作的一方收益为0。显而易见，当国家出现时，这个博弈的均衡则是双方都合作(和平，和平)。按照霍布斯的思路，在外在强制力量的作用下，一个具有共同利益的群体,一定会为实现共同利益采取集体行动，要么导致君主专制，要么导致共和独裁。[8]从霍布斯的方案可见，强权的政府机构是合作所必须的。基于人性恶的假定，在借助自然法的条件下，霍布斯以社会契约为外在规范，构建了他的国家与人的学说。但引入一个第三方的强权政府，是否能够实现人们合作的可能？霍布斯的不朽功绩是提出了问题，但从推理角度来看，他对问题的解决方案是不够恰当的。哈佛大学政治学教授罗伯特·D.帕特南在《使民主运转起来——现代意大利的公民传统》一书中指出了霍布斯方案的不足之处：一方面,公正执行本身就是一个公共品，一样受制于它所致力于解决的基本困境。要想使第三方的强权政府能够运转，第三方本身必须是可信的。这里引入一个外在强制力量的时候又出现了一个逻辑鸿沟，谁来监督“自利的政府”？什么样的权利能够保证国家权利履行自己的义务？况且，强制执行成本是非常昂贵的。

如何实现霍布斯状态下的合作，人们无法用亲缘利他和纯粹利他行为做出较为合理的解释和寻求问题的解。在社会生物学看来，人类社会的合作和利他行为主要是互惠利他行为，互惠利他主义是人类文明产生的源泉。霍布斯认识到自然状态下“各个个体会发现克制相互损害和相互欺诈的倾向能够产生互利互惠”[7]1。但霍布斯的思维路径是借助外部强制力量。事实上，合作不一定需要外部强制力量，国家可以通过策略和行为互动创造合作的有利条件，即合作能够在互动中自发产生。互惠利他理论为合作的产生提供了基本思路，该理论从互动领域而非通过外部强制力量来理解人类合作。艾克斯罗德的实验解决的根本问题是：在缺乏外部强制力量的情况下，利己主义者如何走出囚徒困境从而实现合作？按照囚徒困境，当博弈只进行一次或有限次时，个体选择都会是背叛。但是在无限次重复博弈中，这个结论是不适用的，因为博弈不知何时结束，博弈者就会意识到，任何背叛行为都可能遭到对方的报复，背叛的策略将是一种目光短浅的选择，从谋求长远利益的最大化考虑，尝试合作是明智之举，从而也就出现比次数已知的多次博弈更有效率的均衡。通过艾克斯罗德的实验，TFT策略在各种策略的比较中显示出独一无二的优势。“一个采用基于回报的策略的社会确实能够自我控制。由于确保了对试图不合作的惩罚，这些不合作的策略就得不到好处。因而这些策略就发展不起来，也就提供不了一个供他人模仿的有吸引力的模式。”[5]105—106基于回报的合作策略这种自我控制的特性可以激励人们相互教育、相互学习，由此在复杂的策略环境中产生，同时作为成功的策略代代传承。艾克斯罗德的实验结论表明，合作的基础不是真正的信任，而是关系的持续性。合作能够出现是因为博弈者之间的接触不是一次，而是持续或反复发生的，未来的充分重要性使得今天做出的策略选择不仅决定当前对局的结果，而且还影响对局者以后的收益。在这种持续的关系中，“对策者能通过对双方有利的可能性的试错学习、通过对其他成功者的模仿或通过选择成功的策略剔除不成功的策略的盲目过程来达到相互的合作”[5]139。在重复囚徒困境模型中，一方面，合作的出现并不是依靠外部强制，而是通过博弈过程中关系的持续性、一系列学习和自我教育的内部过程而实现的，从而得到了霍布斯问题的解。从自私的人性出发，不需要附加政府的外部作用，当然外部强制不是没有必要，某种程度上，它能够加速一种客观必然性的实现，在这里，只需要附加上多次不确定性博弈的条件便可以实现合作，也正是这无数次的博弈交往行为达成博弈规则和制度共识。重复博弈是一个不断摸索、学习和合作程度提高的过程，在人们认识到双赢的重要性的过程中，逐步建立起互惠互利的机制。当然合作秩序的形成还有赖于文化、习俗、传统等自然因素。另一方面，重复囚徒困境模型是非零和博弈，博弈双方存在着的是部分利益冲突。在霍布斯的自然状态中，如果双方选择战争，放弃和平，不仅整体收益会下降，而且付出的成本更大。所以权衡利弊,合作是最佳选择。并且合作范围越大、参与合作的人数越多,获得的收益越大。在霍布斯问题中，互惠利他理论认为，博弈中自发产生博弈秩序,它维系和约束着人们在现实生活中通过自组织内在地形成合作与互惠行为，由此,人们在反复的生活中会得到一种最佳的行为决策方法。

[1] 周辅成.西方伦理学名著选辑[M].北京：商务印书馆，1996.

[2] (英)霍布斯.利维坦[M].黎思复，黎廷弼译.北京：商务印书馆，1985.

[3] 刘鹤玲.亲缘、互惠与驯顺：利他理论的三次突破[J].自然辩证法研究，2000，(3).

[4] RLTrivers.The Evolution of Reciprocal Altruism.The Quarterly Review of Biology， 1971，(46).

[5] (美)罗伯特·艾克斯罗德.对策中的制胜之道——合作的进化[M].吴坚忠译.上海：上海人民出版社，1996.

[6] 饶异.基于回报的合作——生物有机体竞争中的制胜之策[J].华南理工大学学报，2006，(3).

[7] (美)菲尔德.利他主义倾向——行为科学、进化理论与互惠的起源[M].赵培，等译.长春：长春出版社，2005.

[8] 黄真.从“互惠利他”到“强互惠”：国际合作理论的发展与反思[J].国际关系学院学报，2009,(4).