博弈论视域下的西方政治冲突与合作理论

2013-04-07宋衍涛刘哲希

哈尔滨工业大学学报（社会科学版） 2013年3期

宋衍涛，刘哲希，宫钰

(对外经济贸易大学公共管理学院，北京100029)

目前学界对博弈论的研究多为经济视阈下的研究，从政治领域的冲突与合作、零和博弈与正和博弈这样的视角进行分析和研究则处于一种较新的阶段，将博弈论的相关理论用于分析政治生活中的政治冲突及其整合更是具有很强的创新性和实践的指导性。在现代政治生活尤其是国际政治生活中，政治就是一种博弈已成为人们的共识，博弈论就是政治冲突论的现实反映。在政治体系中，各政治主体基于政治共识而采取制度化的、非暴力的方式谋取特定政治利益或权力，各个主体在这一过程中围绕着权力、制度和规则必然会发生一定的摩擦与斗争。这类摩擦与斗争属于本文所论述的政治冲突的概念范畴。政治合作在本文中主要是指政治主体为了实现特定的政治目标，与其他政治主体之间摒弃分歧、达成共识的政治行为。“政治合作是民主政治的应有之义，没有政治合作就不会有民主，有民主没有政治合作，民主就会崩溃”［1］。民主条件下的政治合作是平等政治主体之间的政治博弈，是在政治信任前提下的政治合作，也是在非暴力博弈冲突中的政治合作。

一、博弈论与冲突和合作理论的内在一致性

将博弈论的分析方法用于分析西方政治生活中的政治冲突与合作，是一个全新的研究视角。博弈论与西方政治学说中的冲突与合作理论具有内在一致性，针对这种一致性的研究是本文分析视角的可行性的重要来源。博弈论(Game Theory)更多的是提供一种方法论，“近年来出现的博弈论能够为我们提供方法论方面的帮助，因为这种理论本身就是以冲突与合作关系中的对策互动规律为研究对象的”［2］95。博弈论研究的是博弈过程的各个参与者，在理性指导下发生的直接相互作用的决策行为及其后果，简言之，就是博弈参与者根据他人的可能策略而作出自己的策略选择。博弈论的分类标准主要有两个:一是根据博弈参与者的行为，二是根据博弈参与者的结果。根据前者，可分为合作博弈和非合作博弈;根据后者，可分为正和博弈、零和博弈、负和博弈。其中非合作博弈与合作博弈的区别在于非合作博弈的博弈主体不会像合作博弈的博弈主体那样去考虑对方的利益，而是片面追求自身利益最大化。负和博弈、正和博弈、零和博弈的区别在于博弈结果与各个博弈主体的利害关系。一般说来，只有正和博弈的结果才最符合各个博弈主体的利益。政治学中的合作冲突论本质上就是一种正和博弈。

(一)冲突与合作理论是一种非零和博弈

冲突合作理论是指政治主体在政治合作的过程中，会因为政策问题而发生冲突，但是在大多数国家例如美国，这种政治冲突是以政治合作为前提的政治冲突，“合作和组织的因素控制着冲突，限定了冲突的条件”［3］，目的是实现共赢，因而冲突与合作实际上是以正和博弈为前提的。需要指出的是，博弈的形成需要一定的博弈情境，即“各参与主体的利益诉求是相互关联的，既彼此依存，又互相冲突，同时，既定的制度环境具有某种程度的开放性和包容性，能够为参与主体提供必要的行为选择余地，即策略空间”［2］97。这里之所以强调利益，是因为基于利益的政治冲突具有转化为政治合作的可能性，而基于观念上的政治冲突则通常是无法调和的。现代政治大多是利益政治而非原则政治或观念政治，因而现代政治的博弈大多是非零和博弈。

非零和博弈(Non－zero－sum Game)是指其某些结局会比另一些结局产生更高的收益的博弈。因此，在所有的非零和博弈中，博弈者之间都存在着合作、协调和讨价还价的机会，但又不能保证一定会出现这三种情况。每次博弈都至少有一种“不合作”的平衡或“纳什均衡”。这一平衡是指某一特定点，任何背离该点的博弈者都不会得到好处;“纳什均衡”(Nash Equilibrium)则是指博弈者通过他们之间的不合作或不协调达到平衡。在许多博弈中，“纳什均衡”是“有缺陷的”，也就是说，至少有一种平衡情况对所有的博弈者都更有利，众所周知的例子就是“囚徒困境”。在“囚徒困境”中，每个人都有合作与背叛两种选择，博弈双方合作得到的结局总是优于“纳什均衡”，讨价还价可以促使博弈者从不合作平衡转到合作平衡。有学者认为，“针锋相对”(即在第一轮博弈中合作，然后按对手在上一轮博弈中所做的去做)只有在折扣率很低的情况下是一种取胜的战略。

(二)冲突与合作理论与两人博弈情景

“囚徒困境”是博弈论中两人博弈的经典范例。在这一博弈游戏中，每个博弈者都试图通过自己的不合作来得到自己的最好结局。但如果双方都这么做，最后结局对双方都是最糟的。下文可见“囚徒困境”理论与冲突合作理论的内在联系。

首先，简单介绍一下“囚徒困境”(Prisoner Dilemma)。两个共同犯罪的囚犯，被隔离审查，面临“招供”和“不招供”的选择。如果只有一个人招供，而且提供证据证明另一个人有罪，那么他会被无罪释放，而他的同伙将承担所有罪责，并被囚禁10年。如果两人都招供，他们每人将被囚禁6年。如果两人都拒绝招供，他们都只承担最轻的罪行，每人只被判刑1年。

面对上述选择，他们可能都倾向于选择招供，因为害怕对方告密而自己得到最坏的判决。非常具有讽刺意义的是，这场赌博最后显示，理性行为换来的是最不情愿的结果:两人都招供了，两人一共被囚禁12年。实际上，两人由于互不合作和互不信任而受到惩罚。当然，如果这个博弈过程能够得到重复，那么囚犯会吸取教训，懂得采取拒绝招供的合作策略来保护自己的利益。

不难看出，“囚徒困境”理论与冲突合作理论是一致的。两个人或多人在决策过程中，如果其中一个人采取不合作、冲突的策略，就会导致其他人的利益受到损失，但结果可能是不合作者获得最大利益，假定结果为10。如果两人或多人都采用冲突、不合作策略，就会导致所有人都遭受损失，假定结果为0。如果两人或多人都采取合作策略，那么都会实现部分利益，假定结果为5。

面对选择，他们都可能倾向于选择冲突，因为采取不合作的策略，会使自己获得最大利益。但是这种理性选择的结果可能会使他们得不到任何利益。实际上，两人由于互不合作和互不信任而受到惩罚。当然，如果这个博弈过程能够得到重复，那么他们会吸取教训，懂得采取合作策略保护自己的利益。

(三)冲突与合作理论与多人博弈情景

在多人博弈中，冲突合作理论与博弈论也具有内在一致性。虽然在多人博弈中，“博弈各方基于理性化策略采取最大化自己效用的行为却导向整体的非合作结果”［4］，但其中依然存在交易机会，因为任何博弈者的子集都可通过组成联盟的方式共同攻击其他主体。这种联盟理论更多的是涉及政府形成博弈和“滚圆木”博弈。“滚圆木”是指现在给其他博弈者好处以换来日后自己的好处。这种现象在西方国会中较常见。

国会制定的政策作为个案可能是零和博弈(Zero－sum Game)冲突，但从重复博弈的角度来看，也可能是正和博弈冲突。但是，由于各参与者所关注的议题的重要性、紧迫性不同，国会内各派别的政治实力不同，导致提案在形成议题和政策时存在一个先后顺序，因此虽然大多时候具有正和博弈冲突的结果，但有时也会形成零和博弈冲突，尤其是当不同选择主体的实力分布不均衡、缺乏有效的协商机制以及存在意识形态冲突等情况时。在这种情况下，国会不得不采用“多数原则”形成政策，这一原则本质上就是一种零和博弈冲突。多数原则中，多数获取的利益等于少数损失的利益，尽管这一原则是国会的投票规则，“但多数原则并不总是无异议的”［5］，其潜规则是允许短暂地形成多数联盟，但同时禁止形成持久的多数联盟，因为这样会使一部分少数长期处于不利地位，使冲突激化。因此，国会等其他一切形式的委员会都允许通过默认的潜规则，保证正和博弈有序运转，使每个代表所代表的势力皆能获得利益。

(四)冲突与合作理论需要遵循政治规则

作为博弈论在政治领域的一种运用，冲突合作理论需要遵循相应的政治规则，如宪法、法律、行政机关的决定、习惯和传统等。宪法规定了政治体系的基本框架，政府应该如何行为，公民的权利与义务都在宪法中有原则性规定，但并非所有的宪法都是成文法，如英国并没有一部“英国宪法”，“了解英国宪法的关键，需要建立在对法律概念(Concept of Law)理解的基础上”［6］。在这些法律概念的框架下，英国有很多的成文条例，这些条例与不成文的传统结合起来构成英国宪法。所以，不论是成文宪法还是不成文宪法，都为政治体系提供基本的框架。由于宪法的条文都是原则性的，它并不能解答所有的政治问题，因此需要专门的机构进行宪法解释，如美国的释宪权在最高法院。除了宪法和法律，政治博弈还要遵循立法机关和行政机关的决定。在美国，这些决定是指国会的立法、总统的行政命令及各官僚机关的决定。可见，虽然各个国家的机制设置不一样，但所有的国家都有相应的政治机制，其决定构成了政治博弈的基本规则。需要注意的是，在有些政治体系中，不成文的传统和习惯是最重要的政治规则，如英国。一般说来，习惯和传统是指为社会或社会的特定阶层所广泛接受并实践着的行为过程与模型，习惯与文化有密切关系，如“请客送礼”行为在有些文化中被看成腐败行为，而有些文化则不以为然。每一个社会都有一定的非正式的规则影响着政治体系，越是不发达的政治体系，习惯和传统越重要。在一些现代政治体系中，如英国，仍然依靠不成文的传统。另外，美国的宪法也并未提及政党制度问题，美国异常发达的两党制度是在正式的规则之外成长起来的，当然现在美国有法律规定着政党与利益集团的活动。政治博弈就是在上述框架或规则之内进行的。这些框架和规则共同规定:如何确定博弈的结果;局中的角色及与角色相适应的权力、责任和限制;谁能从事这种博弈;越轨者应受何种处罚及如何使规则更具有适应性。

二、博弈论在西方政治生活中的具体体现

冲突理论和交易理论共同构成博弈论两个重要分支，在西方政治理论和实践中具有如下体现:

交易理论(Trading Theory)认为，在政治交易过程中，各政治人均在一只看不见的手的指引下采取策略行动，其结果是在实现自我利益最大化时，增进自己的福利，带来公共福利的增进。从这个意义上讲，只要是完全自愿的交易，肯定能实现由自利到双赢的改进。然而，这个没有冲突且能不断进步的政治市场图景，是无法解释现实政治的。例如，统治者与被统治者之间、优势群体与劣势群体之间的交易未必是双赢的，没有出现预料中的通过合作达到共同富裕的情景。

冲突理论(Conflict Theory)是建立在纳什均衡基础之上的。1950年纳什提出不合作或冲突世界中的“纳什均衡”。这一均衡理论指出，在信息不对称的条件下，个人为了追求自我利益最大化，只要有机会就会采取“策略性行为”，通过损人而达到利己的目的。由此可见，自利的政治人行为并不总能增进集体福利。相反，在很多时候，一个人多得到一份利益，就意味着另外一个人同等份额利益的丧失，甚至自利的选择最终会导致“双输”的结果，最典型的案例就是“囚徒困境”。

总体而言，冲突理论的研究基于单边优势基础之上的斗争与互害行为，而交易理论则基于双方均势基础之上的交易与互利行为。

冲突理论和交易理论作为博弈论的两个重要分支，具有一些相同的要素:一是个体行为的目的都是为了追求自身利益最大化;二是他们在追求利益最大化的过程中均受外在环境条件的约束;三是个体的投入能够按照期望的方式获得产出;四是交易或冲突的最终结果总是某种均衡。

冲突理论和交易理论具有明显的区别:一是假设前提不同。在交易理论中关于理性政治人、完全信息以及市场出清的假设，在冲突理论中对应为“机会人”假设、不完全信息假设。二是研究工具不同。交易理论主要采用合作理论，而冲突理论则更多使用博弈理论。三是研究侧重点不同。交易理论研究政治过程中资源的合理配置问题;而冲突理论研究的是通过斗争方式赢得竞争中的优势。四是研究的结论不同。交易理论的结果是找到一种合作使交易双方都满意，这也是“交易模型”(Bargaining Model)中所描述的最佳结果;而冲突理论的结果却往往是“纳什均衡”。

冲突理论对现实世界的解释更具说服力。比如，就交易理论无法解释的交易双方未必达成双赢这一情况而言，冲突理论却有很好的解释。在冲突理论中，政治主体的利益是相冲突的，两者的目标函数正好相反。对于任何政治主体来说，其目标都是利益最大化。为此，他们只能尽量抬高自己、打压对手。因此，政治主体间利益冲突在所难免。这可以解释为什么弱势集团更愿意选择以极端的革命性方式解决与强势集团之间出现的分配性冲突，因为这样做成本最低。与之相对应，强势集团却更愿意选择和平的方式解决问题，因为这样付出最小的代价。这解释了西方国家的工会组织和少数民族团体在采取激进方式而非温和方式的时候，为什么居于强势地位的大企业利益集团希望通过和平方式解决问题。

三、单向度政治过程的结果是零和博弈

虽然现代政治的博弈大多是非零和博弈，但也存在例外。通过上述分析，我们可以认为政治所研究的领域其实是一个冲突的对策领域。虽然正和博弈往往被认为是最优结果，但是单向度的议案为了避免循环而会存在约束或排斥，这也就意味着一部分人从一个议案的通过中获得利益，而另一部分人却无可回避地蒙受损失。从这个意义上讲，政治博弈是零和的。在立法的时候，代表们往往一方面说服其他代表支持自己的意见，一方面抵制自己被其他代表说服，这一行为的产生存在一个前提假设，即“自己从一个有利于自己的议案通过中所获得的好处将等于从一个不利于自己的议案通过中所受到的损失，即所有投票人对每个议案都经历了等强度”［7］125。但是在实际生活中，要想满足上述前提假设几乎是不可能，因为这需要信息的完全对称。如果“在这样的假设条件下，假定投票者代表会选择这样一个规则，即该规则能使不通过代表自己不赞成的议案，或通过自己反对的议案的概率最小，这样的假定是合理的”［7］75。如果这种假定同时成为所有投票人的前提假设，即被所有政治主体所采用，那么政治过程的结果必然是“零和博弈”。“政治冲突主体之间的关系是一种绝对竞争的零和游戏，其核心政治冲突规则是:你赢我输，或你输我赢，两者之和为零。直接民主就被认为是一种此赢彼输的零和博弈，是一种加剧政治冲突的机制，容易导致对抗和情绪化”［8］。即便政治主体采取合作的方式，结果依然是这样，所以“政治主体参与政治生活，应采取的路径就是绝对竞争:绝不妥协，绝不合作，而且在每一个问题上都试图全赢”［9］168。他们将政治选举看成是一种根本对立，因此政治选举冲突一般被视为敌对的、不可调和的政治活动。

这种零和博弈冲突的典型是意大利。意大利的两大主要政党是共产党(Communist Party)和基督教民主党(Christian Democracy)，其中的大多党员都是将自己的政党看做正义的代表，而将其他政党当做恶的代表。这种理论体现了意大利的文化特点，其弱点也是显而易见的。首先，并非所有的政治冲突都是零和冲突，也可能是正和的，即所有的政治主体都有可能从政治冲突中获得利益。另外，善、恶的评价不能作为政党和政策分析的科学角度，意大利主要政党之间的差异主要体现在关注某个问题上的差异，而非原则上的分歧。如果政党之间仅是围绕非原则性问题的分歧，这种政治冲突不仅不会对政治体系形成负面影响，而且是有益的、建设性的，因此在善和恶的问题上并非所有的政治领域都可以引用，而必须区别对待，如在政府理论、国家理论中就可以运用善恶理论来进行分析，而政党理论显然不适用这一观点。但也由此可见，意大利的政治文化还处于较低层次，构建其上的民主政体也极易转化为集权政体。

四、政治过程需要“正向整合机制”

在冲突的态势下仍然能够进行政治合作，并在利益均衡的基础上达成各政治主体都接受的政治共识，而不一定非得形成分裂性冲突。实现这种合作的情境路径有四种:

第一，政治主体通过重复博弈实现合作。虽然“主流的合作博弈理论为了获得一般化的理论，其所定义的合作概念忽略了与讨价还价结果密切相关的许多细节”［10］，但在西方政治中，博弈主体往往根据所拥有的政治资源对比，在政策中寻求与其力量相适应的利益份额，从而达成政策契约。由于政治主体都寻求最大的利益和最小的损失，则冲突的结果是，得利者必在其所有策略的可能极小收益中，找出能够获得最大收益的策略为其策略，即所谓‘小中取大’原则;而负担损失的一方政治主体必在他所有策略的可能极大损失中，找出最小的策略为策略，即所谓‘大中取小’原则。根据这两个原则进行冲突博弈，会形成一种利益平衡的政策，当然平衡并不意味着利益分配均等，而只是与各政治主体实力相适应的平衡。

第二，通过延期补偿规则和边际报酬规则实现合作。前者主要运用于国会的委员会内部的博弈冲突，后者主要适用于委员会之间的博弈冲突。由于政治冲突主体之间所竞争的并不是一个政策，而是多个相关联的政策，这使得冲突的各方能够在多个政策的博弈中获得整体均衡的结果。在某个政策中利益受到损害的政治主体，能够在其他政策中获得补偿，从而实现政策体系的总体利益均衡。所谓“报酬”，即投你一票就要有相应的回报，讨价还价，相互妥协合作［9］168－169。

第三，通过许诺和期待实现合作。政治冲突主体间的博弈，并非一次完成，而是多阶段的冲突过程，因此能够通过重复博弈，实现整体利益均衡。在某一轮博弈中获得优先的政治主体可以对利益受到损害的主体表示某种承诺，在下一轮的决策博弈中予以回报，而利益受到损害的主体也可以预期将来的利益平衡。希望是一种力量，对未来的承诺与期待能够有效地化解当下尖锐的冲突。

第四，通过轮流坐桩实现合作。当政治主体为了某项利益发生尖锐冲突、没有合作空间时，轮流坐桩是一种和平整合的有效路径。就像西方民主国家的总统选举，在遵守法定规则的宪政框架内，以轮流坐桩的方式来排除你死我活的尖锐冲突一样，将冲突转化为在一定规则指导下的和平竞争，对规则的认可和遵守，就意味着合作［11］。

五、一个现实的例子——国会及常委会运行机制的合作与冲突

根据上面的分析，我们尝试用正向整合机制理论来分析西方国会的常设委员会运行及博弈冲突的现实，特别是其中蕴涵的“延期补偿”机制原理。常设委员会是面对面相互作用的团体，规模通常为3 ～30 人，其成员构成大多与各政党在国会中所占的席位一致。委员会通常还设立一个规模适度的小组委员会以提高决策效率。从定位上看，委员会是处理政策议题的制度化团体，无论其成员经历怎样的更迭，委员会的职能和定位一般不会改变。国家及其政治体制形成的全部政策都是事先由一个或几个委员会进行评价、讨论和实际起草的。委员会制定政策的原则一般是多数原则，但通过观察可以发现，委员会的决定通常是一致通过的。之所以如此，并不是由于所有成员具有共识，而是因为委员会的每一个成员都通过自己在一个议题上的让步，换取他人在其他议题上对自己的认可，这种“以让步换回报”使得合作成为政治决策的一种模式，尽管它只是一种潜规则。

这种政策制定程序的潜规则的本质是交易，因为“投票交易的结果不会总是单峰偏好”［12］，所以其具有“报酬”，即投你一票就要有相应的回报，讨价还价、相互合作。实际上，任何决策都是经历冲突后，最终以各方的相互让步而获得通过。尽管如此，还是存在着一些获利较少的派别。为了能够使博弈结果朝着正和博弈发展，委员会的成员会对获利较少的一方在下次决策中给予补偿，这是一种持久交易，即注重时间因素的相互之间的“延期补偿”机制。一般说来，每个成员都遵循着这种潜规则。另外，在实行全体一致原则的委员会中，虽然各方都拥有否决权，但这项权利通常不会轻易行使，因为某个成员如果不间断地通过否决权给其他成员造成困扰破坏议程，这无异于是在和自己作对，其行为必然会招致报复。

通过上述分析，延期补偿机制的形成必须存在两个基础性因素:选择强度的差异和今后在一系列决策议题中存在回报机会。当选择强度随着议题的改变而改变时，委员会就能达成全体一致，也就是说，在任何时间里对某个议题漠不关心的成员，会趋于向政治动机明确、行为强烈的成员让步。总的来讲，委员会运行的延期补偿机制对其成员来说是正和博弈，即使这会对被代表人的利益造成损害，特别是那些没有代表进入委员会的群体。国会是由多个委员会共同构建的，“他们通过与他人的互动与意见交换来展开其实践活动”［13］，具有共同的运行规则或共同的结构网络，这些规则和结构框架左右着委员会的相互冲突和合作。国会中的各个委员会之间的合作是通过边际报酬机制(marginal reward mechanism)形成的。所谓边际报酬，就是单位成本的外部报酬，即委员会之间交易的报酬。这部分报酬是某个委员会向另一些委员会支付的，其结果也是正和的。甚至在两院制或多院制国家，议会之间为了便于通过自己的议案，需要与其他议院协商，从而建立起临时的、类似于联合委员会或协调委员会这样的组织，以便沟通和整合各自立场，这些也是边际报酬规则的现实运用。总之，无论是延期补偿机制，还是边际报酬规则，其所付出的成本对于付出方来说是一种必须的成本，即使这个过程被普遍认为是自发的而非强制的。

综上所述，博弈论事实上在政治冲突与政治合作互动关系的理论方面具有深刻的解释功能，即当政治主体面对如何进行合作、冲突如何产生的问题时，博弈情境的选择成为关键问题。总之，博弈论的理论分析证明，在政治生活中、尤其是在西方政治生活中，政治通常是零和博弈，但在重复博弈的情境下又转化为正和博弈，在正和博弈中发挥作用的规则是延期补偿规则和边际报酬规则。其核心是交易理论所要实现的利益均衡。当然，这一理论存在的基础和前提是西方式的民主理论。

［1］郎友兴．民主政治、和谐政治和合作政治:中国特色社会主义政治发展之目标［J］．浙江社会科学，2008，(7):48．

［2］程汉大．17世纪英国宪政革命的博弈分析［J］．南京大学学报，2004，(1)．

［3］［美］库利．社会过程［M］．洪小良，等，译．北京:华夏出版社，1999:30．

［4］朱富强．重新理解合作博弈概念:内涵和理性基础［J］．社会科学辑刊，2012，(2):90．

［5］BSAUNDERS B．Democracy Political Equality and Majority Rule［J］．Ethics，2010，121 (Issue 1):150－151．

［6］LAKIN S．Debunking the Idea of Parliamentary Sovereignty:The Controlling Factor of Legality in the British Constitution［J］．Oxford Journal of Legal Studies，2008，28(4):710．

［7］［美］缪穆．公共选择理论［M］．杨春学，译．北京:中国社会科学出版社，1999．

［8］潘小鹃，张辰龙．当代西方政治学新词典［K］．长春:吉林人民出版社，2001:443．

［9］［美］达尔．多头政体［M］．谭君久，刘惠荣，译．北京:商务印书馆，2003．

［10］［匈］海萨尼．海萨尼博弈论论文集［C］．郝朝艳，等，译．北京:首都经济贸易大学出版社，2002:30．

［11］赵成根．民主与公共决策研究［M］．哈尔滨:黑龙江人民出版社，2000:114－115．

［12］RUSSELL C S．Vote Trading:An Attempt at Clarification［J］．Political Studies，1979，27 (Issue 1):55．

［13］胡元梓．当代西方政治冲突解决理论研究述评［J］．中国人民大学学报，2009，(2):151．