集体行动中赏罚效果的差异性研究: 来自公共品实验的证据
2020-02-05范良聪
范良聪 许 彬
目次
一、 引言
二、 文献述评
三、 实验设计和程序
四、 实验结果
(一)集体行动中引入赏罚效果的统计描述与比较
(二)集体行动中引入赏罚对一阶捐献行为的影响差异分析
(三)集体行动中赏罚行为使用规范的差异性分析
五、 结论
一、 引 言
小到社区的垃圾收集,大到全球的气候问题,集体行动问题无处不在。目前深深困扰着我国政府的公共服务提供、公共品供应、公共资源保护等问题都可归之于此。这些问题的共同特征在于,理性个体的最优选择最终都会导致整个社会的无效率。于是,如何克服集体行动难题,走向社会最优均衡便就成为社会科学各领域学者和实践者持续关注的焦点。
理论上,“囚徒困境”(1)M. M. Flood, Some Experimental Games, 5 Management Science 5-26 (1958).“免费搭便车”(2)M. Olson, The Logic of Collective Action, Harvard University Press, 1965.和“公地悲剧”(3)G. Hardin, The Tragedy of Commons, 162 Science 1243-1248 (1962).三大模型的相继提出,严重打击了学者们关于集体行动难题可以克服的信心,以致得出只能求之于“利维坦”或“私有化”的结论。然而,这两条路径下不尽如人意的解决效果和大量自愿合作的经验事实迫使学者们对此进行重新思考。典型的是有许多学者引用田野和实验室证据证明,并非所有自组织的集体行动都会陷入困境: 集体行动中存在许多违背标准理论预测的行为模式;(4)E. Ostrom, Collective Action and the Evolution of Social Norms, 14 The Journal of Economic Perspectives 137-158 (2000).结构变量如边际收益、重复博弈会影响行为;(5)J. O. Ledyard, Public Goods: A Survey of Experimental Research, in J. H. Kagel & A. E. Roth eds., Handbook of Experimental Economics, Princeton University Press, 1995.更重要的是,引入一定的制度安排有助于克服集体行动难题。(6)E. Ostrom, J. Walker & R. Gardner, Covenants with and without a Sword: Self-Governance is Possible, 86 The American Political Science Review 404-417 (1993); A. Chaudhuri, Sustaining Cooperation in Laboratory Public Goods Experiments: A Selective Survey of the Literature, 14 Experimental Economics 1-37 (2011); E. Ostrom, Governing the Commons: the Evolution of Institutions for Collective Action, Cambridge University Press, 1990; E. Ostrom, R. Gardner & J. Walker, Rules, Games, and Common-Pool Resources, University of Michigan Press, 1994.
事实上,Olson在给出他的“免费搭便车”模型之后,就提出了两种可能的解决路径。第一种解决路径建立在行动者偏好异质性的基础上。偏好的异质性使某些行动者有激励把集体行动难题内部化。现实中,这种情形并不少见,如由个人出资修建道路、凉亭等。然而,由于个体行动者能力有限,仅基于此往往无法解决大规模的集体行动难题。第二种路径是通过引入“选择性激励”,改变行动者的支付。依据Olson的观点,“只有一种独立的和选择性的激励会驱使潜在集团中的理性个体采取有利于集团的行动……这些选择性激励既可以是积极的,也可以是消极的: 既可以通过惩罚那些没有承担集体行动成本的人来强制实施,也可以通过奖励那些为集体利益出力的人来进行诱导”。(7)M. Olson, supra note 〔2〕, at 51.虽然有些学者以“选择性激励”的供应会面临二阶搭便车问题来反驳Olson的观点,(8)N. Frohlich & J. A. Oppenheimer, I Get by with a Little Help from My Friends, 23 World Politics 104-120 (1970).但是理论与经验研究表明,“选择性激励”确实可以把合作者看似不理性的集体行动逆转成理性的行动。(9)P. Oliver, Rewards and Punishments as Selective Incentives for Collective Action: Theoretical Investigations, 85 American Journal of Sociology 1356-1375 (1980).
值得注意的是,在Olson那里,这两种“选择性激励”是可以互相替换的。按照Oliver的重新阐释,不管是奖励还是惩罚,只要激励总量大于合作收益与不合作收益之差即可。(10)P. Oliver, Rewards and Punishments as Selective Incentives for Collective Action: Theoretical Investigations, 85 American Journal of Sociology 1356-1375 (1980).然而,后续经验研究的结果却与此迥然有异。心理学行为主义传统下的一些研究显示,奖励的作用比惩罚强,(11)J. L. Hogan, R. H. Fisher & B. J. Morrison, Social Feedback and Cooperative Game Behavior, 34 Psychological Reports 1075-1082 (1974).或者至少没有什么差异。(12)S. Lindskold & J. T. Tedeschi, Self-Esteem and Sex as Factors Affecting Influenceability, 10 The British Journal of Social and Clinical Psychology 114 (1971).而同时期经济学家的研究却发现,惩罚更有效。(13)J. I. Shaw, Response-Contingent Payoffs and Cooperative Behavior in the Prisoner’s Dilemma Game, 34 Journal of Personality and Social Psychology 1024, 1024-1033 (1977); P. Oliver, Selective Incentives in an Apex Game: An Experiment in Coalition Formation, 24 Journal of Conflict Resolution 113-141 (1980); P. Oliver, Rewards and Punishments as Selective Incentives: An Apex Game, 28 Journal of Conflict Resolution 123-148 (1984).不过后续研究结果并不稳健,有的研究发现惩罚更有效,(14)M. Sefton, R. Shupp & J. Walker, The Effect of Rewards and Sanctions in Provision of Public Goods, 45 Economic Inquiry 671-690 (2007).有的发现奖励与惩罚一样有效甚至更有助于维持人类合作,(15)D. G. Rand, A. Dreber, T. Ellingsen & D. Fudenberg, Positive Interactions Promote Public Cooperation, 325 Science 1272-1276 (2009).还有的则发现二者无差异。(16)See P. J. Hall, Resolving a Public Good Dilemma Using Reward and Sanction Mechanisms, Working paper, University of Otago, 2005.正如下文的文献述评中所言,这种差异出现的关键在于不同研究实验设计的差异。与此同时,在效果差异之外,既有研究很少谈及这种差异出现的根源。鉴于此,本研究试图在一个与既有研究参数不同但却可以连接它们的公共品实验中,重新比较奖励与惩罚之于促进集体合作效果的差异,并深入至微观行为层面找出这种差异的原因,以图加深我们对于奖励和惩罚这两种最常见的激励机制的理解。
本文后续安排如下: 第二部分文献述评,第三部分实验介绍,第四部分实验结果,最后一部分总结。
二、 文 献 述 评
在Olson提出“选择性激励”之后,对集体行动环境中这两种激励效果的实验检验直到1970年代末期才出现。这些研究大致可分为两类: 一类同时考虑了奖励和惩罚,另一类则仅关注奖励或惩罚。
经济学中同时关注赏罚的研究较少。较早的研究是Shaw在一个囚徒困境博弈中完成的,结果发现惩罚在克服困境上更有效。(17)J. I. Shaw, Response-Contingent Payoffs and Cooperative Behavior in the Prisoner’s Dilemma Game, 34 Journal of Personality and Social Psychology 1024-1033 (1977).而后Oliver展开了系统的探究。他首先从理论上证成了奖励与惩罚的差异性,强调了不同激励方式的成本与集体行动中行动者组成结构的关系。他认为,虽然同样程度的奖励和惩罚对于接受者而言无差异,但是对于使用者而言就不同了。(18)See P. Oliver, supra note 〔9〕.作为一种私人产品,接受者越多,赏罚的使用成本就越高。给定奖励针对的是合作者,它在小组合作者比例较小时成本更低,在那些只需要相对较小的合作者做出贡献就能成功的集体行动中更有效;相反,因为惩罚针对的是背叛者,它在小组合作者更多时成本更低,在要求更高一致性的集体行动中更有效。而后,基于顶点博弈(Apex Game),(19)这是一个复杂的多人囚徒困境博弈,其中有一位居于有利地位的参与者与四位居于不利地位的参与者。不利地位的参与者的行动选择有二: 与其他同处于不利地位的参与者竞争,以获得与居于有利地位的参与者联合的机会;或者是与其他同处于不利地位的参与者合作,以求创造出一个共同的更好结果。Oliver发现引入惩罚而不是奖励可以显著地提升处于不利地位的参与者之间的合作水平,因为惩罚在这种情况下成本更低。(20)P. Oliver, Selective Incentives in an Apex Game: An Experiment in Coalition Formation, 24 Journal of Conflict Resolution 113-141 (1980); P. Oliver, Rewards and Punishments as Selective Incentives: an Apex Game, 28 Journal of Conflict Resolution 123-148 (1984).
此后很长一段时间中,这个主题似乎为经济学家所淡忘,直到最近十年。Dickinson基于一个初始禀赋异质的公共品博弈框架,研究了一种规则外生设定的奖励和惩罚对于促进生产的作用。他检验了当赏罚对象分别依据捐献者的绝对捐献水平和相对于其禀赋的相对捐献水平来确定时,对最高捐献者进行奖励和对最高捐献者之外的所有捐献者进行惩罚的效果,并发现在所有四种情况下引入奖励或者惩罚都可以增加合作。不过,当赏罚对象是以绝对捐献水平确定时,惩罚更有效;当赏罚对象是以相对捐献水平确定时,奖励更有效。(21)D. Dickinson, The Carrot vs. the Stick in Work Team Motivation, 5 Experimental Economics 107-124 (2001).
后来的学者发现,“选择性激励”并非如Oliver所说,是一种私人产品,而是一种公共品。(22)T. Yamagishi, The Provision of a Sanctioning System as a Public Good, 51 Journal of Personality and Social Psychology 110-116 (1986).因此,这其中确实存在如Frohlich和Oppenheimer所说的“二阶困境”。(23)N. Frohlich & J. A. Oppenheimer, supra note 〔8〕.考虑到这一点,Hall在一个带门槛的公共品自愿捐献博弈框架(24)在该博弈中,只有当小组所有成员的捐献加总超过一定数额时,公共品才会得到供应。中引入一个新设计,令被试在做出捐献决策的同时,决定是否对奖励基金或者惩罚基金进行捐献。而后,实验者加总奖励或者惩罚基金、乘以2,用于奖励捐献最高者,或者惩罚捐献最低者。与其他来自实验室的证据一致,作者发现被试存在显著的对奖励和惩罚的需求,不过奖励与惩罚在提升公共品捐献的效果上没有显著差异。(25)P. J. Hall, supra note 〔16〕.
接着,Sefton等在一个标准公共品自愿捐献博弈(这是本文采用的博弈框架,具体博弈结构将在后文中介绍)中检验了由个体实施的奖励和惩罚对提升公共品自愿捐献的作用。他们把奖励定义为“转移支付”,亦即奖励者奖励多少,被奖励者就可以得到多少。他们发现,引入奖励或惩罚在最初阶段确实可以提升公共品自愿捐献水平。但是在引入奖励的情形中,捐献水平会逐步下降到未引入任何激励的基准情形之下。也就是说,仅有奖励并不足以维持公共品自愿捐献;与此相反,引入惩罚则可以维持公共品自愿捐献。因此他们总结说,在维持公共品自愿捐献上,惩罚比奖励有效。(26)M. Sefton, R. Shupp & J. Walker, supra note 〔14〕.
不过同样是应用的公共品博弈框架,后续研究得到的结果却与Sefton等的研究不同。基于一次博弈,Walker与Halloran发现,作为转移支付的奖励与惩罚都是无效的。(27)J. Walker & M. Halloran, Rewards and Sanctions and the Provision of Public Goods in One-Shot Settings, 7 Experimental Economics 235-247 (2004).而通过在实验中引入声誉,也即通过固定被试的身份标签,使得被试可以跨轮追踪小组各个伙伴的捐献历史。Rand等发现,奖励在维持公共品捐献上与惩罚一样有效。当奖励与惩罚同时存在时,奖励导致了捐献的增加,而惩罚则没有。因此他们总结说,在重复博弈中,奖励这种积极的互动要比惩罚这种消极的互动更有助于维持人类的合作。(28)D. G. Rand, A. Dreber, T. Ellingsen & D. Fudenberg, supra note 〔15〕.
此外,Andreoni等在独裁者博弈框架(这是一个分配博弈,给定财富的数额,独裁者决定给接受者分配多少比例的财富,决定是终局的)中检验了赏罚效果的差异。他们发现,随着独裁者分配比例的增加,平均而言,惩罚会减少而奖励会增加,虽然接受者对奖励的需求显著更大。从效果上看,虽然奖励在单独使用时带来的平均分配比例比惩罚更高,但是奖励在促使提议者远离最小可能投入的效力上显著比惩罚差。也就是说,“比起坏的行为被惩罚的社会,在一个好的行为被奖励的社会中,人们会期望更少的合作”。(29)J. Andreoni, W. Harbaugh & L. Vesterlund, The Carrot or the Stick: Rewards, Punishments, and Cooperation, 93 American Economic Review 893-902 (2003).
另一方面,在单独研究奖励或者惩罚效果中,有关惩罚的研究已经得到比较一致的结论。惩罚已被看成合作的关键机制,虽然这可能存在一定的效力拐点条件。(30)研究发现,惩罚成本是一个关键变量,低成本、高效力的惩罚制度较之高成本、低效力的制度更有效。N. Nikiforakis & H. T. Normann, A Comparative Statics Analysis of Punishment in Public-Good Experiments, 11 Experimental Economics 358-369 (2008); M. Egas & A. Riedl, The Economics of Altruistic Punishment and the Maintenance of Cooperation, 275 Proceedings of the Royal Society B: Biological Sciences 871-878 (2008).这在实验室实验、(31)E. Fehr & S. Gächter, Cooperation and Punishment in Public Goods Experiments, 90 American Economic Review 980-994 (2000); E. Fehr & S. Gächter, Altruistic Punishment in Humans, 415 Nature 137, 137-140 (2002); D. Masclet, C. Noussair, S. Tucker, & M. C. Villeval, Monetary and Nonmonetary Punishment in the Voluntary Contributions Mechanism, 93 American Economic Review 366-380 (2003); O. Gürerk, B. Irlenbusch & B. Rockenbach, The Competitive Advantage of Sanctioning Institutions, 312 Science 108-111 (2006).实地实验、(32)B. Herrmann, C. Thöni & S. Gächter, Antisocial Punishment Across Societies, 319 Science 1362-1367 (2008).大脑神经成像实验(33)K. Sigmund, C. Hauert & M. A. Nowak, Reward and Punishment, 98 Proceedings of the National Academy of Sciences 107-157 (2001); B. Seymour, T. Singer & R. Dolan, The Neurobiology of Punishment, 8 Nature Reviews Neuroscience 300-311 (2007); M. Hsu, C. Anen, & S. R. Quartz, The Right and the Good: Distributive Justice and Neural Encoding of Equity and Efficiency, 320 Science 1092-1095 (2008).中不断得到佐证。
不过与惩罚不同,单独研究奖励作用的文献很少。Dickinson与Isaac基于和Dickinson一样的设计考察了奖励的作用。作者发现,奖励的引入可以提升合作水平,不过对相对捐献最高的被试进行奖励,比对绝对捐献最高的被试进行奖励,可以引致更高的合作水平。(34)D. L. Dickinson & R. M. Isaac, Absolute and Relative Rewards for Individuals in Team Production, 19 Managerial and Decision Economics 299-310 (1998).此外,基于公共池资源博弈,Vyrastekova与Soest对比了代表转移支付的奖励和可以产生净剩余的奖励之间的差异。他们发现,在纯粹转移支付的情况下,奖励是无效的;不过在拥有正的净效应时,奖励是有效的。(35)J. Vyrastekova & D. van Soest, On the (In)Effectiveness of Rewards in Sustaining Cooperation, 12 Experimental Economics 53-65 (2008).
综上所述,有关集体行动框架下赏罚效果差异性的研究并未达成一致结论。其中的问题之一在于,这些研究的实验设计差异显著,不具可比性。Oliver的博弈框架融合了困境博弈与议价博弈,与后续研究都不同;而且在他的实验中,使用激励不需要成本。此外,虽然他在理论上强调了激励的私人产品属性,却在实验中使用了多人博弈结构,反而凸显了奖励与惩罚的公共品性质。后续研究虽然大都基于公共品博弈,但是设定的参数却各有不同,典型如Sefton等人和Rand等人的研究: 前者在实验中剔除了声誉效应的影响,而后者则通过固定标签赋予了被试构建声誉的可能;前者的奖励是一种转移支付,后者在实验中成倍地放大奖励惩罚的效力,只允许被试选择是否支出4点来进行奖励(惩罚),被奖励者(被惩罚者)相应的将获得(遭受)12点的收益(损失)。这种关键参数设定上的差异,可能正是这些实验结果有所差异的原因之所在。
更重要的是,这些文献更关注引入赏罚效果的差异,而对于为何存在这种差异的探讨有限,尤其是忽视了行动者在二阶集体行动中的行为差异,以及这种差异及其差异效果之间的关系。然而,任何一个完整的有关“选择性激励”的集体行动理论的构建,显然不能仅仅依赖于一阶集体行动中微观行为的分析,而必须同时考虑二阶集体行动中的微观行为以及二者的关系。虽然Oliver曾凝练出行动者结构属性这一因素,但他并没有对此进行验证,而只是简单地假定奖励是给予合作者,惩罚则针对搭便车者,且假定它们对于接受者而言是无差异的。(36)P. Oliver, supra note〔20〕.虽然也有一些学者注意到惩罚行为所遵循的规范的重要性,(37)J. Carpenter & P. H. Matthews, What Norms Trigger Punishment?, 12 Experimental Economics 272-288 (2009).但是几乎没有学者注意到奖励行为所遵循的规范是什么,更遑论比较二者,进而把这种二阶行为规范与一阶行为规范相联系。唯一的例外可能是Sefton等人的研究: 他们以个体在给定轮次的捐献为因变量,以个体在前一轮受到的奖励或者惩罚、个体在前一轮捐献与其他人平均捐献之间的偏离为自变量,构建了一个简单的计量模型来说明赏罚行为所遵循的规范,并发现奖励可以引致个体在后续轮次中的捐献,而惩罚的这种作用则相应地弱得多。(38)M. Sefton, R. Shupp & J. Walker, supra note 〔14〕.然而从本文后面所构建的模型(3)可知,其模型中的解释变量存在显著的多重共线性关系,因而其结论也就值得商榷。
就国内而言,虽然已经有较多学者利用实验室实验对一阶集体行动问题进行了研究,(39)参见周业安: 《改革开放以来实验经济学的本土化历程》,载《南方经济》2019年第1期,第1—40页。并且有越来越多的学者关注到惩罚这种“选择性激励”,(40)参见秦海英、王冠群: 《利他互惠行为与中国经济转型期公共品供给机制创新》,载《克拉玛依学刊》2011第1期,第20—28页;宋紫峰、周业安: 《收入不平等、惩罚和公共品自愿供给的实验经济学研究》,载《世界经济》2011第10期,第35—54页;连洪泉、周业安、左聪颖: 《惩罚机制真能解决搭便车难题吗——基于动态公共品实验的证据》,载《管理世界》2013年第4期,第69—81页;周晔馨、涂勤、胡必亮: 《惩罚、社会资本与条件合作——基于传统实验和人为田野实验的对比研究》,载《经济研究》2014年第10期,第125—138页。但仅有一项研究注意到奖励和惩罚的差异,以及一阶集体行动和二阶集体行动之间的关系。(41)参见张元鹏、林大卫: 《社会偏好、奖惩机制与公共品的有效供给——基于一种实验方法的研究》,载《南方经济》2015年第12期,第26—39页。即便是在这篇关注奖励惩罚机制的文章中,由于作者引入的是外生的奖励机制与内生的惩罚机制,奖励与惩罚机制本身的设定就具有了不对称性,因此其结论是否具有一般性,还有待检验。
鉴于此,本研究试图中和Sefton等人和Rand等人的实验设计,以一组公共品博弈实验重新比较奖励与惩罚对合作影响的差异,以探究这种差异产生的行为根源。在设计上,与Rand等不同,我们将在每轮实验中变换被试的身份标签,以最大限度去除声誉、互惠等因素的影响;而与Sefton等的实验不同,我们将提升赏罚的效力,使得奖励的使用可以带来净剩余,赋予其一个发挥作用的空间。
三、 实验设计和程序
沿着前人实验设计的路线,我们以4人一组的带惩罚或者奖励的线性公共品自愿捐赠博弈作为研究的基本框架。借助计算机,被试被随机匿名地指派到一个小组中,并在该小组中直到实验结束。也就是说,我们实施的是一个固定伙伴的实验。这样,每个小组便构成一个独立的样本。
实验的基准情形(记为N)是公共品自愿捐献博弈。在该情形中,每轮每个被试i需要同时匿名在一个公共账户与一个私人账户间分配给定为20实验币的初始禀赋。向公共账户的投入Ci将被乘以一个表征公共品边际生产率(RG)的系数1.6,形成收益并在小组成员间平均分配;向私人账户的投入将直接乘以1转化为个体收益。如此重复10轮。每一轮结束,每个被试都将在各自计算机屏幕上看到本组每个成员向公共账户的投入以及本人收益情况。每轮中小组成员的组内编号是随机生成的,以剔除声誉效应。由“连锁店悖论”很容易得知,该博弈的“子博弈精炼纳什均衡”是不捐献,因为私人账户的边际收益高于公共账户的边际收益。
本文关注的是引入奖励或惩罚的影响(分别记为R和P)。这两种情形与基准情形的差异是,每轮在与基准情形完全一样的第一步决策完成之后增加了一步。在第二步中,被试将获知其组成员向公共账户的投入信息以及自己在第一轮的收益,并获得惩罚或奖励小组其他成员的机会,不过这需要付出私人成本。(42)遵循实验研究的标准做法,我们在实验介绍中避开了诸如“奖励”“惩罚”等带有情感色彩的词语,而采用诸如“您付出1个点,将在对方账户中扣除3个点”的中性语句。相关实验介绍可联系作者获取。被试每支出1点奖励或者惩罚就将在其收入账户中扣除1个实验币,但是相应的会在被奖励或者惩罚者的收入账户中加上或者扣除3个实验币。定义这种支出的影响与支出成本的比例为奖励或者惩罚的效力e,则在我们的实验中e均等于3,这与Sefton等人的研究的不一样,但与Rand等人的研究一样。带激励的实验同样重复10轮。每轮决策结束后,被试将获知其他小组成员对其实施的奖励或者惩罚总和以及自己的最终收益。不过,他们不知道奖励惩罚具体来自哪里。同样,由逆向推导法可以很容易得知,即使引入奖励或者惩罚,该博弈唯一的“子博弈精炼纳什均衡”仍是不奖励(不惩罚)、不捐献。
令Pijt为被试i在t轮对j实施的惩罚量,Rij为该轮i对j实施的奖励量,则可定义被试j在t轮结束后的收益函数:
加总每轮得分,就是被试的总得分。所有这些信息都是共同知识。
为控制赏罚引入顺序对实验结果的影响,我们遵循Fehr与Gächter的被试内设计,分别实施了惩罚(奖励)情形在前、基准情形在后和惩罚(奖励)情形在后、基准情形在前的两组实验(见表1)。为控制可能存在的损失对被试行为造成的影响,我们跟随Fehr与Gächter,在引入赏罚的实验情形开始之前,一次性赋予被试25个实验币。(43)B. Herrmann, C. Thöni & S. Gächter, supra note 〔32〕.
表1 实验基本情况
实验被试由通过浙江大学BBS征募的非经济学专业本科生随机抽取组成。每名被试只参加其中一场实验。每场实验开始之前由实验者大声介绍实验规则,而后由被试进行一些简单的测试,以确保其理解实验规则。实验结束后被试按照21∶1的比例以得分换取现金,此外还有10元的出场费。实验在2010年9月至2011年10月期间分4次实施,通过相互隔离的计算机完成。每场实验大致耗时100分钟,被试平均获得36元的报酬。(44)实验实施时,本校本科生勤工俭学助管岗位的津贴为12元 /时。因此本次实验的激励强度符合国际惯例。实验软件为浙江大学自主开发的G_G软件平台中的公共品博弈系列。(45)该平台由王志坚博士和许彬教授共同开发,在此作者向他们表示感谢。
四、 实 验 结 果
在这一部分中,我们将首先从整体上描述引入赏罚对提升公共品自愿捐献的效果,而后再从个体层面上分析赏罚的作用路径及其差异,最后深入到二阶集体行动的行为层面,比较个体使用奖励与惩罚的方式,探析这种方式与一阶公共品自愿捐献行为之间的内在关联。
(一)集体行动中引入赏罚效果的统计描述与比较
图1 小组层面上不同情形下的平均捐献图注: 图a、 b、 c、 d分别对应NP、 PN、 NR、 RN四场实验。
图1给出了不同情形下捐献变化的趋势。由图可见,在所有基准情形中,小组平均捐献都呈现出一种随时间推移而递减的态势。与此不同,在引入惩罚的两种情形中,小组平均捐献呈现出递增态势;而在引入奖励的两种情形中,小组平均捐献呈现出一种先增后减的趋势。总体上,引入“选择性激励”确实可以抑制自愿捐献情形中捐献衰退的趋势。
统计检验支持这一结论。检验表明,不管是基准情形还是实验情形,个体平均捐献都显著不为零(表2第三列与第四列),明确拒绝了标准理论的零捐献预测。(46)频率上,引入惩罚后,零捐献出现的次数从28%下降到3.125%;引入奖励后,该频率从18.25%降到12%。我们还可以通过比较引入赏罚前后捐献的变化,观察赏罚引入的影响。表2中的第五列显示,有赏(罚)和无赏(罚)两种情形之间的平均捐献差异同样显著不为零。(47)RN情形中,这种差异在边际上不显著,不过这一结果在后面的回归分析中变得显著。对引入赏罚前后捐献水平进行比较的非参数检验也支持这一结论。(48)Wilcoxon signed rank sum检验显示,“NP”中,z=2.803, p=0.005 1; “PN”, z=2.701, p=0.006 9;“NR”中,z=2.091, p=0.036 5; “RN”, z=1.784, p=0.074 5。这表明,引入“选择性激励”确实可以发挥作用。
表2 数 据 描 述
注: 括号中是双边t检验下的p值。
我们还构建了一个简单的回归模型以验证上述结论。模型的因变量是每个小组在P或者R情形中十轮总捐献及其在N情形中十轮总捐献之差,自变量是情形虚拟变量。OLS稳健性回归结果(如表3第一列)显示,引入惩罚或者奖励都有显著的效果。不过,引入奖励的效果显著弱于引入惩罚的效果,NP中平均捐献最高,而后为PN,接着为NR和RN。(49)Wald检验显示,F=5.17, p=0.004 5。两两对比的检验显示,NP vs. PN, F=6.42, p=0.015 8; PN vs. NR, F=11.32, p=0.001 8; NR vs. RN, F=0.06, p=0.800 3。为检验这一结果的稳健性,我们截取前五轮、后五轮以及最后一轮的数据做了同样的回归。结果(表3后3列)表明,大多数情形下,捐献差异显著不等于零。而且我们发现,惩罚效果是在实验后半段才超过奖励的效果: 虽然前五轮中四种情形的平均捐献没有显著差异,但是后五轮以及最后一轮中四种情形的平均捐献差异显著。(50)Wald检验显示,前五轮,F=2.13, p=0.112 9;后五轮,F=6.03, p=0.001 9;最后一轮,F=4.21, p=0.011 9。到最后一轮,引入惩罚所带来的捐献增加的平均幅度显著地超过了引入奖励所带来的增加幅度。(51)最后一轮中捐献差异的顺序为NP=PN>RN=NR。Wald检验显示,NP vs. PN, F=1.51, p=0.227 7; PN vs. RN, F=3.53, p=0.068 3; RN vs. NR, F=0.21, p=0.646 4。
表3 引入惩罚或者奖励效果及其比较
注: ***表示p<0.01,**表示p<0.05,*表示p<0.1(下同)。
上述结果表明,引入惩罚或者奖励确实可以提升小群体中公共品自愿捐献的水平。不过,惩罚与奖励的作用效果存在差异。这种差异不如Sefton等发现的那么明显,更与Rand等发现的不同。这说明,赏罚效力和声誉都是影响赏罚效果的重要变量。
结果1: 在固定组公共品自愿捐献博弈中,引入效力为3的奖励或惩罚都有助于消除捐献递减的趋势,提升平均捐献。不过比起奖励,惩罚的作用更稳健。
(二)集体行动中引入赏罚对一阶捐献行为的影响差异分析
下面考虑出现这种差异的原因。要明了为什么有差异,首先需要知晓赏罚是怎么起作用的;亦即相对于没有赏罚的基准组而言,赏罚的引入对捐献行为本身的动力学带来什么影响?已有文献强调了个体捐献趋向平均捐献。(52)E. Fehr & S. Gächter, supra note 〔31〕.结合已有文献中区分合作者和不合作者这两类行动者的思路,(53)See P. Oliver, supra note 〔9〕.这种倾向可以进一步细化为这样一个推论,即先前轮次中捐献高于平均水平者在后续轮次中倾向于减少捐献,而之前捐献低于平均水平者在后续轮次中倾向于增加捐献。于是,当前一种趋势强于后一种趋势时,小组捐献水平就会趋于衰退;反之,则会提升。基于此,我们需要检验的就是赏罚引入对这两种行为趋势的影响。为此,我们构建了如下计量模型:
Cit=αTreat+βCit-1+γ1Treat*Pdet-1+γ2Treat*Ndet-1+ζTreat*Xi+ui+εit
(1)
由于实验中被解释变量的取值范围为[0, 20],是一个截尾数据,因此我们采用Tobit模型进行拟合。为控制因不同的实验顺序而产生的实验经历对后期行为的影响,我们在拟合时仅选取了前十轮的数据。回归结果(表4第一列)显示,解释变量系数的符号符合预期。给定个体前轮捐献水平,绝对正向偏离越大,这一轮越倾向于降低捐献;相反,绝对负向偏离越大,这一轮越倾向于增加捐献。与此同时,不同情形的截距项没有显著差异;(55)Wald检验显示,F=0.30, p=0.743 5。这意味着引入赏罚不会显著地改变被试的预期,进而改变其捐献起始点。不过我们更关注捐献高于平均和低于平均两种类型的个体在捐献调整力度上的对比。统计检验表明,基准情形中高捐献者捐献下降的趋势在边际上显著强于低捐献者捐献上升的趋势,(56)Wald检验显示,F=2.85, p=0.091 5。而在引入赏罚之后,这两种趋势转而变得没有显著差异。(57)Wald检验显示,P情形中,F=0.04, p=0.837 7;R情形中,F=0.27, p=0.603 7。这就解释了为什么捐献在基准情形中会呈现出一种衰退的趋势,而在引入赏罚的情形中则不再衰退。
由于上述模型中纳入了因变量的滞后项,因此可能存在内生性问题,从而导致回归结果的非一致。为缓解该问题,我们借助差分思想构建了以下模型:
ΔCit=αTreat+β1Treat*Pdet-1+β2Treat*Ndet-1+ζTreat*Xi+ui+εit
(2)
这里被解释变量是被试i在t轮的捐献增加量,其他变量设定同模型(1)。由于实验的随机分配与操控特性,假定潜在的个体效应与外生的情形虚拟变量和规范偏离之间无关是合理的,因此我们用随机效应模型来估计以上模型参数。估计结果见表4的第二列。
表4 赏罚的作用路径
注: 控制变量的结果省略,标准差经过组内异方差调整(下同)。
由结果可见,解释变量的回归系数符号与Tobit回归一样,表明结果很稳健。绝对正向偏离越大,下一轮捐献增加量越小;绝对负向偏离越大,下一轮捐献增加量越大。同样,不同情形的截距项同样没有显著差异。(58)Wald检验显示,X2=0.80, p=0.670 5。基准情形中高捐献者捐献增加量下降的趋势仍然显著强于与低捐献者捐献增加量上升的趋势,(59)Wald检验显示,X2=4.67, p=0.030 6。不过这种差异在引入赏罚之后消失。(60)Wald检验显示,P情形中,X2=0.20, p=0.651 1;R情形中,X2=0.28, p=0.599 7。这再次说明,赏罚是通过改变两类行动者行为趋势的相对力量而维持公共品捐献。于是,我们有:
结果2: 赏罚的引入改变了不同类型行动者捐献行为趋势的相对强度,合作者捐献下降的趋势为不合作者捐献上升的趋势所抵消,从而使得捐献至少得以维持。
再考虑赏罚作用的差异性。以四场实验中引入赏罚的四种情形的十轮数据,重新估计模型(1)和(2),结果见表5。这些结果的系数符号同样符合预期,也同样支持结论(2),在此不再详述。我们重点比较回归结果中反映奖励与惩罚作用的变量系数。
表5 赏罚作用路径的比较
Tobit回归显示,给定顺序效应,引入赏罚对截距项的影响并没有显著差异,(61)Wald检验显示,NP vs. NR, F=2.57, p=0.109 4; PN vs. RN, F=1.73, p=0.188 9。对两个偏离变量的影响也没有显著差异。(62)Wald检验显示,Pde的系数,NP vs. NR, F=0.47, p=0.494 5; PN vs. RN, F=0.87, p=0.352 4。Nde的系数,NP vs. NR, F=0.95, p=0.330 5; PN vs. RN, F=0.13, p=0.721 3。不过,RE回归的结果出现了一些变化。虽然给定顺序效应,引入赏罚对截距项的影响没有显著差异,(63)Wald检验显示,NP vs. NR, X2=0.43, p=0.514 3; PN vs. RN, X2=0.11, p=0.740 3。但在两个偏离变量的系数比较上,给定偏离水平,PN的惩罚情形中绝对正向偏离所带来的捐献增加量的下降幅度要显著低于RN的奖励情形中它带来的捐献增加量的下降幅度,(64)Wald检验显示,NP vs. NR, X2=1.55, p=0.212 5; PN vs. RN, X2=4.19, p=0.040 5。虽然NP与NR中绝对正向偏离的系数没有显著差异;与此同时,NP的惩罚情形中绝对负向偏离所带来的捐献增加量的增加幅度要显著高于NR的奖励情形中它带来的捐献增加量的增加幅度,(65)Wald检验显示,NP vs. NR, X2=3.01, p=0.082 6; PN vs. RN, X2=0.65, p=0.418 6。虽然PN与RN中绝对负向偏离的系数没有显著差异。综合二者可知,惩罚之所以带来更好的合作效果,或者是因为在改变低捐献者的行为趋势,或者是因为在改变高捐献者的行为趋势上发挥了比奖励更大的作用。于是,我们有:
结果3: 相比奖励,惩罚或者可以更有效地维持合作者的捐献、缓解其降低捐献的趋势,或者可以更有效地提升不合作者的捐献、增强其增加捐献的趋势,从而引致更好的合作。
(三)集体行动中赏罚行为使用规范的差异性分析
上述分析告诉我们,赏罚效果的差异与赏罚的引入对不同类型行动者的捐献趋势产生不同影响密切相关。于是,接下来的问题就是,为什么赏罚的引入会对捐献趋势产生这种不同的影响呢?从经济学的视角看,行为变化的根源往往在于行为激励的变化。下面,我们就用数据来说明这一点。
先看被试使用赏罚的总体状况。图2显示了各种情形下被试每轮平均使用的赏罚量及其变化趋势。由图可见,赏罚的使用总体上保持平稳。数量上,表2的最后一列表明,赏罚支出显著不为0。对比奖励与惩罚的使用量我们发现,虽然赏罚的使用均不受顺序的影响,(66)Wilcoxon符秩检验显示,NP vs. PN, z=0.265, p=0.791 0; NR vs. RN, z=-0.870, p=0.384 5。但是给定顺序效应,被试在奖励上的支出比在惩罚上多得多。(67)Wilcoxon符秩检验显示,NP vs. NR, z=-2.571, p=0.010 1; PN vs. RN, z=-3.780, p=0.000 2。从使用频率上看,有76.25%的个体曾使用过惩罚,98.75%的个体曾使用过奖励。在所有2 400次可以使用惩罚的机会中,惩罚被使用了358次,占比14.92%;在所有2 400次可以使用奖励的机会中,奖励被使用了1 187次,占比49.46%。这些数字不仅意味着,在引入赏罚之后,被试的行为模式同样违背了标准博弈理论的预测,而且意味着,相比惩罚,被试更愿意使用奖励。于是,悖论就出现了: 既然被试更偏好使用奖励,为何奖励的效果反而不如惩罚呢?显然,我们需要知晓赏罚是怎么被使用的,才能回答这一问题。
图2 奖励惩罚的使用图
依据经验,现实中人们常常提及并遵循的赏罚使用规范是“赏善罚恶”。对应于公共品博弈环境,这意味着那些遵守一阶合作规范、捐献更多的被试会得到奖励,而那些违背一阶合作规范、捐献更少的被试将受到惩罚。问题是,如何定义这里的遵守和违背呢?我们需要找到一种参照标准。在公共品博弈文献中,学者们常常考虑的一种标准是平均标准,也即视捐献高于平均水平者遵守了合作规范,而视捐献低于平均水平者违背了合作规范。(68)见前注〔14〕,Sefton et al.文以及前注〔31〕,Fehr & Gächter文;还可参见T. Decker, A. Stiehler & M. Strobel, A Comparison of Punishment Rules in Repeated Public Good Games: An Experimental Study, 47 Journal of Conflict Resolution 751-772 (2003); J. Carpenter, The Demand for Punishment, 62 Journal of Economic Behavior and Organization 522-542 (2007).实验数据显示,当我们如此定义“善恶”时,在所有358次惩罚中,有301次惩罚是针对的捐献低于其他三人平均水平者,占比84.08%;在所有1 187次奖励中,有876次奖励针对的是捐献大于或等于其他三人平均水平者,占比73.80%。可见,虽然并非全部,但确实如常识告诉我们的,大多数的惩罚是针对的不合作者,大多数奖励是针对的合作者。不过从上述比例中,我们还可以发现,相比于奖励合作者,被试似乎更愿意惩罚不合作者。
因此,从总体数据描述中,我们可以概括出两层赏罚使用的偏好: 一方面,被试偏好使用奖励甚于惩罚;另一方面,相比于奖励合作者,被试似乎更愿意惩罚不合作者。为了考察这种二阶行为的差异之源,我们构建了一个回归模型:
pijt=α0+α1Treat+β1Treat*Pde+β2Treat*Nde+γTreat*Xi+ui+εijt
(3)
qijt=α0+α1Treat+β1Treat*Pde+β2Treat*Nde+γTreat*Xi+ui+εijt
(4)
pijt=1,如果qijt>0。
(5)
这里,pijt表示i在t轮对j是否实施了奖励或者惩罚,如果是,则为1;qijt表示i在t轮对j实施的奖励或者惩罚的量级。(69)这里分开考虑赏罚的可能性和量级的原因在于,有文献证明,赏罚的使用可能存在两个独立的决策阶段: 先决定是否赏罚,再决定赏罚多少。M. Egas & A. Riedl, The Economics of Altruistic Punishment and the Maintenance of Cooperation, 275 Proceedings of the Royal Society B: Biological Sciences 871-878 (2008); J. Carpenter & P. H. Matthews, supra note 〔37〕.
表6 惩罚与奖励的使用规范
接下来看这种使用模式给赏罚对象带来的影响。假定被试可以准确地如模型般预测到其他被试的赏罚行为,假定被试仅关注自己的短期收益并且小组中被惩罚的被试之外的三个被试行动对称,则我们就可以依据该回归结果计算不同的行动者在一阶集体行动中的合作激励: (1)假定给定被试的捐献偏离不会引致奖励或者惩罚,则此时被试增加捐献的边际激励为负,因为捐献的边际成本1大于边际收益0.4;(2)假定给定被试的捐献要高于其他人的平均捐献且受到奖励,此时被试增加捐献的边际激励为: -1+0.4+3*3*(Pde的系数)。由回归结果计算可知,不管是NR情形还是RN情形,该值均大于零,被试都有激励增加捐献。反之,假定给定被试的捐献小于其他人的平均捐献且受到奖励,此时被试增加捐献的边际激励为-1+0.4+3*3*(Nde的系数)。由回归结果可知,不管是NR情形还是RN情形,该值均小于零,被试都有激励减少捐献;(3)同理,假定给定被试的捐献高于其他人的平均捐献且受到惩罚,被试将有激励减少捐献;若低于其他人平均捐献且受到惩罚,被试则有激励增加捐献。因此,比较赏罚对于被试捐献的激励作用差异的关键就在于比较这两种激励的相对力量。给定实验中赏罚成本效力比例对称的设计,这一对比最终就可归之于偏离变量系数的对比。
就增加捐献的激励而言,检验已经显示,(73)D. G. Rand, A. Dreber, T. Ellingsen & D. Fudenberg, supra note 〔15〕.给定顺序效应,同样程度的正向偏离引致的奖励要显著低于同样程度的负向偏离引致的惩罚。就减少捐献的激励而言,检验显示,给定顺序效应,NR情形中同样程度的负向偏离所引致的奖励要显著少于NP情形中同样程度的正向偏离引致的惩罚,虽然这种关系在RN与PN情形中没有显著差异。(74)Tobit回归中,NP vs. NR, X2=2.91, p=0.087 8; PN vs. RN, X2=0.56, p=0.454 5。结合二者则意味着: 当赏罚激励是在被试有过公共品自愿捐献的经验之后引入时,刺激被试增加捐献的激励效果差异最大。因为此时,不仅惩罚所带来的不合作者增加捐献的激励显著大于奖励所带来的合作者增加捐献的激励,而且惩罚所带来的合作者减少捐献的激励也要显著小于奖励所带来的不合作者减少捐献的激励。而当赏罚激励是在没有经历过公共品自愿捐献的被试间直接引入时,二者的捐献激励差异仍然存在,不过此时的差异主要在于增加捐献的激励上。这就解释了为什么惩罚要比奖励更有助于促进捐献。
最后,既然不是为了提升合作,那为何被试还更频繁地使用奖励呢?这同样可以从回归结果中找到答案,也即被试还存在其他使用奖励的激励: 互惠。从回归模型的控制变量Recit-1可以看出,赏罚的使用还存在另一种差异。大多数情况下,前一轮收到的惩罚越多,使用者在这一轮越倾向于降低惩罚使用的可能性和使用量,虽然这种关系并不显著。与此相反,被试使用奖励的可能性和量级却显著正相关于前一轮收到的奖励。给定顺序效应,这种关系的强度也分别显著大于被试使用惩罚的可能性和量级与前一轮收到的惩罚之间的关系强度。这些结果表明,相比于负向互惠,正向互惠本身更容易形成一种与一阶合作行为没有直接联系的交互作用,即使是在一种匿名的环境之中。(75)这可能是因为在我们的实验中,奖励的成本效力比小于1,从而使得相互奖励成为一种有利可图的行为。
结合这两个方面,上述悖论便得到了解释。一方面,奖励得到使用的量级与频率明显高于惩罚在很大程度上是源于行动者就奖励本身而形成的一种互惠行为,与一阶合作行为没有直接关系;另一方面,相比于奖励合作者,行动者更倾向于惩罚不合作者,这种与合作之间显著更紧密的关系赋予了惩罚显著更强的激励效果。综合二者,虽然惩罚没有获得如奖励一般频繁地被使用,但还是带来了更高的合作水平。于是,我们有:
结果4: 奖励和惩罚的使用存在两层非常不同的使用模式。一方面,相较于惩罚,人们更愿意使用奖励;另一方面,相比于奖励合作者,人们更倾向于惩罚不合作者。后一种使用模式正是惩罚比奖励更有效的行为基础。
五、 结 论
本文在一组标准的固定组公共品博弈实验中检验了由个体分散实施的奖励和惩罚,在提升公共品自愿捐献上效果的差异及其行为根源。研究发现,虽然在引入奖励或惩罚后,合作者捐献下降的趋势将为不合作者捐献上升的趋势所抵消,从而使得捐献至少得以维持,但是相比较而言,惩罚的效果比奖励更稳健。这一结论更接近Oliver和Sefton等人的研究,而与Walker和Halloran与Rand等人的研究不一致。这意味着,赏罚效力和声誉都是影响赏罚作用效果的关键变量,因此围绕相关参数展开稳健性检验是后续研究的方向之一。
通过行为层面的分析,本文找到了这种差异的行为根源。研究发现,惩罚更有效的原因是: 相比奖励,惩罚或者可以更有效地维持合作者的捐献,缓解其捐献降低的趋势;或者可以更有效地提升不合作者的捐献,增强其捐献增加的趋势。这种捐献行为的差异与行动者使用赏罚的方式不同有关。虽然行动者偏好使用奖励甚于惩罚,但是相较于奖励合作者,行动者更倾向于惩罚不合作者。这种不同使得行动者的捐献激励出现了差异: 相比奖励给合作者带来的增加捐献的激励,惩罚给不合作者带来的增加捐献的激励更强。
实验结果还表明,激励引入的顺序效应会加强这种差异性。这些结果带来的启示是,在构建集体行动中的激励理论时必须综合考虑行动者的一阶行为和二阶行为;在设计集体行动中的激励机制时,必须考虑行动者使用赏罚的方式及其对象的反应,考虑如何在激励和合作行为之间建立起直接的关联,考虑激励实施的顺序。
综上,本研究不仅为发展集体行动中的行为模型提供了有价值的经验证据,而且为集体行动中激励机制的设计带来了启发。当然,由于本文主要关注的是由个体分散实施的奖励和惩罚,因此相关结论是否可以推广至第三方实施的奖励和惩罚,尚待进一步研究。