基于声誉博弈的国家气候保护策略分析

2017-02-14王方军张世国

重庆理工大学学报(社会科学) 2017年1期

关键词：声誉气候收益

王方军，张世国

(1.中国社会科学院数量经济与技术经济研究所，北京 100732；2.中国社会科学院研究生院，北京 102488)

基于声誉博弈的国家气候保护策略分析

王方军1，张世国2

(1.中国社会科学院数量经济与技术经济研究所，北京 100732；2.中国社会科学院研究生院，北京 102488)

当今世界，人类正面临着气候变化的严峻威胁，如何解决气候保护公共品的社会困境成为学术探讨的重要问题。在经典的声誉博弈模型基础上，引入气候变化背景和假设条件，构建气候保护声誉博弈模型，从理论上探讨和证明全球气候保护公共品提供中国际合作达成的内在机理和实现条件；在达成合作的基础上，用更简明的无限重复博弈代替和辅以模拟实证，揭示各国维护国际声誉的内在动因。

声誉博弈；气候保护；全球合作

气候与人类的生活息息相关，人类的活动也对气候造成了广泛影响。尤其是近些年人类改造世界的力度不断加强，对气候的影响也不断加剧，气候变化已成为全球性的问题。气候保护作为国际公共品，其供给必然会面临种种困难，需要各国共同协调。经过多年努力，在全球气候保护中，各国已意识到合作的重要性，也正在努力寻求合作，但现有的对国际公共品供给的研究还不够，许多问题的分析还不透彻，没有形成共同认可的有效供给机制[1]，而且其中还夹杂着政治因素，使分析愈加困难，博弈论是分析这一难题的最有力的工具之一[2]。

在全球气候保护的单次博弈中，各国面临的局面与囚徒困境博弈类似，存在个体理性与集体理性的矛盾。如果博弈的参与国从个体理性出发，仅考虑自己国家的利益，就会选择不合作策略，最终形成不合作的局面，这对各参与国和全球都不是最好的结果。如果博弈的参与国从集体理性出发，考虑到全球的利益，都选择合作策略，会给各参与国和全球带来更好的结果，但同时也面临着其他参与国选择不合作策略时自己遭受重大损失的风险。这种矛盾最终导致单次博弈的纳什均衡是各参与国都选择不合作策略，必然给气候保护的全球合作带来负面影响，阻碍合作的达成。

全球气候保护博弈是一个长期的过程，可以看做上述单次博弈的简单重复。理论上，不论此博弈重复多少次，只要重复次数是有限的，唯一的子博弈完美纳什均衡是每个参与国在每次博弈中选择单次博弈均衡策略，即博弈的有限次重复不能促成参与国的合作行为。但这一结果与人们的直观感觉并不一致，实际上博弈中参与国是有合作愿望的，而且有实验证明即使在有限次重复博弈中，合作行为也频繁出现。Kreps、Milgrom、Roberts和Wilsom提出的声誉博弈模型，通过将不完全信息引入重复博弈，解开了这个悖论，证明合作行为在有限次重复博弈中也可以出现[3]。本文将结合气候保护背景，将经典的声誉博弈模型应用于全球气候保护问题，为气候保护博弈中的各国寻找合作的理论基础，并设计合作机制，促成全球范围内的自愿合作。

一、气候保护声誉博弈模型

假设只有两个同质的国家进行博弈，每个国家也只有两种策略，即合作策略和不合作策略，则此博弈是对称的，结果如表1所示。

表1 单阶段博弈

在气候保护博弈中，合作策略代表要承担气候变化的责任，比如减排温室气体、增加碳汇等，这些都是要付出成本的；不合作策略代表不承担气候变化责任，不需要付出气候保护的相应成本。而且，气候保护是一个全球性问题，有很强的外部性。这样，当其中一个国家选择不合作策略，而对方选择合作策略时，此国不仅不需要付出气候保护的成本，还可以从对方气候保护行为产生的外部效应中得到额外收益，所以代表其收益的a在收益矩阵中最大；当其中一个国家选择合作策略，对方也选择合作策略时，博弈双方共同承担气候变化的责任，共享气候保护的收益，代表其收益的b仅次于a；当其中一个国家选择不合作策略，对方也选择不合作策略时，博弈双方都不承担气候变化的责任，代表其收益的c小于b；当其中一个国家选择合作策略，而对方选择不合作策略时，此国不仅需要付出气候保护的成本，还会因对方不保护气候行为的外部性遭受额外的损失，收益d在收益矩阵中最小。所以，此博弈中收益的大小关系为a>b>c>d。

为便于分析，我们将上述单阶段博弈模型中的字母赋值，a=4，b=3，c=2，d=1*字母取值只要满足a>b>c>d即可，具体大小不影响最终分析结果。，则单阶段博弈变成如表2所示。

表2 赋值的单阶段博弈

从表2可以看出，这个博弈是典型的囚徒困境问题，双方都选择合作策略可以实现双赢，但不合作策略却是占优策略(dominant strategy)。在单阶段博弈中，博弈双方都会选择不合作策略，形成(不合作，不合作)的纳什均衡。也就是说，在这个博弈中，博弈双方有合作的愿望，但基于博弈的局势，合作是不能达成的，这也是现实中气候谈判难以达成共识的原因。

接下来，我们就在气候变化背景下，应用经典的声誉博弈模型，构建并分析气候保护声誉博弈模型。

在气候保护博弈中，有些国家在博弈开始时会选择合作策略，尝试建立合作，以达成共赢的合作局面。这种情况下，只要对方也选择合作策略，合作就会一直持续下去；如果对方选择了不合作策略，此国家就会从下一阶段开始一直选择不合作策略，我们称这种类型的国家为合作型国家。有些国家的策略选择仅仅是根据所选策略的最终收益决定，即所谓的理性决策者，我们称这种类型的国家为非合作型国家。而在现实中，每个国家既可能是合作型，也可能是非合作型，我们用概率来表示这种情况。假设每个国家是合作型的概率为p，非合作型的概率为1-p，而且各自的类型属于私人信息。这样，此单阶段博弈就变成了一个不完全信息静态博弈，应用海萨尼(Harsanyi)转换，可以将此不完全信息静态博弈转换为完全但不完美信息动态博弈，如图1所示。

图1 经过海萨尼转换的单阶段博弈

其中，p代表参与国选择合作策略的概率，即参与国是合作型的概率为p；1-p代表参与国选择不合作策略的概率，即参与国是非合作型的概率为1-p。

我们考虑上述单阶段博弈重复T+1次的全球气候保护博弈，给出此博弈中合作型国家和非合作型国家的行动准则：

第一，合作型国家在博弈开始时首先选择合作策略，后面各阶段选择的策略要根据上一阶段对方选择的策略来确定。当上一阶段对方选择合作策略时，合作型国家此阶段选择合作策略；当上一阶段对方选择不合作策略时，合作型国家从此阶段开始固定选择不合作策略。

第二，非合作型国家作为理性决策者，可以选择合作策略，也可以选择不合作策略，要根据所选策略的最终收益决定。

此行动准则是共同知识。所以，合作型国家在博弈开始时不会首先选择不合作策略，即在博弈开始时就选择不合作策略的国家将暴露自己的类型是非合作型。可以看出，合作型国家的策略选择是根据对方上一阶段的策略做出的，是一种被动选择，无需讨论；而非合作型国家的策略选择是根据最终收益做出的，即遵从最基本的个体理性原则，是一种主动选择，正是我们所关心的。由于博弈是对称的，分析博弈中的任何一方是等同的，我们以国家1为例，分析我们关心的非合作型国家如何选择策略，有以下两种情形：

情形1假设非合作型的国家1在博弈的第一阶段选择不合作策略，暴露自己是非合作的类型：

如果国家2是合作型，第一阶段会首先选择合作策略，则第一阶段的博弈均衡策略组合是(不合作，合作)，收益组合是(4，1)。由于国家1第一阶段选择了不合作策略，根据行动准则，从第二阶段开始，合作型的国家2将固定选择不合作策略，而单阶段博弈的纳什均衡是(不合作，不合作)，作为理性决策者的国家1必然在此后的博弈中选择不合作策略。也就是说从第二阶段开始的博弈均衡策略组合都是(不合作，不合作)，收益组合都是(2，2)。

如果国家2是非合作型，第一阶段会首先选择不合作策略*本文的主要目的就是要分析非合作型国家在博弈开始时如何选择策略。如果非合作型国家在博弈开始时都选择合作策略，根据行动准则，此博弈就可以一直合作下去，就无需分析了。因此，在得出结论之前，先假设这里要分析的非合作型国家在博弈开始时首先选择不合作策略。，暴露了自己非合作的类型。这样，第一阶段的博弈均衡策略组合是(不合作，不合作)，收益组合是(2，2)。因为第一阶段国家1和国家2都选择了不合作策略，暴露了自己非合作的类型，在第二阶段的博弈中，他们都没有改变策略的动机，依然会选择不合作策略。所以，这个博弈就会不断重复第一阶段的博弈，每个阶段的博弈均衡策略组合都是(不合作，不合作)，收益组合都是(2，2)。

根据前面假定，国家2是合作型的概率为p，是非合作型的概率为1-p，所以，在不考虑贴现的情况下，T+1阶段博弈中国家1的总收益为：

p(4+2T)+(1-p)(2+2T)

(1)

当贴现因子为δ时，T+1阶段博弈中国家1的总收益为：

p(4+2δ+2δ2+…+2δT)+(1-p)(2+2δ+2δ2+…+2δT)

(2)

情形2假设非合作型的国家1在博弈的第一阶段选择合作策略：

如果国家2是合作型，第一阶段会首先选择合作策略，则第一阶段的博弈均衡策略组合是(合作，合作)，收益组合是(3，3)。由于国家1第一阶段选择了合作策略，根据行动准则，第二阶段合作型的国家2将继续选择合作策略，在这种博弈局势下，国家1也会选择合作策略，第二阶段将重复第一阶段的博弈结果。实际上，这种情况相当于两个合作型的国家进行博弈，双方都会一直选择合作策略，每个阶段的博弈均衡策略组合都是(合作，合作)，收益组合都是(3，3)。

如果国家2是非合作型，第一阶段会首先选择不合作策略，暴露了自己非合作的类型。这样，第一阶段的博弈均衡策略组合是(合作，不合作)，收益组合是(1，4)。国家2在选择不合作策略暴露了自己非合作的类型后，在随后的博弈中只会选择占优策略，即选择不合作策略。作为理性决策者的非合作型国家1在第一阶段博弈结束后，知道国家2是非合作型，而且知道国家2在随后的博弈中只会选择不合作策略，在这种博弈局势下，国家1也会只选择不合作策略。所有，从第二阶段开始，每阶段的博弈均衡策略组合都是(不合作，不合作)，收益组合都是(2，2)。

根据前面假定，国家2是合作型的概率为p，是非合作型的概率为1-p，所以，在不考虑贴现的情况下，T+1阶段博弈中国家1的总收益为：

p(3+3T)+(1-p)(1+2T)

(3)

当贴现因子为δ时，T+1阶段博弈中国家1的总收益为：

p(3+3δ+3δ2+…+3δT)+(1-p)(1+2δ+2δ2+…+2δT)

(4)

如果非合作型国家在博弈开始时能选择合作策略，则重复博弈就有可能摆脱单阶段博弈纳什均衡的低效状态，促成合作共赢的局面。这就要求非合作型国家在博弈开始时选择合作策略，在重复博弈中的总收益不低于开始时选择不合作策略的总收益，即在不考虑贴现时，式(3)要不小于式(1)，考虑贴现时，式(4)要不小于式(2)。

由式(3)不小于式(1)得：

(5)

由式(4)不小于式(2)得：

(6)

也就是说，当T满足式(5)时，在不考虑贴现的T+1阶段博弈中，国家1在第一阶段选择合作策略的收益不小于选择不合作策略的收益；当T满足式(6)时，在考虑贴现的T+1阶段博弈中，国家1在第一阶段选择合作策略的收益不小于选择不合作策略的收益。这样，作为理性决策者的非合作型国家1就会在博弈开始时选择合作策略，最终促成合作共赢的局面。

在气候保护研究中，贴现是一个很重要的问题，贴现率r的取值也存在很大争议[4]，本文取最常用的4个数值0、0.1%、1.5%和3%进行分析，对应的贴现因子δ根据下述式(7)计算：

(7)

根据式(5)和式(6)，给定p和r值，对应的最小T值如表3所示。

表3 促成合作最小T值

从表3可以看出，随着r的增大和p的减小，促成合作的最小T值不断增大。实际上从经典的声誉博弈定理[3]218中可知，只要p>0，总会有足够大的T，使得博弈方在开始时能选择合作策略，促成合作。而在现实的国际事务中，各国都有维护良好声誉的意愿，以表明自己是合作型国家。即使是非合作型国家也有伪装成合作型国家的动机，因为某国的不合作行为往往会导致报复，而合作行为通常能使其他国家也选择合作行为来回应，长期来看，会比不合作行为导致的报复结果获得更多的收益。所以，在全球气候保护博弈中，虽然选择合作的国家会面临风险，但从国家的整体和长远利益来看，还是倾向于选择合作策略，也就是说概率p通常是较大的。而在气候变化问题的研究中，贴现率r取3%已经是非常大的了，通常的取值是1.5%和0.1%，甚至有人倾向于取0。所以，从r和p的合理取值来看，气候保护问题中要促成合作并不需要太大的T值。而气候保护又是个长期的问题，没有明确的结束期限，可看做无限次重复博弈，这样必然满足促成合作的T值。从理论上说，全球气候保护博弈是容易达成合作局面的。

我们把上述博弈中参与国选择合作策略与选择不合作策略的分界面用图形的形式如图2来表示。

从图2可以直观地看到，参与国选择合作策略与选择不合作策略的分界面，在分界面以上区域，合作可以达成；在分界面以下区域，合作不能达成。

图2 参与国选择合作策略与选择不合作策略分界面

二、模型扩展

通过上文的分析我们知道，即使有限次重复的气候保护问题也是容易促成合作的，而现实中的气候保护问题没有明确结束期限，可以看成无限重复博弈，我们用表1代表的单阶段博弈来分析无限重复博弈中促成合作的条件。

我们仍假设参与博弈的国家有两种类型，合作型和非合作型，并沿用上文的行动准则。这样，此博弈就会产生以下两种结果：

(1)当博弈双方都是合作型国家时，博弈开始时都选择合作策略，第一阶段的博弈均衡策略组合是(合作，合作)，收益组合是(b，b)。由于第一阶段博弈双方都选择了合作策略，作为合作型的国家，第二阶段博弈双方依然会选择合作策略。这样，此博弈就会不断重复第一阶段的结果，每个阶段的博弈均衡策略组合都是(合作，合作)，收益组合都是(b，b)。此时，博弈双方的总收益相同，我们用U合来表示。

(2)当博弈其中一方是合作型国家，另一方是非合作型国家时，博弈开始时合作型国家选择合作策略，非合作型国家选择不合作策略，第一阶段的博弈均衡策略组合是(合作，不合作)，收益组合是(d，a)。由于第一阶段非合作型国家选择了不合作策略，第二阶段合作型国家也将选择不合作策略，非合作型国家知道合作型国家第二阶段有这样的策略选择，也必然选择不合作策略。所以，此无限重复博弈从第二阶段开始每个阶段的结果都一样，博弈均衡策略组合都是(不合作，不合作)，收益组合都是(c，c)。我们用U不来表示这种情况下非合作型国家的总收益。

在不考虑贴现的情况下，合作型国家和非合作型国家的总收益分别是：

U合=b+b+b+…

U不=a+c+c+…

在考虑贴现的情况下，合作型国家和非合作型国家的总收益分别是：

当U合>U不时，合作型国家的总收益高于非合作型国家。即使是非合作型的国家也有伪装成合作型国家的动机，并通过在第一阶段博弈中选择合作策略促成合作。在满足下列条件时，不管是合作型国家还是非合作型国家，都会通过选择合作策略，促成自愿合作：

在不考虑贴现的情况下，b>c；

在考虑贴现的情况下，b>(1-δ)a+δc。

三、结论与建议

在现实的国际事务中，各国都有维护良好声誉的意愿，气候保护问题也不例外，这奠定了全球气候保护博弈中达成合作的基础。而且，由上文分析可知，将博弈看成有限次重复博弈时，只要重复次数足够多就可以促成合作；将博弈看成无限次重复博弈时，收益值只要满足很弱的条件也可以促成合作。考虑更复杂的情况，如各国禀赋和能力的不同、气候变化相关政策对各国收益的影响不同等，博弈的收益就会变得不对称，潜在收益处于弱势的一方将显著地减少合作的意愿，增加了合作的难度[5-6]。

面对这些更复杂的情况，如何能使参与国选择合作策略，促成合作的产生？选择性激励(Selective Incentive)或许可以成为一种有效的方法，这只需要有一种独立的或“选择性”的激励，就会刺激理性个体沿着集体期望的方向行动[7]。所以，我们可以设计合理的机制，比如通过碳税、碳交易影响各国收益，增大奖惩力度，促进全球气候保护博弈中合作的达成。当然，合作机制是需要建立在相互信任和互惠合作的基础上的，表明努力态度的昂贵的信号理论(Costly Signaling Theory，CST)在赢得对方的信任、激发对方的合作行为上提供了一个规范的理论范式。昂贵的信号促进了利他行为的产生，体现了信号发出者的品质[8]，如果没有该品质的人模仿该信号，高昂的代价将让模仿者无利可图[9]。针对全球气候保护问题，一旦某个国家发出昂贵的信号期待合作，就会赢得信号接收方的信任，信任是合作的基础，产生了信任，信号接收方就可能采取积极的合作行为进行回应。在建立起合作之后，合作方在不断重复的博弈中相互了解并巩固信任，通过学习不断进行自适应，克服可能的噪音和突变，避免合作偏离良性循环的轨道；同时合作在重复中不断优化，形成演化稳定策略ESS(Evolutionary Stable Strategy)，达成长期稳定的合作。

致谢：本文写作过程中，王国成教授给予了很多宝贵的指导和建议，李洪涛博士也做了大量前期工作，在此一并表示衷心感谢！

[1] 李占一.博弈视角下的国际公共品供给困境与破解之道[D].济南:山东大学,2015.

[2] 黄正,唐晓嘉.政治博弈论研究述评[J].重庆理工大学学报(社会科学),2011,25(1):97-100.

[3] 张维迎.博弈论与信息经济学[M].上海:上海人民出版社,2004.

[4] 刘昌义.气候变化经济学中贴现率问题的最新研究进展[J].经济学动态,2012,53(3):123-129.

[5] SHEPOSH J P,GALLO P S.Asymmetry of payoff structure and cooperative behavior in the prisoner’s dilemma game [J].The Journal of Conflict Resolution,1973,17(2):321-333.

[6] CRAWFORD V P,GNEEZY U,ROTTENSTREICH Y.The power of focal points is limited:even minute payoff asymmetry may yield large coordination failures [J].The American Economic Review,2008,98(4):1443-1458.

[7] OLSON M.The logic of collective action [M].Cambrige:Harvard University Press,1965.

[8] ZAHAVI A.Mate selection-A selection for a handicap [J].Journal of Theoretical Biology,1975,53(1):205-214.

[9] MILLET K,DEWITTE S.Altruistic behavior as a costly signal of general intelligence [J].Journal of Research in Personality,2007,41(2):316-326.

(责任编辑魏艳君)

An Analysis of National Climate Protection Strategies Based on Reputation Game Model

WANG Fang-jun1, ZHANG Shi-guo2

(1.Institute of Quantitative and Technical Economics, Chinese Academy of Social Sciences, Beijing 100732, China;2.Graduate School, Chinese Academy of Social Sciences, Beijing 102488, China)

Nowadays, we are facing the serious threat of global climate change. How to solve the social dilemma of climate protection public goods has become an important problem of academic research. Based on classic reputation game model, this paper introduces the background and assumptions of climate change, builds a new reputation game model about global climate protection, gives the cooperation conditions of global climate protection, and proves that international cooperation is easy to achieve. Furthermore, on the basis of cooperation, this game can be instead of a simpler infinite repeated game, and it reveals the intrinsic motivation of maintaining international reputation.

reputation game model; climate protection; global cooperation

2016-09-29

国家自然科学基金项目“面向经济复杂性的行为建模与计算实验及应用研究”(71471177)；中英政府间CASS-ESRC合作伙伴项目“个体选择与集体行动的行为相容性及应用”(ES/N00762X/1)

王方军(1983—)，男，博士后，研究方向：博弈论。

王方军，张世国.基于声誉博弈的国家气候保护策略分析[J].重庆理工大学学报(社会科学)，2017(1):22-27.

format：WANG Fang-jun, ZHANG Shi-guo.An Analysis of National Climate Protection Strategies Based on Reputation Game Model[J].Journal of Chongqing University of Technology(Social Science)，2017(1):22-27.

10.3969/j.issn.1674-8425(s).2017.01.005

主持人语：

清华大学张希良教授重庆大学刘渝琳教授

F224.32

1674-8425(2017)01-0022-06

在全球气候变暖、碳减排压力持续增加的情况下，“能源与环境经济”栏目面向国家能源与应对气候变化领域的重大战略需求，针对能源经济、环境经济以及气候政策中的关键问题开展系统研究，可以增进对能源、气候与经济社会发展关系的科学认识，为制定能源、环境、气候战略和政策提供参考。

王方军和张世国的《基于声誉博弈的国家气候保护策略分析》在经典的声誉博弈模型基础上，构建了气候保护声誉博弈模型，深入分析全球气候保护中各参与国的选择动机和博弈策略，从理论上探讨和证明了全球气候保护国际合作达成的内在机理和实现条件。能够促进了解各国维护国际声誉的内在动因，为破解全球气候保护合作的困境、促进各参与国的合作提供参考。

梁晓菲的《气候变化巴黎议定结果作为“协定”而非“议定书”的国际法意义》将视角聚集在2015年12月12日在巴黎气候变化大会上通过、2016年4月22日在纽约签署的气候变化协定——《巴黎协定》上，系统追溯了国际法中关于“议定书”与“协定”的使用情况，分析了两词的区别及巴黎气候变化大会采用“协定”的意义，并针对其可能对中国产生的影响提出了相应的对策，具有较强的现实意义及较大的学术价值。

王喜峰的《水资源经济学的发展逻辑及进展》从水资源与国民经济关系、水资源政策研究、水资源经济学的扩展研究3个方面对水资源经济学的产生与发展逻辑进行了系统梳理和述评，选题具有重要价值，提出的论点颇具创新性。