基于信念变化的蜈蚣博弈悖论解悖探析

2016-09-14张峰赵绪涛

深圳大学学报（人文社会科学版） 2016年2期

关键词：局中人蜈蚣归纳法

张峰，赵绪涛

（1.北京理工大学，北京 100081；2.中国人民大学，北京 100872）

基于信念变化的蜈蚣博弈悖论解悖探析

张峰1，赵绪涛2

（1.北京理工大学，北京 100081；2.中国人民大学，北京 100872）

逆推归纳法是研究完美信息动态博弈的常用方法，通过完全归纳得到必然结论，但用于分析蜈蚣博弈时理论预测与人们的实际博弈行为发生偏离，导致悖论。蜈蚣博弈的结构精致而复杂，局中人对博弈收益情况的权衡以及局中人试图在非合作的博弈机制中进行合作的主观倾向，影响了局中人决策时的信念变化。现实中的主体并不具有绝对理性，伴随信念变化的主观感受是主体相信自己的决策合理的决定性因素。一种新的解悖思路是考察局中人信念变化并将主观感受计入收益，进而分析和预测博弈的结果。

逆推归纳法；蜈蚣博弈；悖论；信念

逆推归纳法是博弈论及博弈逻辑研究中的一种常用的方法，由策梅洛（E.Zermelo）在讨论象棋博弈问题时首先使用，后经泽尔腾（R.Selten）完善及推广。逆推归纳法主要用于求解完全且完美信息动态博弈。完全且完美信息动态博弈的特点是，两个或多个局中人轮流博弈，局中人完全了解全部局中人任何决策可能导致的收益情况，并且局中人在进行每一次决策时完全知道之前阶段中自己和对手的策略。逆推归纳法从动态博弈的最后一个阶段开始分析，向后推理、逐步倒推，直到博弈开始阶段局中人的决策。逆推归纳法是完全归纳推理，结论是必然的。然而这种逻辑严密的推理方法得到的预测或结果与现实中的博弈行为往往不一致，这就是“逆推归纳法悖论”的基本内涵。

逆推归纳法悖论的典型案例有连锁店悖论，有限重复囚徒困境、蜈蚣博弈悖论等。真正引起人们对逆推归纳法悖论极大关注的是罗森塔尔（R. Rosenthal）首先研究的蜈蚣博弈悖论[1]。逆推归纳法悖论是一种合理行为悖论，体现的是博弈论推理与人们实际行动的矛盾，这种矛盾无疑对博弈理论的合理性提出了挑战。

一、蜈蚣博弈的逆推归纳法分析及悖论

蜈蚣博弈悖论属于典型的逆推归纳法悖论，运用逆推归纳法分析博弈所得到的结果与人们的直觉不一致，并且与实验及现实博弈结果均发生了偏离[2]。

图1　蜈蚣博弈的原始模型

罗森塔尔在1981年的文献[3]中给出了3个完美信息动态博弈的模型，其中之一便是蜈蚣博弈的原始模型，如图1所示；后来宾默（K.Binmore）进行了扩展，研究了有100个博弈阶段的情况，他将这种博弈形象地称为“蜈蚣”博弈[4]。

蜈蚣博弈的原始模型是一个10阶段的完美信息2人动态博弈，两个局中人轮流决策，并且都知道博弈结构的信息，前一轮的决策可以在之后阶段观察到。局中人A、B在博弈中的决策为“获取”或者“放弃”收益，本例中收益为钱。博弈由A开始，如果A选择获取，博弈结束，A、B都得到0元。如果A选择放弃，决策权就交到B手里。如果B选择获取，则博弈结束，A交出1元（收益为-1），B得到3元，等等，最后一个阶段，无论B选择放弃和获得博弈都会结束，如果B选择获得，A得到7元，B得到11元；选择放弃，A得到10元，B得到10元。

A、B会如何决策？运用逆推归纳法进行推理，在理性人假设的前提下，显然B在最后阶段会选择获得，他得到11元。但是要到达这个阶段，需要A在第9阶段选择放弃。A在第9阶段会怎么决策？A会选择获取。因为如果A不获取，进入第10阶段由B决策，B肯定会选择对自己有利的决策即“获取”，这样的结果是A的收益只有7元，而如果A选择获取的收益是8元，因此A在第9阶段自然会选择获取。同样道理，在博弈的每个阶段，有决策权的一方都会为了防止下一个阶段对方作出不利于自己的选择而结束博弈。用逆推归纳法的结论就是，这个博弈不可能进行，必然会在第1阶段就结束。也就是A先决策，选择获取，得到0元，B得到0元。B并没有作出决策。

然而，只要渡过第两个阶段，无论如何A得到的收益都会比第1阶段结束博弈获得的收益多。按照逆推归纳法的预测，A将无视第1阶段之后可能得到的更大收益而直接结束博弈，双方取得0收益。但是不论在直觉上，还是在实验或现实中的这种博弈，A大都不会立刻结束博弈，这与运用逆推归纳法分析预测的第1阶段结束博弈是不一致的[5]，严密的理论预测与实际情况不符，这就是蜈蚣博弈悖论。通过分析可知，蜈蚣博弈的特点是：2人（2个个体或2个集体，如伯恩斯坦（G.Bornstein）的6阶段蜈蚣博弈[6]中即为2个集体）完美信息动态博弈；局中人可选策略相同；博弈各阶段收益按一定规律排列；运用逆推归纳法分析得到的结果是第1阶段博弈结束。

蜈蚣博弈收益的主要特点是：蜈蚣博弈的每两个阶段上，当前的阶段有决策权局中人在当前阶段上的收益大于等于下一阶段收益，而对手的收益小于等于下一阶段的收益。如图2所示：

图2　蜈蚣博弈原始模型的单一阶段分析

框图I中，在A有决策权的第1阶段，局中人收益为：A收益0，B收益0；下一阶段A收益-1，B收益3。显然，当前阶段有决策权的局中人（局中人的A）收益与下一阶段的收益关系有：0>-1，对手（局中人B）两个阶段的收益关系有：0<3；框图II中，当前阶段有决策权的局中人（局中人的B）收益与下一阶段的收益关系有：3>2，对手（局中人A）两个阶段的收益关系有：-1<2；框图III、IV中有类似关系。

这样，显然在某一个阶段上，按照逆推归纳法推理，有决策权的局中人会选择拿走收益。而着眼于整个博弈，虽然之后阶段的收益可能远远大于第1阶段。这恰是蜈蚣博弈收益规律的巧妙之处，将每一个阶段的关系纠缠起来，从而增加了博弈理性分析的复杂程度。当局中人面对蜈蚣博弈的时候，很可能无法将整个博弈机制分析透彻，博弈的复杂程度大大复杂化了局中人以对决策的分析，从而使得局中人在短时间内无法得到合理的决策，或者主观上不想进行如此复杂的分析而仅仅作出能够满足当前意愿的决策。可见，之前阶段的高收益更多的只是假象，在此之间尚有许多无法逾越的决策阶段，理性人假设确保了在每一个决策阶段上局中人都会拿走收益使博弈结束。

A第1阶段的决策决定了整个博弈。如果A在第1阶段结束博弈，那么B没有机会进行决策。按照逆推归纳法进行分析，蜈蚣博弈必然在第1阶段结束。这样，博弈就转化为单人决策问题，考察局中人A的决策如何作出，可以对为什么会出现蜈蚣博弈悖论找到可信的回答。

二、决策者的信念变化是蜈蚣博弈悖论的主要原因

蜈蚣博弈的逆推归纳法预测和现实不相符，其主要原因是由于局中人并不是完全理性人，博弈的收益信息和局中人身份为主的各种主观信息会影响局中人做出决策时的信念，进而影响了局中人的决策内容，造成实际博弈的结果与理论预测的结果发生偏离。主体做出任何一个决策，无论其对所接受和理解的信息进行了怎样的处理，最终做出决策的时候，都可以归结到这样一种信念：由于这些原因，我将做出这种决策。决策是一个客观的行为，扼要地说，主体的思维的结果通过神经系统和躯体反映到客观世界。因此，主体做出决策的最终原因，是主体具有与这种决策相应的主观信念或主观的认知状态。

所谓的信念影响决策，其实是完善理性人假设研究进路的一种。现实人毕竟不可能是完全理性人，支配其作出某种决策的不只是理性的分析，主观信念的倾向有时候在决策影响因素中往往是决定性的。因为决策这个行为，毕竟是主观权衡后的客观结果。

考察蜈蚣博弈中局中人决策时的信念状态，无论是何种原因导致局中人做出决策，在蜈蚣博弈的每个阶段，局中人有两个决策：“放弃”和“获取”，局中人选择“放弃”时，一定是因为他认为应该选择“放弃”（如果他彻底的执行了他的决策计划）。导致其产生这种信念的原因，包括利他主义、收益差距的不同、理性的分析、预期收益、信任的偏好、学习能力、对对手身份的考虑和权衡等。局中人在做出决策的时候，他有充分的理由来认定所做出的决策，他具备了做出此种决策的信念。综合所有的理由和原因，他原有的信念修正为此决策对应的信念，这种信念进而影响了他的实际决策。

蜈蚣博弈局中人的信念变化过程可用下图表示：

图3　局中人在蜈蚣博弈中的信念变化

将视角关注于与主体参与博弈这个事件过程上，主体在参与博弈之前，有一个初始的信念状态，这个状态表示的是主体信念的一种平衡状态，其内容包括的是主体在过去所获得和积累的普遍知识，以及主体在处理事件时的一般偏好和倾向。在接受了博弈的相关信息之后，信念状态发生了相应变化，到达在博弈初始时的信念状态，主体对博弈相关信息的接受和理解通过权衡和思考掌握和了解了博弈局势，并对接下来的博弈做出了决策或行为的整体计划。在博弈的过程中，与对手发生互动，从而不断地修正或更新自己的信念状态，进而调整后续的决策或行为的计划。

而在理性人假设和公共知识假设下，局中人具有完全的理性，参与博弈的过程可以用图4表示：

图4　具有完全理性的主体的博弈过程

对比两种思考，显然，如果不考虑主体信念的变化过程，主体参与博弈将变成一个静态的毫无变化的决策过程，这个过程由逆推归纳法在逻辑上得到了唯一的确定的结果。

三、将主体的主观感受计入收益的一般性框架

主体的个性差别或称异质性导致主体的认知水平或认知状态是不同的，显然无法确保特定的认知分析对所有主体具有一致性。将主体的主观感受计入收益的一般性框架，为蜈蚣博弈悖论提供了一种新的解悖思路。

目前，有些学者将主体的主观感受在某种前提假设下折算为收益，计入蜈蚣博弈的总收益，从而建立模型分析和预测博弈结果。

罗森塔尔提出“主观概率”（subjective probability）概念来分析蜈蚣博弈[4]。博弈中局中人1应该达到某种对局中人2的策略选择的主观概率分布，如果选择继续博弈所带来的预期收益超过其选择结束博弈的固定收益，那么局中人1将选择继续博弈。主观概率是一个与收益差别有关的概念，D为局中人当前阶段和下阶段的收益的差别，两个选择中较好的那个的概率为min（1，0.5+0.4D），其中0.4为罗森塔尔为解释模型所提出的一个系数。在最后一个节点上，局中人2选择向下的概率为1，但是按照主观概率的预测方法，他选择向下的概率为0.9，选择向右为0.1。在倒数第两个节点上，局中人1选向右得到的收益为，向下收益为8，向下的概率为，向右的概率为。在倒数第三个节点，局中人2向下为收益为9，向右的收益为两种情况，如果局中人2认为他自己不会犯错误，那么收益为；如果他将错误决策的产生归因于他自己的行为，那么他的收益为。但是无论是哪种情况，向右的主观概率随着博弈阶段的倒推逐渐增长，在一个节点上增长为1。如图5所示。

图5　蜈蚣博弈的主观概率模型

然而，使用这个模型分析麦克凯文的4阶段蜈蚣博弈实验数据[7]，所得到的概率与实验得到的数据是不相符的，并且大致的规律和趋势也是不同的。可见这种主观概率模型并不具有较强的解释力，其中的系数0.4更像是为了分析的而提出的。

国内学者饶育蕾等沿着麦克凯文的利他主义偏好解释进一步研究，将异质性利他偏好引入到博弈者的效应函数中，构建了基于心理效应的随机扰动的异质性利他模型来拟合蜈蚣博弈实验数据[8]，提出用表示在任意阶段s上主体的心理效用。心理效应反映了因为利他偏好所导致的不同策略选择对主体效用的冲击。这个模型中赋予了的意义是利他偏好的效应，但这一项也可能具有其它含义，比如公平、信任、学习等行为动机。

一般的博弈分析认为，特定博弈所给出的固定收益的差距是导致局中人作出决策的主要原因。这在理性人假设的前提下是毫无疑问的结论。但是，理性人假设并不能完全表述主体的博弈动机。在理性人假设的基础上，增加主观条件，上述的两个建模思路所代表的增加某些主观条件来分析博弈的方法，正是完善理性人假设的研究进路，但是并没有明确的阐述和分析主体究竟为何做出了这样一个决策，对逆推归纳法悖论产生的原因分析得不够深刻和全面。另一个困难在于，将主观感受计入收益进行决策时，应该如何解释主体决策的合理性？

理解“合理”或判定怎样是合理行为的原则主要有两种，一种是“最大期望效益原则”，另一种是“优势原则”。前者是指，主体的行为应获得主体能从该行为中所期望的最大效益。而优势原则的含义是，要评价一个行为R是合理的，需要考察两个条件：（1）无论之后发生什么，对主体而言采取行为R的结果不坏于当前能够选择的其他任何行为；（2）至少有一种可能得到的结果使主体采取行动R比当前能选择的其他行为的结果更好。

笔者认为，作为将主观感受计入收益的一般性框架，主体在博弈中的一个决策是否合理的评价标准应当结合上述两种原则：无论此决策之后博弈的进展如何，当前阶段主体选择的决策所能得到的期望效应不坏于他认为是可能的决策得到的期望效应，那么这一决策就是理性的。为便于表述，称之为“期望效益优势原则”。根据信念修正的AGM理论，局中人在参与博弈时的信念状态包含具体的命题集合[9]。对于一个能够参与并完成蜈蚣博弈的主体，在参与博弈之前具有平衡的信念状态，其信念集包括理解蜈蚣博弈规则的语言能力；对蜈蚣博弈中的收益数值的对比、计算能力；基本的推理能力；自我偏好。“推理能力”与“自我偏好”的意义在于，局中人具有期望并能经由推理或推测作出符合期望效益优势原则的决策。

局中人在作出决策的时候，他有足够充分的理由来认定所作出的决策满足了他的意愿，他具备了作出此种决策的信念。由于蜈蚣博弈的结构和收益以及局中人的自我偏好和对对手偏好的推测，他原有的信念修正为此决策对应的信念。这种信念进而影响了他的实际决策。

信念修正的目的则是使每一个决策均符合期望效益优势原则，即做出合理的决策。

现实人是存在个体差异的，有着不同的心理情绪状态、不同的习惯和偏好，研究单一个体的信念具体是如何修正的，不具有普遍意义，并且要做到定量研究极其困难。在蜈蚣博弈中，主体具体的心理变化和信念变化是无法确定的，唯一可以确定的就是，博弈的结构对局中人造成了心理和信念的影响，使其对局势有了了解和分析，并修正了自己的信念，作出他认为合理的博弈计划。可以引入一个参数表示各种因素导致的主体信念的修正作用所造成的可以折算为收益的影响。这样，就可以不具体分析主体信念修正的过程，而重点考虑信念修正对博弈行为影响的结果。

这种分析思路可做如下表述：博弈的某个阶段，局中人A、B收益为（n，m），A、B的信念改变对决策造成的影响折算为收益记为α，β，A的折合收益为n+α，在局中人A的信念对决策的影响结束要做出决策时，他有“选择放弃”和“不选择放弃”两种信念，如果他认为“必须选择放弃”，则相当于α=-∞，n+α将小于其后任何阶段A的收益；如果A认为“绝不选择放弃”，则α=+∞，n+α将大于之后任何阶段的收益。对于β可作出类似的分析。这样，就可以把各种将主体主观因素折算为收益的模型纳入信念改变影响决策的这个假设中，只要考虑主观因素最终使局中人在多大程度上认为应该“选择Pass”即可确定α，β的范围，并最终得出总的收益。这一思路中，需要对理性人假设做一些调整，主体在博弈中的一个决策是否合理的评价标准为：无论此决策之后博弈的进展如何，当前阶段主体选择的决策所能得到的期望效应不坏于他认为是可能的决策得到的期望效应，那么这一决策就是理性的。

将主观感受计入收益是对蜈蚣博弈悖论的一种有效解释，信念修正的思路为这种解释提供了一个一般性的探讨框架。这一框架的基础是调整了的理性人假设，即期望效益优势原则；对博弈过程的分析应采取动态的视角，以信念修正理论考察局中人在博弈不同阶段的信念状态及信念变化。

对于一个博弈，局中人博弈前、博弈开始、博弈中的信念状态是动态变化的。而信念是构成对理性理解的主要内容。由于与博弈相关的信息持续的输入主体的信念集中，主体对博弈局势的分析和把握也是动态变化的。信念的改变事实上决定了博弈策略，解决蜈蚣博弈悖论的一个新思路是将导致信念变化的主观感受折算为收益，这较为符合人们进行博弈的实际情况。

[1]Robert J.Aumann.On the Centipede Game[J].Games and Economic Behavior,1998，(23):97-105.

[2]谢识予.经济博弈论[M].上海:复旦大学出版社,2007.162-164.

[3]RobertW.Rosenthal.GamesofPerfectInformation, Predatory Pricing and the Chain-Store Paradox[J].Journal of Economic Theory,1981，(25):92-100.

[4]Ken Binmore.Game Theory and Social Contract[M].MIT Press，1993.20-29;230-134.

[5]张峰.逆推归纳法悖论探析[J].福建论坛(人文社会科学版)，2004，(12):78-81.

[6]GaryBornstein,TamarKugler,AnthonyZiegelmeyer. Individual and group Decisions in the centipede game:Are groups more“rational”players?[J].Journal of Experimental Social Psychology,2004,40(5):299-605.

[7]Richard D.McKelvey;Thomas R.Palfrey.An Experimental Study of the Centipede Game[J].Econometrica,1992，(60)4: 803-836.

[8]饶育蕾,张媛，彭叠峰.利他偏好是否导致博弈均衡的偏离——对蜈蚣博弈实验的解释[J].系统管理学报，2010，19 (6):666-683.

[9]Alchourron,C.E.,Gardenfors,P,Makinson,D.On the logic of theory change:partial meet contraction and revision functions [J].Journal of Symbolic Logic,1985,50(2):510-530.

【责任编辑：来小乔】

Centipede Game Paradox Solution Based on Belief Changes

ZHANG Feng1,ZHAO Xu-tao2
(1.Beijing Institute of Technology，Beijing 100081;2.Renmin University of China，Beijing 100872)

Backward induction is a common method to analyze the dynamic game with perfect information and draw inevitable conclusions with complete induction.However,when used to analyze the centipede game,the theoretical prediction deviates from the actual behaviors in real games,resulting in paradox.The centipede game has an intricate and delicate structure.Players deliberate the payoffs and intend to cooperate in the noncooperative game,which influence their belief change when making decisions.Subjects do not have absolute rationality in reality,the subjective sensation along with belief change determines whether or not the subject believes his decision is rational.According to the theory of belief revision,a general analytical framework can be constructed to describe causes of the decision making in the centipede game.

backward induction;centipede game;paradox;belief

B 0

1000－260X（2016）02-0059-05

2016-01-10

国家社会科学基金项目“大数据视域下科学方法创新研究”（15BZX040）

张峰，哲学博士，北京理工大学副教授，主要从事现代逻辑、科学方法论研究；赵绪涛，中国人民大学博士研究生，主要从事科学哲学研究。