基于重复公用品博弈的最优模仿策
2015-05-13李梦圆段灵子栗梦妍张博宇
李梦圆++段灵子++栗梦妍++张博宇
摘 要:以往的研究一般是从社会学和心理学的角度出发分析人类从众行为的合理性,本课题应用演化博弈理论对人类社会中广泛存在的模仿行为进行分析。基于模仿行为最本质的两个特征,即初始策略与模仿强度,我们定义了重复公用品博弈中的模仿策略集,并通过计算不同类型模仿策略在重复公用品博弈中的收益,得到不同博弈参数下的最优模仿对策。在选择-突变框架下,本课题给出了重复公用品博弈情境下严格模仿策略的局部(演化)稳定性条件,并证明了其在模仿策略集内是不可被入侵的。
关键词:重复公用品博弈 严格模仿策略 演化稳定性 社会学 心理学
中图分类号:TP18 文献标识码:A 文章编号:1674-098X(2015)02(a)-0018-02
在公用品博弈中,每一个参与者在游戏开始之前被给予一笔资金,他可以把它直接据为己有或者从中拿出一部分向一个公共储备池(common pool)投资,公共储备池中的资金被放大一定倍数后平均分配给所有参与者,不论其贡献多少[1]。根据传统的经济学理论,公用品博弈中唯一的理性结果为所有参与者均不捐献任何资金。
在真实的公用品试验中,只有少数人的行为符合经典经济学的预测。大量的实验证据显示大多数受试者在博弈开始时一般会往公共储备池中投入接近一半的资金。随着博弈重复进行,贡献率逐渐下降到0[2]。例如在Fehr和G?chter[3]的重复公用品博弈实验中,在第一轮中平均捐献率能达到初始资金的40%~60%,而在第十轮中超过70%的参与者选择了0贡献的行为。Traulsen等人[4]指出,在重复公用品博弈中,如果将降低贡献视为对低贡献者行为的模仿,那么这类行为的比例一般能占到全部行为的70%。
本研究中,我们将策略空间限定在重复公用品博弈的模仿行为类里。考虑一个n人t轮重复公用品博弈,每一轮中,公共储备池会将当轮所有贡献的资金放大r倍后平分给n个人。对于采用模仿策略的个体,在首轮博弈中他将按照自己意愿贡献一定比例的资金,然后在之后的每一轮中对其他n-1个个体的贡献平均值进行一定力度的模仿。在一个重复博弈进行过程中,每个个体的模仿策略始终保持不变,其收益定义为t轮重复博弈中每轮博弈结束后结余资金的平均值。一个模仿策略被称为是(演化)稳定的,如果大多数个体都采用该对策时,任何突变对策无法获得更高的收益[5]。
1 模仿对策模型的建立
假设重复公用品博弈参与人数为n,公用储备池的放大倍数为r,博弈轮数为t。通过包含两个参数的向量(x,p)来定义个体的模仿策略,其中x∈[0,1]表示在重复公用品博弈中首轮的贡献率,p∈[0,1]表示之后的每一轮对于组内其他斜-1个个体平均贡献值的模仿强度。严格模仿策略可写为(x,1),即首轮贡献x,从第二轮开始,每轮严格贡献上一轮组内其他个体贡献的平均值。
我们假定n人重复公用品博弈中n-1个参与者所采用的模仿策略为S1=(x,p),另外1个参与者采用突变策略S2=(y,q)。所有采用S1策略的个体行为变化是同步的,并且每轮的贡献值只依赖于上一轮组内其他n-1个成员的平均贡献比率,因此这类个体第t轮的贡献率xt可以通过下面递推式表示:
(1)
类似的,采用策略S2的个体在第t轮的贡献率yt可以表示为:
(2)
下面我们利用待定系数法求解xt和yt的具体表达式。不妨设
, (3)
其中α和β为待定系数。
将方程(3)带入(1)和(2)的第二个等式,解得
。
将上面结果带入方程(1)和(2)的第二个等式,可以得到
由此解得S1策略个体和S2策略个体第t轮的贡献分别为
因此使用S1策略的个体在t轮重复公用品博弈中的贡献总和为
使用S2策略的个体在t轮重复公用品博弈中的贡献总和为
n人公用品博弈中,如果n-1个个体采用S1策略,1个个体采用S2策略,那么使用S1策略和S2策略的个体在第t轮的收益可以表示为以下形式
(4)
所以由方程(4),两类个体t轮重复公用品博弈中的每轮平均收益分别为
(5a)
(5b)
2 严格模仿策略的局部稳定条件
2.1 模仿策略的局部稳定性
一个模仿策略(x,p)被称为局部(演化)稳定的,如果对于任意局部突变策略(x+△x,p+△p),采用该突变策略的个体在一个由采用(x,p)策略的个体构成的群体中,其收益低于使用原策略(x,p)带来的收益[7]。这种情况下,此个体显然没有动机坚持使用突变策略(x+△x,p+△p),而会改回使用原对策(x,p)。
在n人重复公用品博弈中,模仿策略S1=(x,p)是局部稳定的,当且仅当对任意S2=(x+△x,p+△p),(6)
当△x→0,△p→0时,S1的局部稳定性可以等价的表示为下面两个条件
(7)
其中原策略S1=(x,p),突变策略S2=(y,q)。
2.2 n人重复公用品博弈严格模仿策略的局部稳定条件
在n人重复公用品博弈情境下,方程(7)给出了模仿策略S1的局部稳定性条件。将原策略记为S1=(x,p),突变策略记为S2=(y,q),由方程(5b),
(8)
(9)
方程(8)当r>1和t>>1时,总有,即单轮平均收益随着首轮贡献率的增加单调递增。因此在n人重复公用品博弈情境下,当轮次t足够大时,唯一可能的局部稳定严格模仿策略是(1,1)。
我们接下来讨论(1,1)对策在n人t轮重复公用品博弈中的局部稳定条件。当t=1时,首轮全部贡献是稳定的当且仅当r>n,即个体单独提高贡献值能使其收益增加。当t>1时,将原策略(1,1)和突变策略(y,q)=(1-△y,1-△q)带入方程(8)和(9),(1,1)是局部稳定的当且仅当下面两个不等式成立endprint
(10)
综上所述,(1,1)的局部稳定条件为
(11)
当r>n时,(1,1)在任意轮次的重复公用品博弈中都是稳定的。另一方面,注意到当t>>1时,方程(10)中两个不等式的右边均趋近于1。这意味着当r>1时,只要博弈重复的轮次充分长,严格模仿策略(1,1)就会成为局部稳定的,此时每名参与者都会选择全部贡献。
在实验经济学中,重复公用品实验一般4人分为一组[4-6],此时严格模仿策略(1,1)的局部稳定条件如图1所示。例如当t=5时,局部稳定条件为r>1.49;当t=10时,局部稳定条件为r>1.24;当t=20时,局部稳定条件为r>1.11。注意到在这些实验中r的取值均大于1.5,且重复的次数一般超过10轮,因此(1,1)在模仿策略集中是局部稳定的,并且每轮平均收益随首轮贡献率的提高单调上升。这可能是重复公用品博弈中贡献率居高不下的一个原因。
2.3 重复公用品博弈严格模仿策略局部稳定条件的进一步研究
上节中我们得到了n人重复公用品博弈中严格模仿对策(1,1)的局部稳定条件。由于方程(10)包含两个不等式,一个自然的问题是哪个不等式条件更强。这里我们给出此结论在n人重复博弈下的一个一般性证明。
对方程(10)中两个不等式的右边项做差,当t较大时,
这表明当t较大时,方程(10)的第2个不等式比较强,即如果个体收益随着模仿强度单调增加,那么其收益也会随着首轮贡献值单调增加。
因此,对于较大的t,(1,1)策略的局部稳定条件可以简化为
(12)
注意到方程(12)不等式右边包含两个变量n和t,我们进一步分析(1,1)的局部稳定性与n和t的关系。
当t较大时,有
(13)
因此不等式(12)的右边项随着n单调增加而随着t单调减小。即给定重复轮次t时,随着公用品博弈参与的人数增加,(1,1)的局部稳定性条件越来越严格。但是对于任意r>1的n人公用品博弈,只要重复的轮次足够长,(1,1)就能够成为局部稳定的。特别的,当n和t都较大时,(1,1)局部稳定的一个近似的条件是r>1+n/t。
3 结语
在本课题中,我们考虑仅仅引入两个变量——初始贡献率及模仿强度来刻画人们在社会生活中所采取的行为。基于人类模仿行为最本质的特征建立起相对简单的数学模型,并通过对最优模仿策略的研究拓展了学习理论对人类社会中真实现象的解释力度。
参考文献
[1] Hardin G.The tragedy of the commons[J].Science,1968,162:1243-1248.
[2] Chaudhuri A.Sustaining cooperation in laboratory public goods experiments:a selective survey of the literature[J].Experimental Economics,2011,14(1):47-83.
[3] Fehr E,G?chter S.Cooperation and punishment in public goods experiment[J].The American Economic Review,2000,90:980-994.
[4] Traulsen A,Semmann D,Sommerfeld RD,et al.Human strategy updating in evolutionary games[J].Proceedings of the National Academy of Sciences,2010,107:2962-2966.
[5] Hofbauer J,Sigmund K.Evolutionary Games and Population Dynamics.Cambridge[M].Cambridge University Press,1998.endprint