复杂网络联合生产演化博弈中的历史记忆作用

2021-03-08吴凤燕刘歌群顾冬晴刘晓坤

电子科技 2021年3期

吴凤燕，刘歌群，陶峰，顾冬晴，刘晓坤，张伟

(1.上海理工大学光电信息与计算机工程学院，上海 200093;2.上海理工大学，上海 200093；3.上海空间机器人工程技术研究中心，上海 201109;4.上海宇航系统工程研究所，上海 201109)

在自然界和人类社会中始终存在着合作行为，例如在电子生产行业中，一个合格的电子产品通常需要多个主体分工合作才能完成。这种电子企业间的联合生产行为引起了很多研究者的关注，演化博弈理论由此开始蓬勃发展[1]。文献[2]把二维格子网络与囚徒困境博弈相结合，建立了网络演化博弈的研究范式，并发现了网络结构上群体之间的互惠行为。越来越多的研究聚焦于网络结构的影响[3]和促进合作的有效机制[4-12]。在诸多机制中，不乏可有效促进合作的机制，例如志愿者机制[4]、网络互惠机制[5]和迁移机制[6-7]等。其中，历史记忆机制[13-15]成为近几年研究的热点。文献[13]把过往一定记忆长度内的最优策略保存下来，根据合作策略的占比对新一轮的策略进行更新。文献[14]通过对两个记忆长度内的收益进行加权，研究了弱囚徒困境在不同网络上的演化博弈，发现按照历史记忆进行策略更新的人数比例与群体合作水平呈正相关。以上研究揭示了历史记忆机制对于网络演化博弈合作涌现的促进作用，具有重要的理论价值。但是这些结论针对弱囚徒困境和雪堆博弈给出，有一定的限制性，当博弈模型改变后是否依然适用仍需要进一步研究。

在电子生产行业中，电子企业间在联合生产的同时还会出现偷工减料、以次充好或捏造数据等背叛行为。以次充好的产品、豆腐渣工程以及伪造的业绩等等均是这种背叛现象的例证。因此，在联合生产博弈中研究这种具有非完全合作性质的背叛行为具有时代意义。文献[16]提出了一种全新的博弈模型，即联合生产博弈模型。本文基于该模型，引入记忆因子u并运用蒙特卡罗仿真方法，分析了合作频率的提升与记忆权重取值的相关性以及网络机制对合作涌现的影响。

1 模型与方法

1.1 联合生产博弈模型

文献[16]中提出的联合生产博弈模型描述了生产领域追求高回报率的非完全合作现象，该模型基于生产任务定义了必要成本c(0≤c≤1)盈利成本1-c(总成本归一化为1)，以及利润系数k。每个博弈方各有两种策略，合作(Cooperation，C)时按成本1进行生产，背叛(Defection，D)时偷工减料按必要成本c进行生产。

当k≥1时，按收益来说，(C，C)组合是纳什均衡。但是(D，C)组合中背叛方的回报率(利润除以出资额)有可能更高，成为背叛的诱惑来源。因此按照回报率分析双方得失，可使策略选择具有博弈模型应有的“困境”特征。回报率矩阵如下

(1)

1.2 网络演化博弈仿真方法

假设网络有N个节点，节点之间以边相连，构成具有某种特征的网络拓扑结构。每个个体(节点)的初始策略随机获得

Sx=(1，0)T与Sx=(0，1)T

(2)

分别表示x的当前策略为“合作”与“背叛”。

在每一轮的博弈中(每个蒙特卡罗步)，每个个体x与自己的所有一阶邻居逐一博弈，求平均之后得到本轮回报率

(3)

其中，Mr是回报率矩阵，见式(1)；Nx是节点x的一阶邻居集合，nx是节点x的度，nx=|Nx|。之所以对nx次博弈的回报率求平均，是因为联合生产博弈模型利用回报率而不是收益来衡量个体的得失。每一轮博弈中，同一节点的策略相同，出资也相同，整轮回报率是与所有邻居博弈回报率的平均。

一轮博弈结束后，所有个体对自己的策略进行更新。在下一个蒙特卡罗步，个体利用新策略按照邻居关系再次进行两两博弈。然后再更新、再博弈，如此不断迭代循环。本文把采取合作策略的节点数量占整个网络节点数量的比例定义为合作频率Fc。随着仿真的进行，合作频率将不断变化，可用于分析网络结构、博弈模型参数及更新规则参数对合作涌现的影响。

为了保证统计结果的可信性，每一组参数进行50次独立仿真，仿真步长设为10 000步。合作频率在保持稳定的最后500蒙特卡罗步取均值，然后对50次仿真求平均。

1.3 更新规则

本文把记忆长度设定为2，参照文献[7]，利用记忆因子u(0≤u≤1)对个体上一轮和本轮的回报率进行加权。定义个体的适应度Qx(t)如下

(4)

其中，t为蒙特卡罗步数；Px(t)表示个体x在t时刻的整轮回报率；Qx(t)表示个体x在t时刻的适应度。记忆因子u反映适应度对上一轮回报率的权重，u越大表示对历史记忆的依赖性越强。此处定义的适应度与文献[7]不同，文献[7]是对t和t-1时刻的一轮收益进行加权，而本文是对t和t-1时刻的一轮回报率进行加权。与收益相比，回报率会削弱节点异质性对合作涌现的影响。

个体的策略更新采用费米规则[18]，每个节点x随机选择一个邻居y，然后以适应度之差Qx(t)-Qy(t)为依据按照概率对该邻居进行模仿

(5)

其中，W(Sy→Sx)为x模仿y的策略Sy的概率；κ表示环境的噪声因素，描述个体的非理性程度。为将研究重点集中于博弈模型参数和记忆作用对合作涌现的影响，本文将κ设置为固定值0.1。

要求思想政治课教师结合教学内容，每次课实施“时事开讲5分钟”。既增强教学内容的新颖性，又能把理论知识和社会现实结合起来，同时增强思想政治课教师对党和国家政策的了解和理解。

2 仿真结果及讨论

2.1 BA网络上记忆作用对合作涌现的影响

生成节点数N=1 000的BA网络(n0=3，m=3)。先把固定成本设为c=0.5，考察记忆因子u为0.1～0.9时合作频率Fc随利润系数k的变化规律，仿真结果见图1(a)。

(a)

(b)

由图1(a)可见，Fc随着k单调上升是联合生产模型BA网络演化博弈的一项基本规律[17]。在施加记忆作用之后，对于同样的k值，记忆因子u越大合作频率Fc越高。此外，随着记忆因子u的引入并逐渐增大，网络上出现固定比例合作者的k阈值逐渐变小。这两个现象均表明，历史记忆作用促进了BA网络上的合作。

将固定成本增大为c=0.6，进行与图1(a)同样的仿真，得到Fc-k曲线如图1(b)所示。当固定成本增大时，联合生产博弈模型的背叛占优属性减弱，个体更倾向于选择合作策略[17]。因此与图1(a)相比，c=0.6时，同样的利润系数k和同样的记忆因子u对应的合作频率Fc更高，而且网络上出现固定比例合作者的k阈值更小。此现象再次印证了历史记忆对合作的促进作用，并同时表明该促进作用不受固定成本的影响。此外，图1(b)还表明了足够大的固定成本c和记忆因子u可能使得所有个体选择合作。

2.2 记忆作用下固定成本对合作涌现的影响

在上文所生成的BA网络上，将记忆因子设为u=0.5，考察固定成本c为0.4～0.9时合作频率Fc随利润系数k的变化规律，仿真结果如图2(a)所示。

(a)

(b)

由图2(a)可见，Fc-k单调曲线随着固定成本c的增大而不断抬高，出现稳定比例合作者的k阈值不断变小。此现象表明高比例的固定成本c会诱发高比例的群体合作，同时会降低出现稳定比例合作者的利润系数阈值。此趋势与固定成本对博弈模型“合作/背叛占优属性”的影响规律一致，说明在记忆作用下该影响规律没有改变。

将记忆因子增大到u=0.7，继续考察固定成本c为0.4～0.9时的Fc-k规律，仿真结果见图2(b)。图2(b)保持了图2(a)的基本规律，而与同一个c值对应的Fc-k曲线抬得更高，出现稳定比例合作者及群体全部成为合作者对应的k阈值更小。此现象表明，对于0.4～0.9范围内的c值，记忆作用始终对群体合作有利，且记忆因子越大合作频率越高、群体合作所需要的利润系数阈值越低。

2.3 记忆作用对合作频率演化过程的影响

图3给出了利润系数k=2.2，固定成本分别为c=0.5和c=0.6时，不同记忆因子对应的合作频率演化曲线。

(a)

由图3可见，记忆因子较小(u=0.1)时，演化曲线与无记忆情况相似。合作频率先从Fc=0.5的初始值开始，由于博弈模型的背叛占优性质，合作频率下降。随着博弈迭代不断进行，网络互惠机制使得合作频率停止下降并回升稳定在与(c，k)值对应的合作频率值上。记忆作用的存在使合作频率稳定值更高，且两者呈正相关，充分说明了记忆作用能够促进群体合作。

2.4 记忆作用下固定成本对合作频率演化过程的影响

(a)

由图4(a)可见，随着固定成本c的不断增加，合作频率大幅升高，甚至在c>0.7后，动态稳定下的合作频率达到了1。此现象表明高比例的固定成本会诱发高比例的群体合作，这与上文的结论保持一致。

将记忆因子增大到u=0.7，继续考察固定成本c为0.3～0.9时的合作频率演化过程，仿真结果如图4(b)所示。图4(b)保持了图4(a)的基本规律，同一个c值对应的演化稳定曲线抬得更高，出现稳定比例合作者及群体全部成为合作者的时间更短。此现象表明，对于0.3～0.9范围内的c值，记忆作用始终对群体合作有利，且记忆因子越大合作频率越高，群体出现稳定比例合作者所需要的演化时间越少。

2.5 不同网络上记忆对合作涌现影响作用的比较

本文进一步考察了历史记忆在其他网络模型中对合作涌现的影响作用。生成N=200，p=0.02的ER随机网络和N=225二维格子网络(Lattice Network，LA)，把固定成本设为c=0.5，考察记忆因子u为0.1～0.9时合作频率Fc随利润系数k的变化规律，仿真结果如图5所示。

(a)

由图5可见，在ER随机网络和格子网络上，历史记忆对合作涌现的影响作用与在BA网络上相同，都能促进群体合作，提升合作频率，降低出现稳定比例合作者的利润系数阈值，降低群体全部成为合作者的利润系数阈值，且合作水平的提升与记忆因子取值正相关。此现象说明了历史记忆对联合生产演化博弈合作水平的促进作用，且对于不同的网络模型具有普遍性。比较图5的两个子图可知，在相同的参数下，ER随机网络上的联合生产博弈合作水平更高、出现固定比例合作者及群体全部成为合作者对应的k阈值更小。

2.6 记忆作用下网络机制对合作涌现的影响

设置固定成本c=0.6，记忆参数u=0.7，对比在3种不同网络拓扑结构下，合作频率Fc随利润系数k的变化规律，仿真结果如图6所示。

图6 3种网络中合作频率Fc与利润系数k的关系

从图6可以看出，当k<1.5时，ER随机网络中的合作频率Fc高于LA和BA无标度网络；而当k>1.5时，LA中的合作频率Fc要高于ER随机网络和BA无标度网络。此现象表明，利润系数k较小时，由于模型的背叛占优属性，网络拓扑结构的随机性越大，出现固定比例合作者的利润系数阈值越小。随着利润系数k的不断增大，越规则的网络拓扑结构，受历史记忆的影响越大，更容易产生合作团簇，防止背叛入侵，合作频率也越高。此外，在利润系数k=1.5处，3种网络拓扑结构下的合作频率相等。此现象表明，固定成本和记忆因子在某些特定值时，可以找到某个利润系数值使得3种网络机制对合作涌现产生相同的影响。

3 结束语

本文基于联合生产博弈模型，引入记忆因子对最近两轮回报率进行加权，作为策略更新的依据，并采用费米动力学进行策略更新。通过蒙特卡罗仿真，研究了策略更新环节的历史记忆对联合生产演化博弈的影响。研究发现，记忆长度设定为2的历史记忆能够有效促进合作、降低群体合作对利润系数的门槛要求。通过合作的动态演化，证实了合作频率的提升与记忆权重取值正相关。研究还发现，历史记忆对于联合生产演化博弈合作水平的促进作用，在BA网络、ER随机网络和格子网络上具有普适性。本文的研究结果为电子生产行业的竞争与博弈现象提供了参考。