

自动化学报 2018年1期

张艳玲 刘爱志 孙长银



如何研究合作行为的演化?这是一个热点问题,2005年Science杂志就指出“合作行为如何进化”是21世纪最关键的25个科学问题之一[13].演化博弈论(Evolutionary game theory)为研究合作的演化提供一个有力的数学框架.Smith等首次将von Neumann开创的博弈论观点(大脑在利益冲突时做出理性决定)扩展为根据自然选择而得出决定[14],这标志着演化博弈论的开创.近年来,国内外越来越多的学者利用此理论研究促进合作涌现的机制[15−37].其中最著名的是哈佛大学的Nowak教授,他对“综合进化论”(这一理论将突变、选择和进化的基本概念整合到一个数学框架中)的思想进行了扩展,将囚徒困境放到演化的群体中进行研究.Nowak首次总结了促进合作涌现的5大机制[38]:亲缘选择(Kin selection)、直接互惠(Direct selection)、间接互惠(Indirect selection)、网络互惠(Network reciprocity)和群组选择(Group selection).亲缘选择意味着,与谁的血缘关系越近,就越倾向与之合作;直接互惠意味着,今天我帮助你,明天你会帮助我;间接互惠意味着,今天我帮助你,明天会有他人帮助我;网络互惠意味着,个体仅仅与邻居进行博弈,合作者团簇最终胜出背叛者团簇;群组选择意味着,竞争既发生在个体之间,也发生在群组之间.除了这5大机制,最近的综述还归纳出另外5种促进合作演化的机制[39]:绿胡子选择(Green beard selection)、强互惠性(Strong reciprocity)、有成本的示好(Costly signaling)、集合选择(Set selection)和选择性参与(Optional participation).绿胡子选择意味着,相似性越高的个体之间越容易发生合作;强互惠性意味着,个体愿意牺牲自身利益惩罚背叛行为;有成本的示好意味着,个体愿意承担成本吸引其他个体的关注;集合选择意味着,个体仅仅与相同集合的个体进行交互;选择性参与意味着,个体有权利拒绝与特定个体进行博弈.

1 关于间接互惠的概述

1.1 研究间接互惠的意义


1.2 间接互惠的分类和研究方法

间接互惠包括 “上游互惠”(Upstream reciprocity)、“下游互惠”(Downstream reciprocity)和 “广义互惠”(Generalized reciprocity)三种形式[45,53−57].如图1所示,“上游互惠”指的是,B得到A的帮助后受到激励,继而帮助C;“下游互惠”指的是,C观察到A曾经帮助了B,因此帮助A,这是一种建立在声望基础上的间接互惠;“广义互惠”指的是,D观察到A帮助B,于是D帮助C.“上游互惠”并不能单独促进合作的涌现,只有与直接互惠或者网络互惠相结合才能促进合作的涌现[56−57].“下游互惠”和“广义互惠”均可单独促进合作的涌现,不过前者是研究间接互惠的主流方向,而关于后者的相关研究还甚少.目前,针对间接互惠的研究方法主要有理论分析、蒙特卡罗仿真(Monte Carlo simulation)和实验验证(包括实验室实验、实地实验和在线实验).

图1 间接互惠的三种形式Fig.1 Three kinds of indirect reciprocity


2 经典的博弈模型

在演化博弈论框架下研究间接互惠,需要将个体之间发生的交互行为抽象为博弈模型. 目前,常被用来研究间接互惠的博弈模型包括捐助博弈(Donation game)[43−44,58−72]、信任博弈(Trust game)[73−75]、独裁者博弈(Dictator game)[76−82]和公共品博弈(Public goods game)[83−88].


2)信任博弈,如图2(b)所示.一方为投资者A,另一方为响应者B:A将部分资金c(总额为R, 0≤c≤R)给予B,从而B获得收益r×c(r>1);随后,B决定将其获得的部分收益a(0≤a≤r×c)返还给A.最后,A获得收益R−c+a,B获得收益r×c−a.

3)独裁者博弈,如图2(c)所示.一方为独裁者A,另一方为接受者B:A将部分资金c(总额为R, 0≤c≤R)分给B.无论A给了B多少,B只能接受,没有拒绝的权利,从而B得到收益c,而A获得其余收益R−c.


3 声望评估准则与行为准则

3.1 常见的声望评估准则及其相关研究



图2 博弈模型及收益矩阵Fig.2 Games and their payoあmatrices

表1 声望评估准则Table 1 Reputation evaluation criterion

图3 经典的间接互惠模型Fig.3 Representative model about indirect reciprocity



表2 典型的“二阶评估”Table 2 Representative“second-order evaluation”

表3 8种促进合作演化的声望评估准则Table 3 Eight reputation evaluation criterions which favor the evolution of cooperation

3.2 常见的行为准则及其相关研究

关于间接互惠的早期研究假设个体仅帮助声望好的个体,或者个体仅帮助形象分数高于某一阈值的个体[43−44,64−68,96−99]. 这些最简单的行为准则(行为准则是能否捐助的依据)要求个体仅根据对手的声望决定自己是否给予捐助.稍后,略微复杂的行为准则,例如个体决定是否捐助时需要同时考虑自身和对手的声望,受到关注[69−71,89−90,94−95,100−101]. 上述研究主要关注哪


4 基于八卦的声望信息传播


4.1 关于八卦的解析研究和仿真研究


图4 声望信息传播的两种方式Fig.4 Two ways of reputation dispersal


4.2 关于八卦的实验研究


5 总结



6 未来展望


6.1 复杂网络上的间接互惠



6.2 声望传播系统的鲁棒性



6.3 声望共享系统的建立



6.4 间接互惠在P2P网络中的应用

近年来,P2P(Peer to peer)网络应用广泛,因此对其研究发展快速.在P2P网络中,参与者共享自身所拥有的一部分硬件资源(存储能力、网络连接能力和打印机等),这些共享资源通过网络提供服务和内容,能被其他对等节点(Peer)直接访问而无需经过中间实体.在此网络中的参与者既是资源、服务和内容的提供者(Server),又是资源、服务和内容的获取者(Client).合作是确保所有参与者获得所需服务的关键,出于恶意和自私的非合作行为往往导致参与者获得较少服务甚至一无所获.消除非合作行为的有效机制包括信任机制和激励机制.信任机制指的是根据参与者的交互历史计算他的可信任值[148−153],例如,eBay声望系统[151]、Beta声望系统[152]、Eigentrust声望系统[148]和Powertrust声望系统[153].激励机制包括金钱激励和非金钱激励[154−157].

鉴于 P2P网络中个人利益和集体利益相冲突,经典博弈理论已被广泛用来研究此类网络[154,157−160].不过经典博弈理论假设参与者完全理性且拥有全局信息.这些假设并不现实,同时经典博弈理论不能描述参与者策略的动态演化过程及策略在整个系统中的传播过程.近来,可以克服上述缺点的演化博弈论被用来研究P2P网络[155,161−165].文献[161]假设P2P网络是混合均匀且有无限节点,并利用复制动力学研究三种激励机制的稳定性.文献[162]同样利用复制动力学发现一种延拓的模仿动力学可以改进整个网络路径选择的效率,从而避免路径上的过载或长延迟.文献[163]假设P2P网络具有有限节点,分别在混合均匀网络和同型结构网络上研究一种激励机制(Reciprocation-based incentive mechanism).文献[164]将关于同类激励机制的研究推广到异型结构的P2P网络.文献[155,165]假设P2P网络具有有限节点,利用计算机仿真调查两种信任机制.上述研究是针对一般性的P2P网络,还有一些研究利用演化博弈论分析特殊的P2P网络,例如基于P2P的无线传感网络[166−169]和基于P2P的车辆自组织网络[170].








