APP下载

个体规则驱动的群体行为复杂性涌现规律及系统临界状态的研究范式

2014-04-23郑小京

关键词:局域子系统个体

郑小京

(哈尔滨商业大学,哈尔滨150028)

一、引言

自然领域与社会领域中普遍存在着相互作用。经过证明,即使是彼此最为简单的相互作用,也会使整个系统涌现出非常强的复杂现象。Santa Fe Institute 研究人员就对“热虫”进行过研究:他们假定热虫的生命仅靠体温来维持,而这一温度主要来源于自身及其邻居产生的热量,如果热虫彼此距离太远将会被冻死,太近将会被热死。实验结果证明,无论组织中热虫的初始状态如何,它们最终会自觉地聚集成若干确定的相对独立的区域,尽管微观上热虫的运动异常复杂。

如果个体之间相互作用的方式稍微复杂一些,将会涌现出更加巨大的复杂现象。这一系统被称之为复杂系统,它在自然界以及人文社会中普遍存在。其具有如下特点:

(1)能够根据自身环境特点、与其他直接相互作用的个体行为、系统结构、自身行为经验以及个体自身的属性等多种因素,在与系统中部分个体相互作用的过程中,适应性地调整自身的行为使其期望最大收益在一定条件下得以实现的同时也影响系统的特性与状态。

(2)系统中个体的行为受到环境的影响,同时系统的状态、性质也影响环境的属性。

(3)系统可以分解成若干个可分割的组分(后文称之为子系统),同一个子系统中各个个体之间的相互作用以合作为主,不同子系统间个体的相互作用以非合作为主:当时间短时,系统中个体间的相互作用发生在一个确定的系统拓扑结构中;在同一个子系统中,各个个体相互补充、相互支持,使得这一子系统收益最大,但是他们之间又围绕“收益是否合理”而存在一定的冲突;处于不同的子系统中的各个个体为了抢夺资源、获取更大的收益而在竞争。在这一情况之下,系统中共同存在着合作与竞争两种情况,经过相互作用,系统中的成员都能找到一个最优策略。随着时间的增长,系统自身的特性就会不断地变化,为了不断提高自己的综合竞争能力以及盈利能力,可能会与其他个体创建新的相互作用关系,或者断开现有的联系,这就使得系统中个体之间的相互作用关系不断变化。在这种情况之下,系统中个体的最优策略将随着一个确定系统拓扑结构到下一个确定拓扑结构不断发生变化,因此,从大的时间范围看,系统中的个体没有一个确定的最优策略,但是,最优策略必然服从一个确定的分布特征。

(4)当系统受到外部环境的干扰时,系统中的一些个体可能会主动或被迫地退出这一系统,如果系统中一些关键的个体受到伤害,可能会使得这一系统崩溃;即使没有环境的扰动,极少部分个体的非理性的行为也会导致系统崩溃。

无论从生态系统中种群因为竞生、共生与寄生复杂关系所导致的复杂生态链到由于雪粒微弱震动而引发突如其来的雪崩的自然界中,还是从个别企业之间自愿构建合作关系,从而引发绝大多数同类及相关企业共同合作而产生的产业集群到谣言在社会中迅速传播并引发暴乱的社会现象中,这样的系统在生态、生命、气象、地质、社会、经济等领域中大量存在,并与我们的生活息息相关。尤其在经济系统中,个体行为具有一定的随机性,同时这种随机性在与其他个体相互作用时还会被放大,这就使得对它的把握难度非常巨大。例如,无规则随机选择以及非理性行为为特征的金融体系、以核心产业为主而在空间与行为上企业自发产生的产业聚集体系、以个体规则调整在合作收益最大中求取收益分配合理的虚拟经济体等等经济系统不断充斥着整个经济系统,改变着经济运行方式。正如著名科学家菲利普·鲍尔(Philip Ball)在他的名著《预知社会——群体行为的内在法则》中曾经说过,“……,在理解人的行为方面,我们目前仍处于初期阶段,但至少我们已经知道,表面上看起来十分复杂的人类行为,其实并不因其复杂而无法理解,人类行为中至少有一部分是可以预测的。还有一点也同样重要,就是群体行为所表现出的突然改变未必是所有个体一致要求的结果。即使个体的倾向只出现微小的改变,集体行为也可能自动地转轨变向。”进一步,2005年的诺贝尔经济学奖获得者托马斯·谢林曾经讲过:“所有这些行为,统统有一个重要方面,就是在作出决断时,都会受到其他人的影响。情况还不止于此。我们在作出决策时,对于其他人所做的,以及将要作出的决策,并不是完全了解的,而我们的决断,就得在这基础上作出。正是由于这种相互依赖性,群体行为便不等于个体行为的简单延伸。”因此,如果能够把握这些系统的特征,并进行科学的宏观策略的制定,则具有非常大的现实意义。

二、复杂自适应系统的特性

显然,这一类经济与管理复杂系统具有以下特性:

(1)系统的状态与性质由系统中成员的行为性质决定,成员的行为包括成员之间的博弈以及成员与环境的相互作用,前者根据博弈双方所处的系统位置不同分成合作与非合作自适应博弈两种;

(2)在短的time-scale 中,系统结构保持不变,合作—非合作自适应博弈普遍存在,这一体系下,Agent 可以找到其最优策略;

(3)在长的time-scale 中,系统拓扑结构发生变化,Agent 的最优策略随着系统拓扑结构变化,无法找到一个确定的最优策略,不过可以根据其变化规律,找到最优策略的分布特征;

(4)外界环境对系统的冲击可能导致系统崩溃,其临界状态对于系统的管理具有非常关键的意义。

总而言之,系统的运作特征分成了短time-scale 中的确定结构下的博弈,且博弈的结果依赖于系统的结构;在长的time-scale 中的随机结构下的博弈具有一定的分布特征,其中优先连接、增长是其主要驱动因素。因此,复杂管理系统中各个Agent 的关系是合作与非合作融合的博弈。Agent 之间的相互作用以及系统与环境之间的相互作用决定着系统的性质与状态及其变化。进一步而言,经济与管理系统中的这种作用是一个合作—非合作相互融合的关系。因此,采用单纯的非合作博弈的研究方式,或者采用纯粹的合作博弈的研究方式,难以给出关于系统运作机制的深刻结论。进一步而言,这一系统显著的特点就是系统按照“物以类聚、人以群分”的机制被分解成若干个子系统,因此形成系统的层级结构。在同一子系统中,各个Agent 之间的相互作用呈现为合作博弈,其本质首先是在一定条件约束下系统收益的优化问题,然后是将其收益合理分配的一个过程;诸如企业各部门需要为企业总体战略目标服务,同时将企业的总收益在一定的系统机制下进行利益的再分配。不同的子系统之间的相互关系呈现为非合作反馈博弈,其本质是通过自己与对手建模的方式,通过反馈调整资源结构而改变策略,以实现经济组织利益最大化的一个过程。这种博弈关系通常体现在同一行业的不同竞争者对手之间。正是由于这种子系统内部与不同系统之间的合作—非合作融合博弈使得经济与管理研究的难度增大。

从本质上讲,博弈双方交互作用的拓扑结构形成了一个异质随机网络。经济与管理系统通常是以人为主体的系统,人的主观灵活性与创新性是系统存在与发展的源泉,同时,由于环境的不断变化,使得系统本身的随机性以及决策的随机性放大。不仅如此,在经济与管理系统中,博弈双方交互作用的拓扑结构也不是一个确定性的问题。博弈双方交互作用的拓扑结构会随着系统的发展形成一个异质随机复杂网络,其本质表现为这种相互作用关系随着时间推移而改变,并形成了一个随机过程。Agent 行为随机变化性以及系统拓扑结构随机变化性这两种随机性耦合在一起并且相互作用,便涌现出了更加巨大的系统复杂性,这种复杂性使得经济与管理系统研究的难度远远大于自然系统的复杂性。

经过前面的分析,在短的time-scale 和长的time-scale 中,经济与管理复杂系统中的Agent分别在确定多世界局域图(对应于恒定不变的系统拓扑结构)和随机多局域世界复杂网络(对应于随机变化的系统拓扑结构)中进行相互作用,相互作用对象的选择是按照优先连接机制进行的,博弈的性质由博弈对手所处的位置决定,在time-scale 中Agent 可以找到其最优策略,在长的time-scale 中可以找到最优策略的分布特征,面对环境的冲击,我们可以确定这一系统逾渗的临界状态。为了表达这一特性,采用Agent 在多局域世界随机复杂网络中的博弈这一方式来刻画所研究管理对象的性质与特征,通过这种抽象,可以将博弈论融入随机复杂网络理论中,恰好描述了上述系统的本质特征。本研究将随机复杂网络理论与博弈理论整合引入到复杂性极高的复杂经济与管理系统中,并提出一种随机复杂网络中的博弈理论,建立相关模型,对其求解并获得各Agent 的相互作用机制下的策略特征。另外,对这一系统所抽象得到的模型建模,有利于从事具体管理系统的科研工作者借鉴与推广。

故此可知,复杂自适应系统可以抽象成以下的系统:在短的time-scale 中是一个在多局域世界图中的博弈,此时处于同一个局域(子图,Béla Bollobás 称之为密集图)中的Agent 之间的博弈定义为自适应博弈,在环境干扰下,在历史状态基础上的系统中Agent 行为随机波动,在与其邻居相互作用过程中实施其最优策略,以保证收益最大化,处于不同局域的Agent 的相互作用被集结为局域之间的非合作自适应博弈,当且仅当合作与非合作自适应博弈的策略耦合在一起时,Agent在这一短的time-scale 中的最优策略才会更加准确,因此,在这一部分中,需要合作与非合作自适应博弈理论成果及优化与博弈的等价性原理方法去实现这一研究成果的完成。当time-scale较大时,Agent 之间的博弈发生在随机多局域复杂网络中,随着随机复杂网络的演化,Agent 博弈的结构不断变化,依赖于系统结构的Agent 策略也随之不断变化,在这一时间粒度之下,需要确定Agent 策略的分布特征,需要随机复杂网络的相关理论方法。当然,如果系统受到环境的攻击,系统可能会崩溃,尤其是在这种无标度复杂网络中,随机攻击与蓄意攻击给系统造成的影响完全不同,因此需要非平衡统计物理相应的研究理论方法,确定系统逾渗的临界状态。

总体上看,本研究认为这一系统从本质上讲属于复杂自适应系统演变及系统中Agent 策略的分布特征的问题。复杂自适应系统的本质就是系统具有很强的环境自适应性,并且能通过自己的行为改变环境。关于复杂自适应系统的研究,目前主要的研究方法是以计算机建模与仿真方法对特定的复杂自适应系统,如供应链、水资源流域配置、非常规突发事件下人员疏散、逃税、银行运营、瘟疫控制等不同的复杂管理系统,按照基于Agent的自下而上的建模方式,构造对应的计算机仿真模型,从而获得这一系列系统的特征与状态及其变化规律。这些对应的结果对于不同的个性化的复杂管理系统的研究具有很大的借鉴价值。然而,由于计算机模拟仿真过多地依赖于系统初始参数的设置,如果参数设置正好处于其临界区域,则极易引起蝴蝶效应,这就使得对应的研究结果存在一定的缺陷;另外,计算机仿真尽管对于系统中某种机制下的运行规律有很大的价值,但是对于揭示系统运行本质来说,或者设置一个最好的机制来说,存在很大的局限性。因此,有必要从解析的意义上对这些系统进行分析,当然,这也是本研究的主要出发点。

三、国内外研究成果

前面提到,在短的time-scale 中,系统被分割成若干个局域,每一个局域中的Agent 之间发生着合作自适应博弈,而不同的局域之间发生着非合作自适应博弈,然后二者只有完全耦合之后,才能真正获得Agent 的最优策略,因此,对Agent最优策略的确定是研究的核心问题。进一步而言,策略的稳定性和收敛性关系到求解获得的最优策略是否稳定和可靠,对其判定是后续研究的关键。这两个问题都是科学家们所关注的重点。

对于局域中Agent 之间的合作自适应博弈,其核心是在形成一个联盟的基础上,首先确定这一联盟利益最大化时系统各个成员的最优策略,然后确定一个合理的利益分配方案,将系统得到的利益在各个成员之间进行合理分配,以达到系统的协同化。目前合作自适应博弈的研究成果相对较少,然而其研究思路与合作博弈一致。Geil van Lankverld 等人(2010)、Yoav Freund Robert E.Schapire(1999)、Andreas Pfeifer(2009)等人对合作自适应博弈的相关模型、方法及应用进行了比较系统的分析,并给出了最优策略的求解方法。这些结论认为,合作自适应博弈的第一步就是确定研究对象的收益最大化,这是一个随机动态优化问题,可以采用Bellman(系列)定理来获得其最优解。最为关键的第二步是确定其收益分配方案,目前核函数法、动态Shapley 分配向量是主要的方法,其可靠性得到了广泛的证明。

相对于合作自适应博弈而言,非合作自适应博弈的研究成果较多。归纳起来说,其核心是在有限的资源下,根据每个博弈者的约束及其目标,各个博弈者都要确定达到自身利益最大化的策略,通过相互作用而确定系统中各个博弈方的Nash 均衡解。Sander C.J.Bakkes(2009)、Emanuel M.Carneiro,Adilson M.Cunha(2012)、Antonios Liapis(2013)、Daniel Burgos(2012)分别构造了对应的多人自适应博弈模型,确定了鞍点策略的数值求解问题,基于小波多尺度多分辨逼近特性,提出一种求解新方法。该方法将原问题转化为代数问题,并可获得逼近解的解析表达式。不过在这些文章中尚没有考虑系统信息的非对称性,使得结果的准确性失色不少。为了证明自适应博弈Nash 均衡解的稳定性,徐长明等(2006)证明了Nash 策略的小波逼近解收敛于精确解,基于小波逼近的多尺度多分辨特性,给出了误差估计的阶数。Yifen MU,Lei GUO(2009)采用Bellman 滤波的方法确定了Nash 均衡解及其解的稳定性问题。István Szita(2008)、Jonathan Tremblay(2008)也采用类似的方法证明了非合作自适应博弈解的存在性以及相应的求法。研究表明,自适应博弈更能精确描述系统的特性,其价值更大。

合作自适应博弈与非合作自适应博弈的耦合需要优化与博弈的等价性来给予证明等价性,陈光亚(2009)利用变分理论构造了一个合适的非线性算子,从而使得博弈Nash 均衡解与优化的最优解之间等价起来。显然,这一结果有助于将局域内合作自适应博弈的最优策略与局域之间非合作自适应博弈的Nash 均衡解有效地耦合在一起,有利于确定多局域世界图中Agent 的最优策略。

以上的研究成果对于自适应博弈的研究具有很大的价值,然而,这些研究仍然有一些问题值得深入思考:对于系统中有限理性与平衡点的稳定性的分析,有限记忆与平衡点的稳定性的分析,以及具有反馈的非合作自适应博弈成果的分析,都存在很大的问题,在这方面应该加强研究。在本研究中将给出有限理性与有线记忆这两个属性,试图得到对应的结论。同时,缺乏对系统中同时存在合作与非合作自适应的复杂系统相应的成果,在本研究中将着力解决这一问题。

前面提到,在长的time-scale 中,Agent 为了自身的利益最大,将会有意地改变自身博弈的拓扑结构,这就使得整个系统的结构按照随机复杂网络的方式进行演化。当然,一旦这一系统结构确定,则Agent 的最优策略就可以随之确定。通过随机复杂网络的理论,这一改变局部拓扑结构的方法是按照优先连接与增长这两个机制进行的,经典的研究中,优先连接考虑的是Agent 的度大小,即每个Agent 被优先连接的概率与这一Agent 度的大小成正比,这方面的研究成果非常多,见CHUAN SHI(2010)、FANG DU,QI XUAN,TIE-JUN WU(2010)。还有一些文章就是建立在BA 模型和AB 模型的基础上,设置了一些其他的机制,如复制、删除,M.Catanzaro,M.Bogu?á,R.Pastor-Satorras(2008)综述了上述各种机制下随机复杂网络的演化特征,并描述了各种机制所对应的率方程、均场等表达方式,经过总结,认为这一类型的随机复杂网络满足Scale-free 特性。进一步而言,如果将这一系统中Agent 之间的相互作用看成博弈的话,那么就可以说,这种博弈关系实际上是一种Boolean 博弈,即对应Agent之间博弈有与无的关系。这种在随机复杂网络中最为简单的博弈,却涌现出非常有趣的现象,即这一随机复杂网络表现出无标度的特性,其统计特征为幂律分布,且其幂指数处于-3 到0 之间,J.P.Bagrow,D.Wang,A.-L.Barabasi(2011)、C.A.Hidalgo,N.Blumm,A.-L.Barabási(2009)从同样的视角出发,得到了类似的结论。

然而,在研究的系统中,Agent 的行为远远超出了有与无的概念,也不是简单的离散博弈,也不是连续型的微分博弈,而是在每一个小的time-scale 中是一个自适应博弈,这就意味着上述的研究成果远远不够支持复杂管理系统中Agent 行为特征的精确描述。而与本研究对象最为接近的权威成果中,高红伟等(2010)通过在有向图上每个状态结点处定义合作函数,运用Berge C 的关于图上对策中策略的概念,在网格状有向图上考察局中人的行为是合作行动与单独行动的组合的部分合作动态博弈。文章通过对合作函数的设定允许局中人加入某个联盟之后再脱离该联盟,同时给出了有向图上部分合作对策的值、最优路径。D.LI,S.HAVLIN,S.BOCCALETTI(2010)分析了在随机复杂网络中的囚徒困境这一博弈的均衡解,其中主要探讨了在竞争这一大的背景中,具有不同行为的Agent 按照一定的规则与系统中的其他Agent 发生相互作用,文章中设置了一个改变策略的机制,后来讨论了系统中行为同步的条件。然而,文章中行为的设置仅基于离散的情况,并没有考虑Agent 能够随着时间在自身的最优策略轨迹上改变自身的策略结构这一情况,其次,文章仅仅考虑了系统中Agent 之间竞争的形式,没有考虑系统中Agent 之间还存在合作这一形式的相互关系,这一缺陷值得进一步分析。FRANCISCO O.REDELICO,ARACELI N.PROTO(2010)将系统中Agent 的行为考虑成一个按照非线性时间序列波动的离散的策略体系,并且这一波动是围绕一个平均场而进行的,在一个潜在的动力学体系之下,作者在BA 模型中分析了Agent 的策略及其变化特征。这一结论也是将系统中各个Agent 的关系看成竞争式的,并且,在系统拓扑结构变化过程中,其优先连接机制也是按照度的大小而设置的,并没有考虑Agent 的“强弱”,这就使得这一研究的准确性失色不少。Mathias Staudigi(2010)提出了一个在异质随机图中的贝叶斯博弈,在他的模型中,设定在静态结构上,系统中各个博弈方按照贝叶斯博弈的方式进行;在动态结构上,设定系统按照异质随机图的形式进行变化,各个博弈方在变化过程中按照异质随机图的演化机制进行交互。他分析了系统中博弈者数量增大以及外部噪声减少时系统的总体特征,认为这两方面的结果趋于一致。Siegfried Berninghaus(2010)也分析了在随机图中的较为简单的随机动态博弈,他将这一随机图模型描述为一个随机过程,然后将随机博弈也描述成一个随机过程,并将二者进行耦合,成为需要研究的新的随机过程,然后通过分析这一随机过程的变化,从而确定了系统最优解的演化情况。从某种意义上讲,上述研究的对象比较接近于管理复杂系统的特征,其结论中所涉及的Agent 策略的分布也较为准确、客观地描述了Agent 的行为。然而,这些研究仍然没有针对系统中有多个局域,以及这些局域的结构随时间随机动态变化这一事实。并且,该结果所针对的贝叶斯这一离散形式的博弈也仅仅说明了在某一连续博弈下的特殊结果,使其科学价值失色不少。

在这一领域中,国内外的研究结果还是比较少的,就目前的研究成果而言,这些成果还不能真正描述复杂系统中聚集与动态性等特点,也没有将在聚集体内的博弈与聚集体之间的博弈区分开来,从而使得这些研究成果存在一定的缺陷,这一问题将是本研究的主要目标,从这个角度上讲,这一问题的研究具有很强的创新性。

本文将采用确定静态过程中的自适应博弈所对应的随机过程,以及随机复杂网络所对应的随机过程,并将二者进行耦合,对所耦合的随机过程进行分析,确定系统的均衡最优状态以及系统的演化过程,以得到符合复杂管理系统的结论。

前面曾经提到,当系统受到攻击时,系统可能崩溃。由于所研究的复杂系统是Agent 连续而又随机的行为与系统拓扑结构共演化的复杂系统,这就使得系统逾渗临界状态这一研究显得非常困难,目前就对这一演化复杂系统临界状态的研究,还没有一定的成果进行支持。但是退一步讲,就Boolean 博弈体系下系统临界状态的研究,目前确有一定的研究成果。这些研究成果主要针对的是系统中只有一个局域的情况,大量的文献研究认为,无标度的随机复杂网络在随机攻击下表现出鲁棒性的特征,在蓄意攻击下,系统表现出脆弱性的特征,如BELA BOLLOBAS,OLIVER RIORDAN(2008)、杨孟(2010)、Ke Hu,Tao Hu,Yi Tang(2010)等众多研究表明的一样。针对系统中出现多个局域的情况,叶东海、蒋国平、宋玉蓉(2010)分析了在这一多局域系统中,当系统中的Agent 被删除后系统崩溃的情况。结论认为,多局域世界的随机复杂网络的临界情况基本上与单一局域随机复杂网络的差不多,其区别仅仅在于系统中幂指数的大小。正如前所述,目前的研究中,即使是蓄意删除Agent 时,也是按照Agent 的度大小来进行的,而不是依赖于Agent 的强度。因此,这一结论也需要进一步拓展才能准确地应用。Gourab Ghoshal,A.-L.Barabasi(2011)将银行中业务及其运行过程抽象成一个随机复杂网络,文章分析了不同的节点受到攻击之后银行系统的情况,得到了类似的结论。

总之,基于Agent 在随机复杂网络中博弈收益的系统随机攻击与蓄意攻击相关的研究成果很少,目前的主要研究是针对与Boolean 博弈的情况,尽管现在已经有一些好的结论拓展到了在加权随机复杂网络的情况,如Albert-László Barabás(2010),然而,这方面的研究成果仅仅建立在一个简单的有与无的基础之上的,显然,这一结果不能满足有差异的Agent 最优策略对应的收益为核心而设计的Agent 行为与多局域世界随机复杂网络共演化的复杂管理系统这一情况。并且,目前的研究成果围绕的大多是系统中仅有一个局域的情况,没有考虑系统中有多个局域的情况,这与实际的经济与管理系统有点出入。在本研究中将在对应Agent 在短的time-scale 中的收益的吸引子作为在这一确定结构上Agent 的收益,并在系统蓄意攻击过程中,考虑这些Agent 收益大小,删除收益最大的一些Agent 之后,考虑系统的连通程度,从而得到系统逾渗的临界状态。这一研究将Boolean 博弈以及单一局域的结果拓展到有差异的自适应博弈以及多局域的情况上。

四、个体规则驱动的群体行为复杂性涌现规律及系统临界状态的研究思路及总体设想

首先,需要强调的是,本文研究的系统具有如下特征:

(1)由于Agent 之间的相互作用,系统中存在不同的子系统。从宏观上看这些子系统足够小,使得系统中包括了足够多的子系统;从微观上看这些子系统足够大,使得子系统内含有一定数量相互作用的Agent。

(2)在短的time-scale 中,处于不同子系统之间的Agent 之间的相互作用关系为非合作自适应博弈,而处于同一子系统内的Agent 之间的相互作用是合作自适应博弈,且博弈的状态、特征与性质由系统的拓扑结构影响。子系统内的合作自适应博弈使得该子系统内Agent 行为同步,子系统间Agent 的非合作自适应博弈使得系统内Agent 行为不同步。

(3)在长的time-scale 中,由于Agent 的智能性、自治性和社会性,在优先连接、增长和衰退三个机制下,Agent 根据系统状态自适应地调节博弈的局部拓扑结构,主要表现为调整自身的行为、与同一子系统内的新Agent 创建博弈关系、与不同子系统内的新Agent 创建博弈关系、断开旧有的博弈关系、与新进入系统的成员创建博弈关系、退出系统等六种行为。

(4)系统内Agent 根据环境特征适应性的调整自身的行为,且涌现出来的系统属性对环境有一定的非线性影响作用。

本文主要研究具有下述性质的七个系统:个体数量较多,个体行为规则比较单一,策略选择机制较为简单;个体数量较多,个体行为规则比较简单,策略选择机制较为复杂;个体数量较多,个体行为规则比较复杂,策略选择机制较为简单;个体数量较多,个体行为规则较为复杂,策略选择机制较为复杂;个体数量较少,个体行为规则较为单一,策略选择机制较为复杂;个体数量较少,个体行为规则比较复杂,策略选择机制较为简单;个体数量较少,个体行为规则较为复杂,策略选择机制较为复杂。

(一)真实系统的分析

经过对真实的自然领域与社会领域的各类系统进行分析,通过系统调查、分析的方法确定前述提到的七类系统的共性,并确定系统的边界、系统内个体的类型以及个体之间相互作用关系所满足的自适应方程特点,确定系统的各种因素,包括可控因素与不可控因素、重要因素与次要因素,并确定能够描述各类系统特征的序参量,据此将这些系统进行类比,抽象出前述提到的七类系统的共性。

(二)个体驱动的复杂自适应系统模型构建

为了对这一系统进行比较详细的分析,需要构造一个个体行为与局部结构共演化的复杂自适应系统模型来刻画这一系统的特征,首先,让我们给出时空不同粒度scale 的基本假设。

空间scale 中分割及Agent 行为的假设:

(1)微观上,假定同一子系统每一Agent 知道系统中的所有信息;任何一个Agent 不能与所有人相互作用,而只能与其博弈半径内子集内的Agent 相互作用,且其最优策略依赖于系统/局部的结构。同一子系统内的Agent,从更高级的层面上看,是同质Agent,且他们之间的关系是合作自适应博弈。不同子系统中的Agent 属于异质Agent,他们之间的相互作用关系为合作自适应博弈。

(2)宏观上各个子系统实际上是由子系统内同质Agent 通过相互作用涌现出来的Super-Agent,各个Super-Agent 属于异质Agent,他们之间的相互作用非合作自适应博弈。

时间scale 中的长短分割及Agent 行为的假设:

(1)在短的time-scale 中,Agent 之间的关系为自适应博弈,最优解取决于系统的结构、环境特征、博弈半径内其他Agent 的策略及自身的历史策略。

(2)在长的time-scale 中,由于Agent 的智能性、社会性和自治性的作用,Agent 能够自主地选择与调整博弈的对象,使得系统结构不断演化,从而形成以优先连接与增长两个机制共同作用的六个子过程:调整Agent 自身的行为、与同一子系统内的新Agent 创建博弈关系、与不同子系统内的新Agent 创建博弈关系、断开旧有的博弈关系、与新进入系统的成员创建博弈关系、退出系统。

这一模型,总共有两个相互嵌套的模型,其中一个是实验模型,另一个是理论模型。下面依次给出实验模型与理论模型构建的基本思路。

1.实验模型

对实体系统大量调研,确定系统中Agent 的种类、性质;通过实证分析确定各类同种性质Agent 的行为规则;然后在Repast 平台上构建相应的复杂自适应系统实验模型,通过大量多次运行实验模型,获得对应的实验数据;将这些实验结果进行对比,通过归纳法确定该系统运作过程所涌现出来的规律,并分析该规律的特征、原因;对于奇异结果,分析其产生原因以及这一偶然结果的性质,并分析其转化为必然结果的原因。试图通过这些研究,分析七种系统的演化规律,以及系统内部运作参数、外部控制向量、外部扰动对于这些系统演化过程的影响状况。实验获得不同参数(系统内部运作参数、外部控制向量、外部扰动)下系统运作的数据,以用于理论模型的构建与解析。

2.复杂自适应理论模型的构建及系统识别、参数估计

首先,应该根据系统的特点,以及系统中异质Agent 的性质、系统结构,构建同一子系统中同质Agent 相互作用的合作自适应博弈模型,以及不同子系统之间异质Agent 相互作用的非合作自适应博弈模型。大致的做法应该是:对于同一子系统内的同质Agent 的合作自适应博弈模型来说,首先在集体理性约束下以这一子系统为目标,确定子系统收益最大对应的条件,然后在个体理性约束条件下确定子系统内各个Agent 的收益合理分配情况,从而协调子系统内Agent 之间的冲突。对于不同子系统间Agent 之间的非合作自适应博弈,构造对应的多人非合作自适应博弈模型。进一步来说,Agent 的自适应博弈中使其行为依赖于自身的历史行为、自身的局部结构、对手的行为、环境的特征,其行为集合Ht可以定义为Ht{(m(0),h(0);(m(1),h(1));……(m(t-1),h(t-1))},Agent 行为由策略机制m(t)与行为h(t)决定,在多局域世界图中所定义的博弈半径r所描述的Agent 在k 步有限记忆状态下的策略m(t+1)=f(m(t-k +1),h(t-k +1);…;m(t-1),h(t-1);m(t),h(t))描述了Agent 的智能性与社会性。利用这一模型,分析当系统结构确定时,系统中各个Agent 之间相互作用为合作/非合作自适应博弈下的依赖于自身历史策略、直接作用的Agent 的策略、环境的特征等条件下的最优策略。

其次,构建一个随机多局域世界复杂网络中的多Agent 博弈模型,这一模型能够完全解释在长的time-scale 下各个Agent 自主调整自身的博弈对象的结构,也就是能够描述Agent 在优先连接与增长机制下的最优行为及选择机制,即Agent可以根据经验有选择性地选择相互作用对象,以使自身收益达到预期目标。为了实现这一目标,需要分析在短的time-scale 中系统的最优策略的稳定性及收敛的吸引子,并将其确定为在长的time-scale 中对应的连续时间点的最优策略的初始值。将Agent 的行为、收益、局部结构等元素考虑为系统的状态,并且确定六个子过程发生的时变概率,以及这六个子过程的作用规则,构建一个受到外部环境影响且系统行为反馈于环境的复杂自适应系统模型,这一模型考虑了Agent 自身行为、相互作用Agent 的行为、系统结构等变量的复杂自适应系统理论模型,并将其转换成一个连续时间的随机过程模型。分析这一随机过程,确定该过程的特征及统计规律,以描述在环境干扰下Agent 修订自身行为以及有意识地选择合作或竞争者的智能性行为,从而从根本上描述系统。

(三)个体规则驱动下群体行为的演化规律

为了得到个体规则驱动下群体行为的演化规律,需要根据个体规则驱动的复杂自适应系统的类型,确定对应的Agent 行为的复杂程度。针对同一类型系统,抽象出对应的Agent 种类及其性质,并且确定这些理性Agent 与其他理性Agent 博弈的受到自身历史行为、邻居行为、环境特点影响的行为规则及对应的特征,确定非理性Agent 的分布形式以及其行为的确定规则。为了实现这一点,首先对各种实体系统进行定性分析,确定实体系统的一些状态变量。对这些系统进行调查分析,获取实体系统运行过程状态的截面数据以及历史数据。将这些调查的系统进行归类,确定某一类系统的性质。然后归纳出同一类型系统中Agent 的种类及其结构,包括异质Agent 的种类及他们行为的差异性,以及理性Agent 与非理性Agent 的分布情况。最后通过实证的方式确定Agent 行为的诱因及数学描述方式。

值得注意的是,要研究群体行为的演化规律,必须确定一个序参量,用以描述群体行为的特征。为了实现这一目标,需要通过专家综合研讨方法确定一些基本的宏观层面的变量,然后采用变量降维的方法提取一定的关键变量,使这些变量满足独立同分布的特征。其次采取定性分析的方法,将这些变量与宏观层面上的表征变量进行同比,从而确定群体行为的序参量。用以描述个体Agent 在特定规则下相互作用整个系统性质与状态的表征参变量,并能通过这一序参量描述系统。

在前期准备工作做完的基础上,需要对这一系统进行各种实验,以描述系统的变化规律。首先需要按照自下而上的方式,在Repast 平台上,根据某一类型Agent 的性质及其分布特征,构建不同的Agent,并确定各类Agent 的行为的影响因素、影响方式及对应的方程,然后构建出合适的实验模型。运行模型与实际系统表现的状态进行比较,根据差异大小调整模型,最终使其与实际一致。然后,对拟研究的复杂自适应系统进行调查,确定系统当前的状态,包括Agent 的分布特征、噪声大小、Agent 行为方程中参数的大小;确定非理性Agent 的分布特征及行为动力学,主要包括非理性Agent 的随机产生或蓄意产生的机制,行为方程及收益的状态。值得注意的是,上述这些参数直接决定着实验的结果。

随后,用随机抽样的技术确定各种类型复杂系统的研究对象,并采用实证的研究方法确定研究对象的特性,包括Agent 的种类、性质及其分布情况,包括Agent 行为调整、选择合作对象以及进入与退出规则。将这些系统的性质用对应的参数描述出来,并就任何一种对象进行大量的实验,归纳实验结果所涌现出来的规律及出现的原因,并进一步分析偶然现象的原因。依次获得特定机制下群体行为的演化过程,通过不断地修订机制,不断试验,可以将其进行归纳,形成演化规律。

最后,需要对这些实验得到的结果进行归纳,并进一步得到理论上的规律及这些规律所使用的条件,以发现系统运行过程中Agent 最优策略的分布特征,为系统最优策略的制定提供理论基础。主要包括下面两个不同time-scale 的解析:

1.首先对系统中的任何一个局域中的Agent进行调查、统计,确定各个Agent 行为所对应的参数,从而确定对应的合作自适应博弈的模型,对该模型进行求解,确定局域收益最大的最优策略;然后再将所设计的调整后动态Shapley 收益分配向量作为收益分配机制,以达到局域内Agent 行为的同步,从而确定出个体的最优收益。其次,将各个局域看成一个整体,考虑各个局域之间的非合作自适应博弈,确定非合作自适应博弈的Nash 均衡解。最后在合作/非合作自适应博弈最优策略及其最佳收益确定的前提下,构造一个非线性算子,使得局域内Agent 的合作自适应博弈的Pareto最优策略轨迹与局域之间Super-Agent 之间非合作自适应博弈的Nash 最优策略轨迹有效地耦合在一起,从而确定系统中Agent 的最优策略轨迹及相应的收益特征。随即讨论了这一最优策略轨迹的收敛性,确定了这一短time-scale 的确定系统拓扑结构内最优策略轨迹的吸引子。通过对自适应博弈的解析,分析确定系统结构中多Agent博弈的最优策略的存在性及其稳定性,以及是否能在这一短的time-scale 中收敛到一个确定吸引子的条件。

2.首先考虑短的time-scale 中系统的最优策略的吸引子,并将其作为下一个短time-scale最优策略的初始值(吸引子可以从宏观上看成短的time-scale 被压缩成一个点所对应的长的time-scale 的策略,下一个策略由优先连接与增长机制所决定)。其次,在长的time-scale 中,将Agent 相互作为的拓扑空间结构、Agent 行为、环境特征综合考虑形成一个行为—结构共演化的随机过程,针对复杂管理系统的特征,将这一随机过程分成了Agent 行为更新、在同一局域内创建新的相互作用、与其他局域内Agent 创建新的相互作用、删除系统已有的相互作用、与新进入系统的Agent 建立相互作用、删除系统中的Agent 等六个子过程,将这六个子过程通过以Agent 收益驱动的优先连接机制与易变机制支配下形成的在长的time-scale 中对应的总随机过程,分析这一共演化过程的分布特征,从而确定系统中最优策略轨迹吸引子的分布特征。通过解析得到在随机结构下系统中Agent 最优策略的不变分布特征,并通过这一特征,分析在某一初始状态下,系统中Agent 特定最优策略的发生时间、持续时间以及收益分布等统计特性,从而从宏观上对个体规则驱动的复杂自适应系统进行科学在某一时间段内进行决策,也能较好地把握最优策略的转变时机。准确估计最优策略的过渡时期,进而设计出较好的策略切换机制,使得系统健康的发展。

(四)群体状态对个体行为的影响分析

主要分析系统的状态对于个体Agent 行为的影响状况,以及就某一Agent 来说,其行为的变化情况。这一部分的内容,要考虑对环境进行新的定义:所谓环境,不仅包括系统的外部环境,而且包括这一Agent 相互作为邻居以及博弈半径内Agent 的行为,包括整个系统的状态。就某一Agent而言,其自身所处的环境非常复杂,可以看成一个随着时间而不断变化的彩噪声;其行为受到多个因素的影响,并且这些影响因素的重要性随着时间的变化,最初影响系统发生变化的最为关键的因素,在经过一段时间后个人行为达到某稳态之后,这些关键因素无论变化多大都不会影响个人行为的选择,反而是那些最初看起来微不足道的因素变化,却决定着Agent 的行为,这也证实了弱连接的强度这一公理;并且个人的行为受到环境的影响异常敏感。这种条件下对某一Agent 行为的影响就极为有趣。

1.群体状态对个体行为影响的实验

根据七种系统的特性,确定各种系统中Agent的种类以及不同Agent 的性质,据此性质,在实验中构造出同一种Agent 不同性质的行为,并合理设置环境的属性,构造出同一Agent 的实验模型。修订环境的参数,并多次运行这一模型,分析所出现的结果,从而获知群体状态对个体行为的影响情况。

2.群体状态对个体行为影响的理论解析

构建一个自适应系统理论模型,

其最简单的线性方式为

其中,随机矩阵Am(t)×n(t),Bm(t)×n(t)可观,随机矩阵Cm(t)×n(t),Dm(t)×n(t)可控,四个随机矩阵均镇定。环境噪声是系统状态x(t)的函数。

这一方程中,影响因素所作用的变量结构n(t)就表明了个人行为的影响因素随机变化情况,这一线性模型的求解异常复杂。尽管如此,这一线性化的方程显然难以解释非线性的个体行为的特性,因此,真正的个体行为在群体状态下性质及特征的解析难度更大。

对于简单的线性系统模型,首要的就是系统辨识,然后对这一系统的参数进行估计,通过解析确定Agent 行为,以及行为的时变随机稳定性。对于非线性系统模型,我们将在特殊条件下对其进行线性化处理,再进行解析。通过得到的结果分析群体状态对个体行为的影响情况。

(五)个体规则驱动的复杂自适应系统的临界条件

确定个体规则的复杂自适应系统在受到外部环境的干扰时,系统中一些Agent 被移出系统,从而造成系统崩溃的临界条件;或者是系统在增长过程中的迅速成长的临界条件。

1.Agent 行为与局部拓扑结构共演化复杂自适应系统在随机攻击下系统逾渗的临界状态

(1)在个体规则驱动的复杂自适应系统实验模型中设定Agent 随机被删除的机制,然后通过不断修订Agent 的删除概率且反复运行该实验模型,分析系统结构是否断裂,从而判断系统的临界状态;一旦确定了临界状态,则不断反复实验,分析临界状态下系统的性质、特征与状态的变化情况。以通过实验确定系统受到随机攻击时崩溃的临界值以及系统在随机攻击下表现出来的鲁棒性大小。

(2)构建一个随机删除Agent 的离散模型,并构造出完全耦合的连续性随机模型,利用逾渗理论分析系统仅存在一个大组分且仅仅能保持连通状态时的临界攻击概率,并分析这一概率下系统的状态,包括系统的结构、Agent 的策略以及环境的噪声大小。通过理论解析,将实验结果归纳出系统受到随机攻击时崩溃的临界值以及系统在随机攻击下表现出来的鲁棒性大小。

2.Agent 行为与局部拓扑结构共演化复杂自适应系统在蓄意攻击下系统逾渗的临界状态

(1)在个体规则驱动的复杂自适应系统实验模型中设定Agent 按照收益从大到小被删除的机制,然后通过不断修订Agent 的删除概率且反复运行该实验模型,分析系统的脆弱性。并根据系统结构是否断裂的情况判断系统的临界状态;一旦确定了临界状态,则不断反复实验,分析系统处于临界状态之下系统的不同相内所涌现出来的性质、特征与状态变化情况,并设置合理的机制,确保系统能够按照我们预想的目标运行——即对于需要消除的系统迅速使其崩溃,对于需要培养的系统迅速使其增长。通过实验确定系统受到蓄意攻击时崩溃的临界值以及系统在随机攻击下表现出来的临界性。

(2)构建一个蓄意删除Agent 的离散模型,并构造出完全耦合的连续性随机模型,利用逾渗理论分析系统中Agent 按照收益从小到大被删除时系统结构的变化情况,以及系统仅存在一个大组分且仅仅能保持连通状态时的临界攻击概率,并分析这一概率下系统的状态,包括系统的结构、Agent 的策略以及环境的噪声大小,并就此设置合理的机制,确保系统能够按照我们预想的目标运行——即对于需要消除的系统迅速使其崩溃,对于需要培养的系统迅速使其增长。通过理论解析,将实验结果归纳出系统受到蓄意攻击时崩溃的临界值以及系统在随机攻击下表现出来的临界性。

五、结论及未来的研究展望

本研究主要采取的复杂自适应系统的研究思想,将大部分现实组织抽象成七种不同类型的复杂自适应系统,并分别从空间上和时间上将这些复杂自适应系统进行分割。

(1)从空间上按照“物以类聚,人以群分”的思想分割成不同的子系统,每一个子系统中的个体行为虽然存在差异性,但本质都是为子系统收益最大而合作;而不同子系统之间的个体之间由于利益冲突,他们之间存在很大程度的冲突。

(2)从时间上将系统运行过程分割成短的time-scale 和长的time-scale 两种,假定在短的time-scale 中系统个体之间相互作用并没有引起系统结构发生变化,个体的相互作用在确定结构中进行;而在长的time-scale 中,个体相互作用的效果引起系统结构发生质变,个体选择相互作用的对象是有偏好的。因此,从大的空间-scale看,小的空间scale 被压缩成一个个体;从长的time-scale 看,短的time-scale 被压缩成一个时间点。

在这一研究框架下,主要将在短的time-scale 中的博弈看成多局域世界图中的自适应博弈,则在长的time-scale 可以看成多局域世界随机复杂网络中的自适应博弈。显然,无论在短的time-scale 还是长的time-scale 中,个体都是具有智能性、自治性和社会性的Agent,故此,在短的time-scale 中,由于各个Agent 相互作用的系统结构确定,在经过多次交互作用之后,系统必然达到平衡状态,此时系统中Agent 的最优策略存在且收敛到一个确定的吸引子。如果再进行博弈,则可能由于环境、个别Agent 的行为导致系统结构突变。当time-scale 较大时,由于复杂自适应系统的特性,Agent 可以通过优先连接确定合适的交互作用对象,此时系统结构发生变化。这实际上就是随机复杂网络中的自适应博弈。在这种情况下,系统中Agent 的最优策略随着时间与局部结构变化而变化,但必然满足一个分布特征。

由于Agent 的属性以及他们之间的相互作用,将导致这一复杂自适应系统必然满足无标度特性,也就是说,在受到随机攻击或者随机控制的情况下,系统满足鲁棒性特点,既不会突然崩溃也不会突然增长;当受到蓄意攻击或蓄意控制的情况下,系统存在一个临界点,当攻击或控制程度高于这一临界点时,系统突然崩溃或突然增长,当攻击或控制程度低于这一临界点时,系统呈现出鲁棒性特点,不会突然崩溃或突然增长;当攻击或者控制的程度正好处在临界点上时,系统呈现出极强的分叉或临界现象,即处于中间渐进状态,极不稳定。

由此看来,这一研究是一个大的系统工程,需要逐步研究才能实现。笔者将在未来对其进行深入的研究。

[1]Geil van Lankverld,Pieter Spronck,H.Jaap Van Den Herik,Matthias Rauterberg,Incongruity-Based Adaptive Game Balancing,Lecture Notes in Computer Science,(6048),2010,208-220.

[2]Yoav Freund Robert E.Schapire,Adaptive Game Playing Using Multiplicative Weights,Games and Economic Behavior,29:79-103.

[3]Andreas Pfeifer,Creating Adaptive Game AI in a Real Time Continuous Environment Using Neural Networks,2009,Technische Universit t Darmstadt.

[4]Sander C.J.Bakkes,Pieter H.M.Spronck,H.Jaap Van Den Herik,Opponent modelling for case-based adaptive game AI,Entertainment Computing 1(2009)27 37.

[5]Emanuel M.Carneiro,Adilson M.Cunha,An Adaptive Game AI Architecture,Proceedings of SBGames 2012.

[6]Antonios Liapis,H'ector P.Mart'Mez,Julian Togelius,Georgios N.Yannakakis,Adaptive Game Level Creation through Rank-based Interactive Evolution,2013,http://julian.togelius.com/Liapis 2013 Adaptive.pdf.

[7]Daniel Burgos,Pablo Moreno,Jos Luis Sierra,Baltasar Fern ndez-Manj n,Marcus Specht,Rob Koper,Building Adaptive Game-Based Learning Resources:The Marriage of IMS Learning Design and <e-Adventure>,2012,http://www.e-ucm.es/publications/articles.html.

[8]徐长明,南晓斐,王 骄,徐心和.中国象棋机器博弈的时间自适应分配策略研究[J].智能系统学报,2006,1(2):39-43.

[9]Yifen MU,Lei GUO,Optimization and Identification in a Non-equilibrium Dynamic Game,Decision and Control,2009 held jointly with the 2009 28th Chinese Control Conference.CDC/CCC 2009.Proceedings of the 48th IEEE Conference,5750-5755.

[10]Istv n Szita,Marc Ponsen,and Pieter Spronck,KEEPING ADAPTIVE GAME AI INTERESTING,2008,http:// ticc.uvt.nl / ~pspronck / pubs / CGAMES08S zita.pdf.

[11]Jonathan Tremblay,Bruno Bouchard,Abdenour Bouzouane,ADAPTIVE GAME MECHANICS FOR LEARNING PURPOSES:Making Serious Games Playable and Fun,2008,Http://Web.Eotvos.Elte.Hu/Szityu/Papers/Szita Ponsen Spronck 08 Interesting.pdf.

[12]陈光亚.优化与均衡的等价性[J].系统科学与数学,2009,29(11):1441-1446.

[13]Chuan Shi.a Genetic Algorithm for Detecting Communities in Large-Scale Complex Networks[J].Advances in Complex Systems,2010,13(1):3-17.

[14]Fang Du,Qi Xuan,Tie-Jun Wu.One-To-Many Node Matching Between Complex Networks[J].Advances in Complex Systems,2010,13(6):725-739.

[15]M.Catanzaro,M.Bogu,R.Pastor-Satorras.Reaction-diffusion Processes in Scale-free Networks[A].In:Bela Bollobas,Robert Kozma,Deaso Miklos.Handbook of Large-Scale Random Networks[M],Springer,2008:203-238.

[16]P.Bagrow,D.Wang,A.-L.Barabasi.Collective Response of Human Populations to Large-Scale Emergencies[J].PLoS One,2011,6(3):1-8.

[17]C.A.Hidalgo,N.Blumm,A.-L.Barab si,etl.A dynamic network approach for the study of human phenotypes[J].PLoS Computational Biology,2009,5(4):1-11.

[18]高红伟,王桂熙,杨慧敬,等.网格状有向图上的部分合作对策[J].应用数学学报,2010,33(1):161-170.

[19]D.Li,S.Havlin,S.Boccaletti.Entrainment Competition In Complex Networks[J].International Journal of Bifurcation and Chaos,2010,20(3):827-833.

[20]Francisco O.Redelico,Araceli N.Proto.Nonlinear Time Series Into Complex Networks Scheme[J].International Journal of Bifurcation and Chaos,2010,20(2):413-417.

[21]Mathias Staudigi.Co-evolutionary Dynamics and Bayesian Interaction Games.Working Paper,2010.

[22]Siegfried Berninghaus,Hans Haller.Local Interaction on Random Graphs[J].Games,2010,1,262-285.

[23]Bela Bollobas,Oliver Riordan.Percolation[M].Cambridge University Press,2006.

[24]杨 孟,傅新楚,吴庆初.复杂网络上带传播媒介SIS模型的全局稳定性[J].系统工程学报,2010,25(6):767-773.

[25]Ke Hu,Tao Hu,Yi Tang.Cascade Defense via Control of the Fluxes in Complex Networks[J].J.Stat.Phys.,2010,141:555-565.

[26]叶东海,蒋国平,宋玉蓉.多局域世界复杂网络中的病毒传播研究[J].计算机工程,2010,36(23):130-132.

[27]Gourab Ghoshal,A.-L.Barabasi.Ranking stability and super-stable nodes in complex networks[J].Nature Communications,2011,2:1-7.

[28]Albert-L szl Barab si.The network takeover[J].Nature Physics,2010,8:14-16.

猜你喜欢

局域子系统个体
不对中转子系统耦合动力学特性研究
GSM-R基站子系统同步方案研究
关注个体防护装备
驼峰测长设备在线监测子系统的设计与应用
基于快速局域线性回归的IRAS/FY-3B大气温湿廓线反演
PET成像的高分辨率快速局域重建算法的建立
个体反思机制的缺失与救赎
How Cats See the World
尼日利亚局域光伏发电的经济性研究
基于局域波法和LSSVM的短期负荷预测