面向空天防御体系的多任务可控涌现机制研究*
2023-07-05白宗磊刘秀华白天翔孙科武
白宗磊,刘秀华,白天翔,孙科武
☞空天防御体系与武器☜
面向空天防御体系的多任务可控涌现机制研究*
白宗磊1,2,刘秀华1,2,白天翔1,2,孙科武1,2
(1.航天科工集团智能科技研究院有限公司,北京 100043; 2.航天防务智能系统与技术科研重点实验室,北京 100043)
群体智能涌现研究对于人们理解自然界规律,优化社会管理,推进知识创新有重要作用,空天防御体系为群体智能涌现提供了研究和应用的新场景。然而,空天防御体系是典型的非线性系统,系统的可控涌现面临状态空间指数爆炸、动态过程建模复杂、性能分析困难等问题。面向战场防御场景,针对空天防御体系面临的大规模目标应对、复杂任务场景适配、多任务协调配合、复杂系统设计等问题,开展了面向空天防御体系的可控涌现机制研究,探究空天防御体系的涌现机制,为提升空天防御体系的多目标应对能力、场景快速适配能力和空天防御体系要素之间的有效协调配合能力提供新视角。
群体智能涌现;空天防御体系;可控涌现;复杂系统;多智能体强化学习
0 引言
涌现(emergence)是一种自然现象,当一组简单个体的局部规则或相互作用在更高层次上产生复杂的全局行为时,就会发生涌现[1]。在涌现中,每个单体都只关注自己周围的局部信息,并根据一定的规则进行决策和行动,最终形成了整体的行为[2]。这种整体行为可以带来许多优势,如提高效率、减少误差、增强鲁棒性等[3]。
多智能体系统[4]的涌现包括基于简单规则[5]的涌现和基于群体智能[6]的涌现[7]。基于简单规则的涌现指的是每个个体均遵从简单的动作规则和交互规则,整个系统形成一个复杂网络[8],这一涌现机制广泛存在于简单的物理系统和机械结构中,以及低等生物群体中[1,8];基于群体智能的涌现是指当一群具有自适应能力和学习能力的智能体交互协作时,所表现出来的整体行为,超出了单体能力的简单加和,并且难以通过单体行为而被预测或解释[9-10]。这种涌现现象在自然界和人工系统中都非常常见,例如蚁群、神经元网络系统、人体免疫系统[1]、互联网和全球经济系统[9]等多智能体系统。
随着人工智能技术的发展,现代化设备均具有一定的通信能力和数据处理能力,支持构造多智能体系统,并基于多智能体的涌现机制来应对强动态、高复杂任务场景[11-13],如空天防御场景。然而多智能体系统是典型的非线性系统,面临状态空间指数爆炸、动态过程建模复杂、性能分析困难等问题[14-16]。
针对空天防御场景下多智能体系统面临的复杂性问题,本文研究多智能体系统模型表征方法,探究群体智能的涌现机制,设计更好的涌现算法和系统来实现多智能体系统的可控涌现,为提升空天防御系统大规模目标应对、复杂任务场景适配和多任务协调配合能力奠定基础。
1 多智能体系统模型表征
本文使用图网络模型来构建多智能体系统的协同关系,使用节点来描述单个智能体,每个点附带属性描述,抽象描述智能体的状态参数。在人类社会和经济组织中,传统的多智能体协同关系可以抽象为树状结构,各个子系统之间的交流必须通过父节点的中转。树状体系各个子组件具有内部要素紧耦合、外部要素松耦合的特性,各个子系统之间的联系必须依赖于中心节点,存在决策链路长,决策效率低的问题,难以应对强动态、高复杂的任务场景,一种自然的方案是在子系统之间建立连接,形成网络协同机制,基于多智能体系统的涌现机制来应对复杂任务。因此,本文使用图结构来建模多智能体系统的耦合关系,基于网络科学理论来分析多智能体系统的涌现现象。
研究涌现现象首先需要对研究对象进行合理建模,为了清晰地刻画多智能体的交互作用所诱导出的涌现现象,对于单个智能体要尽可能使用简单的属性来表征出个体本质的动作规律。针对典型多智能体系统,抽象3种类型的智能体作为节点,构建协同网络来建模多智能体系统。根据要素功能分为3类节点,分别为感知节点、控制节点、执行节点,将3种节点的动作规则定义如下:
(1) 感知节点(VS):该类节点具备空间感知能力,感知空间目标信息并发送给控制节点。
(2) 控制节点(VD):该类节点具备控制、判断能力,接收各类感知节点或控制节点传来的目标信息,并及时进行分析,做出决策,并以控制信息的形式传输到控制节点或执行节点。
(3) 执行节点(VJ):该类节点的功能是接收控制节点的信息,执行相应的任务。
接下来给出典型的多智能体场景示例,以此为基础进行系统建模。本场景中各型体系要素的位置为随机生成,包括感知单元、执行单元、控制单元。场景中体系要素节点的位置分布如图1所示,其中黄色点为执行单元位置、蓝色点为控制单元位置、红色点为感知单元位置。
图1 多智能体要素分布图
对于探测、通信、执行节点,按照现实条件的约束,均存在一定的有效作用范围。图2展示了部分节点的有效作用范围,以节点为圆心的圆盘内表征了智能体的有效作用范围。
图2 多智能体分布与响应范围
接下来定义系统中节点之间的协同规则:在由感知节点、控制节点、执行节点组成的多智能体网络中,各节点之间的主要关系有以下几类:
(1) 通信关系,如感知节点和控制节点之间的通信等,对应的边传输信息流;
(2) 控制关系,包括控制节点和执行节点之间的关系、控制节点之间的关系等,该关系对应的边传输控制决策信息流;
(3) 协同关系,包括信息协同、资源协同,对应的边传输控制信息流。
基于上述的连通规则,使用贪婪策略即可生成满足约束的多智能体协同网络,每个节点优先与距离最近的节点连接,生成的网络架构如图3所示。
图3 基于贪婪规则的多智能体系统架构
令表示所有节点集合,表示信息连边集合,节点和边构成的图=(,)表示多智能体系统。
如上所述,单个智能体实现的功能可以表示为节点的状态集合,包括感知、通信、控制、执行等动作,智能体间的协同关系表示为图网络模型。在系统动态运行过程中,每个节点根据外部环境和相邻节点的作用关系,可以从给定的动作集合中选取动作来执行。
多智能体系统整体涌现出的性质即为上述图网络模型所展现的性质,在动态环境中,每个节点根据动作规则和协同规则执行动作,改变自己的状态,整个体系的状态随之变化。通过协同作用,多智能体系统能够涌现出超越单个智能体性能加和的性质。而系统的涌现可以表征为系统的整体状态,如果存在某个状态能够满足所需要的性质,那么通过设定单个智能体的规则使得系统处于这一状态,便可实现系统的可控涌现。但是,整个系统的状态空间大小随着节点个数的增加而指数增加,多智能体系统具有典型的非线性性质,无法通过单个节点性质的简单叠加而推导出整个系统的性质,这使得可控涌现的研究十分困难,需要对状态空间进行详细地数学表征和研究。
2 多智能体系统涌现机制
2.1 基于简单规则的多智能体涌现机制
本节讨论多智能体系统的涌现过程,首先考虑智能体只遵从简单规则来执行动作和交互的情况。在应对环境变化过程中,智能体执行动作并进行交互,在网络模型中形成感知-决策-执行环的系统运作方式,由此刻画系统的涌现性质。
2.1.1动作规则
总体来说感知节点的动作包括感知、连接、信息传输;执行节点的动作包括接收控制信息,定位目标,执行动作;控制节点的动作包括接收感知信息、接收执行节点状态、发出控制命令等。
在整个运行过程中,3类节点遵循如下的规则建立连接,主要连接类型分为感知节点、执行节点与控制节点的连接以及控制节点之间的连接:
(1) 感知节点、执行节点动态地同控制节点建立连接关系,如果节点的连接数少于4,则会定期搜索周边的控制节点,并发送请求进行连接。在某个节点出现问题后,邻接的感知和执行节点可以迅速接入相邻的控制节点,即所有节点均会尽可能地保证接入网络。
(2) 控制节点主动与周边的控制节点建立连接,保障网络的连通性,如果相邻的控制节点出现故障,则继续搜寻新的控制节点建立连接。
如上所述,感知节点、执行节点主要从属于相邻的控制节点,而控制节点一方面可以控制相邻的感知节点、执行节点执行动作,另一方面可以与相邻的控制节点进行通信,由此构成了控制网络。
对于系统的运行逻辑,构造了可视化的3层逻辑网络展示:感知网络、控制网络、执行网络。
最上层为感知层,与相邻的控制节点相连接,并将感知信息传递给控制节点;中间层为控制节点,控制节点与相邻的控制节点间存在连接,可以相互传递信息,所有控制节点构成了整个多智能体网络;控制节点连接最下层的执行节点,控制动作执行。
首先介绍基于规则的空天防御体系框图,根据2.1节所述的构造规则,在3类节点之间可以自动生成网络架构,如图4所示,为3类节点的通信网络架构。
图4 感知、控制、执行三层网络模型
从局部来看,是相邻的控制节点控制对应范围内的感知节点、执行节点执行动作,而从全局来看,则是小范围的控制-感知-执行网络组合成一个个局部网络,然后通过控制节点构成的控制网络,实现各个局部网络之间的协作连接。
2.1.2感知-决策-执行过程
首先考虑单条感知-决策-执行链路,即针对单个目标的应对过程,然后考虑多目标的感知-决策-执行链路。感知-决策-执行链路的设计主要考虑对目标的应对策略,以及执行过程需要调动的要素。
在感知-决策-执行链路的构建过程中,最复杂的部分是如何选择合适的执行节点和信息传播路径。需要解决以下问题:
(1) 如何快速找到合适的执行节点来适配任务;
(2) 如何避免多个节点的重复工作,造成浪费。
首先设计算法来分配任务,对于任意目标,会有相应的感知设备跟踪到,并将感知信息传输给相邻的控制节点,在正常情况下,会有数个控制节点收到对应的信息,即如前所述的局部网络中,对应的控制节点具有了目标的详细信息。此时控制节点根据目标信息,确定需要转发的下一个控制节点。
如上所述为信息包的发起过程,接下来讨论传输策略,当控制节点收到信息包时,需要对信息进行分析,并按照贪心策略转发信息包,进行信息传递,直到某一台控制节点可以调动执行节点,完成对应任务,并向相邻的控制节点广播自己的执行信号,避免重复执行。
上述过程使用了贪心的协同策略,在找到第一个可行的执行节点时便下达执行命令。一方面能够有效快速应对目标;另一方面,通过全域广播执行信息,可以有效应对重复执行问题。
上述操作为单任务的应对过程,多任务使用同样的应对策略,即为每一个任务建立一个传递过程,形成一个感知-决策-执行环,在图模型中形成一条链路,每一个目标构建一条通信链路来进行处理。在对目标感知过程中,对目标进行区分编号,并通过通信算法,来按照上述方法构建通信链路,应对多任务场景。
2.1.3多智能体系统网络构建
感知节点负责感知目标信息,对于感知节点,令CNR表示与节点相连接的控制节点构成的集合,按如下步骤完成对目标的一次任务执行过程:
步骤1:如果CNR中元素个数大于0,转到步骤2,否则本次任务失败;
如上所述,在感知到目标时,通过递归地选取合适的资源,对任务进行划分,通过递归地进行任务分配来形成完整的感知-决策-执行链。
对于多目标的情况,使用向量(、)对目标=(1,2,…,T)进行标记,其中=(1,2,…,R)表示感知到的节点,向量=(1,2,…,o)表示目标的属性。根据上述目标的属性信息,可以标记唯一且确定的目标。按照上述方法,为每个目标T设计一条完整的感知-决策-执行链L,所有的链共同构成一个完整的任务网络。
2.1.4多智能体系统数学建模
本节将多智能体系统的状态空间符号化,在此基础上建模涌现过程。对于单个智能体,用有限集合{1,2,3,…}来表示智能体状态集合,其中每个元素代表智能体的一种状态。对于一个智能体,定义转换函数来描述动作规则,将当前输入值和当前的状态作为转换函数的参数,即可生成智能体的下一个状态。如果这个智能体有个输入,用个集合{1,2,…,I}表示可能的输入值。定义为1,…,I的笛卡尔积表示所有可能的输入构成的集合,即
=1×2×…×I.
例如,如果有集合1={a,b,c}和2={,},则
=1×2={(,),(,),(,),(,),(,),(,)}。
因此,智能体的转换函数定义为
:×→.
为了描述智能体的行为序列,指定()为时刻的状态,I()为时刻输入的值,那么智能体的动作可由函数确定:
(+1)=(1(),2(),…,I(),()).
同样地,给出+1时刻的输入{1(+1),2(+1),…,I(+1)},便可用函数推导出机制在+2时刻的状态(+2),以此类推,可以递归地得出机制在+3、+4等时刻的状态,从而生成连续的状态序列。这种迭代过程有效地建模了系统演化过程。
接下来考虑智能体的相互作用与连接关系,在模型的构建过程中,目标是建立一个框架,以便刻画多智能体系统的自主演化,在其中研究涌现现象和涌现的复杂性。多智能体系统的涌现现象是由受规则约束的实体相互作用产生的。使用转换函数来给出这些约束规则的形式化表示,当多个智能体相互作用时,对应的状态空间的复杂性就会和涌现紧密联系在一起。
首先定义一个智能体的集合来建模所有可能的智能体类型,称为基本因子,基本因子根据协同规则连接起来构成多智能体系统。当一个智能体的状态序列决定了另一个智能体中某一输入变量的序列值时,就说这两个智能体相互连接。通过选取集合中的智能体进行连接,构成一个相互作用的多智能体网络。
假设是由个智能体组成的集合,这些智能体的动作由转换函数1,2,…,f定义。中的智能体可能有不同的状态集、不同的输入个数。在符号中添加下标来表征智能体的可能输入
I=I1×I2×…×I(),
其中,()表示智能体的输入个数。经过扩展,智能体的转换函数f表示为
f:I×S→S.
接下来建模集合中智能体的相互作用。为了使两个智能体能够相互作用,其中一个智能体的状态应当在一定程度上决定另外一个智能体的某个输入值。这些智能体才能被耦合或者连接起来。对F中智能体的不同状态集取并集:
=1∪2∪ … ∪S。
定义接口函数g来表示智能体中的输入,对于一个和智能体连接的智能体,函数g将该智能体的状态作为初始值,就可为智能体生成输入的合法值。因此,g使用如下表达形式:
g:→I.
即在任意时刻,智能体与智能体的输入相连接:
I(t)=g(()).
通过接口函数,根据智能体在时刻的状态(),可以确定输入在时刻的输入值序列。
使用上述方法连接中的智能体,通过受限生成过程可以创建出更复杂的复杂网络,从单个智能体开始,然后再逐步达到目标。
(1) 模型生成过程可以仅包含单个智能体∈。
(2) 假设是已经建立的网络,且中的智能体有一个自由输入,将输入与中的某个其他智能体连接,即在中建立从到的新连接,就能得到新的网络'。
(3) 假设1和2是已经建立的网络,且1中的智能体有一个自由输入,那么将输入与2中的某一其他智能体连接后,输入就不再是自由的,这样一来,就会得到一个新的网络"。
(4) 通过以上3步,即可建立所有以为基础的网络。
用() 来表示网络中的智能体总数(每个智能体其实都是中的一个)。根据集合{1,2,…,()},可以给网络中的每个智能体分配一个唯一的索引(地址)。用下面的方法创建这种索引。
(1) 若网络只包含单个智能体∈,则的索引就是=1。
(2) 若网络'是通过将中的一个自由输入和中的某个智能体连接在一起形成的,则索引不变。
(3) 若网络是通过将1中的一个自由输入与2中的一个智能体连接在一起形成的,则1中的索引不变,2中的每个索引都增加(1)以生成一个新的索引'=+(1),即(')(1)+(2)。
在多智能体网络中,如果每个智能体都有唯一索引,那么就可以用矩阵来描述网络中节点的连接和邻接情况。对于由个智能体构成的网络,令表示单个智能体的状态数量,则多智能体系统的状态空间大小为q(此处假设所有智能体状态数相同,不同的情况更加复杂,但数量级相同)。在智能体演化过程中,多智能体系统将停留在哪种状态,或者以什么样的概率分布在整个状态空间上,决定了整个系统涌现出的性质。
图5 基于规则的涌现过程示意图
网络的涌现取决于智能体的状态数,连接方法,连接数量,以及智能体之间的相互作用关系。如图5所示,给定智能体的动作规则和协同规则,即可确定系统状态空间,针对特定的任务,系统涌现出特定的动作序列,基于系统的指标评估,可以搜索最优的状态配置。在此基础上,还可以反馈到动作规则和协同规则的设计。系统的可控涌现关键在于刻画单个智能体性质与多智能体涌现之间的对应关系,从而实现可控涌现。
2.2 基于强化学习的多智能体涌现机制
接下来考虑基于强化学习的多智能体系统可控涌现。此时每个装备建模为一个智能体,可以根据环境状态而自适应地执行相应的动作。多智能体系统的可控涌现表现为对智能体策略的构建。本文将智能体的策略模型建模为强化学习过程,每个智能体可以根据环境变化、其他智能体的状态变化,通过强化学习策略来选择自己的动作。同样地,为系统设置整体的性能指标,并以此为基础构建强化学习的目标函数。基于目标函数构建智能体的强化学习策略,通过强化学习来得出智能体的动作序列,实现多智能体系统的可控涌现。
对于由个智能体构成的网络,如图6所示,在多智能体网络运行过程中,任意智能体可以观测相邻智能体的状态和环境状态,以及通过通信得到的部分其他智能体的状态,获得观测o,并遵从一定的执行策略,执行动作a,并获得对应的奖励r。在智能体演化过程中,智能复杂网络将停留在哪种状态,或者以什么样的概率分布在整个状态空间上,决定了整个复杂网络呈现出的性质。而网络的稳定态则取决于智能体的策略,交互方法,连接数量等。基于强化学习来构建智能体的执行策略,实现网络的涌现性质。
此外,智能复杂系统由于单个个体存在智能策略,可能需要长时间的博弈过程才能形成稳态,在构建过程中需要考虑智能策略的反应时间(即能在多长时间能产生决策),整体系统博弈的平衡状态,博弈平衡需要的时间(多长时间能够演化到平衡态),整体性能指标(同简单规则的情况相同,使用图模型的量化指标来表征)。
图6 多智能体与同一环境交互示意图
马尔可夫决策模型(Markov decision process)为解决多智能协同涌现问题提供了技术基础,如多智能体马尔可夫决策模型(M-MDPs),去中心化的马尔可夫决策模型(DEC-MDPs)。由于实际环境通常是部分可观测的,所以在多智能体决策过程中一般使用去中心化的部分可观测马尔可夫决策模型(DEC-POMDPs),其目标是使独立智能体在协作完成一项共同任务时最大化整个系统的报酬。本文使用基于马尔可夫决策模型的多智能体深度强化学习方法,构建空天防御体系的分布式决策模型,其可以直接输入高维状态信息,获取分布式实时决策,在应对大规模来袭目标,实时动态防御决策过程中有出色的表现,是解决复杂系统可控涌现的有效方法。
无中心式的多智能体系统作为典型的分布式协同系统,其中每个智能体都要在有限时间内,在信息部分可观测约束条件下进行最优决策行为选择。根据是否完全可观测,可以分2种情况设计模型:
(1) 完全可观测的多智能体马尔可夫决策模型
对于MMDPs模型中每一个智能体而言,其行为决策是相对独立的,因此求解一个MMDPs问题等价于个MDP的联合求解。在经典的单智能体MDP中,求解MDP就是选择一条合适的策略最大化智能体的决策回报。然而,求解一个MMDPs问题需要寻找一个最大效用值的联合策略,多智能体系统面临状态空间复杂的问题,具有典型非线性性质,使用简单策略难以实现对系统的可控涌现。
(2) 部分可观测的多智能体马尔可夫决策模型
在现实世界,单个智能体往往只能观测到部分环境和邻接智能体的状态,因此,一般使用部分可观测马尔可夫决策过程(partial observable MDP,POMDP)进行建模,相比于完全可观测的情况,部分观测难以估测环境的实际状态,策略执行受限,系统的可控涌现更加困难。在多智能体问题中,如果每个智能体观测到环境的局部信息,并且根据局部信息进行决策,这类问题称为去中心化POMDP问题(decentralized POMDP,Dec-POMDP)。图7展示了Dec-POMDP随时间演进的过程。
图7 去中心化的部分可观测马尔可夫过程
在多智能体系统中有多个智能体进行决策,且智能体之间相互影响,共同改变环境的状态,系统的可控涌现需要更高的时间复杂度,主要表现为:
(1) 智能体之间有竞争关系、合作关系等,要考虑环境、己方、敌方、中立方的行动、意图及状态;
(2) 在强化学习中,需要存储状态值函数或动作-状态值函数,以及智能体间的神经元网络联结模式,因此状态空间变大,联结动作空间随智能体数量指数增长,系统维度高,计算复杂。
(3) 多智能体系统中每个智能体的任务不同,但彼此之间又相互耦合影响,因此目标奖励的确定困难。
针对上述问题,可以将多智能体系统的可控涌现问题建模为一个多约束、多目标的优化问题,并采用群智优化方法求解该优化问题。每个智能体独立做出动作选择,并行地在多智能体系统的状态空间中进行大样本探索,通过构建搜索策略和评估指标,不断探索在适应度函数(优化目标)上优势的动作策略。每个智能体的动作序列可以建模为马尔可夫决策过程。
与传统优化算法相比,基于仿生学的群体智能优化算法本质上是一种概率并行搜索算法。其寻优速度更快,能更有效地搜索复杂优化问题的全局最优解。全局收敛性好,在包括寻找函数最优值、求解旅行商问题、目标分配问题、多处理机调度问题、有依赖的优化问题和作业调度问题等领域得到广泛的应用。
群智优化过程可以使用遗传算法。该方法是一种基于自然选择过程机制的搜索优化算法,通过模仿“适者生存”的概念,模拟了一个自然系统中观察到的运行过程,强者倾向于适应和生存,而弱者倾向于死亡。其中群体中的成员根据其解决方案的适合度进行排名。在遗传算法中,通过交叉、繁殖和突变等特定的遗传算子形成新的种群。在每一代中,一个新的智能体是利用来自前一个群体的最适策略的信息产生的。遗传算法生成可行解的初始种群,并以各种方式进行重新组合,搜索到状态空间中更优的区域。每一个可行的解决方案都被编码为染色体,也被称为基因型,每一条染色体都将通过适应度函数(评估或目标函数)求得一个适应度度量。该算法由3个主要过程组成,即繁殖、交叉和突变。繁殖选择种群中最适的候选者,而交叉则是将最适的染色体结合并传递优良基因给下一代的过程,突变则改变染色体中的一些基因。结合适应度评估即可对复杂优化问题求解。
3 结束语
在单智能体系统中,智能体只需要考虑环境的变化,而在多智能体强化学习中,还需要考虑多个智能体的交互和相互影响,动态过程更加复杂,智能体的最优策略可能随着其他智能体策略的变化而变化,这给算法的收敛性带来极大地影响,学习速度减慢。
多智能体系统的可控涌现目前还存在诸多难点,对于协同关系的设定,竞争规则的改变将导致宏观上的涌现性质,而指数大小的状态空间导致了可控涌现在实现上的困难。在对状态空间的搜索寻优过程中,多智能体系统面临非平稳环境、维度爆炸、多智能体信用分配、系统全局探索等问题的挑战。
针对多智能体系统的涌现性质,本文给出了基于复杂网络的多智能体系统建模;在此基础上,基于复杂系统理论来分析系统的涌现性能;应用强化学习方法来搜索寻找最优的动作规则和协同规则,构建匹配相应任务的多智能体系统。
多智能体系统涌现性质研究的难点在于系统的复杂性,系统的状态空间随着装备数量增加而指数增大,对系统的模拟计算与性质分析均十分复杂。此外,在环境发生变化或者系统的网络拓扑结构发生改变后,多智能体系统的演化过程可能需要很长时间,难以快速达到平衡稳态,涌现出期望的性质。因此,需要对系统的收敛速率进行分析,而这个分析同样受制于系统的复杂性,十分困难。
针对上述问题,一种解决方案是通过指数图模型来建模状态空间,通过分析状态空间的连通性来度量收敛速度,在此基础上,设计动作规则和协同规则来获取高连通的体系架构,提升体系的快速收敛能力,保障体系的快速涌现。此外,本文给出了基于规则的协同方法、基于群智优化的协同方法的设计与验证。在下一步研究中,通过进一步优化动作规则、协同规则,以及智能体的执行策略,可以增强系统的涌现效率,实现更好的涌现效果。
[1] LEITÃO P, KARNOUSKOS S. Industrial Agents: Emerging Applications of Software Agents in Industry[M]. Amsterdam, Netherlands: Elsevier, 2015.
[2] KUBERA Y, MATHIEU P, PICAULT S. Everything Can Be Agent![C]∥Proceedings of the 9th International Conference on Autonomous Agents and Multiagent Systems. Richland, SC: International Foundation for Autonomous Agents and Multiagent Systems, 2010: 1547-1548.
[3] CUCKER F, SMALE S. On the Mathematics of Emergence[J]. Japanese Journal of Mathematics, 2007, 2(1): 197-227.
[4] 王涵, 俞扬, 姜远. 基于通信的多智能体强化学习进展综述[J]. 中国科学(信息科学), 2022, 52(5): 742-764.
WANG Han, YU Yang, JIANG Yuan. Review of the Progress of Communication-Based Multi-agent Reinforcement Learning[J]. Scientia Sinica(Informationis), 2022, 52(5): 742-764.
[5] NIAZI M, HUSSAIN A. Agent-Based Computing from Multi-agent Systems to Agent-Based Models: A Visual Survey[J]. Scientometrics, 2011, 89(2): 479-499.
[6] PANAIT L, LUKE S. Cooperative Multi-agent Learning: The State of the Art[J]. Autonomous Agents and Multi-agent Systems, 2005, 11(3): 387-434.
[7] ANDERSON P W. More is Different[J]. Science, 1972, 177(4047): 393-396.
[8] BOGUÑÁ M, BONAMASSA I, DE DOMENICO M, et al. Network Geometry[J]. Nature Reviews Physics, 2021, 3(2): 114-135.
[9] WOOLDRIDGE M. An Introduction to Multi Agent Systems[M].John Wiley & Sons, 2002: 366.
[10] ROGERS A, DAVID E, JENNINGS N R, et al. The Effects of Proxy Bidding and Minimum Bid Increments Within eBay Auctions[J]. ACM Transactions on the Web, 2007, 1(2): 9-es.
[11] 郑健, 陈建, 朱琨. 基于多智能体强化学习的无人集群协同设计[J]. 指挥信息系统与技术, 2020, 11(6): 26-31.
ZHENG Jian, CHEN Jian, ZHU Kun. Unmanned Swarm Cooperative Design Based on Multi-agent Reinforcement Learning[J]. Command Information System and Technology, 2020, 11(6): 26-31.
[12] 柏晓祉. 强化学习在多智能体协同中的研究与应用[D]. 成都: 电子科技大学, 2020.
BAI Xiaozhi. Research and Application of Reinforcement Learning in Multi-agent Collaboration[D]. Chengdu: University of Electronic Science and Technology of China, 2020.
[13] 孙清. 基于强化学习的多智能体协同机制研究[D]. 杭州: 浙江工业大学, 2015.
SUN Qing. Research of Multi-agent Cooperation Mechanism Based on Reinforcement Learning[D]. Hangzhou: Zhejiang University of Technology, 2015.
[14] 陈亮, 梁宸, 张景异, 等. Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法[J]. 控制与决策, 2021, 36(1): 75-82.
CHEN Liang, LIANG Chen, ZHANG Jingyi, et al. A Multi-agent Reinforcement Learning Algorithm Based on Improved DDPG in Actor-Critic Framework[J]. Control and Decision, 2021, 36(1): 75-82.
[15] 曹雷. 基于深度强化学习的智能博弈对抗关键技术[J]. 指挥信息系统与技术, 2019, 10(5): 1-7.
CAO Lei. Key Technologies of Intelligent Game Confrontation Based on Deep Reinforcement Learning[J]. Command Information System and Technology, 2019, 10(5): 1-7.
[16] 葛志欣. 基于深度强化学习的多智能体协同决策研究[D]. 大连: 大连理工大学, 2021.
GE Zhixin. Research on Collaborative Decision of Multi-agent Based on Deep Reinforcement Learning[D]. Dalian: Dalian University of Technology, 2021.
Research on Multi-task Controllable Emergence Mechanism for Air and Space Defense System
BAIZonglei1,2,LIUXiuhua1,2,BAITianxiang1,2,SUNKewu1,2
(1.Intelligent Science & Technology Academy of CASIC,Beijing 100043,China;2.Key Lab of Aerospace Defense Intelligent System and Technology, Beijing 100043, China)
The research on the emergence of swarm intelligence plays an important role in people's understanding of the laws of nature, optimizing social management, and promoting knowledge innovation. The air and space defense system provides a new scene for the research and application of swarm intelligence. However, the aerospace defense system is a typical nonlinear system, and the controllable emergence of the system faces problems such as exponential explosion of state space, complex dynamic process model, and difficult performance analysis. Aiming at the battlefield defense scenario, this paper carries out the research on the controllable emergence mechanism of intelligent defense system for large-scale target response, complex task scenario adaptation, multi-task coordination and cooperation, and complex system design faced by the air and space defense system, explores the emergence mechanism of the air and space defense system, and provides a new perspective for improving the multi-target response capability, rapid scenario adaptation ability and effective coordination and cooperation among the elements of the air and space defense system.
emergence of swarm intelligence;air and space defense system;controllable emergence;complex system;multi-agent reinforcement learning
2023 -02 -24 ;
2023 -04 -18
国家自然科学基金(62103386);青年人才托举工程(2022QNRC001)
白宗磊(1993-),男,山东淄博人。工程师,博士,研究方向为复杂系统,多智能体系统。
通信地址:100043 北京市石景山区群明湖大街6号院 E-mail:zongleibai@163.com
10.3969/j.issn.1009-086x.2023.03.005
V19;TJ76
A
1009-086X(2023)-03-0039-10
白宗磊, 刘秀华, 白天翔, 等.面向空天防御体系的多任务可控涌现机制研究[J].现代防御技术,2023,51(3):39-48.
Reference format:BAI Zonglei,LIU Xiuhua,BAI Tianxiang,et al.Research on Multi-task Controllable Emergence Mechanism for Air and Space Defense System[J].Modern Defence Technology,2023,51(3):39-48.