面向无人集群目标分配的层次化信息传播方法

2023-11-27沈宇婷孟新高跃清

兵工学报 2023年10期

沈宇婷, 孟新, 高跃清

(1.中国科学院国家空间科学中心, 北京 100190; 2.中国科学院大学, 北京 100049;3.中国电子科技集团公司第五十四研究所, 河北石家庄 050081;4.河北省智能化信息感知与处理重点实验室, 河北石家庄 050081)

0 引言

无人集群在实时作业过程中受到潜在目标源刺激后,需要根据时域、空域、频域等多个维度信息完成集群能力部署调配的控制决策。当前无人系统的控制与信息决策等方面的研究已取得了丰硕的成果,发展了中心式、分布式以及仿生类等大量集群规划与控制算法。

中心式主要有固定后方控制、集群固定控制中枢,或集群随机控制中心的方式,首要和必须具备的就是全局信息或一定范围内足量局域信息的输入。而往往受机间通信链路的状态、自然条件的变化、其他辐射源干扰等因素的影响,中心节点控制的方式很难在任何情况下都能获取满足规划计算的最优状态下的实时全量数据。

分布式思路是赋予集群中各节点自主的决策和行动能力,但也会引发新的问题。首当其冲的就是个体间存在大量的不完备信息决策与冲突消解,状态/行为空间规模增大,效率会随之下降[1]。尽管研究人员已经通过仿真与深度强化学习等结合的方式在一定程度上证明了这种方式的可行性,并开展了许多深入研究工作,但受限于训练得到决策神经网络,不仅难以显式解释行为的关联与关系,同时在开放场景中恐出现计算难以收敛的情况。

仿生类算法主要通过研究动物的群体行为特征构建多智能体控制模型与协议,伴随近年的群体智能热潮,发展了鸽群[2]、雁群[3]、鱼群[4]、蚁群[5-6]、狼群[7]等一系列理论研究与实验成果在内的大量仿生类算法,指导了无人系统面向任务目标的编队控制、会合控制、集群控制和一致性控制等问题的研究与实现。

综合上述研究,尽管各式集群规划与控制算法发展了线性规划、遗传算法、粒子群优化算法、强化学习和深度强化学习等多类型方法,促进了有关无人系统协同作业能力的发展。但场景训练数据稀疏、仿真数据与实际数据的偏差,对算法模型能够具备差异化场景迁移能力提出了极大的挑战。同时,效用和复杂度难以平衡等多方面实用化考虑往往聚焦在特定场景和特定任务问题上,并未对无人集群系统构建形成面向实战和实用化的体系性支撑。

从实用化无人系统构建的角度出发,陈杰等[8-9]提出需要解决面向任务的协同能力建模与自主编配规则建立等基础性科学问题。在此指导下,从个体/群体的不同角度看,无人系统实用化存在多层次控制互动统一问题,即个体行动、任务协同与集群组织的行为一致性与互动性的统一。因此,面向未来实用化无人系统构建,如何找到其中能够连接个体与群体、具备一定普适性、能够动态扩展的共性关联,是一项重要的工作。

从美军无人机军事需求排序中不难分析出[10],无论是小型集群化平台还是大型综合性平台,信息的获取感知、信息的共享交互都是无人机任务场景中最根本需要具备的基础能力。因此,从实用化无人系统需具备的基础能力分析,一个关键问题在于信息的及时交互、有效流通和高效利用[8-15]。当前的研究多将此问题解决集中在通信网络规划与设计、任务协同控制设计、分析处理算法效率和鲁棒性提升等方面,较少从系统控制模型如何进行信息解耦方面,考虑实际中存在着大量不同层级、不同颗粒度、不同尺度和不同质量的信息共存和混杂的现状。从实际应用上看,这种对解耦方式的忽视使得无人系统的控制模型设计往往是自底向上的模式,而需求的提出往往是自顶向下的,就会出现任务规划、目标分配等算法设计服务于平台搭载能力和通信设备组网能力等的问题。设计上的受限在实际中将演变成双向制约,逻辑上处于上层的信息处理受限于资源环境的能力配给,而逻辑上处于下层的平台控制在有限的指令下难以充分发挥载荷效能。

近年来,一些关于作战系统与体系架构的研究,已将视角聚集在复杂系统的网络信息流转与调度上,并基于复杂网络及其相关理论构建了作战信息流转超网络模型[16]、面向任务的网络分析模型[17]、基于超网络的任务驱动渐进演化模型[18]、信息驱动激进演化模型[18]和海上编队云作战体系动态超网络模型等模型和方法[19],在拓展研究界面的同时,验证了复杂网络对系统级、体系性架构设计的弹性与鲁棒性增益。上述研究已经将任务协同的视角精准聚焦于系统与体系内节点信息关系与关联映射规则等方面,但所研重点场景化和具象任务需求特征明显,其网络模型迁移能力尚有待验证。而无人系统作为典型需要兼具自主与受控多模式混杂与平滑迁移能力的系统,其架构设计显然需要以任务场景弱关联性出发,尽量剥离特异性需求,找到集群节点信息关系中的基础关系及其演化规则。

本文将研究视角聚焦于无人系统的复杂网络和信息交互,从结合中心式和分布式的目标出发,将系统从网络动态运行过程角度,看作时空和信息域的可变弱中心或多中心决策场景,为解决自底向上的系统设计和自顶向下的系统需求之间难以匹配的问题,提供一种分层解耦的系统框架规划和设计思路。据此,通过层次化网络信息传播方法模型设计,实现群体面向目标的自主分配行为涌现,以期为未来信息主导设计无人群智系统和无人群智系统的扁平化提供按需装填专有决策控制算法模型的底层机制。具体而言,本文基于复杂网络信息传播、社团结构等理论,对决策与通信解耦,构建双层耦合系统模型基础,提出基本的UAU-FO*层次化状态控制方法,并面向中观尺度动态群落信息交互控制,构建基于UAU-FO*的层次化信息传播方法,形成个体目标拣选与群体协作涌现间可扩展关联,实现目标信息的集群决策传播效应和自主聚合解聚。

1 基于局域动态认知的层次化解耦

1.1 基于局域动态认知的层次化系统模型

基于复杂网络及网络信息交互视角看智能体动力分析如图1所示:个体行动是基于自身及环境感知的信息决策结果;任务协同是一定范围内多个个体的联合信息决策和信息交换;集群组织是更大范围,甚至全系统的信息交换内容、时间、频次等控制问题。基于复杂网络信息交互,能够为无人系统实用化个体/群体的多层次控制互动统一提供共性的关联基础。这其中的动力要素从节点的运动与目标作用两方面可统一于基于网络的交互与决策,通过级联邻域等范围的局域信息感知,结合节点状态控制,实现观测信息传播与观测目标选择的统一。

图1 面向局域动态认知网络的智能体动力分析Fig.1 Dynamics analysis of agents in local dynamic cognitive network

图2 基于局域动态认知的层次化系统模型Fig.2 Hierarchical system model based on local dynamic cognition

据此,面向集群目标分配的层次化信息交互方法,基于局域动态认知的层次化无人系统模型(见图2),通过通信连接关系和任务协同关系解耦,实现通信连接层始终保持随机响应连接状态,交互决策层任务协同关系变化既有独立性,又具备快速响应能力。具体地,从运动行为来看,直观改变的是节点相对位置和通信连接强度;从观测行为来看,观测信息流入影响网络交互的内容、频次等,通过节点对目标的拣选和信息的传播来影响运动与节点的状态控制。上述行为的产生是基于网络的交互与决策,在观测信息传播行为和观测目标选择行为的驱动下,产生交互决策层的演化动力。而时空分布层则在这种演化动力的驱动下进行响应,完成具体的观测行动和聚集、分散等运动。

1.2 基于局域动态认知的层次化系统演化动力分析

对目标拣选和分配来说,集群需对待观测目标区域完成不确定目标的感知、观测、监视等,则对任一目标所在区域,存在图3所示状态变迁过程。

图3 状态变迁过程Fig.3 State transition process

参照集合种群网反应-扩散模型,将目标区域视为亚种群节点,如图4所示,智能体感知目标动向并扩散信息后,能聚集相应群落(社团)结构,即产生基于目标信息的邻域吸引和节点聚集行为[20-22]。群落形成后,需抑制目标信息继续扩散,降低对自由态节点的吸引,形成相对稳定的群落结构[23]。

图4 目标动向发布与稳态观测示意Fig.4 Target movement publishing and steady-state observation

但实际过程中,所有行为不能同步且同频发生,如图5所示,即为上述场景某时刻真实化描述(各群落颜色标识的对应状态参见图3)。由图5可以看到:紫色完成观测区域的红色节点在释放对邻域各节点的吸引;资源不足和吸引过程的红色、黄色区域,其红色节点在扩散目标信息;橙色区域正在进行稳定观测,群落既不扩散目标信息,也不吸引增加聚集,其群落的节点密度处在稳定范围。

图5 基于群落变迁的多智能体观测集群演化Fig.5 Multi-agent observation cluster evolution based on community change

基于上述分析,层次化演化关键动力问题如下:

1) 信息交互与传播的内容。关于目标的信息交互与传播,以目标固有属性与时空属性(如辐射源位置等)等为内容,时空分布层收集目标信息,交互决策层拣选观测,通知时空分布层规划聚集运动。

2) 群落的构建与隔离。构建与隔离关注的是智能体如何以自体状态切换产生群体性聚集效应。群落的构建与隔离针对拣选目标的专注观测对各智能体观测状态切换进行约束控制。

3) 群落的动态扩容与释放。动态扩容与释放关注的是隔离边界形成后,信息过滤约束机制使得资源不足时能再次释放目标信息来增补节点,或在观测期满后能动态释放所有节点,让信息面向合适的对象、在合适的范围里进行优化精简的交互。

综上,以决策传播效应为目标的信息交互传播方法的主要问题是中观尺度信息交互行为和传播行为的粒度、界限如何控制。

2 基本的UAU-FO*层次化状态控制方法

构建面向层次化解耦的动态群落控制方法,需要解决信息交互内容的控制、种群的信息隔离和种群的聚合解聚。按交互决策和时空分布两层考虑智能体信息解耦的节点交互关系,基于UAU-SIS的信息-病毒耦合传播模型,改进构建基于UAU-FO*群落演化模型[24]。具体包括:1)采用UAU模型表征信息交互基于种群扩散与隔离;2)基于FO*局域动态认知信息传播模型表征节点状态及交互决策,以及时空分布层信息交换;3)基于级联拓扑邻域观测,进行信息融合决策控制。

2.1 基本的UAU-FO*层次化状态设计

基于UAU-FO*群落演化模型中,智能体状态控制主要包括U-A状态控制与FO*状态控制,各基本观测状态含义及其详细描述如表1所示。

表1 UAU-FO*层次化模型基本观测状态Table 1 Basic observating state of UAU-FO* hierarchical model

UAU-FO*模型表征智能体节点层次化联合观测状态(见表1)包括:1)U(无关注):表征无关注目标状态,交互决策层不对时空分布层的信息交换加以限制,即无条件接收所有信息;2)A(有关注):表征有关注目标状态,交互决策层对时空分布层的信息交换进行限制约束,并以一定策略过滤时空分布与交互决策层间的交换信息;3)F(自由):自由漫游的状态,如无人机巡察状态,此时运动具有一定随机性,交互决策层不限制约束时空分布层信息交互反馈;4)O*(联合观测态):有关注目标的状态,此时运动具有指向性,交互决策层在对时空分布层的信息交互与传播限制,在两种隐式状态模式下有不同策略的约束和限制。联合观测态细化有两种隐式状态:一是观测态OBS,具备观测目标,且在观测区域内,交互决策层将以当前观测目标为过滤条件,限制时空分布层信息交换具体内容;二是有序态ORD,具备观测目标,但不在观测区域内,可能出现观测的关注目标的切换,即存在被吸引、干扰和诱骗的可能情况。有序态交互决策层将以当前观测目标为约束条件,抑制时空分布层信息交换后,对关注目标拣选的评估结果,从而保证观测的稳定性和抗干扰性。

2.2 基本的UAU-FO*层次化状态控制

基于基本的UAU-FO*状态设计,若智能体节点AICE_i所在系统的一层耦合网络为NICE(AICE,EICE),对NICE进行时空运动和信息协同的双层解耦即时空分布层NICE_LUst和交互决策层NICE_LUid。假设当状态变迁独立存在时,若λ为AICE_i由U态向A态的状态变迁转移概率、δ为由A态向U态的状态变迁转移概率、β为由F态向O*态的状态变迁转移概率、μ为由O*态向F态的状态变迁转移概率,则层次化联合观测状态分解图示如图6所示。

图6 层次化联合观测状态分解Fig.6 Representation of state decomposition of hierarchical joint observations

(1)

(2)

(3)

(4)

(5)

(6)

图7 UAU-FO*层次化演化状态变迁Fig.7 UAU-FO * hierarchical evolution state transition

2.3 基本的UAU-FO*层次化状态控制算法设计

由于层次化群落控制,实质上是利用网络信息交互特性,基于层次化的个体状态控制及其信息交互控制,通过个体基于级联拓扑邻域观测,进行信息融合决策控制,涌现出的群落可控。因此,基本的UAU-FO*层次化群落控制方法的算法设计,本质上是对智能体节点AICE_i的状态控制及信息融合决策算法设计,具体设计如图8所示。

3 基于UAU-FO*的层次化信息传播方法

3.1 动态中心周期性老化的群落信息交互约束方法

在UAU-FO*中的智能体状态转移和交互信息层次化约束时,聚集构成观测群组后需要信息跨层约束,将观测期信息交互局限群组内,同时检测观测是否结束并释放约束。基于复杂网络老化效应和反应-扩散模型机理研究,提出基于动态中心周期性老化的群落信息交互约束方法,实现群组聚合解聚中,目标中心对群组内节点吸引力的可变调控[20-21]。

若对待观测目标tgtm,存在最短观测时限TOBS_min和理想观测时限TOBS_max,其对应的观测种群节点数需求为x。将首个感知该目标并发布观测提议请求的节点,将作为目标tgtm聚合种群的中心,则中心的周期性老化与逃逸不为永久性,而是以观测时限需求为测度的周期性、随机性信息交互约束。若将中心节点发出提议的时刻设为t0,种群规模(即到达观测区域的种群节点数)满足观测需求x,以O*态是否为OBS为标志进行计数,完成聚合的时间设为tx。

据此如图9所示,基于UAU-FO*模型控制层次化信息交互与群落信息传播方法,将对应目标tgtm单次完整观测周期分为聚合态、隔离态、老化态和逃逸态:

图8 状态控制流程Fig.8 State control flow

1) 聚合态:从观测发起到种群聚合完成。中心节点AICE_i不对聚集中智能体节点进行信息跨层交互的约束和限制,仅收集到达观测区域并将O*态切换为OBS的节点信息。一旦将观测状态切换为OBS,则屏蔽非关注目标(即进行目标剔除等操作)。

2) 隔离态:由种群观测开始到最短观测时限。中心节点AICE_i需要完全抑制种群外部信息对观测的输入,同时以群组达成观测协定或决策的形式,扩散观测种群已构建的信息,从而抑制吸引聚集。

3) 老化态:从达成最短观测时限到达成理想观测时限。中心节点AICE_i开启老化进程,吸引力降低,逐步降低对种群内部节点的信息隔离程度,即种群内的非中心节点AICE_j的时空分布层接收信息能够以一定概率γagej反馈给交互决策层,即启动屏蔽机制失效控制,且γagej随着老化进程将持续增加。需要指出的是,信息隔离度降低的同时,智能体自身会结合驻留时限偏好进行关注目标的拣选。

图9 动态中心节点周期状态Fig.9 Periodic state of dynamic central node

种群内部节点和其邻域内在时空分布层随机连接重建概率pc[20]为

pc=Π(kj,tcur-tj)kj[tcur-(tx+TOBS_min)]-v

(7)

(8)

式中:kj为节点AICE_j处的度值;Π(kj,tcur-tj)表示节点AICE_j与新节点在时空分布层建立连接的概率,tcur为当前时间,tj为AICE_j加入此种群的时间,则tcur-(tx+TOBS_min)即为中心节点AICE_i的“年龄”;v为可调参数描述上述概率与老化进程之间的依赖关系;CUcur为当前种群计数。因此,在启动屏蔽机制失效控制后,节点可能因屏蔽失效发生目标变更。

4) 逃逸态:从达成理想观测时限开始到中心节点被其他目标吸引或老化逃逸终止。中心节点AICE_i开启快速释放种群节点的模式,也表现为老化速率的加速。而种群解散过程和原种群节点密度以及平均度等相关[24-25]。因为富集了更大观测资源的种群,需要更加快速的释放,避免集群资源的负载不均[25]。对于基于UAU-FO*模型构成的观测群落,逃逸态的所有节点在逃逸前的联合观测态均为O*,因此对于非中心节点,根据中心节点的周期计时通知驱动逃逸概率的计算。具体地,群落中度为k节点的当前时刻逃逸概率[25]为

(9)

式中:k′为度为k节点的非中心节点邻居的度;P(k′|k)是度为k节点指向度为k′节点的概率,通过求和对所有可能指向情况进行综合,即沿连边kk′逃逸的节点数均值;Dk′k为节点沿连边kk′跳跃的概率。

3.2 基于UAU-FO*的层次化信息传播算法设计

基于UAU-FO*的层次化信息传播算法设计,是基于基本的UAU-FO*层次化状态控制的群落控制算法。由于基本的UAU-FO*模型中,U-O*和A-F难以独立存在则基于级联邻域收到的目标信息在每步决策时,简化后只考虑UF和AO*之间的状态变迁,如图10所示。则任一智能体在时刻感知完,进入处理流程来更新本地的UA序列和FO*序列。算法流程设计(见图11)如下:

1) 节点状态控制:根据O*状态,进行待处理目标信息的序列剔除,即若O*态为OBS,则仅保留UA序列中已激活的目标信息;若O*态为ORD,则更新所有可能的偏好关注目标信息。当UA序列中出现了偏好列表中潜在关注目标信息,则UA序列中相关目标状态被激活。若当前更新了多个可关注目标,则关注序列中或会暂时性出现多个A态目标信息激活,根据目标收益-代价评估方法,结合动态中心周期性老化的群落信息交互约束方法,进行目标拣选以及是否进行关注目标的切换。

2) 层次化信息交互约束:当O*状态为OBS时,交互决策层会通知时空分布层,不再接收处理非关注目标的相关信息。当O*状态为ORD或在F态时,时空分布层的接收处理将不被限制。

图10 基于简化UAU-FO*的层次化状态变迁Fig.10 Hierarchical state transition based on simplified UAU-FO*

4 仿真验证

4.1 仿真实验设计

本文提出的基于UAU-FO*的层次化信息传播方法,是针对中观尺度下无人系统目标分配的自主性涌现,构建的动态群落信息交互控制方法。预期面向无人系统对指挥控制层和通信组网层进行信息交互的解耦,以通信能力来保障任务协同,以任务信息交互与个体决策完成控制,提供基本的信息交互控制机制的设计实现。

从实验对比与分析的角度看,本文提出的方法框架目的在于提供分层解耦的信息交互与传播控制方法,而非单纯的目标分配与任务规划,目的在于为现有算法提供一套可扩展、可联合的层次化系统容器,在实际的平台控制模型中按需针对差异化场景状态,装填专用的决策模型或控制算法。

因此,本文方法的仿真验证在于以下4个方面:1)面向信息交互的分层解耦可行性;2)基于信息传播的自主协同行为涌现性;3)基于层间交互约束的群组调控鲁棒性;4)装填算法模型的可调整性。其中,装填算法模型的可调整性来源于本文方法设计原理的本身,主要在4.3节中进行综合分析讨论。4.2节主要针对前3个方面设计相应的仿真实验,验证在分层解耦的框架下,将整个无人系统看作时空与信息关联的可变弱中心或多中心决策系统,能够基于信息交互与传播的层次化控制,在个体目标拣选基础上涌现出群体性行为,支撑实现无人集群面向动态目标的自主聚合解聚。

仿真场景设计如下:以无人机集群侦察作为想定任务场景,首先通过不同的通信连接保持数LinkCapmax、仿真实验的仿真时间TimeStepSIM,观察无人机集群可针对目标通过个体的自主信息交互,完成涌现动态群落的生成与老化逃逸过程。同时通过不同程度的连接中断模拟,量化分析动态群落机制设计的稳定性、鲁棒性和健壮性,能够支撑无人机集群侦察过程的稳定长时间运行。具体而言,待侦察区域为横向20 km、纵向50 km的矩形区域(横纵分别按1 000个单位长度进行栅格化),假定气象观测条件良好且置空距离足够,可忽略待侦察区域地形、坡度、土质等环境要素对观测发现概率和物理运动的影响。集群数量为500架,忽略平台实用升限、最大续航等非信息交互基本要素,将平台抽象为质点。由于本文所提方法验证首先需解决解耦方案的可行性,因此对集群中的平台节点做同构处理。同时对非本文架构可行性验证重点的运动学模型进行简化,采用上限可调的匀加匀减速运动控制。当且仅当感知到目标时,按当前仿真步的通信连接关系,向邻域扩散目标位置信息。为模拟连接的随机性,集群连接构型基于Barabási-Albert优先连接模型生成,并根据随机生成的连接构型进行初始化重连,保证仿真初始状态通联关系遵循想定规则。群组想定以局域、自主和信息交互为准则,在聚集、隔离、老化和逃逸过程中,仅依靠提出聚集协商请求(即目标信息局域扩散)进行控制。

图11 算法流程Fig.11 Algorithm flow chart

多观测目标拣选算法设计如下:将信息感知融合、观测目标拣选和信息交互控制等方面均规范化到分布式信息交互视角下,以期构建相对完整的、从感知发现到决策行动的信息交互控制机制。所以,在仿真实验设计过程中,对多目标信息同时出现时,无人机节点对多目标信息偏好的评估与计算做了基于信息交互视角的基础指标评价算法设计,并提供了可扩展设计的抑制因子。在目标拣选过程中,若t时刻,任一无人节点Ax通过直接观测和集群通信得到的目标信息经过融合后的集合为Ix(t),其中包含s个目标的可观测序列,即为待拣选目标序列TGTt={tgt1,…,tgtl,…,tgts}。则面向信息交互的目标拣选方法基于交互决策层邻域拓扑进行计算,进行基于信息交互评价的收益-代价评估后,筛选最大值MAX(Ix_tgtt)为拟观测目标,具体为

(10)

(11)

表2 基于信息交互的收益-代价评估基本指标Table 2 Basic index of benefit-cost evaluation based on statistics of information interactions

表2中:dl为任一目标t时刻距Ax的距离;CU为计数函数,CU([tgtl]Hop1)和CU([tgtl]Hop2)分别为1跳和2跳邻域传播信息中目标的计数次数,CU([TGTt]Hop1)和CU([TGTt]Hop2)分别为1跳和2跳邻域传播信息中各目标出现总计数,eHop1和eHop2分别为1跳邻域与2跳邻域的权重;TD,l是基于交互记录的目标信息存续度,即首次出现tapp,l至今总时长,TF,l为基于交互记录的目标tgtl信息新鲜度,即上次出现tlast,l到当前时长,SUM(TD)为目标存续度之和,SUM(TF)为目标新鲜度之和,eD和eF分别为调节系数;wpri,l为目标优先级值,wpref,l为目标偏好值,SUM(wpri)和SUM(wpref)分别为所有目标优先级值之和与偏好值之和,epri和epref为调节系数。

本文实验在对目标偏好值和优先级取值过程中,对优先级进行了平等化处理,并根据距离代价的排序给定偏好值排序,即将偏好预设为距离偏好。同时说明由于本文目标拣选的收益-代价评估方法对主要处于信息交互视角,对任务场景的差异化要素没有强约束。因此,也为后续扩展目标拣选的具体方法,以及面向动态群落组织的多约束信息交互抑制与激励提供了个体决策层面的可扩展、可更新的关联作用点。

4.2 实验结果与分析

根据4.1节中论述的前三方面待验证重点,具体设计3项实验,并对实验结果进行统计展示。

4.2.1 面向信息交互的分层解耦可行性实验

本节首先以任务协同关系与通联关系分层解耦运行及其鲁棒性测试实验(实验1),验证集群信息解耦后能支撑集群完成目标信息传播,进而支撑各节点完成目标的拣选。同时,通过任务协同关系与通联关系分层连接特性实验(实验2),验证在上述运行过程中,各层的网络联通特性是否具备稳定性基础。

1) 实验1:任务协同关系与通联关系分层解耦运行实验。待侦察目标在(-850,850)、(850,-850)和(-850,-850)三点分别于仿真时间20、100、300出现、并分别于800、700和600完成最佳观测计时进入老化态。上述3个目标可感知目标范围按分别按400、100和200计,观察并验证动态群落运行各阶段情况。

由图12可以看到在LinkCapmax=20条件下集群能够在本文层次化信息传播模型控制下,达成对邻域无人机节点的聚集和侦察协同自主运动过程。且在此过程中,集群的通联整体情况未发生剥离现象和稀疏情况。下面通过调节LinkCapmax模拟通信受到干扰、抑制和遮挡等弱通信条件,具体将通信负载上限降低为5条信道,同时降低通联感知范围至100。

图12 聚合-隔离-老化-逃逸过程(LinkCapmax=20)Fig.12 Aggregation-isolation-aging-escape process (LinkCapmax=20)

图13中由于通信抑制程度较大,在实验中略降低了目标节点的聚集平台数要求。进而尽管通信不良,集群仍可完成聚集、隔离、老化和逃逸的自主控制全过程,且未发生剥离、稀疏与突变。一方面证实了层次化信息交互对通联关系保持稳定性的作用,一方面说明了自主化群组控制策略的稳定性,二者稳定性互为支撑,即基于时空分布层的稳定性,交互决策层的任务协同关系能够自主化建立并保持稳定作业。

图13 聚合-隔离-老化-逃逸过程(LinkCapmax=5)Fig.13 Aggregation-isolation-aging-escape process (LinkCapmax=5)

2) 实验2:任务协同关系与通联关系分层连接特性实验。下面验证种群隔离前后,集群时空分布层通信连接网络特性,是否能够任务协同关系在交互决策层变化的同时保持稳定不变。具体根据实验1,为便于观测度分布变化量,扩大变化程度,增加最大通信连接保持数至30条来提升绘制的可观测性。

如图14所示,在任务协同群组建立和信息抑制的具体过程中,被测无人机集群的时空分布层通信连接关系中未出现较低通信连接数的点,基本保持在满通信信道负载运行,均匀性和稳定性良好。基于上述数据和交互决策层抑制信息通过时空分布层的有效抑制和传播,同时印证了层次化解耦后各层在独立特性保持基础上,并不影响层与层之间的交互和协作,为分层解耦的无人群智系统模型设计提供了一定可重复的仿真验证依据。

图14 集群通信连接分布变化(聚集-隔离)Fig.14 Communication connection distribution of cluster (aggregation-isolation)

下面观察整体的聚集、隔离、老化和逃逸过程,任务协同关系在交互决策层的变化,对时空分布层通联关系的特性影响。设定如下:对目标1规定最少观测节点数为6架、聚集开始时刻为6、最短观测时限(进入隔离开始时限计时)为600、理想观测时限(隔离到老化态分界)为900;对目标2 规定最少观测节点数为16、聚集开始时刻为16、最短观测时限为450、理想观测时限450,对目标3 最少观测节点数为10、聚集开始时刻为10、最短观测时限为800、理想观测时限900。则无人机集群应当在仿真步900左右进入老化态的无人机节点群组释放期,并在仿真步1 700左右进入老化态的高峰释放期。

针对上述参数设定进行了20次重复性实验,图15(a)和图15(b)为一次实验分布图,图15(c)和图15(d)为20次实验数据按仿真步进行均值计算的分布均值图,重复性实验具备结果相似性和特征一致性。将上述度分布出现较大波动的时刻范围与任务协同关系群组控制时限对比可知,无人机集群的时空分布层通信连接实际分布的变化情况与任务协同关系变动情况匹配。同时在聚集、隔离和老化、逃逸过程中,时空分布层总体上未出现较低通信连接数的点波动扩散情况,基本保持在满通信信道负载运行,均匀性和稳定性良好。基于上述数据和交互决策层抑制信息通过时空分布层的有效抑制和传播。

图15 集群通信连接分布变化Fig.15 Communication connection distribution of cluster

4.2.2 基于信息传播的自主协同行为涌现性实验

自主协同行为涌现性已在4.2.1节中完成现象观测与稳定性验证。主要验证在具体的聚集与保持过程中(实验3)以及在自主协同行为涌现过程中及其结果上(实验4与实验5),检验群组形成与运行时信息交互的实际发生行为,是否与动态群组中心节点的信息传播意图能够匹配一致。

1) 实验3:聚集与保持实验。无人机集群群组聚集与保持实验主要针对3个目标的群组规模变化进行的节点数统计,观测3个目标的聚集过程具体运行情况。为便于绘制后续实验将三目标出现时刻分别调整至5、8和10仿真时间步。

图16中随仿真推进,虽然首先发现三目标顺序依次为目标1、目标2和目标3,但由于时空分布和信息扩散等情况,实际先完成聚集的是目标2,目标1、目标3紧随其后,约滞后30步。3个群组均能够建立并稳定运行。

图16 目标观测的群组统计Fig.16 Statistics of targets observation group

2) 实验4:群组内外节点隔离实验。群组内外节点隔离实验主要针对聚集前后种群和集群邻域信息持有情况变化进行统计。由于过程具备相似性,选择最先完成聚集的目标2进行结果绘制,结果如图17所示。由图17可以看到,在群组形成过程中,随着群组内部节点数的增加,集群内为与目标2观测群组建立任务协同关系的节点数随之减少,在群组聚集完成后,近乎即刻完成抑制与隔离。同时持有多目标信息节点数也在该时刻突变递减,递减趋势没有反复,说明这种抑制具有传播的能力,即本文目标形成的基于动态多中心的决策传播效应。群组形成时信息交互的实际传播行为,与动态群组中心节点的信息传播意图匹配一致。

图17 群组形成过程统计(目标2观测群组)Fig.17 Statistics of formation process of group (observation group of Target 2)

3) 实验5:群组内外目标信息传播抑制实验。群组内外目标信息传播抑制实验主要针对聚集前后群组内部和集群内目标信息交互频次变化进行统计分析。

从图17中无连接中断情况下集群针对目标1～目标3信息交互的每步通信量变化。由图18可以看到,3个目标均能够随着各自群组内部节点数的增加(即任务协同关系的逐步建立和稳定过程),保持一定的通信量,同时在群组聚集完成后,近乎即刻完成抑制与隔离。各条曲线的趋势一致、无反复且具备稳定保持能力,说明这种抑制具备稳定性。群组运行时信息交互的实际抑制行为,与动态群组中心节点的信息传播意图匹配一致。

图18 信息交互频次统计Fig.18 Statistics of information interaction frequency

4.2.3 基于层间交互约束的群组调控鲁棒性实验

通过模拟弱通信连接环境和通信连接不同程度的中断等情况,分别针对4.2.2节中的聚集与保持过程、自主协同行为涌现过程及其结果,观测分层解耦后,对群组形成与运行时信息交互行为,与动态群组中心节点的信息传播意图是否能够稳定的匹配一致,从而说明本文方法对群组调控的鲁棒性增强。具体过程如下:

1) 实验6:聚集与保持实验。实验场景要素设计与4.2.2节中的实验3相同,同时智能体间添加频次fINT服从泊松分布的连接中断,在连接中断期间,无人机节点无法与其邻域产生信息交互。在此条件下,观测3个目标的聚集过程能够正常完成和延迟情况,以及群组能否稳定运行。同样为便于绘制后续实验将3个目标的出现时刻分别调整至5、8和10仿真时间步。具体地,模拟不同程度连接中断情况,fINT依次服从泊松分布[0,3]、[0,5]、[0,8]和[0,10],结果如图19所示。从图19中可以看到,弱联通条件加剧过程中,目标1～目标3的群组建立完成时间明显滞后,但3个群组均能够建立并稳定运行,证明本文算法在面向严重的通信中断情况依旧具有较好的鲁棒性。同时无人机观测群组建立顺序未发生明显置换,在初始构型相同的基础上,表明集群运行具备稳定性。

图19 目标观测的群组统计(弱通联条件)Fig.19 Statistics of targets observation group (weak connection condition)

2) 实验7:群组内外节点隔离实验。实验场景要素设计与4.2.2节的实验4相同,针对聚集前后种群和集群邻域信息持有情况变化进行统计,采用与实验6相同方法进行鲁棒性测试,即不同程度的连接中断情况fINT变化相同。由于过程具备相似性,同样选择最先完成聚集的目标2进行结果绘制(见图20)。从图20中可以看到,弱联通条件加剧过程中,目标1～目标3的无人机观测群组建立完成的仿真时刻有明显滞后,但均能够建立并稳定运行,证明方法具有较好的鲁棒性。同时在连接中断程度增大过程中,各曲线突变点顺序未发生明显置换,在初始构型相同的基础上,表明集群运行具备稳定性。

图20 群组形成过程统计(目标2,弱通联条件)Fig.20 Statistics of formation process of group (for Target 2, weak connection condition)

图21 信息交互频次统计(弱通联条件)Fig.21 Statistics of information interaction frequency (weak connection condition)

3) 实验8:群组内外目标信息传播抑制实验。实验场景要素设计与4.2.2节中的实验5相同,针对聚集前后群组内部和集群内目标信息交互频次变化进行统计分析,采用与实验6相同方法进行鲁棒性测试,即不同程度的连接中断情况fINT变化相同,结果如图21所示。从图21中可以看到,弱联通条件加剧过程中,任务协同群组建立完成前通信量保持高位运行,且具备一定渐次扩散能力(见图21(b)),本文方法对集群运行具备稳定性支撑作用。这种作用同时可体现在抑制作用稳定发生且不变,即群组建立后抑制作用持续性良好,即便存在不同程度的连接中断,也并未发生目标信息由群组内向外扩散传播,说明决策传播效应不仅可有效发生,且具备保持能力。

4.3 综合分析与讨论

根据4.1节的论述与4.2节的实验分析,进一步对本文方法的4方面重点进行综合分析与讨论。由于本文方法目的在于为无人系统的网络化、自主化信息交互,提供可支撑协同涌现的信息交换解耦框架与底层机制。因此在验证的过程中,一方面需要排除差异化场景对决策算法的特殊约束要求,如leader-follower、雁群、鸽群等算法,对集群内各个节点角色的事先划分;另一方面需要验证目标信息在层次化交换约束中交换的有效性,如目标信息是否能扩散,并在动态群组的形成与运行过程中得到信息传播的和抑制;再一方面需要验证网络的弹性对无人系统信息交互自主协同涌现的稳定性与鲁棒性的支撑作用。通过以上验证方可证明,UAU-FO*所提供层次化解耦的信息交互与传播方法,具备成为中观尺度动态群落的信息交互控制机制共性基础的可能。(需要注意的是,后续分析中对中心节点的召集行为的描述并不指中心节点发出了具有指向性和需求内容的指令,而仅仅向外传播了目标的观测结果信息。所以,整体实验过程中,集群各层之间传播与交互的具体信息,仅包含可观测目标的信息。)

4.3.1 面向信息交互的分层解耦可行性分析

从信息交互的分层解耦可行性上看,依据本文设计的基于UAU-FO*的层次化信息传播方法,在4.2.1节中,通过交互决策层的目标拣选,完成对时空分布层自身信息扩散与层次化约束控制。具体地,将任务协同关系的建立与运行,转换为基于信息的目标筛选过程,局限在交互决策层,并对时空分布层的冗余信息进行层间交互抑制;而通联关系的构建一方面取决于时空可达性,一方面依赖于目标拣选后行动对时空分布变化的影响。

在4.2.1节中,基于如上设计解耦后,从实验1的结果看,目标动态出现的过程里,邻近的节点能够在层次化信息传播机制的基础上,实现对目标的聚集-隔离-老化-逃逸全过程,协同行为能够在与通联关系解耦牵制的基础上,自主的建立并运行。同时鲁棒性测试实验,通过调节LinkCapmax模拟通信受到干扰、抑制和遮挡等弱通信条件,无人集群的群组自主聚集行为涌现和消散过程并不受时空分布层不稳定的影响。从实验2看,整体运行过程中,无人集群的通联整体情况稳定,未发生剥离现象和稀疏情况,两层的网络特性,在行为涌现过程中,虽出现一定波动,但能够快速恢复几乎满通信负载的运行状态,进一步说明了解耦后的层次化网络具备稳定性运行基础和动态恢复的弹性。

4.3.2 基于信息传播的自主协同行为涌现性分析

从信息传播的自主协同行为涌现性上看,其现象观测与稳定性验证已在4.2.1节中完成,依据本文设计的基于UAU-FO*的层次化信息传播方法,以及本文目标形成的动态弱中心自主协同能力,还需要具备在整个过程中,检验聚合的群组与召集中心(即发现目标的散播信息节点)决策的各阶段意图是否保持一致,用以进一步说明这种涌现从宏观观测和个体的微观行为上具备一致性。

在4.2.2节中,针对本文方法对动态中心周期性老化的具体阶段进行划分,分别开展了聚集-隔离阶段的聚集与保持实验(实验3)、隔离前后的群组目标信息持有情况实验(实验4),以及隔离后集群内和群组内目标信息的层次化传播抑制实验(实验5)。从实验3看,在中心节点传播目标信息开始召集后,接收到目标信息并拣选了该目标的节点开始聚集,对3个目标的聚集均能够较快地完成,且从群组构成规模上具备协同关系的稳定性。从实验4 看,在隔离前后,群组内目标信息的持有情况伴随协同关系的建立完成,隔离前后出现了明显的、近乎即刻的传播抑制,且抑制的递减趋势在持续观测过程中没有反复,说明了抑制具备一定的传播能力和稳定性。从实验5看,对隔离后集群内与群组内的每步通信量分别统计分析,发现各条曲线的趋势一致、无反复且具备稳定保持能力,进一步说明这种抑制具备稳定性。综合上述,基于信息传播的自主协同行为涌现能够形成动态多中心的决策传播效应,群组形成时信息交互的实际传播行为,与动态群组中心节点的信息传播意图匹配一致。

4.3.3 基于层间交互约束的群组调控鲁棒性分析

从基于层间交互约束的群组调控鲁棒性上看,一方面在4.2.1节中初步从总体上证明了本文方法构建的无人集群信息交互机制具备一定的鲁棒性增强能力。为进一步检验这种鲁棒性增强和稳定性,是否能够体现在聚合群组的各阶段,用以说明这种涌现从宏观观测和个体的微观行为在具备一致性的同时,兼具鲁棒性与稳定性优势。

在4.2.3节中,基于4.2.2节的对应场景,分别模拟弱通信连接环境和通信连接不同程度的中断等情况,针对聚集-隔离阶段的聚集与保持(实验6)、隔离前后的群组目标信息持有情况(实验7),以及隔离后集群内和群组内目标信息的层次化传播抑制(实验8)等各阶段场景,进行的实验测试,检验本文方法模型构建的机制,是否在各个阶段均能够具备对恶劣条件的抵御能力。从4.2.3节的3项具体实验结果看,在通信链接中断情况随机性与频次增大的过程中,目标1～目标3的无人机观测群组的聚合完成与抑制,均较4.2.2节中对应良好通联情况有明显滞后,但均能够建立并稳定运行,证明方法具有较好的鲁棒性。同时在连接中断程度增大过程中,各曲线突变点顺序未发生明显置换,在初始构型相同的基础上,任务协同群组建立完成前通信量保持高位运行,具备一定渐次扩散能力,且群组建立后抑制作用持续性良好,说明决策传播效应不仅可有效发生,且具备保持能力。在上述多个阶段的鲁棒性测试验证过程中,可以看到这种鲁棒性是持续作用的,是基于UAU-FO*的层次化信息传播方法对交互决策和时空分布解耦后带来的集群中观尺度的固有属性。

4.3.4装填算法模型的可调整性

从装填算法模型的可调整性上分析,本文方法对差异化决策与控制算法的可调整性在于信息交互的范围控制、信息采信融合的具体策略以及决策传播的策略的不同。涌现出具备协同行为的群组规模,仅取决于作为动态弱中心的节点对目标类型、威胁等级等信息的判断,而与具体的信息交互要素无关。这种对多类型任务规划、目标分配、构型控制等方面算法的兼容适配能力,来源于基于UAU-FO*的层次化信息传播方法本身。

由于方法的初始设计仅关注信息交互的行为特征,并不约束具体的交互内容,各个无人节点仅按自身需求进行信息的扩散与层间约束,而不关心是否存在类似拍卖算法的多轮出价交互、也不关心是否存在中心控制节点的指令、更不关心领导节点的动向变化。因此,无论是邻域信息聚合决策、级联邻域信息聚合决策、回流剪裁的级联信息聚合决策还是全局信息聚合决策,层次化解耦的约束要素仅在于个体对目标信息的拣选。因此,本文所提方法具备装填算法模型的可调整性,是系统级机制设计创新,为典型场景中目标分配和任务规划等需求提供了具备耦合与弹性调控能力的底层机制与架构。

进一步分析本文方法的装填算法模型可调整性,当前方法及实验验证过程中,各个节点的目标信息融合、目标评估拣选算法相同。但在开放式环境中,集群节点的信息交互及其约束需求差异化将更加剧烈。因此,在后续研究规划中需要进一步开展对差异化场景下、或受不同的决策与控制算法影响下,影响层次化协同行为涌现的共性要素。同时,研究不同分层解耦粒度的系统,面向信息交互与传播如何进行层次对齐的问题。以期通过上述持续性研究,在增强和深化层次化信息交互方法的同时,保持装填算法模型的可调整性的原始设计特性。

综上所述,本文所提模型对动态群落目标协商拣选与决策传播能够完成群组的隔离,有效控制对信息关注和交互,实现群落生成与规模调控,增强了无人机系统在信息交互与传播演化方面的鲁棒性和健壮性,可为进一步扩展模型方法,适配多样化的场景提供衍化基础。

5 结论

本文针对无人系统的实用化存在多层次控制的互动统一问题,从群体行为的中观尺度考虑节点关系演化与控制,将结构特性与信息交互特性解耦分层,以形成决策传播效应为目标,提出了基于UAU-FO*的层次化信息传播方法,进而构建了面向时域、空域上动态变化目标无人机群目标分配的层次化信息传播方法,通过仿真验证了该方法对实现自主目标聚合解聚的有效支持作用。具体而言,面向无人系统对指挥控制层和通信组网层进行信息交互的解耦,以通信能力来保障任务协同,以任务信息交互与个体决策完成控制,提供基本的信息交互控制机制的设计实现,为无人机集群以共性关联实现个体行动、任务协同与集群组织的行为一致性与互动性的耦合与统一提供思路,提出了具备自主与受控间混合平滑模式迁移能力的层次化无人系统信息传播方法与基础框架,为现有算法面向差异化应用场景,提供了一套可扩展、可联合的层次化系统“容器”。

在本文的基本方法框架下,信息交互控制视角可为进一步拓展研究无人节点之间以个体与群体混合形式的复杂博弈问题提供多尺度互动统一的方法模型,也是未来在中观尺度继续完善本文所提方法框架的重点。如面向运动动力学、平台能力构成不同的节点所组成的集群,如何构建面向个体与群体混合形式复杂博弈的信息隔离策略,使得多维度信息在跨解耦层次、跨多个群组过程中能够高效交互,并延续本文的对优化通信负载、增强鲁棒性、兼具个体自主性的出发点,将是后续研究中需要持续深入研究的重要课题。