无人机集群控制技术研究

2023-07-14费陈，郑晗，赵亮

弹箭与制导学报 2023年3期

费陈，郑晗，赵亮

(武警士官学校，浙江杭州 311400)

0 引言

集群智能行为是一种自然现象,这种方式提高了数百种不同动物物种的生存机会,如鸟群、蚁群、蜂群、鱼群、狼群等,它们通过某种方式进行信息交流,集群中每个物种都遵循一套规则来优化自身的行为,在决策中使用分散和自组织行为来适应环境变化和解决问题,以最大限度地提高集群的整体生存能力。

随着无人化、智能化和导航技术的不断发展,无人机从最初的训练靶机,逐渐发展成为具有自主决策和自主攻击能力的察打一体化无人机。基于无人机诸多特点,无人机在军事[1-5]、民用[6]、未来电子战[7-9]等领域都扮演着极其重要的角色,也是当前各国军事智能化研究的热点问题之一[10-12]。在最近的俄乌冲突中,乌克兰就利用了TB2无人机成功摧毁2个Buk-M1-2防空系统和大约14辆军车[13-14]。

但是面对日益繁杂的应用场景、诡谲多变的战场态势,无人机受自身硬件、软件等因素的影响,依然存在一定的局限性[15-16]。对无人机而言,飞行能源、净重和规格大小都具有限制性,一架无人机难以实现任务区域内的多维度、大规模任务执行,特别是在执行高危任务后,单架无人机可能会受到地面威胁源的打击或防空系统的干扰而无法执行任务[17]。因此,为解决单架无人机的局限性,无人机一般较少单独行动,而是用集群的方法来协调执行工作[18-19],无人机集群、无人机和无人重型坦克等其他载人或无人战斗装备构成混合的异构集群必然是现代化战争中关键的作战方式之一[20-23]。

无人机智能集群作为无人作战平台的重要组成部分,具有个体简单、集群协同,可形成高度智能的集合体特点[24],能够完成监视、侦察、情报汇集和目标打击等任务[25-27]。因此,无人机集群不同于多无人机,它是多无人机的高阶形式,通过人工智能算法对多无人机进行合理配置、协调所演化的智能无人机群[28-30],相比于多无人机,无人机集群的控制难度更大,成本更低,协调能力、空间密度和智能化程度更高。

1 集中式控制系统结构

集中式控制系统是指无人机集群通过唯一的控制中心进行信息传输、交互的一种控制结构[31-33],如图1所示。集群内的无人机将自身所收集的数据、信息传送给任务控制站(控制中心)[34],而任务控制站负责对这些数据、信息进行整理、计算和分析,最终将处理完成的数据和信息反馈到集群内的无人机,集群内的无人机接收到这些反馈指令后进行任务的分配和实现。

图1 无人机集中式控制系统结构Fig.1 Structure of UAV centralized control system

1.1 集中式控制任务分配方法

如图2所示,集中式控制下的任务分配方法主要分为智能类算法[35]和迁移模型[36]。其中,智能类算法由群体智能算法和遗传算法构成[37],而通过模仿自然界生物群体协作表现出来的智能行为所形成的算法称为群体智能算法,包括狼群算法[38]、鱼群算法[39]、蚁群算法[40]、粒子群算法[41]等。

图2 集中式任务分配方法Fig.2 Centralized task allocation method

蚁群算法模仿蚂蚁的合作行为来解决复杂的组合优化问题,用蚂蚁的路径表示优化问题的可行解,整个蚁群的所有路径构成优化问题的解空间。由图3可知,该蚁群的解空间为路径A、路径B、路径C,蚁群出发地与食物之间最短的路径为路径B,随着时间的推移,路径A和路径C上的信息素含量较少,路径B上的信息素含量最多,因此路径B上蚂蚁的数量也越来越多,在正反馈作用下,路径B成为该蚁群获取食物的最优路径,对应优化问题的最优解。

图3 蚁群算法概念图Fig.3 Concept diagram of ant colony algorithm

粒子群算法是指将族群中的个体(粒子)当作优化问题的一个解,在解空间中,粒子之间进行信息融合、共享,并结合自身的策略和经验寻找最优解;而遗传算法(genetic algorithm)则是借鉴自然选择和遗传机制,遵循“优胜劣汰”的原则,模拟动物繁衍进化中的自然选择、混合交叉、突变等方法进行更新迭代,以此来寻找最优解。

迁移模型主要有多旅行商模型(multiple traveling salesman problem,MTSP)[42]、车辆路径模型(multiple capacitated vehicle routing problem,MVRP)[43],这两种模型是将基于集中式控制下的无人机任务分配问题迁移到旅行商和车辆路径规划上面,从而进行最优求解。MTSP模型源于传统的旅行商问题,将无人机集群中的个体看为旅行商,待分配的任务看作城市,该模型具有原理简单、复杂度较低、可扩展性强的优点,要求进行任务分配时需要遍历所有的任务点,适用于有限时间内无人机集群任务分配问题;MVRP模型源于无人机智能汽车的货物配送问题,根据异构无人机集群的个体无人机任务分配性能约束,利用VRP模型对任务分配问题进行建模,得到优质的任务规划方案。

1.2 集中式控制信息传输方式

如图4所示,在无人机集中式控制结构中,无人机根据任务控制站或者长机传输的信息和数据进行决策,而无人机本身不具备决策能力[44-45]。

图4 无人机集中式控制信息传输Fig.4 Centralized control information transmission of UAV

该控制结构存在以下弊端:1)决策不及时。由于在该控制结构中,无人机本身不具备决策能力,无人机需要根据任务控制站或者长机传输的信息、数据来决策[46],任务控制站需要不断分析和处理所有无人机的全部信息,因此所承受的计算压力较大,计算信息多、计算步骤复杂,进行任务分配时间久[47-48],特别是当集群中出现异构无人机时,需要进行海量数据交互,任务控制站可能会出现接收信息不全或信息紊乱的局面,导致任务决策有误或任务决策延迟。2)抗干扰性差。由于任务控制站通常只有一个,当任务控制站进行任务分配时,一旦遭到破坏,那么造成的损害极大[49-50]。但这种方式的优点是无人机进行信息传输稳定、传输速率快,易获得全局最优策略,适用于战场环境条件已知,敌方攻击能力弱和攻击范围小,或己方控制站或长机隐身能力和机动能力较强,对全局的态势感知强,且自身的数据处理能力出色,执行任务规模较小、传输数据和信息少。

2 分布式控制系统结构

分布式控制系统是指采取自治和协作的方法来解决全局控制问题,基于各无人机之间的信息交互来完成任务,具有充分的自治权[51],如图5所示。分布式控制的集群内无人机不仅具有收集信息、信息交互的能力,还具有对数据进行整理计算、分析决策的能力[52],并且具备与自然环境、任务目标和其他无人机交互的能力,充分考虑各种环境因素,无人机自身通过计算,能够生成处理任务分配的策略。

图5 分布式控制系统结构Fig.5 Distributed control system structure

2.1 分布式控制任务分配方法

目前,基于分布式控制系统进行任务分配的方法主要有优化算法[53]和类市场机制[54],如图6所示。

图6 分布式任务分配方法Fig.6 Distributed task allocation method

优化算法主要有基于仿生算法[55]和博弈论[56],基于仿生算法是通过模拟生物自身规律,并将其通过算法的形式体现出来的一种方法,该算法在分布式控制任务分配中应用十分广泛,极具代表性的仿生算法是果蝇算法(drosophila algorithm)[57]。如图7所示,果蝇觅食首先根据果蝇个体随机选择方向进行飞行,然后所有果蝇根据自身嗅觉能力飞向高气味食物浓度高的位置,进入该位置范围后,再利用敏锐的视觉寻找食物源或同伴聚集的位置,形成新的果蝇联盟,最后再一次随机选择方向飞行,飞向新的气味食物浓度高的位置并再次聚集,以这样的方式循环往复,直到找到食物源为止。

图7 果蝇觅食Fig.7 Drosophila foraging

文中的博弈论(game-theory)则是研究无人机集群中每架无人机进行任务分配时所产生的策略,并对策略进行优化,实现全局最优策略[58],首先将无人机任务分配问题公式化为成本函数的最小化,其中包括每架无人机的多个目标和约束条件,然后,建立了一个基于博弈论的框架,将最小化问题归结为寻找纳什(Nash)均衡,最后利用改进的人工智能算法收敛至纳什均衡,即获得全局最优解。

类市场机制主要有合同网算法[59]和拍卖算法[60]。其中,合同网算法是指将集群中每架无人机的任务分配情况作为投标值,每架无人机都是独立存在的,招标无人机发布任务信息即为招标,接到此次任务信息的无人机,根据自身能力和任务信息进行评估,投放投标值并成为投标无人机,最后评估这些投标无人机的投标值并选择合适的投标无人机,最终,被选中的投标无人机即为中标无人机而执行任务。拍卖算法与合同网算法类似,都是无人机根据自身利益依次对分配任务进行报价,通过多轮次的竞标,将该任务分配给适合的无人机,实现任务的合理化分配。

2.2 分布式控制信息传输方式

如图8所示,在分布式控制结构内,无人机之间可以进行信息的融合、交互,将全局的任务分配难题转变为局部的无人机之间的任务分配问题,由无人机自身通过信息协调的方式来进行决策和解决[61]。

图8 无人机分布式控制信息传输Fig.8 Distributed control information transmission of UAV

分布式控制结构存在以下问题:1)无人机资源浪费[62]。由于无人机集群中无人机数量众多,当无人机进行自主决策时,难于掌握全局信息,存在同一任务由多架无人机重复完成,这就导致无人机资源的浪费。2)数据信息多,处理信息量大[63]。为具有任务决策的实时性,在此控制模式下,无人机之间要进行大量的数据传输和共享,信息量会随着集群内无人机的数量呈指数增长[64]。

与集中式控制方式相比,分布式控制下的无人机具有较强的主体性和机动性,能够对任务信息、自身信息展开分析和管理决策,抗干扰能力强、数据计算速度快,可以自主与其他无人机进行信息融合,实现信息共享并协作完成任务,并对局部态势变化做出反应,提高了系统的灵活性与鲁棒性。该控制方式适用于战场环境条件未知、动态环境或中等至大规模系统中,对敌方掌握的信息较少,己方无人机集群中单架无人机应具备较强的单兵作战能力,且对局部战场态势感知能力强,自身的数据处理能力出色,具有高频次切换通信的能力、通信质量高,执行任务规模较广、执行任务层次多等特点。

3 集散式控制系统结构

集散式控制系统如图9所示。

图9 集散式控制系统结构Fig.9 Centralized and distributed control system structure

该方法主要是借鉴多智能体系统(MAS)的思想[65],结合集中式和分布式的优缺点,由地面任务控制站或长机将任务转化为多项子任务,再分给各无人机,各无人机根据自身的任务进行信息共享和信息交互,将完成任务的收益及损失等信息发送给长机或地面任务控制站。各无人机在完成任务后,都会根据自身的局部利益、环境信息进行任务评估,一旦发现对自身非常有利的解决方案,将该方案递交给地面任务控制站或长机,地面任务控制站或长机将对每架无人机计划方案开展总体评定[66-67]。若该方案能够提高无人机集群整体收益,则方案将被选用,否则被否决,每架无人机的任务分配方案都是根据全局收益来规划和设计。

3.1 集散式控制任务分配方法

相对于集中式控制体现在任务控制站或长机对所有任务先进行集中分配、调整,分布式控制则体现在以下两个方面:一是在预分配环节,各无人机收到任务控制站或长机的任务分配信息后,无人机之间协作完成任务[68];二是任务或环境突然变化时,可采用分布式协调的方式,根据环境、任务的变化情况,及时调整任务分配策略,以最小损失代价应对态势的变化。一般利用集散式任务分层框架来描述无人机集散式控制系统结构[69],如图10所示。从集散式任务分层框架中可以看出,主要包括以下两个部分:

图10 集散式任务分层框架Fig.10 Centralized and distributed task hierarchical framework

1)集中控制部分。任务控制站根据掌握的任务信息、环境资源信息和无人机状态信息,对任务集进行目标聚类,目标聚类的目的是将彼此接近的目标归为一组,是简化大规模任务分配问题的关键和基本步骤,经过这一步,NT目标被划分为M簇,M等于无人机联盟的数量,为了在无人机联盟之间平均分配工作负载,聚类算法必须平衡每个集群中的目标数量。然后进行任务集群分配,将多个小无人机联盟看为一个大的无人机联盟,M个集群分配给大无人机联盟中的M个小无人机联盟,通过人工智能算法,计算出无人机目标任务分配的最优策略,即每个小无人机联盟被分配一个最优任务集群。任务控制站实现目标聚类和任务集群分配功能。

在集中控制部分所使用的算法是聚类算法,主要有K均值聚类算法(K-Means)[70]、均值漂移聚类算法[71]、基于密度聚类算法(DBSCAN)[72]、高斯混合模型(GMN)的最大期望(EM)聚类算法[73]等,而K-Means算法是众多算法中应用最为广泛的聚类算法。如图11所示,该算法首先随机确定质心数量K,然后对所有点进行划分并形成多个簇,将每簇的质心更新为该簇所有点的平均值,最后迭代该过程,直到数据集中的所有点距离其所对应的质心最小时结束循环。

图11 K-Means聚类过程Fig.11 K-Means clustering process

2)分布控制部分。在战场态势发生变化时,小无人机联盟内决策、协调并对任务进行分配。在每个小无人机联盟内,都有一个Leader无人机,该无人机具有对小无人机联盟内的指挥作用,Leader无人机通过强化学习算法,将小无人机联盟内的每架无人机与目标任务进行交互,获得这个小无人机联盟完成目标任务的最优策略。小无人机联盟中Leader无人机获得联盟内目标任务分配的最优策略并将任务分配给单架无人机,指定联盟内成员的攻击任务目标,确定攻击顺序。同时,联盟内的任务执行情况、环境变化等信息由Leader无人机向任务控制站进行反馈交互,任务控制站可根据这些信息对任务和无人机进行二次分配,起到提升任务执行效率和保障任务完成率的作用。

在分布式控制部分所使用的算法主要是强化学习算法[74],强化学习通过“探索-利用”机制,一方面让智能体不断对环境进行探索,获得观测值;另一方面,对已有经验和信息加以利用,不断更新学习策略,以使累积奖励最大化。强化学习原理如图12所示,在强化学习中,一般先定义决策者或智能体(agent),再将智能体之外的事物定义为“环境(environment)”,系统与环境相融,智能体和环境之间的交互过程由三个要素组成,分别是:状态(state)、动作(action)、奖励(reward)。智能体根据状态St,执行动作At并与环境进行交互,得到奖励Rt并获得更新的状态St+1,在时间步t下,根据当前状态St和奖励Rt,智能体提供当前动作At,系统状态由St转变为St+1,与环境交互反馈奖励Rt+1。

图12 强化学习原理Fig.12 Principles of intensive learning

强化学习算法主要有Q学习算法(Q-Learning)[75]、状态-动作-奖励-状态-动作算法(state-action-reward-state-action,SARSA)[76]、深度Q网络算法(deepQnetwork,DQN)[77]、深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)[78]、多智能体强化学习(multi-agent deep deterministic policy gradient,MADDPG)[79]等,而传统的强化学习算法需要一个稳定的环境,由于无人机集群中无人机数量多,每架无人机的策略都在变化,可选择的动作空间变大,对于集群中的无人机而言,环境是不稳定的且每架无人机所能观测的环境信息也是有限的,这些原因导致传统强化学习算法无法收敛,而MADDPG可以解决这些问题,因此,MADDPG在无人机集群任务分配中的应用十分广泛。

如图13所示,MADDPG采用的是“中心化训练,去中心化决策”的网络架构,其核心思想是Actor-critic网络:每个Agent都有一个动作网络(策略网络)和价值网络,动作网络根据当前获取的状态si计算出执行动作的概率分布,根据动作概率分布随机选择动作ai,而价值网络根据当前执行的动作和状态(ai,si)得到一个Qi值,并根据Qi值评估当前状态下该动作ai的好坏,以此更新动作网络参数θi,提高动作网络性能;而价值网络则根据全局状态S、所有Agent的动作A,得到一个实数,该实数表示基于全局状态S下,第i个Agent执行动作ai的好坏程度,以此来对第i个Agent的动作网络性能进行改进,价值网络则是根据ri进行价值网络参数ωi更新,以此来保持较高的评判水平。

图13 MADDPG网络架构Fig.13 MADDPG network architecture

在训练过程中,为了避免经验数据的浪费,同时也为了将训练数据序列打散,消除相关性,使训练更加稳定,加入了训练回放机制,引入经验池。将每一轮迭代的四元组数据(si,ai,ri,si+1)存放在经验池中,经验池大小设置为N,当数据量超过N时,每存入一条新的四元组数据将覆盖掉最早的一条四元组数据,在训练阶段,动作网络随机抽取一条四元组数据进行训练,价值网络则获取Agent自身信息以及其他Agent的动作和状态等信息进行训练,即中心化训练;在执行阶段,由于每个Agent的动作网络在训练阶段已经训练完毕,因此在执行时,不涉及价值网络,只需要Agent自身的动作网络,即去中心化执行。这种训练-执行方式克服了环境的非平稳性和观测环境信息局部性,使训练更加稳定。

3.2 集散式控制信息传输方式

集散式信息控制结构如图14所示,无人机组成多个无人机联盟,各联盟内有一个Leader无人机负责联盟内的信息交流、协同控制、任务分配等,即在局部任务执行范围内,各无人机联盟内就可完成任务,无需等待无人机控制中心的指令。同时,Leader无人机对信息进行过滤,将联盟内收集到的高价值信息传送给无人机控制中心,无人机控制中心整合各无人机联盟的信息,根据实际需求和态势变化,从战场大局的角度对各无人机联盟做统一宏观调配,无人机控制中心也可通过远程通信的方式和任务控制站保持信息交互,接收新的任务指令,调整策略。集散式控制方式将目标任务分配的集中式全局优化问题转化为分散的局部优化问题。该方式既消除集中式计算量大、分布式获得信息不全的问题,又能使无人机具备自治能力,极大的提升作战效率,满足全局利益最大化。

图14 集散式信息控制结构框架Fig.14 Distributed information control framework

因此,集散式控制方式下,对无人机的智能化、信息化要求最高,该控制方式适用于战场环境诡谲多变,敌方目标多且需精确打击,或敌方目标不断改变自身策略,难以在短时间内对目标进行打击等情况。集散式控制方式是最贴近战场实际情况的一种控制方式,且在该方式下,无人机任务完成度更高、任务执行效率也更高,即能在短时间内对敌方造成毁灭性伤害。

4 结论

无人机集群任务分配和控制是无人机集群技术研究的重要部分。首先就当前无人机集群任务分配和控制方式的发展和研究现状进行了概述,具体分析了集中式、分布式、集散式控制系统结构的关键技术和研究进展,然后从任务分配方法、信息传输方式等角度进行剖析,着重分析了3种控制结构下的适用范围、优缺点,以及任务分配算法的种类、原理,以期为无人机集群任务分配控制发展提供理论基础,对未来无人机集群任务分配控制技术起到一定的推动作用。