APP下载

针对集群攻击的飞行器智能协同拦截策略

2023-10-17高树一林德福郑多胡馨予

航空学报 2023年18期
关键词:飞行器集群协同

高树一,林德福,郑多,*,胡馨予

1.北京理工大学 宇航学院,北京 100081

2.北京理工大学 徐特立学院,北京 100081

随着现代作战理念向体系转变,单体武器装备发挥的作战效能正变得愈加有限,未来智能化战争将是多智能体间的协同作战,群体间的博弈对抗将贯穿战争始末。针对复杂作战环境中的集群目标拦截问题,需要考虑集群目标可能的突防手段,研究立体化多层次的智能协同拦截策略,以提升拦截成功率和任务效能。

集群目标的协同拦截可以分为2个子问题:一是多目标拦截的目标分配问题;二是拦截方集群协同打击问题。针对以上2个问题,国内外相关研究人员已开展了一定的研究工作。多目标拦截的目标分配问题属于任务分配问题,文献[1]利用脱靶距离和视线角速率构造了适合于多对多作战的拦截概率函数,提出了一种具有固定和自适应分组约束的任务分配方法,简化分配过程进而提升了作战效能。文献[2]通过攻防双方作战态势设计评估模型,进而结合强化学习算法提出了一种智能任务分配方法,合理的评估模型搭配强化学习智能算法不仅简化了分配问题,同时赋予分配算法智能属性。文献[3]提出了一种协作的滚动优化控制器,所提出的控制器通过在规划范围内估计可收集的奖励来顺序地解决优化问题,并对行动范围执行控制,从而实现拦截任务分配。文献[4]提出了一种预测规划拦截的方法,该方法允许在检测到目标轨迹变化时重新规划拦截路径,可以高效的解决协同拦截问题。文献[5]提出了一种基于动态态势评估的多目标任务分配方法,该方法综合考虑拦截集群的协作能力,并采用遗传算法对拦截目标分配策略进行优化,通过仿真验证了算法的有效性。文献[6]结合路径长度成本以及集群机动成本提出了一种目标分配方案,并通过创建Delaunay加权树并在树中搜索最优路径,实现了基于航路点的作战路径规划,该文献将目标分配问题表述为基于多约束问题的路径搜索问题,进而优化目标分配策略。上述文献在群目标任务分配方面具有较好的实践意义,在协同拦截作战中预先制定的目标分配策略虽然能够简化拦截问题,但是所消耗的时间于战争是不利的,未来战场迫切需要将分配方法融合在协同打击中,进而提高作战效率。

在协同拦截机动策略方面,目前开展的研究主要包括打击时间协同、角度约束协同和智能协同3种拦截方式。关于基于打击时间协同的集群拦截策略,国内外相关学者进行了大量的研究。文献[7]通过分析多飞行器指定时间和预估飞行时间的误差作为反馈,提出了系数随时间变化的多飞行器协同拦截方法,该方法具有一定的自适应性,能够结合制导控制的不同阶段实时调整系数,进而提升拦截精度。文献[8]基于协同控制理论,设计了一种结合空间协同和时间协同的拦截制导律模型,实现多飞行器间视线角在规定时间内收敛到期望值,该方法综合考虑时间空间约束,在此基础上设计相应的策略模型。文献[9]基于超螺旋控制方法提出了攻击时间控制协同拦截制导方法,该方法基于滑膜控制设计拦截策略,在考虑攻击时间约束的前提下提升制导精度,具有较强的工程实用性。文献[10]提出了一种能够依据当前作战态势实时调节攻击时间的协同拦截策略,并且通过仿真实验验证了算法有效性。有关时间协同的方法是协同作战的研究重点,但区别于不同的战场情况,与角度有关的协同方法有时更为重要。关于基于角度约束协同的集群拦截策略,相关研究人员开展了一定的研究。文献[11]基于最优控制的方法设计了带有角度约束的协同制导策略,通过为飞行器预先设定拦截角度进而控制集群以指定的角度构型拦截目标,该方法综合考虑角度约束和制导精度,具有一定的工程实用性。文献[12]将前置角和弹目距离综合考虑,设计出一种领从式协同拦截方法,该方法依据前置角变化设计制导率,同时融合领从式协同策略,对拦截效能有较为积极的作用。文献[13]在考虑落角约束的基础上设计了自适应的协同拦截制导方法,该方法能够结合作战场景的变化调节协同制导策略,进而实现饱和攻击。文献[14]提出了一种将视线角速率与二阶滑模技术相结合的角度约束协同制导方法,具有较强的工程实用性。文献[15]基于非奇异终端滑模控制理论设计出一种能够以期望撞击角拦截机动目标的协同制导方法,该方法作为滑膜控制的变体,较好的适用于协同作战中,具有良好的工程实用性。文献[16]研究了具有无向通信拓扑结构的协同制导问题,提出了一种分布式协同制导策略,以实现具有碰撞角约束的协同打击。文献[17]基于非线性问题转化为线性二次微分的方法,提出了一种考虑碰撞角和时间约束的次优制导方法,仿真结果表明该方法适用于导弹齐射发射作战场景。上述角度协同方法考虑落角约束、视线角约束等限制,对制导控制方法进行了理论推导。综合分析时间和角度协同2种方法,由于复杂战场中状态空间维数的上升,传统的基于最优控制、非线性控制等的制导方法将难以适应。

近年来人工智能技术发展迅速,部分学者针对基于智能算法的协同拦截策略设计问题展开相关研究。文献[18]将飞行器对抗任务离散化后,提出了一种能够应对复杂环境的智能对抗策略,该方法采用分层强化学习的方法,有效的提升了模型训练的收敛速度,解决了群体对抗中的稀疏奖励问题。文献[19]基于多智能体强化学习理论设计了一种多飞行器攻防对抗自主决策算法,在无人飞行器集群协同对抗环境中进行了仿真验证。文献[20]利用粒子群算法,基于协同博弈理论求解了多飞行器博弈过程的纳什均衡,该方法在不使用任何线性化近似的情况下,使问题的基本收益最大化,从而显著提升导弹性能。文献[21]基于强化学习算法提出了一种适应于多智能体博弈的狼群优化算法,该方法中学习率可以根据环境变化自主调整,通过仿真实验表明狼群优化算法在多智能体随机博弈中的合理性。文献[22]基于启发式蚁群算法提出了一种多飞行器的协同拦截过程中的路径规划方法,该算法通过求解友机对目标的最优分配来确定机动策略,仿真实验表明该方法优于普通的蚁群算法,是一种适用于协同作战的高效算法。文献[23]基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法设计了一种飞行器的制导控制一体化方法,该方法综合考虑飞行器的运动学和动力学特性,将强化学习算法与制导控制原理相结合,提升机动策略的作战效能。文献[24]结合协同进化算法和模型预测控制方法设计了一种飞行器轨迹规划方法,该方法用于处理飞行器编队控制问题,相比于传统的模型预测控制方法提升了算法渐进稳定性。文献[25]研究了一种基于障碍维数的连续粒子群优化算法来优化拦截入侵者的防御路径,相比于传统的粒子群算法,该方法更适应于拦截作战中状态空间维数大的仿真场景。文献[26]采用深度确定性策略梯度算法建立了飞行器模型,并利用多飞行器的协同参数构造奖励函数,从而引导飞行器进行协同作战。

随着来袭飞行器性能和突防策略的多元化发展,未来战场中飞行器间的攻防对抗将以集群博弈的方式出现。现有的协同拦截方法虽然具备一定的拦截能力,但较难适用于动态博弈条件下的群目标拦截任务。因此将智能理论与拦截策略相结合赋予拦截器协同博弈能力是未来打赢高对抗战争的迫切需求。

本文面向未来集群目标协同拦截的任务需求,基于强化学习原理研究提出了一种多飞行器拦截博弈对抗策略自学习智能方法。针对传统方法中难以应对高维连续状态动作空间的问题,将传统的多智能体强化学习方法与近端策略优化思想相结合,采用集中式评判-分布式执行的算法架构,提出了一种适用于飞行器集群目标拦截作战环境的智能对抗算法。研究提出的智能拦截博弈对抗算法具有以下优势:

1)将近端策略优化方法融入到多智能体环境中,有效解决了强化学习训练中步长难以确定的问题。

2)基于集中-分布式算法框架,将广义优势函数结合到价值函数设计中,引入梯度更新限幅机制,一定程度上提升了算法的收敛性。

3)将拦截目标分配过程与协同拦截策略一体化设计,研究提出了具有自主进化能力的多目标智能协同拦截策略,提高群目标拦截效能。

1 集群飞行器拦截博弈对抗

1.1 问题描述

在飞行器拦截博弈对抗中,对抗双方可分别描述为进攻飞行器群体与拦截飞行器群体。进攻飞行器群体需要打击高价值目标区域,飞行方向指向目标区域位置,并保证一定的精度。防御飞行器群体则需要实现对高价值目标区域的防御,拦截进攻飞行器。本文重点研究攻防双方对抗过程中防御方集群的协同拦截策略,提升防御方集群博弈对抗能力,立足于集群作战中的多目标协同拦截,从而实现防御方集群对进攻方集群飞行器的饱和攻击,进而实现对高价值目标区域的防御作战目的。飞行器在飞行过程中通过机载设备,可以感知作战信息。在博弈对抗中,防御飞行器相对于入侵飞行器的态势关系主要从博弈双方关于相对运动关系的态势进行描述,作战博弈对抗必须同时满足位置要求和角度要求。如图1所示,环境中包括目标区域、进攻飞行器、防御飞行器,其中,(xi,yi)|i=1,2,…n为飞行器的位置坐标。

图1 多飞行器拦截博弈问题Fig.1 Multi-aircraft interception game problem

1.2 飞行器运动学模型

本文以某固定翼飞行器为研究对象,考虑一个二维平面协同拦截场景,如图2所示。其中,下标M和T分别表示防御方飞行器和进攻方飞行器;x,y为二维空间中飞行器的位置坐标;q和r分别表示飞行器间的视线角和相对距离;γ为飞行器速度方向与x轴的夹角,即航向角;V和a分别表示飞行器的速度大小和侧向加速度大小。

图2 二维平面协同拦截场景Fig.2 2D plane collaborative interception scenario

某单体飞行器的二维空间运动学模型可以简化描述为

执行拦截任务过程中,描述攻防双方飞行器的相对运动关系方程可以表示为

式中:r为二维空间中飞行器之间的距离;q为飞行器之间的视线角大小;VT为进攻飞行器的速度大小;VM为进攻飞行器的速度大小;γT为进攻飞行器的速度航向角;γM为拦截飞行器的速度航向角;定义沿着视线和垂直视线方向的相对速度分别为Vr=˙,Vq=˙。

对Vr和Vq求导可得

式 中:aTr=aTsin(q-γT),aTq=aTcos(q-γT)为进攻方飞行器沿视线方向和垂直于视线方向的 加 速 度 ;aMr=aMsin(q-γM),aMq=aMcos(q-γM)为防御方飞行器沿着视线和垂直于视线方向的加速度。

飞行器速度航向角和过载之间存在着以下关系:

式中:nM为防御飞行器的法向过载指令;nT是进攻飞行器的法向过载指令;g为重力加速度。

本文考虑了实际飞行中飞行器能力限制,设定飞行器的最大飞行速度Vmax和过载的范围限制,攻防双方飞行器最大速度为Vmax=45 m/s,最大过载为nmax=1。

2 多飞行器拦截博弈对抗智能机动决策

针对群体目标智能化拦截问题,本节基于多智能体深度强化学习算法提出了一种多飞行器群体拦截博弈对抗的智能决策方法,通过感知到的作战环境和敌我态势信息,自主学习拦截策略,体现智能系统的自学习和自进化属性。

2.1 近端策略优化算法模型

在面对多飞行器作战环境时,传统的策略梯度算法会出现训练过程中策略更新步长难以确定的问题。因此本文采取了近端策略优化算法,在面对复杂的多飞行器拦截博弈对抗作战环境中提出了新的目标函数,可以在算法训练的过程中实现小批量更新,避免训练结果发散。

不同于传统强化学习算法中使用所执行动作的对数概率梯度,近端策略优化算法依据新旧策略之间的比率进而提出新目标,即

式中:πθ(a|s)当前策略函数;πθold(a|s)为更新前的策略函数;A为优势函数。

本文将近端策略优化算法与广义优势函数估计方法相结合,同时融合clip算法以限制策略更新幅度。定义评估飞行器行为策略的目标函数:

式中:clip算法的作用是将新旧策略之间的比率限制在[1-ε,1+ε]之内,根据广义优势估计函数At的不同取值,clip算法可以分为2种情况,如图3所示。图中红线表示Jclipθ的取值,从而防止训练过程中策略的大幅更新,估计形式为式(7)所示。

图3 clip算法模型Fig.3 clip algorithm model

式 中:σt=rt+γV(st+1)-V(st);r为 奖 励 值;γ为衰减因子;V(st)为此时刻的价值函数。

2.2 多智能体强化学习策略优化算法

本文将多飞行器拦截博弈对抗作战场景描述为一个合作的多智能体强化学习问题,采用集中式评判分布式执行算法架构,该方法模型如图4所示,仿真环境中多智能体围绕共同目标进行分工与协作,涌现群体智能。

图4 集中式评价分布式执行算法框架Fig.4 Centralized evaluation distributed execution algorithm framework

为适应多飞行器对抗作战场景,本文将近端策略优化算法和集中式评价分布式执行框架相结合,提出了一种适用于集群对抗的多智能体强化学习算法。为应对复杂作战环境下值函数以及策略梯度计算复杂的问题,引入深度学习中的神经网络去拟合强化学习中的评判函数以及策略函数。多智能体深度强化学习算法模型如图5所示。

图5 多智能体深度强化学习算法模型Fig.5 Multi-agent deep reinforcement learning algorithm model

飞行器拦截策略训练过程分为评判和执行2个部分,单体飞行器同时具有攻防对抗策略π和策略的评判模块Q,本文用神经网络拟合评判函数以及策略函数,如图6所示。并引入经验回放机制,使训练数据通过经验回放机制中的重要性采样获得,从而在一定程度上改善了算法的收敛性。

图6 算法架构Fig.6 Algorithm architecture

1)评判模块

神经网络具有替代非线性函数的能力,因此本文使用多层循环神经网络(Recurrent Neural Network,RNN)来近似评价策略的值函数。相比于传统的全连接网络,RNN增加了前后时序的关系,在训练过程中将前序信息应用于当前输出的计算中,提升神经网络训练的收敛性能。

评判模块通过计算状态价值函数V(st)和Vtarget(st)更新神经网络参数ω,Critic评判网络优化的损失函数如式(8)所示:

用于拟合值函数的神经网络结构如图7所示,基于时间差分算法优化损失函数进而更新神经网络参数。

图7 值函数神经网络Fig.7 Value function neural network

2)执行模块

在集中式训练和分布式执行的框架下,策略神经网络在执行时只利用飞行器自身的观测状态生成飞行器的机动策略。本文使用神经网络拟合策略函数,如图8所示。定义每架单体飞行器的参数化机动策略为πθi,θ是机动策略的参数,同时为Actor执行模块定义一个策略优化目标函数:

图8 策略神经网络Fig.8 Strategic neural network

式中:θ为策略网络参数;At为评判网络估计的优势函数;πθold(at|st)代表收集经验的原始网络,πθ(at|st)为利用更新后的策略;clip函数将概率比限制在一个合理的范围;ε为一个超参数。以At作为优化目标,At>0时增加πθ(at∣St)的概率,反之At≤0则减小πθ(at∣St)的概率。

2.3 飞行器博弈智能对抗算法建模

将飞行器间的对抗作战任务建模为部分可观马尔科夫决策过程,如图9所示。将飞行器群体构成一个整体智能无人系统,对智能无人系统中的相关变量定义如下:i=1,2,…,n表示各个飞行器的编号,n为飞行器的总数量;所有飞行器的联合动作空间为A;所有飞行器的联合动作为at;所有飞行器下一时刻的联合动作为at+1;飞行器的联合状态空间为S,联合状态为st;每架飞行器的感知信息为oti∈st;各个飞行器的奖励为rti。

图9 作战场景马尔可夫建模Fig.9 Markov modeling of operational scenario

在算法训练过程中,飞行器接受环境观测信息产生机动策略,通过值函数对策略进行评估优化,直到训练生成最优值函数Q*(s,ai)和最优策略π*。算法中局部观测信息和全局观测信息交汇融合提升了多智能体群体博弈的对抗性能。作战过程中算法流程如图10所示,其中TD表示时序差分方法(Temporal Difference,TD)。

图10 强化学习过程Fig.10 Reinforcement learning process

3 强化学习算法建模设计

第2节基于深度强化学习方法,建立了多飞行器智能拦截博弈对抗作战模型,本节对模型中的观测空间和奖励函数进行设计。

3.1 观测空间设计

多智能体深度强化学习模型训练过程中,单个智能体的局部观测值以及输入给评价网络的整体观测值都对模型训练具有较大影响。强化学习算法的核心在于与环境交互,每个智能体观测到的信息都对策略的学习有着较大影响。本文中单个飞行器与环境交互过程中观测的环境信息包括3部分,可表述为

在式(10)中,与视线角速率相关的观测信息为

式中:V为拦截飞行器的速度;λ˙为拦截飞行器i与环境中其他入侵飞行器的视线角速率。

在式(10)中,表示距离的观测信息为

式中:进攻飞行器和防御飞行器的相对距离使用(pt,pm)=‖pt-pm‖来表示,其中,pt为进攻飞行器的位置,pm为防御飞行器的位置。

在式(10)中,表示速度矢量前置角的观测信息为

式中:γm为拦截飞行器的速度航向角;是拦截飞行器和入侵飞行器的视线角。

3.2 奖励函数设计

在多飞行器拦截博弈对抗作战场景中,防御方飞行器的作战目标是以较小耗能逼近进攻飞行器,从而实现拦截打击。深度强化学习理论中奖励函数设计对博弈策略的学习尤为重要,针对多飞行器拦截博弈对抗任务场景,如果仅使用终端拦截回报会使奖励函数设计稀疏,从而导致策略学习过程缺乏反馈引导,导致飞行器博弈策略训练缓慢。本文结合作战任务场景拦截过程中飞行器间的距离关系和角度关系设计奖励函数,下面对己方拦截飞行器的奖励函数进行描述。

拦截飞行器的奖励函数包括4部分。分别是基于飞行器间相对距离的奖励、基于飞行器间前置角的奖励,拦截成功的单体奖励和集群终端奖励,可描述为

单体飞行器拦截终端奖励S表示为

式中:Z为拦截飞行器的集合;fm为布尔变量,当拦截飞行器成功拦截入侵飞行器时为1,否则为0;经过仿真验证设置超参数为K1=800。

集群拦截终端奖励P1表示为

式中:fB为布尔变量,当进攻集群全部被拦截时为1,否则为0;经过仿真验证设置超参数为K2=4×103。

基于飞行器相对距离奖励P2表示为

式中:U为进攻飞行器的集合;经过仿真验证设置超参数K3=0.5。

基于飞行器间前置角的奖励P3表示为

式中:经过仿真验证设置超参数为K4=0.65,K5=0.3。

4 仿真结果及分析

为验证算法在多飞行器智能拦截场景中的有效性,本文设计了多飞行器拦截博弈对抗仿真环境,基于不同的任务类型以及飞行器的分布情况设置了作战仿真实例进行仿真实验。

4.1 仿真参数

在仿真实验中,程序运行的服务器采用Ubuntu18.04系统,搭载Intel Core i7 9700F处理器,显卡型号为Nvidia GeForce GTX 3090。模型训练采用并行计算方法,设定进程数为64,仿真环境步长为0.06 s。

4.2 算法训练

使用5架飞行器构成防御集群进行训练,仿真程序实现流程如图11所示。

图11 算法训练流程图Fig.11 Algorithm training flow chart

多飞行器智能拦截博弈对抗作战环境中防御方飞行器策略训练算法使用的训练参数如表1所示。

表1 算法训练参数设置Table 1 Setting of algorithm training parameters

为了便于观察算法训练状态,防止训练过程中出现梯度消失等现象,对算法奖励值的收敛性能进行了监测。以3架飞行器协同攻击目标作战场景为例,算法训练过程奖励曲线如图12所示;在相同条件下使用多智能体深度确定性策略梯度下降算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)进行策略训练时,得到奖励曲线如图13所示。

图12 本文算法奖励函数曲线Fig.12 Reward function curve of our algorithm

图13 MADDPG奖励函数曲线Fig.13 Reward function curve of MADDPG

根据奖励函数曲线(图12)可知,在算法训练过程中,飞行器集群的行为奖励收益值保持比较平稳的状态缓慢增加,在训练回合数到达12.5×104次之后奖励函数曲线逐渐收敛;根据奖励函数曲线(图13)分析可知,MADDPG算法训练回合数到达17.5×104后才开始收敛。相比于传统算法而言,本文所提智能算法收敛所需的回合数更少,收敛更加稳定。仿真结果表明,在集群拦截任务中智能对抗算法收敛较快,奖励曲线较为光滑。

4.3 验证与分析

为了验证研究提出的飞行器智能对抗博弈算法,本文根据进攻飞行器的数量不同设定了4种典型作战场景,针对不同场景分别训练飞行器集群拦截作战策略模型。4种典型作战场景情况如表2所示,攻防双方初始化阶段随机性条件设置如下,防御集群生成的初始位置与目标区域的距离RM0∈[0,100] m,防御集群的初始速度VM0∈[15,25] m/s,初始速度方向随机。进攻集群随机生成的初始位置与目标区域的距离RT0∈[500,600] m,进 攻 集 群 的 初 始 速 度VT0∈[15,45] m/s,初始速度方向与弹目连线的夹角<30°。

表2 作战场景设置Table 2 Operational scenario setting

本文针对训练得到的4种场景下的机动策略模型分别进行仿真测试,验证算法的有效性。仿真场景中,防护目标被随机设置在固定位置,5架防御飞行器在防护目标区域附近随机地部署。进攻飞行器的位置在一定的限制范围内随机生成,每个飞行器的能力约束包括飞行速度限制、过载能力限制等。设定作战场景中拦截成功的判定方法为脱靶量<5 m。4种典型作战场景的初始参数如表3所示。

表3 仿真环境参数Table 3 Simulation environment parameters

1)5架防御vs 1架进攻

针对1架进攻飞行器攻击防护目标的情况,仿真环境初始参数如表3所示,其中进攻方采取的机动策略为比例导引法,则飞行器集群拦截任务的仿真结果如图14所示,其中,D-UAV表示防御飞行器,A-UAV表示进攻飞行器。由位置曲线(图14(a))分析可知,基于近端策略优化的多智能体强化学习算法训练得到的机动策略模型能够对1架进攻飞行器来袭实施成功拦截。由法向过载曲线(图14(b))可知,机动策略模型输出的法向过载指令在限制范围内,指令变化平滑,航向角变化平稳,适于飞行器跟踪控制。轴向过载曲线(图14(c))表明,为了快速实现拦截任务,神经网络输出相应的轴向过载指令,提升飞行器的速度,使得防御方飞行器群体更加高效快速的实现拦截任务。

图14 5架防御vs1架进攻协同拦截仿真结果Fig.14 5 defense vs 1 attack cooperative intercept countermeasure simulation results

从位置曲线(图13(a))可以看出,防御方飞行器各自采取较为平滑的飞行路线去拦截进攻方,在保证成功率的同时缩短拦截路程,减少作战耗能。

仿真结果表明,采用本文所提的智能协同策略可以对单体进攻飞行器进行有效拦截,实现高精准度打击。针对多对一拦截问题,相比于按照自身能力约束分别对目标进行拦截的方法,智能协同策略能够利用飞行器间的协作机制执行任务,具有一定的实际应用价值。

2)5架防御vs2架进攻

针对2架进攻飞行器攻击防护目标的情况,仿真环境初始参数如表3所示,其中进攻方采取的机动策略为比例导引法,防御方采取智能机动策略,作战仿真情况如图15所示。由位置曲线(图15(a))分析可知,强化学习方法训练得到的智能机动策略能够实现智能打击任务分配,在面对两架进攻飞行器时,机动策略模型综合考虑防御飞行器和进攻飞行器的距离优势和角度优势进行智能分配,提升了拦截效率。

图15 5架防御vs 2架进攻协同拦截仿真结果Fig.15 5 defense vs 2 attack cooperative intercept countermeasure simulation results

由法向过载曲线(图15(b))可知,防御方飞行器过载变化较为平滑,并且保持在过载约束范围内。由轴向过载曲线(图15(c))可知,在飞行器发动机推力作用下,拦截方飞行器加速飞行,提升拦截方速度优势,缩短拦截时间提升拦截效率。在拦截进攻飞行器2时,防御集群通过多个打击角度拦截进攻飞行器,在拦截进攻飞行器1时,防御飞行器1作为主要拦截器迎击进攻飞行器,防御飞行器2作为防御飞行器1的补充打击确保拦截成功。

仿真结果表明,集群协同条件下防御方可以更好发挥动态博弈优势,提高拦截成功率,最大化对抗收益。多对多拦截体现了本文所提的智能机动策略具有良好的任务分配能力,通过与环境的不断交互,神经网络可以根据不同的作战场景训练得到对应的协同打击策略。

3)5架防御vs 3架进攻

针对3架进攻飞行器攻击防护目标的情况,仿真环境初始参数如表3所示,其中进攻方采取的机动策略为比例导引法,防御方采取智能机动策略,仿真结果如图16所示。由位置曲线(图16(a))分析可知,强化学习智能机动策略不仅可以引导飞行器精准打击目标,同时可以根据进攻飞行器的飞行状态实现合理的拦截任务分配,机动策略模型产生的智能任务分配如表4所示,以使得防御集群以合理的方式完成拦截任务,精准打击目标。由过载曲线(图16(b)和图16(c))分析可知,防御方飞行器集群采用的智能策略综合考虑拦截耗能和过载限制等因素,提升了多飞行器拦截效能。由航向角曲线(图16(d))分析可知,拦截过程中飞行器航向角变化平稳,适用飞行器控制。由速度曲线(图16(e))分析可知,拦截过程中飞行器均匀加速至约束限制,提升拦截速率。

表4 任务分配情况Table 4 Task allocation

图16 5架防御vs 3架进攻协同拦截仿真结果Fig.16 5 defense vs 3 attack cooperative intercept countermeasure simulation results

由于各飞行器初始位置及指向均随机,为了能够更好的拦截进攻飞行器,防御方在初始阶段采取较大过载将飞行方向偏向进攻飞行器,从而减少拦截时间。具有相同拦截目标的飞行器之间具有一定的合作效能,防御飞行器2和5从2个方向逼近进攻飞行器2,保证拦截成功的同时缩短打击时间。

仿真结果表明,通过在进攻方飞行器两侧构建合适的围捕态势,使得目标难以逃逸,同时也能保证拦截方飞行轨迹平滑,防止机动指令过大。在集群对抗过程中,本文所提机动策略模型可以对进攻飞行器集群进行有效拦截,随着目标数量的增多,机动策略生成的任务分配方案使整体拦截效能显著提升。

4)5架防御vs 4架进攻

针对4架进攻飞行器攻击防护目标情况,仿真环境初始参数如表3所示,其中进攻方采取的机动策略为比例导引法,防御方采取智能机动策略,仿真结果如图17所示。随着进攻方飞行器数量的增多,智能机动策略模型生成的目标分配策略展现出较强的优势,分配结果如表4所示,在保证充分拦截的前提下合理的分配火力,提升拦截效率,更加精准全面地完成拦截任务。

图17 5架防御vs 4架进攻协同拦截仿真结果Fig.17 5 Defense vs 4 attack cooperative intercept countermeasure simulation resultsTask allocation

由仿真结果中的位置曲线(图17(a))以及过载曲线(图17(b)和图17(c))分析可知,拦截过程中防御集群综合考虑战场因素,不仅将过载限定在规定范围内,同时减少作战耗能,便于实现精准打击。由位置曲线(图17(a))可以看出在拦截初始阶段智能模型对作战任务进行了合理分配,防御飞行器1和防御飞行器2协同拦截进攻飞行器1,其余的3架防御飞行器分别拦截剩余目标。在面对4架进攻飞行器时,防御方飞行器基于各自的位置速度进行目标的最优分配,在相互通讯的基础之上,防御方群体能够以较为平滑的轨迹运动,同时实现自主协同全面拦截。

本仿真示例中进攻飞行器数量较多,防御方集群采用本文所设计的智能策略能够以高成功率完成拦截任务,验证了研究提出的协同智能拦截策略的有效性。

通过上述仿真的分析可知,基于近端策略优化的多智能体深度强化学习算法训练得到的机动策略模型在拦截任务中有较好的表现。为了验证算法效能,针对4种作战情况,采用训练得到的强化学习策略模型进行1 000次仿真测试实验,统计仿真结果如表5所示。

表5 1 000次作战仿真结果统计Table 5 1 000 battle simulation results statistics

上述仿真结果表明,基于5架飞行器训练得到的智能协同拦截模型可以很好的应用于多架进攻飞行器的拦截任务中,基于近端策略优化的多智能体深度强化学习算法对飞行器集群的行为决策具有良好的适应能力和泛化能力。由1架进攻飞行器的仿真结果可以看出,对于数量较少的来袭目标,飞行器集群可以很好的完成预定的拦截任务。其他作战情况中,来袭的进攻飞行器数量增多,强化学习模型输出的智能拦截策略能够实现智能任务分配,同时保证作战过程中的全面打击。在多架来袭进攻飞行器的作战情况分析中,5架飞行器在飞行过程中依据强化学习策略模型智能生成任务分配模型,实现了多飞行器集群的智能拦截。

综上所述,深度强化学习为飞行器集群去中心化、自主化和自治化提供一种智能化解决途径,将强化学习算法应用在飞行器集群拦截作战任务中可以在一定程度上提升装备的智能水平和能力,具有一定的现实意义。

5 结 论

在集群作战环境中给飞行器赋予智能,从而实现作战过程中的智能决策,是一个非常有挑战性的任务。本文针对来袭群体目标的智能协同拦截机动策略问题,研究了多智能体深度强化学习在飞行器攻防对抗中的创新应用,提出了基于近端策略优化算法的智能协同拦截机动策略,仿真结果表明本文研究提出的智能协同拦截可以提升群体目标拦截的效能和智能化水平。主要结论如下所示。

1)研究提出的智能协同拦截算法可以有效实现飞行器以合理的打击分配策略拦截进攻集群。通过强化学习训练过程中的高效探索和自学习进化,提升了拦截任务分配的效率和智能化水平,节省了前期任务分配时间,增加拦截效能。

2))与现有执行拦截任务需获提供大量额外复杂的战场环境信息不同,提出的协同拦截策略通过对作战场景针对性的分析,可以仅用可感知的部分作战环境信息制定高效协同拦截策略,减少对群里目标拦截中态势信息数量和维度的感知要求,降低信息感知难度。

3)提出的基于近端策略优化算法的多智能体深度强化学习算法提出应用了小批量更新、集中式训练-分布式执行等方法提升算法训练效率,同时提升了算法的适应性,降低了训练的数据需求,减少了时间成本,提升智能协同拦截算法的训练效率。

4)提出的多飞行器智能拦截博弈对抗策略采取集中式训练-分布式执行的方法,既提升了训练效率,又在执行中采取分布式架构,降低了对群体协同信息交互的要求,对实际工程应用具有一定的参考价值。

5)提出的智能协同拦截策略既借鉴了现有解析制导律来进行观测空间的设计,又利用强化学习赋予了协同拦截策略自学习、自优化的属性,提升收敛性的同时又增加了自学习智能属性,对群体博弈对抗作战场景具有一定的实际和借鉴意义。

猜你喜欢

飞行器集群协同
高超声速飞行器
蜀道难:车与路的协同进化
海上小型无人机集群的反制装备需求与应对之策研究
“四化”协同才有出路
一种无人机集群发射回收装置的控制系统设计
复杂飞行器的容错控制
Python与Spark集群在收费数据分析中的应用
勤快又呆萌的集群机器人
三医联动 协同创新
神秘的飞行器