APP下载

非对称机动能力多无人机智能协同攻防对抗

2020-12-28陈灿莫雳郑多程子恒林德福

航空学报 2020年12期
关键词:评判分布式神经网络

陈灿,莫雳,郑多,*,程子恒,林德福

1. 北京理工大学 宇航学院,北京 100081 2. 北京理工大学 无人机自主控制技术北京市重点实验室,北京 100081

随着单体无人机技术的快速发展和成熟应用,无人机的协同作战已经成为可能,多无人机间的协同攻防对抗逐渐成为未来空战的重要模态。多无人机通过环境感知,判断周围态势,依据一定的攻防策略,采取攻击、避让、分散、集中、协作、援助等行为,实现攻防对抗。多无人机间的协同攻防对抗可以描述为复杂多约束条件下的最优决策问题,包含追逃博弈和领土防御博弈两个子问题。在追逃博弈中,追逃双方通过采取最优化的策略来快速接近或远离对手,态势变化迅速;在领土防御博弈中,态势优劣取决于入侵者、防御者和目标三者之间的几何关系,策略求解空间大。而结合了领土防御和追逃博弈的无人机攻防对抗问题状态空间维数高,态势复杂多变,攻防策略多样,导致求解的难度急剧增大,需要更加高效的决策算法。

追逃博弈和领土防御博弈是空战、搜索和安防等领域中的核心科学问题,一直是学者们争相研究的难点和热点。面向此类问题,传统的研究主要在一对一条件下,依托于微分博弈理论和最优控制理论,对追逃博弈和领土防御博弈的决策问题进行研究。其思想是将微分博弈问题的求解转化为变分问题[1-2],进而通过求解哈密顿-雅克比方程,求得最优策略的解析解。早在20世纪60年代,Isaacs[1]就从数学的角度分析了追逃博弈和领土防御博弈等双人零和博弈问题的特性,提出了最优策略的解析解法。文献[3]基于变分学研究了导弹的制导问题,推导得比例导引律。文献[4]则基于极大极小值原理提出了一种哈密顿-雅克比方程的广义求解方法,研究了一对一的追逃博弈问题。攻防对抗最优解的解析解通常存在求解难度大,甚至无解的问题。而数值方法可以利用计算机的强大计算能力,迭代求解最优策略。例如,有学者将牛顿法[5]和梯度法[6]应用于微分对策数值解的求解。文献[7]则采用自适应动态规划算法在线求解哈密顿-雅克比方程。

考虑攻防双方机动能力之间的差异,低机动能力的一方需要通过增加数量来弥补个体能力差异。已经有文献研究了多个追踪者和单个逃逸者的追逃博弈问题,以及多个防御者和单个入侵者的领土防御博弈问题。在多对一的博弈中,基于微分博弈理论和最优控制理论的方法一般通过一些规则和假设,建立微分博弈模型以求解最优策略。如文献[8]基于导弹的命中顺序的假设研究了两个导弹拦截单个目标的最优制导律。文献[9]则基于两个追踪者与单个逃逸者的几何关系,通过坐标转换建立微分博弈模型,求解最优协同追踪策略。

当无人机数量增多时,微分博弈的建模过程趋于复杂,所需的规则或假设增多,求解最优的协同对抗策略的难度将显著增加。针对该问题,现有文献提出了不依赖微分博弈模型的决策方法,包括基于仿生学[10-12]和几何学[13-14]的决策方法、基于模糊控制理论的决策方法[15]以及基于强化学习的决策方法[16-19]等。基于仿生学和几何学的决策方法受到自然界中捕猎和觅食现象的启发,提出基于攻防双方几何关系的变化,设计控制策略。如Isler等[10]将随机策略与狮子的追捕策略相结合,研究了两个追踪者对一个高速运动的逃逸者的协同追捕;Yamaguchi[11]研究了多对一的追逃博弈,模拟捕猎行为提出了一种带反馈的分布式控制器;文献[12]研究了多追踪者具有转弯速率约束时,多对一的追逃博弈,提出了一种受鱼类觅食行为启发的协同追捕策略;文献[13]研究了多对一的平面追逃问题,提出了基于泰森多边形的协同追捕策略;文献[14]则提出了基于阿波罗圆的多对一协同追捕策略。基于模糊控制理论[15]的方法依据专家知识和对抗规则离散化博弈状态和行为策略,简化博弈模型。如文献[15]利用模糊规则离散化多无人机空战问题,并采用粒子群算法求解纳什均衡策略。而在强化学习[16,18]和模糊控制与强化学习相结合[17,19-20]的方法中无需微分博弈模型,智能体可以通过与环境的交互、学习和优化对抗策略。如文献[16]提出将Q学习算法与基于运动模式的反应式控制结构相结合,研究了在有障碍的环境中,多个追踪者对单个有速度优势的逃逸者的协同追捕;文献[17]提出了基于模糊Actor-Critic算法的分布式控制器用于研究多追踪者单逃逸者的追逃博弈问题;加拿大卡尔顿大学的团队[18-19]研究了Minimax-Q[21]算法、狼爬山策略学习(Wolf Policy Hill Climbing, Wolf-PHC)[22]算法、模糊Q学习[20]和模糊Actor-Critic算法[17]在一对一和二对一的领土防御博弈中的应用。

随着无人机协同技术的发展和应用,未来战争中无人机的攻防对抗将以复杂环境下双方能力非对称的多对多博弈的形式出现,现有的针对一对一、多对一博弈问题的研究方法将难以适用。

本文面向未来空中作战任务需求,研究了存在障碍区和隐蔽区约束的复杂环境下,高机动能力的进攻无人机与低机动能力的防御无人机之间的非对称条件下多对多协同攻防对抗问题。由于约束条件多、个体-群体交叉耦合以及双方态势交替演化、复杂多变等因素,难以求得无人机协同攻防策略的解析解。因此,本文提出基于多智能体强化学习算法[23],通过无人机与环境的不断交互,使无人机自主地学习和优化协同对抗策略。为了兼顾算法收敛性能与决策效率,文中将多智能体自主学习特性与神经网络的强大拟合能力相结合,利用输入全局信息的集中式评判来提升无人机学习能力和保证训练收敛,利用输入局部感知信息的分布式执行满足在线实时决策。在此基础上,建立高拟真的对抗环境,基于相同的决策架构,通过构造不同的奖惩机制,充分考虑多维环境变量进行攻防双方对抗训练,以提升分布式决策算法的泛化能力,赋予无人机在多约束、高动态和强对抗复杂环境的强自适应能力。

1 无人机协同攻防对抗问题数学描述

1.1 协同攻防对抗问题

多无人机协同攻防对抗问题可描述为有限任务区域内,多无人机围绕特定目标的攻防博弈。无人机通过机载导航装置可以测量自身的位置和速度,通过机载探测雷达可以感知与其他无人机、障碍物和隐蔽区的相对位置。如图1所示,环境中包括任务目标、若干障碍物和隐蔽区,当无人机进入隐蔽区将无法被感知到其位置。其中,(xi,yi)为第i架无人机的位置坐标,(xT,yT)为任务目标中心点的位置坐标,(xl,yl)为障碍物中心点的位置坐标,(xs,ys)为隐蔽区中心点的位置坐标。攻防对抗包含两个博弈子问题:

1) 目标攻防(领土防御博弈)

进攻无人机攻击目标,而防御无人机负责保护目标,拦截进攻无人机。

2) 追逃博弈

在限定区域内,防御无人机追捕进攻无人机,进攻无人机躲避防御无人机的追捕。

本文一体化考虑两个博弈子问题定义了攻防双方的奖励反馈,令每个防御无人机在捕获一个进攻无人机后获得奖励,在目标被入侵后获得惩罚;而每个进攻无人机被捕获后获得惩罚,在入侵目标后获得奖励。

(1)

(2)

式中:Rr和Rb分别为防御无人机和进攻无人机的个体奖励。进攻无人机和防御无人机的博弈状态近似使用对抗双方无人机之间的欧式距离和进攻无人机与目标之间的欧式距离表示。进攻无人机与防御无人机的欧式距离可表示为

(3)

进攻无人机与目标的欧式距离表示为

(4)

式中:pr为防御无人机的位置;pb为进攻无人机的位置;pT为目标中心的位置。防御无人机成功拦截进攻无人机需满足的条件为二者的欧式距离

图1 多无人机攻防对抗问题Fig.1 Multi-UAV attack-defense game

小于防御无人机捕获半径:

(5)

同理,进攻无人机成功入侵目标需满足的条件为

(6)

式中:er为防御无人机的捕获半径;eb为进攻无人机的攻击半径;eT为目标区域半径。

1.2 无人机运动学模型

本文以多旋翼无人机为研究对象,其个体无人机的运动学模型可以简化为

(7)

式中,p为无人机的位置;v为速度矢量;a为加速度控制量;λ为无人机的阻力加速度。本文考虑多旋翼无人机的气动特性和动力系统的限制,确定了无人机的最大飞行速度vmax和最大加速度amax。其中,攻防双方机动能力不同,即非对称机动能力,故:

1) 进攻无人机具有速度快、机动性强的优势,其最大速度为vmax=15 m/s,最大加速度为amax=4.5 m/s2。

2) 防御无人机的速度较慢,机动性较弱,其最大速度为vmax=10 m/s,最大加速度为amax=3 m/s2。

2 无人机协同攻防对抗决策

受多智能体强化学习理论的启发,本文将单个无人机描述为具有感知、判断和执行能力的智能体,多无人机系统描述为一个多智能体系统,无人机多智能体系统通过与环境的不断交互,学习协同攻击和防御策略,涌现协同智能。

2.1 多无人机强化学习

在单智能体强化学习中,智能体通过与环境的交互学习行为策略。如图2所示,多无人机强化学习在此基础上,使无人机在训练时不仅与环境交互,还与其他无人机交互,从而学习协同对抗策略。

图2 多无人机强化学习基本框架Fig.2 Multi-UAV reinforcement learning framework

多无人机强化学习的过程属于部分可观测马尔科夫决策过程(POMDP)。POMDP可以通过表示,其中:

1)n为无人机的个数。

4) 所有无人机的运动学共同构成多无人机系统的状态转移函数T。

(8)

式中:γ为折扣因子,代表某一时刻奖励的权重。本文利用由累积总回报定义的状态-动作值函数来评估每个无人机的行为策略:

(9)

图3 强化学习过程Fig.3 Reinforcement learning process

2.2 集中评判-分布式决策策略优化算法

仅依赖于局部信息的分布式执行,可以增强无人机决策的实时性,降低其对通信的依赖,提升系统的鲁棒性。然而,若训练时仅使用局部信息会导致策略梯度估计的高方差,且会由于缺少对整体态势的评估,使无人机难以学习高效的协同对抗策略。因此本文提出集中式评判和分布式执行的算法架构,使每个无人机在训练时使用所有无人机的观测和行为信息,而在执行时仅使用无人机自身的观测信息,这样做可以降低梯度估计的方差,保证算法稳定收敛,同时兼顾无人机决策的效率与性能。

本文提出的算法受到执行-评价(Actor-Critic)算法的启发,其可分为评判模块和执行模块两部分:执行模块表示无人机的行为策略,输入为无人机自身的观测信息;评判模块表示无人机的集中式状态-动作值函数,输入为多无人机系统的全局信息。本文在同一个多无人机系统中将攻防双方无人机一体化考虑,双方基于各自的任务目的使用不同的奖惩机制,因此每个无人机都独立地训练一个集中式的状态-动作值函数,从而构造一种多无人机的集中式评判-分布式执行决策算法。算法基本架构如图4所示,每个无人机包含一个对抗策略π和评判模块Q,在执行时仅使用π依据感知信息输出动作,而在训练中则利用Q对策略进行评价并引导策略优化。

将深度学习与强化学习相结合,并借鉴深度Q学习(Deep Q-learning Network, DQN)[24]算法的思想,利用神经网络提升无人机对攻防态势的预测能力[25]和复杂情况下的决策能力。通过引入目标神经网络和经验回放机制,改善神经网络训练难以稳定收敛的问题。对于第i架无人机,其学习算法的组成及训练流程如图5所示。无人机的执行模块依据在训练环境中T时刻的观测来执行决策,将训练环境返回的状态、行为、奖励等信息存入到经验存储单元中。评判模块和执行模块均包含主神经网络和目标神经网络,其训练数据来自对经验存储单元的随机采样,即经验回放。主神经网络的参数通过优化函数模块更新,而目标神经网络的参数通过复制主神经网络的参数获得,且复制滞后于主神经网络的参数更新。当训练收敛后,即完成策略优化,每个无人机可以仅通过将自身的感知信息输入策略神经网络来输出动作指令,进行决策。

图4 多无人机执行-评判算法框架Fig.4 Multi-UAV actor-critic algorithm framework

图5 无人机i攻防决策学习算法Fig.5 Decision making and training algorithm of UAVi

2.2.1 评判模块:集中式值函数

(10)

L(ω)=Ext,at,rt,xt+1[(Qi(xt,at|ωM)-yi)2]

(11)

式中:t表示样本数据的时间戳;ωT为目标神经网络迟滞更新的权重参数矩阵;ωM为主神级网络实时更新的权重参数矩阵。

为了拟合值函数,建立含有4层全连接层的神经网络,如图6所示。通过随机梯度下降优化式(11) 中的损失函数来更新网络参数。神经网络结构的具体参数如表1所示。

图6 值函数神经网络Fig.6 Neural network of value function

2.2.2 执行模块

表1 值函数神经网络结构参数Table 1 Neural network of value function structure parameters

J(θi)=Ex~pπ,a~πθ[Gi]

(12)

根据之前定义的状态-动作值函数,对于随机性策略,目标函数的梯度[26]为

(13)

根据Silver在确定性策略梯度(Deterministic Policy Gradient, DPG)算法的论文[26]中给出的确定性策略的存在性证明,在使用经验回放机制时,目标函数的策略梯度如式(15)所示:

(14)

(15)

式中:D表示无人机的经验存储单元。

目标函数J(θi)是状态-动作值函数的无偏估计量,本文直接使用评判模块的主神经网络输出的状态-动作值函数替代J(θi),定义策略神经网络的损失函数L(θi), 根据策略梯度可计算损失函数的梯度,从而优化策略参数。

(16)

式中:ki为第i架无人机的动作空间大小;第2项是各个无人机动作空间的正则化,用于降低攻防两类无人机的动作空间大小差异对神经网络训练的影响;c为正则化系数。

探索和利用是强化学习的主要矛盾之一,探索是尝试不同的行为从而收集更多的数据样本来进行学习,利用则是指基于当前信息做出最优决策。为提高学习算法的探索能力,使用高斯分布在无人机的动作和估计其他无人机的动作中加入随机性。因此,策略神经网络和目标策略神经网络的输出分为两部分:具体的动作值(平均值μ)和方差σ,执行模块的神经网络输出的动作值为

(17)

式中:N(0,1)为标准正态分布。

图7 策略神经网络Fig.7 Policy neural network

2.3 奖励函数设计

如果在攻防对抗的训练中,无人机只有最终回报,会使得训练过程缺乏环境反馈引导,导致策略的学习过程缓慢。因此,此处设计奖励函数提供额外的回报来提高学习效率。下面分别对进攻和防御无人机的奖励函数进行描述:

1) 进攻无人机的奖励函数包括基于目标距离的奖励、被捕获惩罚和越界惩罚3部分,可描述为

Rb=Rd+Pb+Pc

(18)

奖励Rd表示为

(19)

惩罚函数表示为

(20)

(21)

式中:τ为二维正方形任务区域的边界值;R为场景内防御无人机的集合。

2) 防御无人机的奖励函数包括防御无人机与距离最近的进攻无人机的距离,以及目标被攻击的惩罚,表示为

(22)

3 仿真结果

3.1 仿真参数

本文将多无人机协同攻防对抗问题离散化,取定仿真步长1 s,任务区域为200 m×200 m的正方形区域,训练中多无人机协同攻防场景的参数见表2,其中障碍区和隐蔽区分别为半径15 m和半径25 m的圆域。

多无人机强化学习算法的训练中,取优化函数模块的学习率α=0.01,折扣因子γ=0.95,单回合最大步数为50,单次采样样本量为1 024组,采样周期为100步,正则化系数c=0.001。

表2 仿真环境设置Table 2 Parameters of simulation environment

3.2 算法训练

通过所有无人机的平均单回合总回报评估算法,每隔1 000个回合计算一次平均总回报,一个回合即一次攻防对抗。训练过程中所有无人机、防御无人机和进攻无人机的平均每回合总回报曲线如图8所示,由图可知整个多无人机系统中,攻防双方先后学习到了有效的防御策略和进攻策略。约35 000回合后,训练开始收敛。

在训练20 000回合后测试了训练效果,测试场景设置与训练场景设置相同。图9分别展示了无人机在20 000回合的训练后学习到的进攻策略和防御策略。图中,曲线表示无人机的运动轨迹,箭头表示无人机每一时刻的速度矢量。分析图9可知,防御无人机和进攻无人机可以完成进攻或防御任务,但是完成效率较低,协同对抗策略不完善。

图8 学习过程Fig.8 Learning process

图9 训练测试结果Fig.9 Test result during training

3.3 仿真结果及分析

首先对攻防双方采用集中评判-分布执行算法结构的两组仿真算例进行仿真,分别体现协同进攻策略和协同防御策略。

1) 协同进攻

图10 无人机协同进攻的功防轨迹和态势演化Fig.10 Trajectory and situation evolution of UAVs cooperative attack

由图10可知,对抗开始后,防御无人机1和防御无人机2共同追踪进攻无人机1和进攻无人机2至右上角区域,形成了协同追捕的态势。之后,进攻无人机2采取“分散”的策略,向与之前相反的逃逸方向快速机动。最后,进攻无人机2利用速度和加速度的优势从防御无人机追捕的空隙中突防,成功入侵目标,测试结果体现了训练后进攻无人机的协同智能。再分析图11可知,进攻无人机和防御无人机均满足各自最大速度和最大加速度约束条件,进攻无人机充分利用自身的机动能力优势突防。

2) 协同防御

分析图12可知,对抗开始后的第1阶段,进攻无人机向一侧运动,防御无人机1和2开始追踪进攻无人机,而防御无人机3低速运动。在第2阶段,进攻无人机做快速转弯机动,进攻无人机1向相反方向运动,无人机2向下方运动。第3阶段,防御无人机1和2继续追踪进攻无人机1,而防御无人机3预判了进攻无人机2的行为,成功将其拦截。最后,防御无人机1和2追踪进攻无人机1至任务区域右上角,并形成了“上下夹击”的态势,进攻无人机均被成功捕获。测试结果体现了训练后防御无人机的协同智能。结合图13分析可知,在进攻和防御无人机均满足各自最大速度和最大加速度约束的条件下,防御无人机通过协同策略弥补了低机动能力的劣势。

图11 无人机速度和加速度曲线(协同进攻)Fig.11 Velocity and acceleration of UAVs (cooperative attack)

图12 无人机协同防御的轨迹和态势演化Fig.12 Trajectories and situation evolution of UAV cooperative defense

为了测试研究提出的无人机协同对抗算法性能,将本文提出的利用全局信息集中评判(即集中评判)与仅依赖个体无人机观测信息和动作信息评判(即局部评判)训练得到的策略神经网络模型进行对抗。经过1 000回合对抗仿真,统计结果如表3所示。其中,成功率为无人机达成目标的回合数所占比例,限时未分胜负率表示限定时间内不分胜负的回合数所占比例。

图13 无人机速度和加速度曲线(协同防御)Fig.13 Velocity and acceleration of UAVs (cooperative defense)

表3 1 000回合攻防对抗仿真结果统计

根据表3可知,当攻防双方均采用本文提出的集中评判算法结构训练个体无人机时,攻防成功率差距较小。而当攻防双方,一方采用集中评判算法结构,另一方采用局部信息评判算法结构训练个体无人机时,集中评判结构的成功率明显高于局部信息评判结构的成功率,成功率相差达到2倍以上。因此,相比于仅依赖局部信息训练的局部评判算法结构,本文提出的集中评判-分布执行算法结构可令无人机评判模块在训练时评估策略对攻防双方整体态势的影响,使无人机可以预测整体态势的变化,从而获得更高效的协同对抗策略。

4 结 论

本文针对有限空域内多旋翼无人机的协同攻防对抗问题,考虑对抗双方不同的机动能力约束,提出了一种基于集中式评判训练和分布式执行的多无人机强化学习算法,兼顾学习速度与执行效率,赋予无人机自学习和进化的协同对抗决策能力,主要结论如下:

1) 集中式评判和分布式执行的算法架构能够保证学习算法训练的快速稳定收敛,文中提出的多无人机强化学习算法赋予无人机在与环境不断交互中的自学习和进化能力。

2) 集中式评判和分布式执行的算法架构使无人机能通过集中式评判学习高效率的协同攻防策略,同时实现了多无人机的分布式决策,使无人机能够仅依靠个体局部感知信息,实现多对多协同攻防对抗,涌现群体智能。

3) 高动态对抗仿真算例表明,研究提出的多无人机强化学习算法在攻防过程中能够适时地避障、躲藏,增加无人机复杂环境的动态适应能力。低机动能力无人机通过彼此协作,可以弥补机动能力劣势,实现“以智胜强”。

4) 文中提出的集中式评判和分布式执行多无人机强化学习算法兼顾分布式决策的要求与策略性能,赋予无人机高效的学习能力和协同协作能力,为复杂环境下空中多无人机协同攻防推演和决策提供了一种智能化的方法,亦为空中无人系统对抗研究提供了一种新思路。

猜你喜欢

评判分布式神经网络
环境史衰败论叙事的正误及其评判尺度
新一代分布式母线保护装置
基于神经网络的船舶电力系统故障诊断方法
多四旋翼无人机系统分布式分层编队合围控制
初中英语评判性阅读教学实践与探索
MIV-PSO-BP神经网络用户热负荷预测
山西公布首批屋顶分布式光伏整县推进试点
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
基于Paxos的分布式一致性算法的实现与优化
评判陌生人的两条黄金法则