APP下载

基于DRL 与微分对策的无人机空战决策研究*

2021-06-26李晓婷赵彦东张亚星

火力与指挥控制 2021年5期
关键词:微分空战机动

杨 霄,李晓婷,赵彦东,张亚星

(1.北方自动控制技术研究所,太原 030006;2.中国科学院自动化研究所融合创新中心,北京 100190)

0 引言

现代无人机空战朝着信息化、综合化、智能化方向发展,实时提供的战场信息爆炸性增加,决策过程和决策复杂程度日益增加。无人机战术自主决策能力较弱,为了更好地处理分布式多源情报信息,完成空战对抗时战术自主决策,对智能化的无人机空战对抗自主决策系统的需求日益突出,亟需研究新技术,以使无人机空战对抗决策变得更加“智能化、自主化”[1]。

空战决策(Air Combat Decision,ACD)一直是研究热点。由于空战过程中敌我双方态势动态变化,且有很多难以确定的其他因素,使得空战决策研究困难重重。左家亮等[2]针对空战决策序列的实时动态性,提出了基于启发式强化学习的空战机动智能决策方法;邓可等[3]针对无人机空战决策的实时性,提出遗传算法与矩阵对策法相结合的混合决策算法;王晓光等[4]针对无人机空战格斗,将微分对策与机器博弈论结合,使空战决策更合理、智能。

无人机空战对抗是一个实时的博弈过程,博弈时,敌我双方通过采用自己的策略达到利益的最大化或者惩罚最小化。本文提出结合微分对策的深度强化学习方法,有效提高无人机空战决策对于实时性的要求,实现快速决策。

1 无人机空战态势建模

无人机作战作为一种未来的新作战模式,目前还处于研究状态,本文重点考虑战术决策过程。本文敌我双方的无人机均采用固定翼、带有弹载荷的无人机,考虑到无人机空战主要对抗要素,主要对无人机、无人机机载雷达探测范围、机载导弹杀伤范围进行建模。

假设我方无人机(红方)与敌方无人机(蓝方)空战对抗处于一个三维的战场环境,初始状态设定为红蓝方无人机的自身状态信息、相对位置、速度关系等,即输入向量为S=(qr,qb,d,β,Δh,ΔV2,V2,h)。如图1 所示,qr为偏离角,qb为脱离角,d 为相对距离,Δh 为红蓝双方无人机的高度差,ΔV2为红蓝双方无人机速度的平方差,V2为红方无人机速度的平方,h 为红方无人机的飞行高度[5]。

飞行方程为:

图1 无人机模型

式中,x,y,h 分别表示大地坐标系下的坐标,表示双方无人机的空间位置为航向角,表示无人机飞行方向与x 轴的夹角;为航迹倾斜角,反应无人机爬升或是下降。

选取普通脉冲雷达作为无人机的机载雷达,并对其建模,其最大探测距离给定如下:

式中,σ 为雷达散射截面,Pt为探测概率,其余参数为确定值,建模如图2 所示。

图2 雷达探测范围模型

选取某型典型导弹,考虑机载导弹的攻击区近界AB、攻击区远界CD、攻击区侧界AD、CB 以及进入角q,机载导弹攻击范围建模如下页图3 所示。

我方无人机(红方)与敌方无人机(蓝方)针对无人机空战对抗过程,深度强化学习算法的参数主要包括无人机动作的战术决策结果,以及回报函数的设定。结合美国国家航空航天局提出的7 个基本机动动作,设定输入为状态S=(qr,qb,d,β,Δh,ΔV2,V2,h),输出的战术决策结果包括7 种:盘旋等候、摆脱敌方、确保对抗优势、搜索、迎面攻击低于我机目标、攻击低速目标、追击快速目标。强化学习就是不断地根据环境的实时反馈信息进行试错学习,调整自身的状态,旨在找到最优策略或者说是最大奖励。对于无人机空战对抗决策来说,奖励函数的设定需要考虑红蓝双方无人机状态实时的对抗态势。

图3 机载导弹攻击范围模型

对于本文建立的空战模拟,红方无人机获得攻击机会即获得奖励,定义为红方无人机到达攻击区域,可以给予奖励+10。攻击区域设定:红蓝无人机之间距离小于10 km;红方无人机速度矢量方向和双方质心方向夹角小于30°;速度矢量夹角小于40°;

红方无人机的奖励函数R(s)可以定义为:

式中,qr为红方无人机的偏离角,qb为红方无人机的脱离角,vr为红方无人机的飞行速度,r 为红蓝无人机距离,Δh 为相对高度。

由于无人机空战对抗是实时变化的,量化为实时的威胁程度,用来对无人机的每一个机动动作进行评估。对于空中态势威胁评估模型,学术界至今没有形成比较统一的方法,本文参考魏航等建立的由方向、距离、速度、相对高度组成的威胁评估函数[5-6]。

1)角度威胁函数:

2)距离威胁函数:

图4 无人机态势关系图

式中,rr、rb分别表示红方无人机、蓝方无人机的攻击范围,rr为雷达探测范围。

3)速度威胁函数:

式中,vb表示蓝方无人机的飞行速度。

4)高度威胁函数:

基于角度、距离、速度和高度4 个方面的空中态势威胁指数的分析,不考虑武器性能等的影响,用加权求得总的威胁指数T:

式中,a,b,c,d 的值分别为0.2,0.4,0.2,0.2。

威胁指数越大,威胁越大。为了体现空中态势对于空战态势的影响,本文将威胁指数扩大10 倍作为强化学习奖励的依据,即将威胁指数和奖励规则相结合,得到修正后的回报函数:

2 深度神经网络设计

基于强化学习的无人机空战对抗,需要表示的状态空间维数较高,借鉴DBN 网络结构拟合Q 值函数,设计一个8 层的深度神经网络结构[7],各层的定义如下:

第1 层是无人机空战对抗输入层,包含表征无人机当前状态的8 个节点,即向量S=(qr,qb,d,β,Δh,ΔV2,V2,h);

第2 层至第4 层为2 个受限波尔兹曼机(RBM)堆叠而成,每个RBM 有显层和隐层两层,第1 个RBM 的隐层即为第2 个RBM 的显层;

第5 层为隐藏层,第4 层与第5、6 层构成BP网络,激活函数采用sigmoid 函数;

第6 层为输出层,输出状态战术的Q 值;

第7 层为映射层,在该层完成战术到机动动作的映射;

第8 层为状态输出层,系统执行相应的机动动作后,和环境交互,获得环境反馈。

DBN 网络共有7 个参数:h、v、b、c、d、w1、w2,其中,h、v 分别为RBM 输入向量和输出向量,b、c 分别为RBM 显层神经元和隐层神经元的偏置,w1为RBM 权重,w2、d 分别为BP 网络结构权重及偏置[8]。

3 微分对策参数设计

微分对策是基于经典对策论,引入现代控制理论,旨在解决动态决策问题[4]。微分对策的实质是:局中人进行竞争或对抗活动时,借助数学方式即微分方程或微分方程组来描述这一现象和规律[9]。无人机空战实际上是一个动态决策的问题,本文通过微分对策求解战术层到机动动作层。

设计机动决策空间a 的集合为A,由于采用微分对策方法得到无人机的机动,所以机动空间为微分对策模型输出的速度、角度、距离以及高度机动参数[10]。针对战术决策结果建立微分对策模型:

式中,Rv为我方无人机速度,Rφ为我方无人机进入以及航向角度,Rd为我方无人机与目标距离,RH为我方无人机高度。

3.1 加权系数的确定

a1,a2,a3在不同战术决策下取值不同,需根据各因素对总体优势函数的影响程度,利用层次分析法确定[11]。

1)建立评估矩阵,通过计算求得各参数的重要性,即加权参数a1,a2,a3;

2)参考随机一致性指标(RI),进行求得参数的一致性检验;

3)求出随机一致性CR。

通过以上步骤,求得不同战术决策下的取值:

表1 加权系数表

3.2 微分方程求解

在加权系数确定的情况下,采用单步预测的方式取得模型支付函数的最优决策值,即将空战决策问题转化为该函数的数学求极值问题[4,11-12]。

例如在确保对抗优势战术时:

该函数取得极值时,可以得到最优空战决策集。因此,

构建Hamiltonian 函数,

根据微分对策极大值原理,支付函数J 和Hamiltonian 函数同时都取得极值,即支付函数的J极值点可通过求出H 极值得到,我方无人机最佳飞行控制量得到。对我方无人机来说H 取得极大值,对敌方无人机来说H 取得极小值。

一般情况下,求解微分对策模型的解析解困难重重,甚至得不到结果。数值求解方法属于成熟的技术,本文采用梯度法对模型求数值解。

对应伴随方程:

对应控制方程;

对应状态方程:

优势值沿着梯度方向变化最大,所以继续沿着(ui,vi)为起点,沿着梯度方向求解新的控制向量u,v:

重复迭代上述过程,直到满足支付函数:

式中,ui,vi即为求得的最优决策动作值。

所得到的微分方程最优解满足:

式中,tf为结束时间。

根据微分对策求解战术到动作,根据地面坐标等可以求出前文提到的无人机状态S=(qr,qb,d,β,Δh,ΔV2,V2,h),即得到战术到动作的映射关系。

4 结合微分对策的深度强化学习方法实现

本文结合微分对策的深度强化学习的动作选择分为两步,第1 步根据状态选择战术,第2 步根据战术引导机动动作执行。状态到战术的映射关系可以用深度强化学习求得,战术到机动动作的映射关系可以用微分对策来给定。在战术的设定方式上,根据先验知识和环境特点设置一些复杂战术策略。强化学习的结构中添加一层战术层,通过引入先验知识,有效加快算法的收敛速度[13-14]。

这里无人机在实时空战对抗的任一时刻内,根据无人机当前所处的状态,用Q 学习中动作选择的方法产生战术m,然后根据战术m,依据微分对策求解战术决策到动作决策,产生动作a,并得到实时环境奖励r,最后更新Q 值函数[15-16]。

DBN 网络中,每个战术对应DBN 的一个输出结果,将样本的实际输出fm(X)拟合为执行动作前的Q 值,即Q 估计值,期望输出Im拟合为执行动作之后的Q 值,即Q 现实值,TD 误差即为:Im-fm(X),反向传播对BP 网络的权值进行更新,以及对RBM的权重微调。

?结合微分对策的深度强化学习算法流程1:初始化强化学习参数以及DBN 神经网络的权重初始化2:采用CD-k 算法进行RBM 的无监督预训练,离线确定其权重以及偏置3:随机选择一个状态St=(qr,qb,d,β,Δh,ΔV2,V2,h),作为网络输入4:计算该状态下所有战术对应的Q 估计值5:采用ε-greedy 策略,选择战术m 6:微分对策求解战术到动作,得到动作ar 7:执行ar,计算St+1,求解奖励值R(St+1)8:计算采取动作之后的Q 现实值,得到误差9:更新网络权重10:St→St+1,t→t+1 11:判断无人机是否进入攻击状态、被攻击状态或触碰边界,否则继续循环步骤3

5 仿真研究

以敌我无人机1V1 空战对抗为背景,建立200 km*200 km*15 km 的空战空间环境,Q 学习速度为0.3,折扣因子为0.9。考虑到无人机装备、武器差异的影响,设置仿真双方无人机性能处于相同空战水平,对抗过程中敌方无人机的战术以固定的想定为背景,采用预先规划的战术进行机动、进攻和规避,我方无人机依据本文确定的战术决策方法进行决策。双方对抗轨迹图如图5 所示。

图5 空战模拟图

根据给出的决策结果看出,敌机我机空战过程中,敌方无人机被发现后,通过采用盘旋的方式摆脱我方无人机的追击,我方无人机对态势进行感知计算,快速追击高速目标,通过微分对策快速计算相应的机动参数,紧追其后以创造机会,经过对抗,我方无人机通过快速计算优势锁定敌方无人机,对抗结束。通过实验统计,决策平均时间为18.937 ms,满足实时性的要求,且高于同类算法,该决策方法有效可行。

6 结论

针对无人机空战决策,本文提出结合微分对策的深度强化学习方法,实现战术决策到机动决策,在1V1 空战模拟中,我方无人机根据敌方无人机态势即时做出合理有效的机动动作,并取得优势。

猜你喜欢

微分空战机动
1937年笕桥空战战果之谜
多飞行器突防打击一体化微分对策制导律设计
最强空战王
一类带有Slit-strips型积分边值条件的分数阶微分方程及微分包含解的存在性
What Are the Different Types of Robots?
12万亩机动地不再“流浪”
跟踪微分器的仿真实验分析与研究
机动三轮车的昨天、今天和明天
微分在近似计算中的应用
第三帝国的兴亡之六 大不列颠空战(下)