基于MFO-HTN的超视距空战战术机动组合规划

2022-09-16闫孟达俞利新左家亮胡东愿岳龙飞杨任农

空军工程大学学报 2022年4期

闫孟达, 俞利新, 左家亮, 张滢, 胡东愿, 岳龙飞, 杨任农

(空军工程大学空管领航学院，西安，710051)

空战机动决策一直是军事领域的热点问题之一。空战机动决策的研究方法主要有专家系统[1-2]、矩阵对策[3-5]、优化理论[6]、模糊推理[7-8]和人工智能[9-14]等方法。文献[1～2]在专家系统的基础上结合滚动时域、模糊规则等方法，解决专家系统不够灵活、不可拓展的问题。矩阵对策法需要对当前态势进行准确建模，从而求得当前时刻的最优对策，而超视距空战决策周期长，且态势难以用数学公式准确描述，因此并不适用。文献[6]提出多目标优化结合强化学习的方法，先通过多目标优化得到可行集，再通过强化学习寻找最优解。辛辛那提大学提出遗传模糊树[7]，开发了ALPHA空战机器人，并击败了人类飞行员，是空战决策领域最具代表性的成果之一。近年来，随着人工智能浪潮的兴起，越来越多的研究人员开始探索强化学习在空战决策问题上的应用[8-14]。尤其是DARPA在2020年举办的“阿尔法”空中格斗竞赛[15]，基于强化学习的空战智能体大比分战胜了人类飞行员，展示了智能空战的巨大研究潜力。

以上研究推动了空战决策的自动化和智能化，目前关于近距格斗的研究比较成熟，相对而言，关于超视距空战智能决策的研究并不充分，超视距空战决策的研究难度主要体现在3个方面：一是现有研究对空战态势的描述大多还是基于优势函数，如角度优势函数、距离优势函数、能量优势函数等，此类函数无法准确描述超视距空战的态势；二是两者的核心问题不同，近距空战要求在短时间内抢占发射位置，对瞬时大机动的能力要求较高，而超视距空战更关注“机动时机”问题，根据双方相对距离等态势要素决策何时开始机动、机动多长时间、何时发射导弹以及如何规避导弹等问题；三是相比于近距空战，超视距空战决策周期长、决策边界不清晰，这使强化学习方法很难训练出可解释和可接受的超视距空战智能体。

而现代空战最主要的形态是超视距空战，因此当前急需研究高效、合理的超视距空战决策方法。本文针对超视距空战机动决策问题，提出基于战术机动组合的规划方法，引入层次任务网络(hierarchical task network, HTN)，并通过多目标优化算法对其进行参数优化，仿真结果表明该方法能够输出高效的超视距空战战术执行序列。

1 超视距空战机动描述

空战战术机动动作复杂多样，很难一一列举，但复杂的战术动作可以由基础的机动动作组合而成。目前常见的机动动作有两种划分方式，依据操作方式进行划分的操作机动动作[16-17]和依据战术动作理论进行划分的战术机动动作[18]。美国NASA研究人员将机动动作划分为7类基本操纵机动[19]，分别为：最大加速，最大减速，最大过载爬升，最大过载俯冲，最大过载左转，最大过载右转及稳定飞行。这7种基础动作是从飞行员的角度，根据操作控制变量来进行划分。从战术效果角度，可以将7类基本动作进行初步的组合实现、归类细化，得到常用的6种基本的战术机动动作[19]，如图1所示。

图1 6种战术机动示意图

其中，侧转和蛇形机动是在水平面的机动，桶滚可以看作是蛇形机动同时进行垂直面的机动，俯冲、斤斗、半斤斗是在垂直面上的机动，而斤斗和半斤斗多用于近距空战，本文暂不考虑。因此，超视距空战机动可以分为两类：“侧转+垂直面机动”“蛇形+垂直面机动”。本文用参数化语言来描述这两类机动[20]，侧转机动为一个四元组φ，η，γ，h，其中为转弯角度(°)，η为过载(g)，γ为坡度(°)，h为降高(m)，表示载机在进行侧转机动的同时完成高度差为h的垂直面机动；类似地，蛇形机动为一个六元组i，t，φ，η，γ，h，其中i表示蛇形机动中的转弯次数，t表示每次转弯的时间间隔。当机动参数被指定后，完成此次机动所需要的时间也就确定了。如，侧转机动180，4，60，2 000和蛇形机动2,5,120,4,60,2 000,分别如图2(a)、(b)所示。

图2 2种战术机动示意图

通过以上2种类型的机动组合，就可以实现各种复杂的超视距空战战术。

2 基于HTN的战术机动组合模型

2.1 层次任务网络规划

HTN规划的思想与专家求解问题的思维方式十分相似，因而受到广泛的推崇。HTN规划的基本思想是利用相关领域专业知识，结合专家在实际过程中的相关经验，递归地将复杂的任务网络顺序分解，逐层细化，直到分解成为一个个可以直接独立执行的原子任务为止[21]。以系统给定的初始状态、领域知识、任务目标作为输入，输出完整的、可执行的动作方案。初始状态主要是系统在规划前初始时刻的状态信息；领域知识即指规划域，包括操作集合和方法集合，操作集合主要描述执行动作的前提条件和效果，方法集合是描述任务分解的途径和相关要求；任务目标是任务网络的起点，也是任务分解后进行执行的总目标。动作方案主要是一系列动作，构成了问题的规划解。HTN规划在任务的表达和分解、任务分派、任务完成上优势比较突出，对任务分解和细化比较符合作战人员的思维模式，利用HTN算法及其思想来对军事问题进行规划、求解和执行更容易被理解和接受。

HTN规划中最关键的部分就是方法集合，以“处方”的形式告诉系统如何对任务进行分解。

2.2 空战HTN模型

HTN规划中的主要元素包括任务、方法和操作。其中，任务表示可分解的任务；操作表示不可分解的原子任务，在本文中为单次机动；方法包括条件和分解方法，具体描述了在何种态势下如何完成任务，是HTN规划的关键。在空战HTN规划中，“任务”即要执行何种战术，“操作”即单个战术机动，多个战术机动组合完成一个战术，“方法”表示在何种态势下如何建立空战HTN网络。

图3 攻击区划分示意图

在超视距空战中，相对距离和攻击区的关系是进行决策的重要依据。文献[22]提出基于目标机机动的五线攻击区，如图3所示，本文在此基础之上，从以下3个方面描述空战态势：①敌我相对距离与敌机攻击区的关系；②双方的相对航向；③敌机是否发射导弹。

若某种态势下需要执行“侧转+侧转+蛇形机动”的战术组合，则HTN规划见图4。

图4 空战战术机动HTN规划示意图

3 GA-HTN参数优化算法

3.1 优化模型

HTN规划确定了空战机动的顺序，但与一般HTN规划中的操作不同，空战机动由参数确定，且机动和机动之间有一定时间间隔，如图5所示，仿真开始后在t1时刻进行机动1，机动1完成后间隔t2进行机动2，之后间隔t3进行机动3。

图5 规划参数序列示意图

在机动参数给定的情况下，影响空战结果的主要是时间参数，需要通过算法进行寻优，优化目标为：①机动时间间隔之和最小；②达成发射条件的时间最长；③达成发射条件的平均距离最小。优化模型为：

(1)

式(1)是一个多目标优化问题，多目标优化问题会得到一系列帕累托最优解，不符合空战辅助决策的需求，因此将公式(1)中3个优化目标归一化后转换为单目标问题，如公式(2)：

(2)

3.2 MFO-HTN算法流程

3.2.1 MFO算法原理及流程

飞蛾扑火优化算法[23](moth-flame optimization algorithm, MFO)是一种新型智能优化算法，具有调节参数少、收敛快、不易陷入局部最优等优点。MFO算法的思想源于飞蛾沿等角螺旋路径朝火焰飞行的现象[23]，飞蛾是在搜索空间内移动的个体，火焰表示某一只飞蛾当前看到的最优解。在飞蛾朝向火焰飞行的过程中，如果发现了更好的火焰，则更新火焰的位置。算法规定一只飞蛾对应一个火焰，因此能够避免陷入局部最优。

本文中，M为飞蛾矩阵，OM为飞蛾适应度值矩阵，F为火焰位置矩阵，OF为火焰适应度值矩阵，分别如式(3)和(4)所示。

(3)

(4)

式中:n为飞蛾的个数;d为待求变量的个数。

根据适应度值对火焰位置从小到大进行排序，飞蛾分别围绕排序后的火焰，根据式(5)进行等角螺线飞行。

Mi=Diebtcos(2πt)+Fj

(5)

式中：Mi为第i只飞蛾的位置，Di=|Mi-Fj|表示第i只飞蛾与第j个火焰的距离;b为等角螺线参数;t为路径系数。

为提高算法的搜索效率，MFO采用火焰自适应减少机制，舍掉一些较差的火焰，使得飞蛾不用在劣解附近继续寻优，加快收敛速度。火焰数量自适应减少公式为:

(6)

式中：NF为当前火焰数量;N为最大火焰数量;i为当前迭代次数，I为最大迭代次数。

MFO算法流程[24]如下。

步骤1 飞蛾种群初始化。设置飞蛾数量、最大迭代次数、求解问题维度等参数。

步骤2 飞蛾位置初始化。在搜索空间中随机生成飞蛾位置，令迭代次数i=1。

步骤3 将飞蛾位置按适应度值从小到大排序后赋给火焰，作为第1代火焰的位置。

步骤4 更新飞蛾位置，将飞蛾位置适应度和火焰适应度重新排序，更新火焰位置。

步骤5 自适应减少火焰数量，迭代次数i=i+1。

步骤6 判断是否达到最大迭代次数，是则输出最优火焰位置，否则转步骤4。

3.2.2 MFO-HTN算法流程

适应度是用来度量种群中个体优劣的指标，适应度函数的设定决定算法的收敛程度和目标函数最优解。将优化目标转化为适应度函数为：

(7)

其中δ为正值常数，确保适应度函数值为正。

MFO-HTN规划流程如图6所示。

图6 MFO-HTN超视距空战规划流程图

4 仿真实验

4.1 仿真条件设置

仿真的初始态势参数包括相对距离、相对方位、相对航向角、双机的高度和速度，本节的算例设置如表1所示。

表1 初始态势参数

设敌机在0时刻发射一枚导弹，则当前空战态势满足以下描述：① 我机处于敌机的Ω3区域中；②双方为正迎头态势；③ 敌机发射一枚导弹。此时空战HTN规划网络如图7所示。

图7 空战HTN规划网络

相应的机动参数设置如表2所示。

表2 机动参数设置

4.2 飞蛾赴火算法优化结果

将本文方法与传统的遗传算法(GA)、粒子群算法(PSO)进行对比，图8展示了3种算法的收敛曲线对比。为了加快收敛速度，使算法满足实时性要求，本文限制了算法仅搜索整数解。

图8 算法对比

由图8可以看出，3种算法均在第50代就基本达到收敛状态，但GA和PSO算法收敛到了局部最优，MFO算法搜索精度更高，且收敛速度更快。MFO算法搜索到最优解为t1=5 s,t2=1 s,t3=4 s。

则最终得到的空战机动执行序列如图9所示。

图9 空战机动执行序列

4.3 空战仿真结果

设仿真起始时刻为0时刻，整个空战仿真过程持续114 s，可分为3个阶段,见图10～12。

1)阶段1。敌机在0时刻发射一枚导弹，我机在5 s开始采取侧转180°机动来规避敌方导弹，同时敌机采取偏置机动保持对我机的压迫，见图10。

2)阶段2 。我机完成导弹规避后立刻形成了对敌机的锁定并发射一枚导弹，而敌机也同时发射了第2枚导弹。我机保持对敌机的锁定4 s后完成中末制导交接，导弹导引头开机，进行最后一次侧转180°机动，见图11。

3)阶段3。70 s时，敌机向下做侧转机动规避我机发射的导弹，但在107 s时被击落，而我机随后在114 s 时完成了对敌机第2枚导弹的规避，仿真结束，见图12。

5 结语

本文提出的MFO-HTN超视距空战机动规划模型在引入专家经验的基础上，建立多目标优化模型，采用飞蛾扑火优化算法对空战HTN模型参数进行优化，能够输出高效、可解释的超视距空战战术机动执行序列。研究成果可以为飞行员提供辅助决策，也为研究智能超视距空战提供了新的思路。下一步研究如何将HTN模型与模糊推理、强化学习等算法相结合，构建更灵活、可扩展的超视距空战战术模型。