基于深度学习的突防控制博弈对象匹配方法

2022-08-05李士刚彭一洋

导航定位与授时 2022年4期

李士刚，彭一洋，程笠

(1.海装驻上海地区第六军事代表室，上海 201109；2.上海航天控制技术研究所，上海 201109)

0 引言

远程空面导弹在执行打击敌纵深目标任务时，通常需要突破敌人的多层防空反导防御体系。面对日益先进的防空系统，提升空面导弹的突防能力对于提升作战效能具有重要意义。基于追逃模型的突防策略是目前战术武器突防技术领域的研究热点，面对多枚空面导弹的攻击，地面防空系统一般会发射多枚拦截弹对突防弹进行拦截，确定追逃参与方是实现该类突防策略的一个重要前提。因此，需要在突防开始前进行敌方拦截弹的攻击目标匹配，确定各枚拦截弹的拦截目标，为空面导弹集群的协同突防提供支撑。

拦截弹攻击目标匹配属于目标意图识别的研究范畴，传统的目标意图识别方法包括贝叶斯网络、D-S证据理论、模版匹配以及模糊推理等。国内对态势估计和目标意图识别的研究起步较晚，但仍有许多学者针对意图识别问题开展了相关研究，如文献[4]利用直觉模糊函数表示贝叶斯网络模型的各个节点及节点间的因果依赖关系,建立基于直觉模糊贝叶斯推理的识别模型，提出了一种基于直觉模糊集和贝叶斯网络相结合的意图识别方法，简化了推理步骤,增强了意图识别的可信度。随着人工智能技术的发展，部分学者也将Agent理论、神经网络及深度学习理论等应用于意图识别研究。例如文献[13]针对样本不平衡情况下空中群组意图识别问题，提出了一种基于注意力机制的双向门控循环单元网络空中群组意图识别方法,将空中群组的状态信息编码成时序特征，利用先验信息封装成样本标签，通过双向循环机制提取空中群组目标时序特征的深层信息，并利用注意力机制为深层信息分配权值。文献[14]提出了一种面向目标意图识别的深度学习模型，该模型基于栈式自编码器(Stacked Autoencoder, SAE)算法，采用无监督预训练和有监督训练相结合的方式，实现对目标战术意图的智能识别。

国外针对意图识别的研究起步较早，并且在理论框架研究和武器装备应用方面均取得了很大的进展。理论框架研究方面，文献[15]提出了一个解决完全可观测、多Agent以及动作随机性的生成式博弈框架；文献[16]提出了可以对智能体行动不确定性进行建模的随机意图识别设计问题，从而对意图识别设计问题进行了丰富和拓展；文献[17]则将原问题拓展到规划识别领域，提出规划识别设计问题，即基于规划库重新设计问题域的可行行动集合，以提高识别过程中规划的辨识度。武器装备应用方面，世界主要军事强国最早于20世纪50、60年代就开始研制和装备各级别的指挥控制与态势评估系统，包括美国的海军战术数据系统、法国的SENIT系列海军战术数据处理系统以及俄罗斯的CHFMA-3作战情报指挥系统等。虽然公开信息未透露这些系统的技术细节，但是根据相关介绍和说明，这些情报处理及指挥决策系统在信息处理的基础上，也都具备一定的战场态势分析和威胁分析能力，并且无一例外地强调了对战场态势、作战意图的分析和推理能力，强调通过自动化、智能化地对战场态势进行分析和评估，尤其重视对敌方作战能力及战术意图的推理和预测能力。

目前的空中目标意图识别研究主要集中在各级指挥系统对飞机类目标的意图识别领域，通常将目标运动信息认为连续可知。而空面导弹在自主突防过程中，只能依靠弹上搭载的各类光学传感器对拦截弹的发动机尾焰进行探测，以获取拦截弹信息，但多数中远程拦截弹均在被动段对目标进行拦截，导致空面导弹无法获得完整的拦截弹飞行状态信息。同时，与飞机类空中目标不同，拦截弹的飞行弹道与制导律、拦截目标状态强相关，具备极强的时序特性。本文针对多枚巡航导弹协同突防时，进攻弹无法获取拦截弹被动段飞行状态的问题，统计并构建可扩充的拦截弹，拦截我方进攻弹的弹道轨迹库。基于长短时记忆网络(Long Short-Term Memory, LSTM)构建轨迹预测模型，通过拦截弹预测轨迹和进攻弹轨迹确定预测命中点，基于预测命中点确定拦截弹拦截目标，实现我方导弹对博弈目标的准确匹配。

1 拦截弹道库的生成

1.1 弹道构建方法

中远程防空导弹从发射到命中目标大致分为初制导、中制导和末制导三个阶段。其中初制导段通常采用固定的程序转弯模型，使终端姿态角满足到位角约束；中制导段采用参数较小的比例导引，模拟导弹在中制导段飞行时由外部因素导致的弹道误差；末制导段采用修正比例导引制导律攻击目标，确定上述特征参数后即可求解不同制导阶段的飞行弹道，进而得到拦截弹的三自由度全段飞行弹道。

构建拦截弹弹道库时，认为拦截弹为垂直发射，且在主动段做匀加速运动，巡航导弹在进入突防状态前采用匀速直线的巡航飞行模式，构建三自由度弹道时认为弹道倾角与俯仰角相同。基于上述时序与假设，通过选取不同的初制导终端到位角、制导律系数以及发动机工作时间，即可获得不同参数下的三自由度拦截弹道，进而构建拦截弹道库。

1.2 初制导段弹道

选取不同的初制导期望终端俯仰角，采用三角函数设计初制导姿态变化规律，即可获得不同期望终端俯仰角下的初制导段弹道。三角函数型初制导段导引律如式(1)所示。

ϑ=90-ϑ
ϑ()=(ϑ,cos(),sin())
ϑ()=90-ϑ()

(1)

式中，ϑ为期望终端俯仰角；ϑ为初始角偏差；ϑ()为程序转弯模型；ϑ()为当前时刻的俯仰角。

1.3 中/末制导段弹道

采用初制导结束时的导弹飞行参数作为中制导段的初始状态，采用修正比例导引律作为中/末制导段的制导律。选取中制导段比例导引导航比小于2，获得中制导段弹道；选取末制导段比例导引导航比大于2，获得末制导段弹道。比例导引的弹道方程如式(2)所示。

(2)

2 基于LSTM的拦截弹意图识别模型

2.1 LSTM

LSTM最初是由Hochreiter和Schemidhuber于1997年提出，是一种特殊的循环神经网络(Recurrent Neural Network，RNN)，能够解决普通RNN在长序列训练过程中存在的梯度消失和梯度爆炸问题。LSTM模型的结构示意图如图1所示。

图1 LSTM的基本单元Fig.1 The basic unit of LSTM

在每个LSTM基本单元中包含3个门处理过程，分别是遗忘门、输入门和输出门。其中，遗忘门决定了要从上一单元的输出中舍弃什么信息；输入门决定了要在当前单元中保存什么新的信息；输出门决定了下一个隐藏状态的值。LSTM基本单元的更新过程如式(3)所示。

(3)

式中，、、、和、、、分别为输入序列的权重系数和偏置参数，需要由训练得到；为时刻的状态序列；-1为上一个基本单元的输出；为时刻保留的信息；(·)和tanh(·)为激活函数。

2.2 航迹预测模型

由于进攻弹只能获取拦截弹主动段的弹道信息，因此本文选取导弹轨迹库中发动机关机前一段时间的轨迹作为训练样本，对LSTM进行训练，主要包含以下3个步骤：

(1)数据预处理

①数据归一化

为了减少数据中极大值和极小值对神经网络预测的影响，同时减小计算负担，需要对导引头测量信息进行归一化处理，将神经网络的输入限制在[-1,1]之间，本文采用最值归一化处理方法，如式(4)所示。

(4)

②划分数据集

拦截弹道库中包含了若干条拦截弹航迹，按照一定的比例将它们随机划分成训练集和测试集。

(2)神经网络模型设计

首先需要对循环神经网络的权重值和偏置值进行初始化，然后需要明确输入和输出信息，接着需要确定循环神经网络的层数和每层的神经元数目，最后根据实际情况选择学习率、迭代次数、传递函数及训练算法等。本文设计的循环神经网络基本模型如下：

①利用前6个时刻的历史航迹坐标预测第7个时刻的航迹坐标，取时刻、-1时刻、-2时刻、-3时刻、-4时刻、-5时刻、-6时刻目标点的、轴坐标位置为循环神经网络的输入，+1时刻目标点的、轴坐标位置为循环神经网络的输出；

③确定LSTM的学习率、迭代次数、激活函数(·)、隐含层传递函数(·)、输出层传递函数(·)、训练函数(·)和误差函数(·)等。

(3)神经网络训练

①采用训练集对LSTM进行训练，得到可用于航迹预测的神经网络模型；

②将测试集航迹作为训练好的神经网络输入，得到航迹点在不同时刻的预测坐标，与测试集进行对比，测试神经网络模型的预测性能。

2.3 拦截目标匹配流程

通过各枚进攻弹的红外导引头获得的测角数据，能够求解每一时刻拦截弹在三维空间中的坐标数据；将拦截弹的空间坐标作为航迹预测模型的输入，即可获得拦截弹的预测航迹；通过将拦截弹的预测航迹与进攻弹规划航迹进行对比，获得预测命中点；通过对比预测命中点脱靶量，即可确定拦截弹的拦截目标。具体步骤如下：

1)采用扩展卡尔曼滤波对含有噪声的导引头探测信息进行处理，得到当前时刻拦截弹三维空间中的坐标信息，并将其储存起来，即可获得拦截弹主动段的飞行轨迹，具体算法如下：

选取Singer模型为状态模型，取时刻状态变量为拦截弹位置与速度=[,,,,,]，则系统离散状态方程为

=-1-1+

(5)

式中，-1为状态转移矩阵；为状态噪声协方差矩阵；-1和的表达式如下所示。

首先脚在一个不起眼的地方。此物件，位于人体的最下部，具有移动和支撑人体重量的两大重要功能。它能进能退。进的时候，可快可慢。尤其关键时刻，踹你一脚，没商量。那个得意劲，觉得自己仿佛就是大脑的主人；退的时候，可以凌霄轻步，闪转腾挪，世故得让人心有余悸。

(6)

(7)

式中，的具体表达式如文献[19]所示；为机动频率；为目标加速度方差。令为目标以最大加速度运动的概率，为目标匀速运动的概率，为先验的目标最大加速度，则有

(8)

取,=[,,,]为时刻第个导引头的量测量，则量测方程为

,=,(,,)

(9)

扩展卡尔曼滤波算法如式(10)所示，通过融合上一时刻的状态量与当前时刻的量测量,即可求得拦截弹当前时刻的三维空间坐标。

(10)

式中，为量测方程对状态变量的雅可比矩阵。

2)将巡航弹导引头得到的拦截弹运动轨迹={,,}作为神经网络(·)的输入，得到拦截弹的预测轨迹={,,}，如式(11)所示。

{,,}=({,,})

(11)

3)根据拦截弹的预测轨迹和巡航弹的规划轨迹求取预测命中点，依据拦截目标预测命中点最小原则，确定各拦截弹的拦截目标，如式(12)所示。

LJ,=min{{LJ,,XH,}},=1,2,…,

(12)

式中，LJ,为第枚拦截弹的预测拦截目标；{LJ,,XH,}为第枚拦截弹与第枚巡航弹的预测脱靶量；为巡航弹总数。

3 仿真验证

本节采用数字仿真的形式对上述方法开展有效性验证。设置仿真场景为3发拦截弹拦截3发进攻弹。进攻弹在同一高度飞行，各弹之间间距400m。其中，拦截弹1拦截进攻弹1，拦截弹2拦截进攻弹2，拦截弹3拦截进攻弹3。为便于理解，将进攻弹目标点定为坐标系原点，其中，巡航弹处于匀速直线运动状态，仿真起始时刻发射拦截弹，拦截弹在主动段以10纵向加速度做加速运动。巡航弹运动参数如表1所示。

表1 巡航弹运动参数

通过设置不同的拦截弹终端到位角、比例导引律导航比以及发动机工作时间，得到拦截弹弹道数据库，用于航迹预测模型的离线训练，拦截弹的飞行条件设置如表2所示。

表2 拦截弹运动参数

3.1 航迹预测模型离线训练

根据预测命中点的分布，可以将对应于弹道库中的弹道分为八类，分别对应8个主动段飞行时间。设置线性整流函数(Rectified Linear Unit, ReLU)为激活函数，设置交叉熵函数为误差函数，表达式如式(13)所示。

(13)

式中，()为真实分布；()为非真实分布。

设计LSTM结构的相关参数如表3所示。

表3 LSTM结构参数

受限于红外导引头的探测能力和协同探测机理，只能获得主动段后期的拦截弹弹道信息。本文选择主动段结束前5s的数据作为意图识别时的轨迹输入量，因此训练过程中同样采用对应时间段的轨迹对网络进行训练；同时，选择弹道库中的75%数据作为训练集用于训练网络，剩余的25%数据作为测试集用于验证网络性能，网络训练和测试过程的参数设置如表4所示。

表4 训练与测试参数

LSTM网络训练结果如图2所示，3枚巡航弹对应的训练结果正确率均为100%，满足性能要求。

图2 LSTM网络训练参数变化过程Fig.2 Changing process of LSTM network training parameter

3.2 拦截弹意图识别仿真

3.2.1 单次仿真

设置巡航弹红外导引头的测角噪声为高斯白噪声，测角精度为0.1°，设置终端到位角为60°，末制导律导航比为4，拦截弹发动机工作时间为10s，将拦截弹主动段轨迹的最后5s作为航迹预测模型的输入，则单次仿真结果如表5所示，进攻弹与拦截弹的弹道轨迹如图3所示。

表5 意图识别结构

图3 拦截弹预测轨迹Fig.3 Interceptor predicted trajectory

可以看到，本文构建的航迹预测模型预测出的拦截弹拦截弹道对其实际的拦截目标具有较小的预测脱靶量，而对于非拦截目标的脱靶量则较大，匹配模型能够正确匹配出拦截我方对应导弹的拦截弹。

3.2.2 蒙特卡罗仿真

在上述仿真条件下，进行100次蒙特卡罗仿真，三巡航弹意图识别均成功的概率为100%，当减小3枚进攻弹之间的距离、增大红外导引头噪声时，意图识别成功率会出现不同程度的降低，其中，同时增大红外导引头噪声、减小巡航弹之间的距离会导致匹配成功率明显降低。其主要原因是红外导引头的噪声增大了输入神经网络的拦截弹弹道的误差，而进攻弹之间距离的减小使得不同拦截弹之间的射面更加接近，弹道更加靠近，增大了匹配难度，最终导致系统出现误判。但当进攻弹之间的距离较大时，虽然导引头噪声使得拦截弹观测弹道出现了误差，但不同拦截弹之间的射面和弹道距离也都更远，降低了系统判断的难度。具体统计结果如表6所示。