对抗条件下空中目标威胁评估方法 *
2024-03-18梁复台周焰张晨浩宋子豪赵小瑞
梁复台,周焰 ,张晨浩 ,宋子豪 ,赵小瑞
(1. 空军预警学院,湖北 武汉 430000;2. 中国人民解放军31121 部队,江西 南昌 330000)
0 引言
1988 年数据融合联合指挥实验室提出JDL(joint directors of laboratories)模型,其将威胁评估(threat assessment,TA)定义为数据融合系统中的高层次数据融合处理过程,其通过推理红方意图和目的,量化并判断红方行为对蓝方的威胁程度[1]。文献[2-3]对初始JDL 模型中威胁评估的解释进行了扩展,文献[2]指出威胁评估应该扩展为影响评估,包括威胁评估、行为分析和结果预测。同时,文献[4]认为威胁评估不仅要对红方能力及意图进行分析,还要对蓝方能力进行分析,将它们结合起来综合分析,才算是威胁评估。在这个定义中,考虑了对抗双方的能力,体现了威胁的对抗性。文献[5]对JDL 数据融合模型进行了新修订,强调了威胁评估中双方行动计划之间的互动,进一步明确了威胁评估的对抗性。
目前,战场威胁评估的方法主要有:贝叶斯推理[6]、模糊推理[7]、多属性决策理论[8]、案例推理[9]、专家系统或基于知识的方法[10]、遗传算法[11]等。总结起来,主要分为2 类:一是建立威胁评估数学模型的方法;二是基于各种智能算法的威胁评估方法。建立威胁评估数学模型时,对属性权重确定与方案排序是重点。采用基于智能算法的威胁评估方法,对数据的标记及模型的训练是重点。两种方法中无论是属性权值确定还是训练数据标记,其前提都需要确定威胁因素指标体系,但目前的研究中,大多只关注了红方的静态威胁,很少考虑双方对抗因素,缺乏对战场威胁动态演化过程的研究。
真实战场环境中,威胁评估存在动态性和对抗性。受蓝方预警探测、火力打击兵器等反制力量及部署的影响,红方空中目标的行动会做出相应调整,从而带来其威胁程度的变化,这种变化趋势给人工研判带来挑战,亟需智能化方法对红方空中目标威胁变化趋势提前预判以掌握战场主动。
应用强化学习技术来解决对抗条件下的威胁评估问题,更适用于真实战场环境,可以减少人工参与,同时提高威胁评估的智能化程度。本文将强化学习应用于威胁评估,是在静态威胁评估方法基础上,以红方空中目标为智能体设计强化学习模型,通过双方的对抗博弈,使得强化学习模型具备自主决策能力,再对红方动态威胁进行预测,实现对抗条件下的红方空中目标威胁评估。
1 方法框架
对抗条件下的目标威胁评估方法以强化学习技术为基础。首先,通过对红方空中目标、战场环境及蓝方反制力量的抽象,形成适合强化学习的战场态势表述。同时,以红方目标为智能体,采用强化学习技术,使其具备自主决策的能力,进而可得到关于其下一步行动的预判。最后根据其行动预判得到红方空中目标的状态变化,通过威胁评估模型实现对红方目标威胁的估计与预测。对抗条件下的目标威胁评估的基本框架如图1 所示。
图1 对抗条件下威胁评估框架Fig. 1 Diagram of threat assessment framework under confrontational conditions
对抗条件下的威胁评估框架主要由威胁评估模块及动作预测模块两部分组成。
在动作预测模块中,以红方空中目标为智能体,建立强化学习模型,智能体和环境通过状态、动作、奖励进行交互的方式进行训练,生成红方空中目标决策策略。决策策略的形式由强化学习算法决定,可以是策略表,也可以是深度神经网络。训练完成后,输入当前战场态势数据,可以根据决策策略输出红方空中目标下一步动作。
动作预测模块中,红方空中目标具备一定的态势感知能力,通过对蓝方策略及反制力量的实时感知,不断更新强化学习模型并生成相应策略。
在威胁评估模块中,将当前战场态势输入动作预测模块,预测得到红方空中目标下一步动作,根据该动作得到其下一步所处的状态,然后根据预先建立的威胁因素指标,使用威胁评估算法或已经训练完成的威胁评估模型,得出对抗条件下红方空中目标的威胁预测评估结果。
2 威胁评估步骤
对抗条件下空中目标威胁评估过程可以分为两个主要步骤。一是红方空中目标动作预测;二是红方空中目标威胁评估。
2.1 空中目标动作预测
对红方空中目标动作进行预测,首先构建强化学习模型,其中重点是设计奖励函数,然后进行模型训练。
2.1.1 强化学习模型构建
强化学习是机器学习的范式和方法论之一[12]。其基本原理是让智能体与环境不断地交互反馈,利用交互样本和反馈信息不断更新策略且利用策略,最终获得最优策略[13]。
强化学习的任务定义中主要有智能体和环境(此环境非战场环境)两个可以进行交互的对象,基本要素有智能体状态、智能体动作、状态转移概率及奖励函数[14]。通常通过四元数组(S,A,T,R)来定义强化学习的数学模型。按照本文方法设计思想,这里的智能体是红方空中目标,环境包括战场环境以及蓝方兵力火力。
(1) 状态空间
提取红方空中目标所处的状态,如目标位置区域、距离、航向角等,构建状态空间。红方空中目标所处的所有状态S被定义为有限集{s1,s2,…,sn},集合的大小为n,即总共有n种状态。
(2) 动作空间
红方空中目标动作集A被定义为有限集{a1,a2,…,ak},集合的大小为k,即红方空中目标可以执行k种动作。执行动作可以改变环境状态,A(s) 表示在状态s下可执行的动作集,很明显A(s) ⊆A。通常,红方空中目标处在一个连续的动作空间,可根据需要简化为前进、拐弯、返回等。
(3) 转换函数
转换函数是在当前状态st下执行动作at改变为新状态st+1的概率分布。F(st,at,st+1)表示在状态st执行at动作最后到达st+1状态的概率,很明显0 ≤F(st,at,st+1) ≤1。此外,对于所有状态s和动作a,,st+1∈S。
(4) 奖励函数
奖励函数定义为R:S→R,其表示某一状态或是在某一状态执行某一动作的奖励。智能体从环境中获取当前状态st和当前状态的奖励rt,根据策略执行动作at,环境返回给智能体执行完动作后的状态st+1和奖励rt+1,这就是智能体和战场环境的一次交互。在空中目标状态转换过程中的奖励由任务完成奖励、任务区距离奖励、航向角奖励等综合而成。
2.1.2 奖励函数设计
强化学习的目的是实现奖励最大化[15]。在空中目标的任务场景来说,奖励函数由以下部分组成:
(1) 相对距离奖励
红方目标距离打击目标的距离越近,完成任务的可能性越大,其奖励函数为
式中:λ为距离奖励系数;d为红方目标距离任务区域距离。
(2) 视线角奖励
红方目标速度和视线角,视线角越小,完成任务的可能性越大,其奖励函数为
式中:μ为视线角奖励系数;θ为红方目标与任务区域的视线角。
(3) 突防概率奖励
红方被蓝方雷达探测的概率越低,其奖励越高,其奖励函数为
式中:p为蓝方雷达探测概率。
(4) 抵达任务区的奖励
红方主要目的是避开蓝方预警及拦截,并成功抵达任务区完成任务。其奖励函数为
式中:σ为抵达任务区奖励值,为常量。
在当前状态st,红方空中目标执行动作at的奖励为
根据状态集和动作集可构建奖励矩阵:
式中:rij为在状态si时执行动作aj的奖励;n为状态集元素数目;k为动作集元素数目。
2.1.3 训练实现
可采用蒙特卡罗法、SARSA、Q-Learning 等强化学习算法进行训练学习[16],得到红方空中目标智能体的最优策略,根据该策略实现对红方目标的威胁评估。本文采用Q-Learning 算法。
在设定衰减因子γ和奖励集合r后,初始化价值矩阵Q,使其为0,价值矩阵Q表示智能体从经验中学到的知识。在一个episode 中,智能体从任意初始状态开始,不断地依概率转移函数从一个状态转到另一个状态进行探索,直至达到目标,然后进入下一个episode,直至模型收敛。此时,智能体学到了达到目标状态的最佳路径。
价值矩阵Q的更新是通过状态-动作价值函数来实现的[17],其表达式为
式中:折扣因子γ∈[0,1],用来调节长期收益的影响。
利用训练得到的价值矩阵Q,蓝方可以预测红方目标下一步状态,再通过对下一步状态的威胁评估,实现在对抗条件下红方目标威胁估计。
2.2 威胁评估建模
建立威胁评估模型主要包括建立威胁元素指标,设计评估方法2 个主要部分[18]。
2.2.1 建立威胁评估指标
建立威胁元素指标首要工作是确定并提取威胁影响因素。提取威胁因素,需处理好完整性、准确性和及时性的关系,即需要考虑威胁目标具体情况,确定威胁目标的各项性能,又需要结合战场实际情况,明确目标运动过程特点,甚至还需考虑红方行动意图,搞清其任务目的。
为简化问题,主要从空中目标作战意图、运动状态、打击能力、体系能力4 个方面表征目标威胁程度。空中目标作战意图一般由目标类型、目标国别、目标任务、出现空域等要素反映;运动状态一般包括空中目标与打击目标之间的视线角、相对距离、飞行速度、飞行高度等;打击能力一般包括其感知能力、生存能力、载荷能力、人员素质等;体系能力一般包括空中目标编队数量、编队组成、伴随保障、情报保障等。具体如图2 所示。
图2 空中目标威胁评估指标体系Fig. 2 Aerial target threat assessment index
2.2.2 设计威胁评估方法
常用的威胁评估方法较多,本文将威胁评估视为分类问题,通过生成仿真数据,经过专家评估打分及一致性检验形成数据集,然后采用GA-BP(genetic algorithm-back propagation)算法进行训练,使得模型具备威胁评估能力。
BP 网络是人工神经网络的一种,由多个神经元组成多层结构的非线性网络,然后通过大量标记数据训练,进行调整网络模型权重和阈值,最终得到自变量与因变量间的拟合函数。虽然BP 网络拟合能力很强,但在训练过程中容易陷入局部最优。GA是一种搜索算法,具有很强的全局搜索能力,可用于解决最优化问题。因此,将GA 与BP 网络相结合形成GA-BP 算法,应用遗传算法搜寻最优初始网络权重和阈值,能够有效提升BP 网络的拟合效果[19]。
虽然GA-BP算法训练过程中需要更多次的迭代,但训练完成后,威胁评估所消耗时间与BP网络一样。
3 仿真分析
为验证本文威胁评估方法的有效性,设计一个红方空中目标空袭的想定,结合此想定,评估对抗条件下红方空中目标威胁。
3.1 仿真环境及参数设置
实验平台为64 位Windows10 系统,CPU 型号为Intel(R) Core(TM) i7-10700 CPU@2.90 GHz,内存为16 GB,基于Python 语言编程。
GA-BP 算法所用BP 网络设计为3 层结构:输入层,隐藏层,输出层。输入层神经元个数与威胁指标数目相一致;隐藏层共20 个神经元;输出层5 个神经元,与威胁程度层级相对应,使用ReLU 激活函数。GA 算法种群规模为40,每个个体长度为BP 网络所有权值和阈值数目相对应。进化次数为100次,交叉概率为0.4,变异概率为0.05。个体适应度函数为训练数据预测误差绝对值之和。
3.2 想定设计
所设计的想定如图3 所示。红方出动轰炸机编队,任务目标是轰炸蓝方某港口。蓝方在港口部署了防空导弹,其预警与拦截能力范围由绿圈给出,同时,蓝方前出一个海基预警拦截编队与空基预警拦截编队,海基预警拦截编队能力范围由图中红圈给出,空基预警拦截编队能力范围由图中蓝圈给出。
图3 作战想定图示Fig. 3 Operational scenario diagram
为简化问题,本文将对抗场景抽象成适合强化学习的战场态势表示,在其基础上进行威胁评估。
3.3 过程及分析
以红方轰炸机空中目标为智能体,建立其状态空间、动作空间。根据双方兵力火力、战场环境及交互关系,将红方轰炸机目标可能所处的区域抽象成6 种状态,构建状态空间{s1,s2,s3,s4,s5,s6},如图4所示。
图4 状态空间图示Fig. 4 State space diagram
在状态空间基础上,定义动作为“进入某状态”,形成6 个动作组成的动作集,以动作a3为例,其表示“进入状态s3”。
将状态空间及动作空间表示成有向图的形式,如图5 所示。状态为节点,节点3 为目标节点,代表红方轰炸机空中目标的任务终点s3。动作为边,部分节点间为双向边,表示这2 种状态间可以相互转换。
图5 有向图图示Fig. 5 Directed graph
在状态s下执行动作a定义为等概率事件。然后,根据2.1 节奖励函数的定义,奖励函数相关参数设定为:距离奖励系数λ为50,目标距离任务区域距离d离散化为1,2,3,4,分别表示红方目标到目标区域所需跨越的区域方格数。视线角奖励系数μ为50,θ离散化为0,90,分别表示红方目标与目标区域间的视线角。突防概率奖励方面,考虑到海基与陆基雷达存在着一定的低空盲区,将海基预警、陆基预警与空基预警的探测概率p分别设为0.75,0.75和1。抵达任务区奖励值σ为100,后退奖励为0。经过计算可得R矩阵为
将其表现在有向图中,如图6 所示。
图6 奖励值标注Fig. 6 Reward value annotation
经过强化学习训练,不断更新,得到最终的Q矩阵:
将其表现在有向图中,如图7 所示。
图7 Q 值标注Fig. 7 Q value annotation
从图7 中可以看出,红方目标最优攻击路线有2条:①从节点1 进入,经过4,5,6 节点,到达节点3 目标节点;②从节点4 进入,经过5,6 节点,抵达节点3目标节点。
一般而言,空中目标在攻击时将选择最优攻击路径。将红方目标最优路径所经过节点时的各项评估指标分别输入已经训练好的BP 模型,便可实现对抗条件下红方空中目标的威胁估计。
将最优路径所经历的节点逐个输入评估模型,可得红方目标在4,5,6 节点威胁等级分别为3,4,5,在1,2 节点的威胁等级分别为2,3。而在不考虑蓝方对抗因素时,红方目标在4,5,6 节点威胁等级分别为1,3,5,在1,2 节点的威胁等级分别为3,5。相比较而言,考虑了蓝方对抗因素的威胁评估结果更符合战场实际情况,红方空中目标在防守更薄弱的空域出现时构成的威胁更大。
在考虑蓝方策略变化的情况下,只需对红方空中目标的强化学习模型进行更新,根据蓝方策略变化情况更新模型的状态空间,即可按照上述过程生成相应的应对策略。
4 建议
随着现代联合作战样式的广泛实践,红蓝双方在多维多域空间的对抗日益激烈。尤其是在信息化、智能化条件下,战场态势感知能力得到极大增强,红方威胁与蓝方反制密切相关,威胁评估更多体现为动态过程。对威胁评估概念的理解已不能仅仅局限于某一时刻的威胁,而是要在对红方能力及意图分析基础之上,综合考虑蓝方能力及兵力部署对红方的影响,开展对抗条件下的威胁评估研究。
4.1 建立知识与数据双驱动的威胁评估指标体系
在空中目标威胁评估指标选取及体系建立方面,需要考虑众多影响因素,所选取的评估指标既要具有代表性,还应具有广泛性,能从不同角度、不同层次体现目标的威胁程度。随着战争样式的发展,战场环境日趋复杂,“战争迷雾”效应凸显,爆炸式增长的战场大数据已给人脑的信息处理能力带来极大的挑战,人工选取威胁影响因素并建立指标体系的方法已经难以适应形势的发展。随着人工智能技术的发展,深度学习、强化学习等技术为威胁指标体系的构建带来了极大的促进。人工选取威胁影响因素依赖人的经验,体现了知识驱动,人工智能较多地依赖历史数据,体现了数据驱动。如将二者进行有效结合,将极大克服传统人工构建威胁评估指标体系的不足,增强其合理性。
4.2 开展对抗条件下智能化评估方法的研究
预警防空作战实践具有很强的对抗性。在体系作战框架下,红方空中目标具有很强的态势感知能力,对蓝方的兵力火力部署及能力变化反应比较敏感,威胁的对抗性体现较为明显。相比传统静态的威胁评估方法,研究对抗条件下的威胁评估问题能够对威胁的变化趋势更好地预测,对指导预警防空作战具有更大现实意义。由于强化学习方法可以通过与环境交互获得行为指导,在对抗中实现智能体的自主学习,从而在对抗条件下的威胁评估中得以应用。但随着战场红蓝双方对抗的激烈程度提高,战场态势变化剧烈,在使用基于经典强化学习的目标威胁评估方法时,存在着目标状态空间与动作空间进一步扩大,或者为连续空间的情况,从而带来维数爆炸的问题。深度强化学习技术具有强大的处理复杂、高维环境特征的能力,在该场景的应用中具有广阔的前景。
4.3 提高威胁评估结果的可解释性和可信度
人工智能技术的运用,为解决对抗条件下的威胁评估问题带来契机,但同时也存在着结果可解释性不强、可信度难评价的问题。此问题的存在,为该技术的应用带来一定的局限。对于用户来说,具有高可信度的方法更有利于辅助决策。人工智能技术的可解释性要从数据采集、算法设计与实施、结果展示等环节入手。方法设计与实施存在着一定的“黑盒”特征,但数据采集与结果展示环节的解释相对较为容易,解释越透彻越能增加评估方法的可信度。很多人工智能方法对数据都有很强的依赖性,比如经典机器学习、深度学习等。大规模的、区分度高的、涵盖问题特征分布的数据集是智能化方法取得较好效果的基础,其训练得到的模型具有更强的泛化能力。根据不同方法的特点,从方法实施的不同阶段,设计相适应的评价指标,综合运用各种可视化手段,均能提高可信度,促进用户对评估方法的理解与运用。
5 结束语
本文提出了一种对抗条件下空中目标威胁评估方法,在建立威胁评估模型的基础上,根据强化学习的思想,得出红方目标的最优路径,并根据最优路径对目标的下一步威胁进行评估,实现对抗条件下空中目标的威胁评估。经过仿真案例分析,该方法对红方目标的威胁进行评估更符合战场实际。但同时,也应看到在使用基于经典强化学习的目标威胁评估方法时,还存在着诸多不足,对此,提出3条建议便于对此类问题的进一步研究。