APP下载

基于强化麻雀搜索神经网络的空战机动决策方法

2023-03-11刘庆利乔晨昊杨国强张振亚

火力与指挥控制 2023年1期
关键词:空战搜索算法态势

刘庆利,乔晨昊,杨国强,张振亚

(大连大学通信与网络重点实验室 辽宁 大连 116000)

0 引言

超机动作战是高性能战机的必备技术,而飞行员所需要的是如何在空战的博弈中作出相对正确的机动决策。机动决策是根据敌方飞机的飞行态势作出有利的机动变化,来躲避敌方导弹和置于有利位置发射导弹的过程。机动决策的目的是获取利于我方攻击的位置,发射导弹击伤、击落甚至击毁敌机来获取制空权。随着近些年军工技术的大力发展,三代机、四代机已经逐渐成为空军的主要作战力量,面对高性能的战斗机,如何进行高效的决策成为飞行员的一大困难。在敌我双方空战态势复杂的情况下,迅速、精准地进行空战机动决策,充分发挥战斗机地高机动特性,已经成为空战决策中急需解决地问题之一。

近几十年来,对于空战机动决策的智能算法有专家系统、滚动时域控制法、神经网络算法、支持向量回归算法、遗传算法等优化算法等[1]。文献[2]中基于的粒子群算法(particular swarm optimization,PSO),提出了粒子群神经网络(particular swarm optimization network,PSON),改善了神经网络的局部最优的缺点,但粒子群算法在收敛速度上远远不能适应当代空战机动决策的速度要求。文献[3]将心理学中的前景理论引入到决策中,构建了针对空战问题的模型,但模型过于单一,无法考虑真实作战中的复杂问题,需要结合目前兴起的人工智能技术。文献[4]采用了目前兴起的人工智能,基于神经网络的作战决策模型。虽然可以训练出较好的模型,优化速度慢、准确性低。文献[5]是基于遗传算法(genetic algorithm,GA),提出了遗传神经网络(genetic algorithm network,GAN)将遗传算法的特性用于解决神经网络收敛速度慢的问题,优化了神经网络的参数,并较好地解决了神经网络的速度过慢的问题,但对于作战而言,遗传神经网络的速度远远不够,较多地是早熟问题。文献[6]提出了滚动时域控制法是一种近似、分解方法,本质是使用一系列随机重复的小型优化解决方案过程来代替静态的大规模优化解决方案过程,以达到减少,计算和缩放数量的目的,以适应优化假设下的不确定变化。滚动时域控制是一种实时有效解决时域优化有限或领域目标函数无穷问题的有效控制策略。文献[8]将变权重引入到遗传算法中,解决了一定程度上遗传算法局部最优的缺点,并将遗传算法进行宏观并行微观串行的迭代,但局部问题还是存在。文献[9]根据决策中出现的交互性与精确性的问题,将矩阵博弈法引入其中,强化了遗传算法的性能,也在一定程度上解决了遗传算法的局部最优问题,作者在文中建立了机动模型,并根据模型以及空战态势函数构建了最终的决策方法。利用改进的矩阵策略获得无人机的最优近似范围,然后再利用遗传算法在该范围内迭代出最优值,但遗传算法处理非线性问题过于复杂,会使决策的效率无法满足要求。

针对以上问题,本文提出了强化麻雀搜索神经网络(intensify sparrow search neural network,ISSN)的决策方法,该方法考虑角度、高度和距离等因素建立相应的态势函数,在此基础上建立态势评估函数作为空战机动决策的依据,同时将态势函数作为神经网络的输入,态势评估函数作为神经网络的输出,利用神经网络的自适应能力去优化态势函数,同时利用混沌初始化和小孔成像反向学习策略去优化麻雀搜索算法(sparrow search algorithm,SSA),并利用其性能优化神经网络的必要参数,使神经网络产生更快的速度和精度,从而实现更加准确、快速进行决策的目的。

1 空战态势评估模型及博弈论模型

空战的目的是夺取制空权,有效打击敌机甚至摧毁成为空战中最重要的部分,所以战机的机动变化成了空战机动决策中最重要的部分,空战机动决策是根据角度、高度、距离等态势进行机动变换,如何进行快速、有效变换是机动决策中最重要的问题,因此,采用了4 种态势函数和态势评估函数[4],再根据态势函数和评估函数建立对应的博弈论模型作为空战胜负的判断条件。

1.1 态势函数和评估函数

1.1.1 态势函数

1)俯仰角态势函数

空战中最重要的是射击,其次是各种战术机动,最后是飞行性能。不管是用近距离的机炮格斗还是用空对空导弹来攻击敌人,都必须找到最佳攻击的位置。最佳的攻击位置需要满足角度的要求。因此,空战中战斗机的角度是最重要的态势。因此,俯仰角态势函数可定义为:

2)偏航角态势函数

偏航角决定了飞机的航向,即飞行方向,变换偏航角有利于躲避敌人的雷达锁定和导弹攻击,偏航角的态势函数定义为:

3)距离态势函数

空战的最终目标是发射导弹摧毁敌方飞机,导弹的射程就决定了距离态势函数,因此,定义为:

其中,gD是为导弹的标准射程;σ2是战斗机攻击距离的方差;g 为敌我双方之间的距离。当敌机处于导弹攻击范围内时,其值恒定为1。当敌机在原理导弹的有效射程时,距离态势函数值随距离的增大而减小。

4)高度态势函数

飞机的实时高度也很重要,因为如果高度过低,就有可能发生飞机坠毁,飞机在合适的高度来进行空中格斗,一般来说飞机高度高于敌方,会更有利于发射导弹。因此,高度态势函数可定义为:

式中,hop表示飞机对目标的最优攻击高度差;Δz 为飞机与目标的实时高度差;σh为最优攻击高度标准差。

1.1.2 态势评估函数

空战描述需要客观性,根据以上4 种态势函数定义了态势评估函数。一般来说,将态势评估函数值最高的机动视为最佳的空战机动。根据以上态势信息,定义评估函数:

1.2 胜利或失败判定

空战的目的是发射导弹摧毁敌机,需要满足导弹的发射条件。因此,空战的胜败判断可以构建为:

其中,gfire是最有利于发射导弹的攻击距离;和需要满足对应的条件;Sa和Sb分别为我机和敌机的态势评估函数(本文简称为态势值)。在实际空战中,我机需要满足式(6)中的4 个条件,进而发射导弹,获得空战胜利,反之亦然。

1.3 博弈论模型

1.4 将博弈论模型引入空战机动决策

此时的S'称为博弈态势值。

2 基于强化麻雀搜索神经网络算法的机动决策方法

为了对态势函数的权重进行快速、准确的计算以及对评估函数的预测,本文提出了强化麻雀搜索算法(intensify sparrow search algorithm,ISSA)优化神经网络的方法,利用神经网络的预测功能对机动决策进行学习预测,训练出一个很好的模型。

2.1 决策方法原理

本文将态势函数作为神经网络的输入,将博弈态势值作为神经网络的输出,并将其作为机动决策的依据,利用强化麻雀搜索算法对神经网络的权值和阈值进行优化,麻雀种群数量作为参与优化神经网络权值的数量,优化维度表示参与优化的麻雀的搜索空间,其与神经网络的3 层节点相关,麻雀的适应度函数与神经网络的权值和阈值建立直接的映射关系。

用于空战机动决策的最常见的3 层网络结构如图1 所示。

图1 神经网络结构图Fig.1 Neural network structure diagram

神经网络各层的具体功能如下:输入层是影响决策的模块,输入层接收作战决策数据。训练样本数据可以表示为Xj=(x1,x2,…,xn),隐藏层对输入层传输的归一化数据信息进行组织,并按照特动规则进行学习,通过变换函数映射完成非线性问题的解。S 型函数的一般方法如下:

该模型可以对空战机动决策数据进行处理,为其提供理论依据。将神经网络应用于机动决策建模具有以下优点:1)作战系统通常是具有多个关联输入问题的动态非线性系统,不利于数学模型的建立,利用神经网络固有的强泛化能力和近似任意复杂非线性系统的能力,不再需要建立数学模型。2)将收集到的数据输入到网络中,网络通过训练建立模型,找出数据潜在的规律性;在决策过程中,采集的大量数据中往往存在较多的噪声,而神经网络算法比其他评价方法更能消除噪声干扰,获得更理想的评价结果。

强化麻雀搜索算法与神经网络的结合充分利用了两者的优点,使机动决策模型既具有神经网络的学习功能,又具有强化麻雀搜索算法的优化能力,这就是强化麻雀搜索神经网络。

2.2 麻雀搜索算法

麻雀搜索算法的基本算法如下[10],其中发现者的位置更新情况如下:其中,t 和itermax分别表示当前和最大的迭代次数。Xti,j是第i 个麻雀在第j 维中的空间位置。α 是一个[0,1]的随机数。R2表示警戒值,ST 则表示安全值,取值分别为0 到1 和0.5 到1。L 是一个元素均为1的1×d 的矩阵。当R2<ST 时,发现者可以在更大的范围内去进行搜索操作。当R2≥ST,表示此时的环境已不适合觅食,所有麻雀需要快速前往安全区。

在寻找食物的过程中,发现者的周围会有很多的跟随者,它们会时刻注视发现者的位置,如果没有抢到食物,它们会跟随其他发现者以便于搜索。加入者的位置更新情况如下:

其中,Xp是当前发现者所处的最佳位置;Xworst则表示种群中的麻雀目前所处最劣势的位置。A 是一个值为-1 或1 的1×d 的矩阵,当i>n/2 时,这表明,第i 个加入者适应度值较低并未获取食物,此时需要飞往其他区域寻找食物。

预警的麻雀是处于种群边缘的,它们占种群数量的10%~20%,预警的麻雀位置更新描述如下:

其中,Xbest是当前麻雀进行觅食的最佳解。β 是服从于标准正态分布的随机数,代表当前麻雀的行动步长。K 是范围[-1,1]的随机数,代表目前位置麻雀移动的量化步长,是第i 个麻雀的适应度值。fg是当前麻雀最好的适应度分配值,fw则是当前麻雀最差的适应度分配值,ε 是避免分母为0 的常数。当fi>fg表示此时的麻雀正在进行预警,它们会时刻提防着捕食者。当fi=fg时,此时预警的麻雀开始警报,并移动自己的位置逃离捕食者。

2.3 强化麻雀搜索算法(ISSA)

由于麻雀搜索算法初始化时存在随机性等不确定性因素会导致总麻雀数量分布不够均匀,以及各类麻雀数量的比例不均衡,进而导致种群多样性的质量偏低,严重的会影响到算法的性能,主要是收敛的速度以及早熟等现象。因此,采用反向学习和混沌初始化来进行优化麻雀搜索算法。

2.3.1 混沌初始化

混沌初始化麻雀的种群,其数学表达式为:

2.3.2 强化反向学习策略

在混沌初始化以后,开始迭代发现者的位置时,当R2<ST 时,麻雀的数量以及多样性会逐步减少,这意味着算法会随着麻雀数量的减少而陷入局部最优。因此,利用类似小孔成像的方式,将反向原理运用到学习策略中去优化麻雀搜索算法的问题。

图2 小孔成像反向学习原理图Fig.2 Schematic diagram of small hole imaging reverse learning principles

当k=1 时,小孔成像反向学习就退化为基本的反向学习策略,此时解为固定解,而小孔成像的策略可以通过比例系数k 来调整解的空间,得到更完全的解。

本文利用改进后的反向学习策略更新发现者的位置,通过式(14)映射到空间中得到最优解,将原本发现者位置的适应度与改进后的适应度值进行比较,保留最优的适应度值。将小孔成像反向学习策略可以大幅增加发现者的寻优方向,使每只麻雀可以在不固定的区域寻找最优位置,该策略大大增加了种群的多样性,并增强了麻雀搜索全局搜索的能力,减少局部收敛的概率。

2.4 强化麻雀搜索神经网络的学习过程

该算法由神经网络训练、博弈论模型和确定网络权值的强化麻雀搜索算法3 部分组成。算法如下:

1)确定神经网络的结构和参数。影响决策的因素指标有俯仰角态势、偏航角态势、高度态势和距离态势,将其作为神经网络的输入建立模型。

2)确定各个影响因素的权重。生成一组随机分布作为态势函数的权重,并确定神经网络的隐藏节点的数目。

3)强化麻雀搜索算法参数的初始化。对所有的麻雀种群进行混沌初始化的操作,生成一个混沌变量的麻雀种群序列。

4)对数据进行预处理。按照训练集、测试集和验证集的方式划分。

5)利用强化麻雀搜索算法修改模型权重。首先,根据神经网络的误差函数,为每只麻雀寻找最佳位置,进而确定最好的适应度函数。其次,确定初始种群的适应度并将其排序进而选择出当前最优值和最劣值。然后,更新发现者的位置、加入者的位置以及意识到危险的麻雀的位置,再者,利用小孔成像反向学习策略继续更新发现者的位置,比较出两者最优值并保留,并与上一次迭代的结果比较是否最优,将两者的最优值保留下来并继续进行迭代操作直到满足条件为止,然后对博弈论模型进行受约束的线性求解得到一个收益值,再加上最优值得到博弈态势值,即得到全局最优值和最佳适应度值。

6)得到一个强化麻雀搜索神经网络的模型。利用强化麻雀搜索算法计算出的优化值作为神经网络的权值,进行多次训练,不断优化权值,直到满足预定的精度。

7)模型验证。对决策模型的输入数据集进行测试,不满足预先设定的误差要求,则继续训练;否则,模型构建就完成了,流程图如下页图3 所示。

图3 ISSN 学习过程流程图Fig.3 ISSN flow chart of learning process

3 仿真分析

3.1 算法仿真分析

本文将强化麻雀搜索算法用于优化神经网络的权值和阈值,提出了强化麻雀搜索算法优化的神经网络方法,从收敛性、误差方面对方法进行分析,并与PSO、SSA 和GA 优化的神经网络算法进行对比。设置强化麻雀搜索算法和神经网络的参数,如表1、表2 所示。

表1 ISSA 参数表Table 1 ISSA parameter list

表2 神经网络参数表Table 2 Neural network parameter list

神经网络的权值优化是通过强化麻雀搜索算法完成的,麻雀的适应度函数和神经网络的权值建立了直接的映射关系,4 种算法的适应度曲线如图4 所示,当迭代次数不断的增加后,ISSA、SSA、GA、PSO 的适应度曲线呈下降趋势,由于本文算法采用了混沌初始化,所以在初始阶段ISSA 的适应度值相比SSA、GA 和PSO 有明显的优势,同时迭代开始后ISSA 的收敛速度是远大于SSA、PSO 和GA 算法的。

图4 ISSA、SSA、GA、PSO 的适应度曲线Fig.4 Fitness curve of SSA、SSA、GA、PSO

神经网络开始训练时,权值的更新是被误差迭代更新而驱动的,当误差达到初始化设置的数值或达到迭代次数时,神经网络的训练停止。ISSN 的误差曲线如图5 所示,误差曲线呈下降趋势,在经过32次迭代时,误差达到最小值,最小误差约为0.009 8。用同样的方法对SSN、GAN 和PSON 进行仿真得到的结果如表3 所示,SSN、GAN 和PSON 的误差分别为0.028、0.065 和0.042。可以验证:在相同的条件下,ISSN 的误差远小于SSN、GAN 和PSON。

图5 ISSN 的误差曲线Fig.5 Error curve of ISSN

表3 ISSN、SSN、GAN、PSON 的误差Table 3 Error of ISSN、SSN、GAN、PSON

根据以上分析,强化麻雀算法优化的神经网络应用于指挥决策是切实可行的,可以解决实际空战机动决策的一些复杂问题。

3.2 空战仿真分析

首先设置空战的参数,如下页表4 所示。将博弈论模型引入到对抗实验中,仿真实验共分为两种策略的对抗试验:第1 种策略是敌机采用GAN 策略,第2 种策略是敌机采用PSON 策略,两种条件下我机均采用本文提出的ISSN 策略来进行对抗。

表4 空战参数Table 4 Air combat parameters

3.2.1 敌机采用GAN 策略

图6 是策略1 两机的对抗轨迹图,我机采用ISSN 策略敌机采用GAN 策略,在初始化阶段,双方态势值相当,我机采用的是螺旋上升策略带动敌机追踪,通过大角度的机动变换,占据了战场态势的主动,态势值不断增加,为赢得空战奠定了优势,在20 s 的时候赢得了空战的胜利。图7、图8 分别为机动变换过程中两机的博弈态势值变化图和偏航角变化图。

图6 策略1 两机对抗运动轨迹图Fig.6 Strategy I Motion track diagram of two aircraft confrontation

图7 策略1 博弈态势值图Fig.7 Strategy I Game Situation Value Chart

图8 策略1 偏航角变化图Fig.8 Strategy I Yaw angle variation diagram

3.2.2 敌机采用PSON 策略

图9 是策略2 两机的对抗轨迹图,我机采用ISSN 策略对抗敌机的PSON 策略。在起飞后的阶段,我机采用常规战术与敌机抗衡,在相持阶段突然增大偏航角,此时占据了战场的上风,此后便牢牢占据着战场的主动,敌机始终处于不利态势,最终在17 s 我机赢得了空战。图10 和下页图11 为机动变换过程中两机的博弈态势值和偏航角变化图。

图9 策略2 两机对抗运动轨迹图Fig.9 Strategy II Motion track diagram of two aircraft confrontation

图10 策略2 博弈态势值图Fig.10 Strategy II Game situation value chart

图11 策略2 偏航角变化图Fig.11 Strategy II Yaw angle variation diagram

通过上述两种不同策略的仿真可以得出:ISSN算法的预测效果远比GAN 和PSON 要好,证明麻雀搜索神经网络用于空战机动决策是可行的。

4 结论

本文针对空战中机动决策速度慢、准确性低的问题,提出了强化麻雀搜索神经网络的机动决策方法,利用混沌初始化和小孔成像反向学习策略强化麻雀搜索算法的性能,再利用其优化神经网络,提高神经网络的速度和准确性,基于角度、高度、距离等因素构造了态势函数,并根据态势函数和态势评估函数作为神经网络的输入和输出,来进行空战机动决策。仿真表明,本文研究的模型算法简单且易于实现,加入博弈论后可以直接应用于空战机动决策,使用了该算法的战机决策速度快,准确性高,在空战中可以取得巨大的优势,从而赢得空战的胜利。

猜你喜欢

空战搜索算法态势
最强空战王
改进的和声搜索算法求解凸二次规划及线性规划
2019年12月与11月相比汽车产销延续了增长态势
汇市延续小幅震荡态势
我国天然气供需呈现紧平衡态势
空战之城
县乡一体化探索呈加速态势
“85:0”的叙以空战
基于汽车接力的潮流转移快速搜索算法
基于逐维改进的自适应步长布谷鸟搜索算法