样本级实时空中格斗决策可解释模型研究

2023-11-10胡易航裘旭益袁伟伟

小型微型计算机系统 2023年11期

胡易航,裘旭益,张彦,袁伟伟

1(南京航空航天大学计算机科学与技术学院,南京 211106)

2(中国航空无线电电子研究所航空电子系统综合技术重点实验室,上海 200233)

1 引言

在复杂空战环境下,战机空战格斗节奏不断变快,飞行员所做出的战斗决策往往跟不上空战格斗节奏的变化,因此迫切需要辅助智能决策系统辅助飞行员做出正确的空战决策.传统空战中常用的微分对策法[1,2](Differential Strategy),专家系统[3],影响图法[4,5]和矩阵博弈[6,7]算法等辅助决策手段所取得的决策精度有限,不能满足复杂空战环境中高速决策需要.随着人工智能技术的快速发展,以强化学习为代表的智能决策模型在游戏、围棋等诸多领域取得了巨大成功[8,9].这也推动了强化学习在空中格斗决策领域的应用普及并且取得了一系列有用的成果[10-13],比较有代表性的是美国国防高级研究计划局(Defense Advanced Research Projects Agency,DARPA)开展的人工智能近距空中格斗项目,该项目挑战赛的冠军队伍采用深度强化学习方法在人机大战中以大比分战胜人类飞行员[14].基于强化学习的智能决策模型与战场环境不断交互,通过决策的不断尝试、探索,并且从环境中获取及时的反馈,从而不断学习调整内部参数,最终学习到最优的决策策略.

然而,已有的基于强化学习的空中格斗决策模型存在三方面的突出问题:首先,已有空中格斗决策模型所采用的的深度强化学习方法属于黑盒模型,得到的结果不具有解释性.然而在现代近距离空战中开火决策是否具备可解释性十分重要,每一个开火决策动作发生都要满足可解释性,不具备可解释性的开火决策可能会带来不可预知的严重后果,难以被飞行员信任,因此基于深度强化学习的空战智能开火决策很难满足现代化空战的需求.其次,由于空中格斗场景下的战斗数据获取困难,通过空战收集的每一条数据都十分宝贵.基于深度强化学习模型的空战智能决策系统在对每一条数据进行决策的同时不能实时的给出决策的依据,不能满足实时的样本级可解释性.最后由于深度强化学习智能决策系统在训练过程中需要学习的参数量过于庞大,导致智能决策模型过大和决策时间的延迟,基于强化学习的智能决策系统的决策效率不能得到保证.空战场景中战场态势瞬息万变,智能决策模型的实时性直接影响空战胜利.

为了解决样本数据下的空中格斗决策可解释问题,实现模型决策高精度、高速度,且给出每次模型决策可解释依据.本文提出利用可解释决策树模型代替强化学习模型完成空战智能开火决策,同时采用一种局部代理技术解释每一次空战开火动作,实现模型在小样本下的高精度与样本级决策可解释性.

本文的主要贡献包括3个方面:

1)本文提出了一种空中格斗决策方法,其具有可解释性,可有效避免采用深度强化学习等带来的黑盒问题;

2)所提出的基于局部代理的可解释性方法对空中实时格斗决策的每一条样本进行有效的可解释分析;

3)构造并提取了空中格斗场景中对决策具有决定性作用的重要特征,不仅实现了对原始空战属性的特征加强,而且建立高效的空战决策模型,从而减少特征数量的依赖.

2 相关工作

随着智能化战争的发展,全面推动航空装备与人工智能技术的融合发展愈来愈成为世界主要航空大国和相关研究机构的着力点,其中的智能空战决策方向也涌现了一大批研究成果.陈希亮,李清伟等人[15]利用智能博弈对抗技术构建决策模型,但是并未给出决策系统真实性能.罗元强,孟光磊等人[16]利用多状态转移马尔可夫网络构建智能决策系统,满足了智能空战决策系统的实时性要求,但是提出的网络结构并未进行训练学习,无法确定智能决策系统的性能.随着人工智能的发展,越来越多的研究人员利用人工智能技术构建空战智能决策系统.由于对历史空战数据进行拟合属于决策智能中的模仿学习范式,模仿学习从人类专家提供的范例中学习,使模型生成的状态-动作轨迹分布和输入的轨迹分布相匹配.Choi U[17]等基于模仿学习对多目标无人机的规划问题.此外自从利用深度强化学习模型构建的AIphaGo[18]打败人类顶尖围棋选手,深度强化学习模型[19]在各个领域表现出令人震惊的效果,其将深度学习的感知能力和强化学习的决策能力相结合,是一种更接近人类思维方式的人工智能方法.

许多学者都基于深度强化学习的思想进行了智能空战决策的研究.J.Zuo、P.Liu等人[12,20]用深度强化学习算法构建空战机动决策模型,但速度未作为模型中的决策变量设置,双方速度设置为常量值,与空战实际情况不符.马文等人[10]将博弈论与深度强化学习相结合,先构建多状态博弈模型,使用深度强化学习算法构建线性规划来求解每个特定状态下阶段博弈的最优值函数,取得了一定的决策效果.由上述文献可知,深度强化学习模型在空战智能决策领域取得了巨大的成果,越来越多的决策系统完全基于深度强化模型构建,但是这也带来了一些问题.深度模型的黑盒特性使得系统在做出决策过程的同时无法拿出决策的依据,在极其复杂的空战环境中,这必然会带来未知的后果.同时强化学习模型需要学习大量参数,这导致智能决策模型参数量变大与决策时间的延迟,对于时效性强的空战场景有很大的局限性.

3 空中格斗模型建模

在本节中,主要对空中格斗模型的相关建模情况进行阐述.

3.1 问题描述

本文中的问题背景假定为如图1所示,在笛卡尔三维坐标系中进行作战演习,敌我双方各有一架战机在战场边缘相遇,战斗期间双方无其他战机支援,仅有预警机提供敌机大致位置信息.围绕敌方目标凌空区域,敌我双方进行1V1空战.双方战机平台、武器装备能力水平一致,其中武器仅装备有机炮数百发.

图1 空战场景示意图Fig.1 Schematic diagram of air combat scene

在空战中所能获取的信息包括我机传感器数据与在统一坐标系下预警机所获得的敌机位置信息.给定敌我状态数据集{xi,yi}n为不超过50场对战数据,其中xi为敌我状态数据,具体为双方战机位置矢量(my_x,my_y,my_z),(enemy_x,enemy_y,enemy_z),双方发动机转轴角速度矢量(my_rot_x,my_rot_y,my_rot_z)(enemy_rot_x,enemy_rot_y,enemy_rot_z),共计12维,yi为是否开火标签.通过上述数据集构建分类模型,预测开火标签,保证我机能够及时作出开火决策击落敌机赢得胜利.

3.2 空战可解释智能决策模型AirIDecsionModel构建

空战可解释智能决策模型建模训练图如图2所示,首先对离线数据进行格式化预处理,将提供的原始流水线数据转换成模型可以识别的DataFrame格式,并且实现了数据预处理,包括去除噪声值,填充缺失值等;然后由于原始数据蕴含有效特征较少,需要进行新特征生成,用于提升可解释模型的决策能力.首先本文根据领域知识从3个方面构建新特征,即我机数据特征构造、敌机数据特征构造、敌我两个数据交互特征构造;最后通过多模型训练,对比不同模型性能,根据回归问题评价指标对算法进行评估,并对模型决策作出局部解释分析.

3.2.1 空对空特征构造

本文将敌机与我机空战场相应决策,整场空战中决策集合{st,st+1,…,st+n-2,st+n-1},且s∈{A,C}.其中A表示开火决策,C表示景进行建模,特征构造示意图如图3所示.在空战时间t时刻我方飞机进行机动,并获得一个数据实例{xt,xt+1,…,xt+n-2,xt+n-1},特征维度为m.在空战开始至结束的n个时刻内产生n个数据实例.在空战的n个时刻中每个时刻q我机根据数据实例做出不开火决策.

图3 特征构造示意图Fig.3 Feature structure diagram

对于输入实例数据xt= {my_x,my_y,my_z,my_rot_x,my_rot_y,my_rot_z,enemy_x,enemy_y,enemy_z,enemy_rot_x,enemy_rot_y,enemy_rot_z}而言,其大多属于低阶特征,难以很好的表示属于高阶特征的空战态势,为了获得能够好表征任务的高阶特征,直观的表示空战态势,本文对原始数据属性根据专业领域知识进行特征增强,之后进行交互式特征重构,重构过程可以被定义为:

Xenemy_interaction=f(Xme_expand,Xenemy_expand)

(1)

其中我机某一时刻的特征增强Xme_expand,敌方战机对应该时刻特征增强Xenemy_expand,f为特征工程函数,描述敌我之间某种关系的特征.

在空战情境中,我机若要获得较好的开火角度,偏离角(我机的速度方向需与敌我连线夹角,如图3所示)要取得很小,其中夹角值可以通过我机的位置矢量和敌机的位置矢量以及我方的飞机速度矢量获取,计算公式为:

(2)

由于机载武器为机炮,该类武器有射程限制,因此空中格斗的结果与敌我双方战机之间的距离和速度有关,两架飞机之间的距离使用欧氏距离表示,定义为:

(3)

其中,我方飞机某一时刻坐标位置为(x,y,z),敌方飞机某一时刻坐标位置为(x1,y1,z1).

双方飞机某一时刻的合速度可以定义为:

(4)

其中,vx、vy、vz分别为某一时刻该飞机在x轴、y轴、z轴方向的空速.

3.2.2 空中格斗分类模型

根据空战任务场景与建模可知,空战中决策状态的判断属于二分类问题.为了实现高精度的快速决策,本文采用高效决策树模型进行分类.LightGBM(Light Gradient Boosting Machine)[22]是GBDT模型(Gradient Boosting Decision Tree)的一个进化版本,原理上它和GDBT类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树.但是LightGBM相比GDBT在很多方面更为优秀,例如:支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、分布式支持等,这样使得LightGBM可快速处理海量数据.因此本文采用基于GBDT的lightGBM进行二分类决策判断,此外由于模型轻量化和模型可解释性的需求,本文还需要对模型使用的特征规模进行限制.

(5)

根据(xi,rti)可以拟合一棵CART回归树(Classification And Regression Tree),得到了第t颗回归树,其对应的叶节点区域Rtj,j=1,2,…,J.其中J为叶子节点的个数.针对每一个叶子节点里的样本,求出使损失函数最小,也就是拟合叶子节点最好的的输出值ctj如公式(6)所示:

(6)

这样就得到了本轮的决策树拟合函数如公式(7)所示:

(7)

从而本轮最终得到的强学习器的表达式如公式(8)所示:

(8)

迭代t次后得到最终输出模型如公式(9)所示:

(9)

3.2.3 样本级可解释模型

基于强化学习的空中格斗智能决策系统尽管在模拟空战中取得了很好地实战效果,但是由于强化学习的黑盒特性,使得智能决策模型所做出的一系列决策都无法解释.实际空战场景中未知的动作决策可能带来不可预计的后果,因此一个可解释的智能决策系统在空战中十分重要.为了实现空中格斗决策的可解释性,本文采用局部动态代理技术实现空中格斗的样本级可解释.

一种局部代理的具体实现是LIME[23](Local Interpretable Model-Agnostic Explanations),其可以真实的反应分类器在被预测样本上的行为.LIME的实现步骤如下:

如图4可以类比为一个非线性的空战决策模型,灰色与白色背景的交界为决策函数,选取关注的样本点,如图粗线的十字叉为关注的样本点X,定义一个相似度计算方式,以及要选取的K个特征来解释.在该样本点周围进行扰动采样(细线的十字叉),按照它们到X的距离赋予样本权重.

图4 LIME复杂模型(图源于Ribeiro M T等人的工作[22])Fig.4 LIME complex model(the diagram is derived from the work of Ribeiro M T et al[22])

用原模型对这些样本进行预测,并训练一个线性模型(虚线)在X的附近对原模型近似.这样就可以使用自身具有可解释性的模型对复杂模型进行局部解释.图5为LIME构建流程图.LIME目标函数为:

图5 LIME 构建流程示意图Fig.5 Schematic diagram of LIME construction process

(10)

其中f表示原始的模型,即需要解释的模型,g表示简单模型,G是简单模型的一个集合,如所有可能的线性模型,πx表示新数据集中的数据x′与原始数据x的距离,Ω(g)表示模型g的复杂程度.在样本X附近进行扰动,对扰动前后的样本相似度进行定义,样本类型不同会有不同的定义.相似度计算公式为:

(11)

其中z为扰动样本,x为原样本,D(x,z)为样本距离,在D上定义宽度为σ的指数核函数作为样本相似度.

有了相似度的定义,便可以将原先的目标函数改写成如下的形式.其中f(z)就是扰动样本,在d维空间(原始特征)上的预测值,并把该预测值作为目标,g(z′)则是在d′维空间(可解释特征)上的预测值,然后以相似度作为权重,因此上述的目标函数便可以通过线性回归的方式进行优化:

ξ(x)=∑z′,z∈Zπx(z)(f(z)-g(z′))2

(12)

训练出的线性模型可以作为黑箱模型在样本点局部决策规则的近似,线性模型各项的系数反映了该项对应特征的重要性.

4 实验

4.1 数据集与实验设置

为了尽量减少原始数据对于模型训练测试的影响,本文在空战中收集了50场全胜空战数据作为数据集,每一场空战数据都包含12维的敌我状态数据,具体为双方战机位置矢量和双方发动机转轴角速度矢量,所有矢量均为三维,所以合计为12维,所有数据类型均为float类型,存储文件类型为csv文件.为了能够得到可靠的可解释性模型,空对空二分类研究采用树模型LightGBM,LightGBM 的优点体现在它的轻量级可解释的,因此采用它进行决策拟合训练,并且采用局部代理技术进行样本级的可解释性.为了公平的展示基于lightgbm模型的空中格斗智能决策系统的优势,该系统会将其与多个机器学习模型进行多模型对比,这些机器模型包括svm、朴素贝叶斯、线性模型、逻辑回归、集成模型.由于本实验为分类任务,而强化学习难以进行分类,属于不同的学习范式,因此在本次实验中并未使用强化学习对比实验.

在本次实验中给定敌我状态数据集{xi,yi}n,共计50场空战数据,其中xi为敌我状态数据,具体为双方战机位置矢量,双方发动机转轴角速度矢量,共计12维,yi为是否开火标签.

为了能取得较好的开火效果,本文对敌我双方的特征进行了特征增强,此后又基于特征增强后的特征进行了交互式特征增强.其中我机的位置矢量与敌机的位置矢量分别定义为:

(13)

(14)

我方飞机速度矢量定义为:

(15)

此外,由公式(2)可得交互特征偏离角的cos值cosValue,由公式(3)和公式(4)可以获得我机和敌方飞机的空战速度,以及交互特征两机距离.

最终空战特征构造如表1所示.

表1 空战特征构造表Table 1 Air combat feature structure table

之后将50场空战数据集按照8∶2比例随机划分训练集、测试集.训练过程中将测试集按照8∶2划分训练集、验证集.

4.2 模拟仿真平台-DCS World

数字战斗模拟世界(DCS World)是一款免费的数字战场游戏和模拟环境平台,其为玩家提供最为最真实的军用航空器、坦克、地面载具以及舰船的模拟作战环境,任务场景覆盖格鲁吉亚绝大部分地区的高加索以及黑海的广阔区域,其具备航空器专业的飞行力学模型和真实飞控系统,可以有效模拟专业的空战场景.本实验中采用的模拟机型为F/A-18 Lot20.

论文中训练测试模型采用从DCS World模拟空战产生的数据,在模拟仿真环节,通过具体的API接口实时读取DCS world敌我双方手动控制飞机作战产生的空战态势数据,然后空中格斗决策模型输出开火决策结果对DCS world中我机的开火进行实时控制.

4.3 对比模型

SVM:支持向量机(Support Vector Machines,SVM)是一种快速可靠的线性分类器.给定训练数据(监督学习),SVM算法得到一个最优超平面,从而对训练数据进行分类.其擅长处理高维尤其是小样本问题.

朴素贝叶斯:naive Bayesian,一种基于概率理论的分类方法,基于贝叶斯定理与特征条件独立假设,通过计算样本归属于不同类别的概率进行分类.

线性模型:linear,通过特征的线性组合进行预测,形式较为简单.

逻辑回归:logistic,一种广义的线性回归分析模型,用于处理因变量是分类变量的回归问题,常见的是二分类或二项分布问题.

集成模型:ensemble,通过组合多个学习器来完成学习任务,通过集成方法,可以将多个弱学习器组合成一个强分类器,因此集成学习的泛化能力一般比单一分类器要好.集成方法主要包括Bagging和Boosting.

4.4 实验结果

表2为特征加强后实验结果.经过特征加强后LightGBM取得很好地分类效果,在Precision、recall、F1、auc、acc较原始数据模型lightGBM(-)分别有0.098、0.33、0.1226、0.1239、0.0338提升,这表明特征加强后的数据能够帮助模型精确的分类.与其他机器学习模型相比lightGBM在加强数据下Precision、F1、auction、acc、auc均取得最佳的结果,集成学习模型在recall上取得最好的结果,综合F1来看lightGBM依旧有较大的领先.

表2 新构造特征下的实验结果表Table 2 Table of experimental results under neotectonic features

完成机器学习模型训练后,本文将训练好的火控模型装载到模拟仿真平台进行实战测试,测试结果如表3所示.在真实的100次模拟测试中本文的机器学习模型取得了90%的胜率,强化学习取得了99%的胜率,对比与原始数据下模型仅仅取得了10%的准确率,特征加强后的模型取得了90%准确率,虽然距离强化学习99%的胜率还有一定差距,但是模型的可解释性与快速决策的性质能够弥补精度上稍微的下降.从决策时间上看基于深度强化学习的决策模型决策时间为0.002s,基于树模型的决策模型决策时间为0.00092s比强化学习模型的决策时间快2倍,时间消耗更少,便于我方战机更快作出攻击.

表3 新特征下实战性能表Table 3 Actual combat performance table under new features

4.5 可解释分析

在复杂空战场景中,空战智能决策系统的每一次开火决策都会带来不可预知的后果,因此系统的每一次决策都需要有现实的依据进行支撑,保持系统决策透明性.所以本文使用局部代理模型对每一次决策背后原因进行一定的解释.

图6为使用局部代理模型对一次决策结果为开火的样本做出的解释,图中从下至上每一行的特征中的表示对开火预测作正向贡献,深色的两个特征表示对开火预测作负向贡献(降低了开火的概率),相对较浅的剩余特征对预测为开火作出了正向贡献(增加了开火的概率),最终综合构成了模型的预测输出结果.可以看出对于此次开火决策影响最大的是敌我两机速度矢量之间的夹角cosValue值,这也与专家在此任务条件下的领域知识相符合,即当我机的速度矢量方向指向敌机时,此时应当开火.对于此次开火预测负向影响最大的特征为敌我两机高度差z_me_minus,对此条样本进行研读后可知此时敌我两机高度相差太大,不利于开火.