APP下载

融合多尺度特征与软注意力的态势认知方法

2022-09-16周佳炜孙宇祥于佳慧周献中

火力与指挥控制 2022年8期
关键词:卷积态势尺度

项 祺,周佳炜,孙宇祥,于佳慧,张 韬,周献中,2

(1.南京大学工程管理学院,南京 210093;2.南京大学智能装备新技术研究中心,南京 210093)

0 引言

战场态势是指作战双方各要素(包括兵力部署情况、装备情况、地理环境、天气条件等)的状态、变化与发展趋势。现代战争条件下的联合作战使战场观察和探测的范围急剧扩展,反映战场状态的信息呈爆发性增长,高速度、大机动、远射程的新武器将使未来战场进入“秒杀”时代。在此背景下,多源、异构的海量战场信息如:战场情报、侦察、监视数据呈爆炸式增长趋势。同时,信息化技术的支持加速了战场信息共享能力、战场信息处理能力,进而极大地加快了作战节奏。但是对于指挥员来说,在一定时间内关注、处理、共享的信息量是有限的,这将极大地限制指挥员的态势认知与指挥控制能力。

目前,以人工智能技术为基础的态势认知技术是辅助指挥员进行战场态势认知的重要手段之一。人工智能的研究水平,特别是能够适用于大数据复杂系统、辅助指挥员进行态势认知决策的人工智能技术,成为了制约战场态势认知技术发展的瓶颈问题。随着人工智能技术的发展,深度学习的出现开辟了机器学习研究领域的一个新的分支,它起源于人工神经网络,其本质是模拟人脑中的神经元进行分析学习的过程,具备深层感知的多层网络模型。总体来讲,深度学习具有强大的非线性处理能力,可以提取更深度的特征,目前被誉为最接近人脑的智能学习方法。

深度学习技术不仅在图像处理领域、自然语言处理领域取得了极大的进展,在战场态势认知与态势评估方面也展现出了实际应用价值。沈先耿提出了一种基于稀疏自编码神经网络的军事目标图像分类方法,通过对目标图像进行主成分分析白化处理,降低图像间的相关性,通过对样本数据训练提取图像特征,输入到softmax 分类器进行识别,具有较高的识别精度。朱丰等提出了一种基于深度学习的指挥员战场态势高级理解思维过程,利用卷积神经网络实现数据非线性拟合,以判断敌方对我方主攻方向为例验证了方法的有效性。郝岩针对雷达目标识别问题,结合深度学习方法中的深度信念网络DBN 与栈式降噪自编码网络SDAE,提出了一种双通道单隐含层模型,采用加权融合方法对两通道特征进行融合,在一定程度上解决特征利用不充分问题,并在识别准确率上超过原网络。刘海洋针对联合作战中战役方案级指标评估问题,通过建立基于复杂网络的体系特征项的评估特征空间,并借助数据拟合获取与评估特征空间数据对应的标签,对评估模型进行训练。

然而,以上研究内容仅针对态势图像中的目标进行识别分类,缺少对于整体作战态势认知的语义化描述,难以捕获全方位与多维度的态势信息,进而难以快速和精准地实现对整体形势的理解与研判。为了解决上述提到的问题,本文采用一种融合多尺度特征与注意力机制的战场态势认知方法,基于兵棋推演场景下的态势图像,通过对卷积神经网络中不同卷积层输出的特征进行多尺度融合,并结合软注意力机制对融合特征进行权重分配,输入到循环神经网络LSTM 中进行时序解析,得到对应于态势图像的态势认知描述结果。本文在兵棋推演系统的推演过程中进行实际仿真,通过兵棋态势图像对本文所提态势认知方法进行验证。在获得的数据集上的实验结果表明,该方法可以明确输出作战态势场景下的语义理解信息,对于作战态势认知这一领域的工作来说,本文具有较好的实际应用价值。

1 相关工作

卷积神经网络(convolutional neural network,CNN)是一种常见的深度学习网络模型,在图像识别、图像分割、自然语言处理等方面有着卓越的表现。该模型一般包括输入层、输出层以及若干隐藏层,其中,隐藏层又包括卷积层及池化层。卷积层的作用是对输入层输入的数据进行特征提取,通过多个卷积核在输入数据上滑动进行卷积运算,形成深层特征,并引入非线性激活函数,增加模型学习非线性特征的能力;池化层对卷积层输出的特征进行下采样,缩小特征维度,降低模型计算量,提高模型训练速度。Lecun 与1989 年提出的LeNet-5模型是最早的卷积神经网络之一,成功地应用于美国邮政服务中手写邮政编码数字识别,极大地推动了深度学习领域的发展。此后,随着AlexNet、VGG、GoogLeNet、ResNet的相继出现,使得卷积神经网络的研究不断跨上新的台阶。

图像描述(image caption)是融合计算机视觉与自然语言处理的一个重要研究领域,图像描述模型以图像为输入,通过模型计算输出对应于图像的自然语言描述。为了产生定性的描述,模型不仅要理解所呈现的对象,还要理解它们之间的关系,更重要的是,模型必须根据这些信息生成符合人类直觉的句子。由于这一特点,图像描述可以应用于广泛的实际任务,如图像检索、人机交互及帮助视障人士等。目前较先进的模型大多采用编码器-解码器结构,通过编码器提取图像特征并转化为表示图像各部分的特征向量,随后将特征向量输入到解码器中,利用特征生成描述图像的单词序列。

基于编码器- 解码器结构的图像描述模型广受欢迎,Kelvin 首次将注意力机制(attention mechanism)融入到编码器-解码器模型中,其基本思想是让模型能够忽略无关信息而只关注重点信息。将注意力机制引入深度神经网络,一方面能够使得神经网络自主学习如何确定注意力,另一方面能够反过来帮助人类理解神经网络看到的世界。此外,为了在描述生成过程中进行交互以获取更多信息,Mao 提出多模态循环神经网络模型(m-RNN),具体为深度循环与深度卷积两个子网络在多模态层相互作用,构成完整的m-RNN 模型。Anderson 提出基于ResNet 的自上而下和自下而上注意力,来对区域特定的特征进行提取。在图像语义分割任务中,Chen 通过构造注意力机制模型,对不同尺度的物体赋予不同权重,并进行多尺度图像融合。在自然语言处理领域,Bahdanau 在机器翻译中使用注意力机制,采用双向循环神经网络对原始语言编码,并在解码过程中利用注意力机制,对隐藏状态分配不同的权重,对输入的句子不同部分进行选择翻译。

对于注意力机制可以这样理解:当人在看一样东西的时候,他当前时刻关注的一定是所看的这样东西的某一个地方,随着目光的转移,注意力也会跟着转移,也就是说,当人们注意到某个目标或者某个场景时,对目标内部以及该场景内每一处空间位置上的注意力分布是不一样的。在图像处理领域,注意力机制可以提示网络下一时间“看”图像的哪个位置,其优势体现在:1)减少处理高维输入数据的计算负担,通过结构化选取输入的子集,降低数据维度;2)让模型更专注于找到输入数据中显著的与当前输出相关的有用信息,提高输出质量。软注意力机制是指在选择信息时,先计算输入信息的加权平均,再输入到网络中进行计算,是一种确定性的注意力,可以进行反向传播。区别于硬注意力机制,后者选择输入序列上某一位置的信息,比如随机选择或根据概率最高选择,但由于选择过程的不确定性,不能进行反向传播,只能通过强化学习的方式训练,故在多数图像描述任务中,都采用软注意力机制与神经网络结合来处理问题。

2 融合多尺度特征与软注意力机制的态势认知方法

2.1 模型整体结构

2.2 多尺度特征MSF

图像视觉特征的提取与表示,是将图像的视觉信息转化为计算机能够识别和处理的定量形式的过程,是基于视觉内容的图像分类、识别与检索的关键技术。经过特征提取网络输出的图像底层视觉特征,在一定程度上能够反映图像的内容,可以用来描述图像表达的意义。本文采用兵棋推演平台的战场态势图像作为训练数据,但由于此类图像背景单一,且具有丰富的细节特征信息,传统的卷积神经网络由于多个池化层的存在,会导致边缘信息、细节特征丢失,不利于解码器准确解析语义。因此,本文考虑将编码器中卷积神经网络的各层级卷积通道的输出特征利用起来,设计一种多尺度软注意力模块,在充分获取图像的上下文信息的同时,通过软注意力机制分配不同尺度特征的权重,只关注重点细节而忽略无关信息。多尺度软注意力模块如下页图2 所示。

图1 融合多尺度特征与软注意力机制的战场态势认知模型结构

图2 多尺度软注意力模块示意图

模块以VGG19网络为骨架,该网络与Alex Net 相比,采用连续的3 个3×3 卷积核代替7×7卷积核、2 个3×3 卷积核代替5×5 卷积核,这样做加深了网络深度,使用多次非线性函数,增加函数的判别能力;同时减少了参数的数量,在一定程度上可以提升神经网络的效果。VGG19 网络包含19个隐藏层(16 个卷积层、3 个全连接层)、5 个池化层以及1 个softmax 层。

多尺度软注意力模块引入VGG19 网络的最后3 层池化层的前一个卷积层的输出特征,从而形成多尺度卷积层特征融合。在输入图像上进行不同尺度和不同区域间特征提取,充分获取目标的上下文信息,随后通过软注意力模块学习各个尺度特征的重要程度并赋予不同的权重,使网络聚焦于目标的关键特征,最后进行不同分支的特征融合,进而得到多尺度融合特征。

2.3 软注意力机制SAM

定义第k 个单词的归一化加权几何均值NWGM(normalized weighted geometric mean):

图3 特征向量ai 的权重αti 计算示意图

权重α的计算过程为:

其中,a为特征向量,h为前一时刻LSTM 网络隐藏层的状态,权重是通过softmax 函数归一化得出,最后所有向量a的权重之和为1。隐藏状态随着LSTM 网络的输出顺序的变化而变化,而网络接下来要“看”的位置取决于已生成的单词的序列。完成权重计算后,根据公式:

2.4 长短期记忆网络

长短期记忆网络由Hochreiter 在1997 年提出,在解决长序列训练过程中的梯度消失与梯度爆炸问题有很大的优势。一个典型的LSTM 细胞结构如图4 所示。

图4 一个LSTM 细胞结构

LSTM 网络的核心在于每个LSTM 细胞的内部状态,采用门结构实现选择性通过某些信息,包括输入门(input gate)、遗忘门(forget gate)和输出门(output gate)。采用LSTM 网络基于上下文向量、前一时刻LSTM 的隐层状态,以及之前生成的单词通过在每个时间步下生成一个单词从而输出描述结果。整个模型的计算过程如下:

LSTM 的初始记忆状态与隐藏状态的初始状态,分别通过两个多层感知网络馈送的特征向量的平均值预测得出:

最后采用深度输出层并基于LSTM 状态、上下文向量以及前一个生成的单词计算输出单词的概率:

3 实验分析

3.1 数据集与实验环境

本文采用兵棋推演平台的态势图像作为训练图像数据如图5 所示,经过人工标注生成完备的数据集。关于兵棋推演平台的具体解释如下:战斗双方为红方与蓝方,初始红方在左,蓝方在右,战斗想定为城镇攻防战,设定地图上一点为重要夺控点(如图中带有红旗的六角格)。初始兵力部署时,红蓝双方均设置一个坦克算子和一个战车算子,约定推演开始后一方算子全歼另一方或一方率先抢占夺控点为获胜方。每个算子每回合可以选择向6 个方向中的一个进行机动,或对可射击对象进行射击或在城镇居民地隐蔽。六角格有编号和高程信息,高程越高,六角格颜色越深。兵棋态势数据集中共有14 193 个样本,其中,训练集中有8 515 个样本,验证集中有4 259 个样本,测试集中有1 419 个样本。

图5 兵棋推演平台训练数据集示例

本实验采用深度学习Pytorch 框架搭建运行环境,编程语言为Python,使用的显卡为NVIDIA GeForce RTX 2070 SUPER,显存16 GB,通过GPU加速运算。实验中设置迭代次数为100,初始学习率为2e-5,批量大小设置为150。

3.2 评价指标

在本实验中采用机器翻译评价指标BLEU分数、METEOR分数对模型效果进行评价。BLEU是自然语言处理中机器翻译的常用评价指标,评估内容是模型生成的句子(candidate)与实际句子(reference)之间的相似程度,取值范围在0.0 到1.0 之间。如果两个句子完美匹配,则BLEU 分数为1.0,反之,如果两个句子完美不匹配,则BLEU 分数为0.0。该指标具有计算代价小、易理解、与语言无关、与人类评价结果高度相关和应用广泛等特点。本文采用累积N-grams 得分对模型效果进行评价,计算BLEU时,允许用户指定不同的N-grams 权重以便计算不同类型的BLEU 的值。N-grams 是指N 个单词的不同组合,累积N-grams 得分是为各个gram 对应的权重加权,从而得到加权几何平均分数。本文取N 为1~4,分 别 对 应 于BLEU-1、BLEU-2、BLEU-3 和BLEU-4 这4 个评价指标。BLEU 的计算公式为:

其中,c 表示生成句子的长度,r 表示参考句子的长度,p表示不同的N-grams 精度,ω为n 的倒数。

METEOR 是在BLEU 的基础上得出的一种评价指标,该指标使用Wordnet 词库扩充同义词集,并同时考虑单词词形,通过计算同义词、词根、词缀及释义之间的匹配关系,并计算基于单精度的加权调和平均数和单字召回率。与BLEU 指标相比,该指标同时考虑了整个语料库上的准确率与召回率,可以很好地改善BLEU 的评价效果。METEOR 的计算公式为:

3.3 实验分析

3.3.1 对比实验

为验证本文提出的特征提取网络MSF 在兵棋态势图像描述生成任务中的优越性,与文献[19]提出的VGG-LSTM 网络上的图像描述评价指标进行了对比,对比实验结果如表1 所示。实验结果表明,使用MSF 作为图像描述生成的特征提取网络,在数据集上的评价指标BLEU-1、BLEU-2、BLEU-3、BLEU-4、BLEU 及METEOR 上分别提升了0.032 6、0.030 4、0.014 6、0.014 3、0.029 9 以及0.030 5,这证明了本文所提出的融合多尺度特征与软注意力机制的方法,在态势认知任务中具有一定的优越性。

表1 兵棋数据集上算法性能评价指标对比

3.3.2 消融实验

为体现本文图像描述生成阶段软注意力机制的作用,采用MSF 作为特征提取网络,与不使用软注意力机制的算法进行比较,实验结果如表2 所示。由表2 可知,在加入软注意力机制后,在兵棋态势图像数据集上,评价指标BLEU-1、BLEU-2、BLEU-3、BLEU-4、BLEU 及METEOR 上分别提升了0.058 8、0.066 1、0.059、0.059 5、0.084 5 以及0.073 2,这证明了本文所采用软注意力方法的有效性。

表2 消融实验评价指标对比

3.3.3 实验分析

本文方法与原始方法在部分图像上的描述结果如下页表3 所示。最后一列为人工标注的参考描述,通过比较可见本文方法在语义描述的充分性、通顺性与精确性方面,与原始方法相比均有较大的提升。

表3 语义描述结果比较

3.4 结果可视化与分析

可视软化注意力权重的图像描述结果如图6所示,通过该图可以理解算法输出描述的过程与依据。图中亮色部分表示算法对该部分具有更高的关注度。图7 所示为将输出描述打印在原始图像后的可视化方式,通过该方式可以在兵棋推演过程中为指挥员实时输出态势认知结果,使指挥员更快速地作出决策方案,具有较大的应用价值。

图6 软注意力权重在图像上的分布

图7 兵棋推演态势认知结果

4 结论

图像描述任务是一种涉及计算机视觉与自然语言处理两个领域的研究工作,具有较大的挑战性。本文提出了一种融合多尺度特征与软注意力机制的战场态势认知方法,该方法通过对不同卷积层的输出特征进行注意力权重分配,随后通过长短期记忆网络输出态势认知结果。在自建的兵棋态势图像数据集上取得了较好的验证效果,证明本文所提方法能够提升描述语句的质量,此外通过消融实验验证了软注意力机制的作用。最后将注意力权重分配与某个态势图像的认知样例进行可视化展示,验证了所提方法的可应用性。本文方法可以实现对战场态势的智能认知,从而辅助指挥员进行决策。但由于自建数据集在标注语句时存在局限性,故下一步尝试扩大描述范围与数量,如采用生成对抗网络对样本进行扩充,以达到更好的效果。进一步,本文所提方法可以与兵棋智能博弈平台相结合,在智能博弈过程中实时输出态势认知结果,并将结果与兵棋推演自我博弈相结合,对博弈对抗过程进行干预,使博弈过程融入人的思维方式,使决策更符合人的认知。

猜你喜欢

卷积态势尺度
基于全卷积神经网络的猪背膘厚快速准确测定
江苏巩固拓展高质量发展开放型经济的新态势
网络安全态势感知关键技术研究
基于图像处理与卷积神经网络的零件识别
2019年12月与11月相比汽车产销延续了增长态势
基于深度卷积网络与空洞卷积融合的人群计数
尺度
卷积神经网络概述
以长时间尺度看世界
9