基于注意力机制的堆叠LSTM网络雷达HRRP序列目标识别方法

2021-11-11张一凡张双辉刘永祥

系统工程与电子技术 2021年10期

张一凡, 张双辉, 刘永祥, 荆锋

(1. 国防科技大学信息通信学院, 陕西西安 710106;2. 国防科技大学电子科学学院, 湖南长沙 410073)

0 引言

雷达具有全天时、全天候工作和远距离探测的能力,在导弹防御、空间目标监视中发挥着至关重要的作用[1],因此雷达自动目标识别(radar automatic target recognition, RATR)技术一直是国内外相关领域的研究热点。用于目标识别的雷达数据有3种,即合成孔径雷达(synthetic aperture radar,SAR)图像、逆SAR(inverse SAR,ISAR)图像和高分辨距离像[2](high resolution range profile, HRRP)。由于SAR/ISAR图像的获取难度较大,实际中难以获取质量较高的二维图像,同时具有数据量大、运算量大等缺点,而HRRP具有成像简单、易于获取、数据量小、运算复杂度低等优势[3],因此HRRP自动目标识别技术成为了一种很有应用前景的识别方法。在目标识别场景中,目标的运动轨迹和状态具有连续性,接收机所接收到的HRRP序列相邻回波之间存在空间和时间上较强的相关性[4-5],然而传统的HRRP识别方法只用到了单个HRRP样本,忽略了相邻样本之间的时空相关性,造成信息损失,因此本文将主要研究基于HRRP序列的雷达目标识别方法。

根据分类器原理的不同,HRRP序列识别方法可以大致分为3类。第1类是基于统计学习算法的识别方法,Du等人[6]利用基于统计特征的识别方法提出了新的目标HRRP的特征提取方法;文献[7]提出将支撑矢量机(support vector machine, SVM)作为HRRP序列识别模型,提高了识别性能,但是此类算法存在识别精度低、收敛速度慢等不足。第2类是隐马尔可夫模型(hidden Markov model, HMM),文献[8]利用长宽相关HRRP序列进行建模,其中跨距离单元的空间结构用HMM结构描述,HRRP样本之间的时间相关性用转移的时间演化描述概率,在一定程度上提高了识别精度。第3类方法是基于神经网络算法的识别方法,反向传播(back propagation,BP)网络[9]、受限玻尔兹曼机网络[10]、自组织神经网络[11]等浅层神经网络在HRRP识别任务中主要被当作分类器使用;包含多个隐藏层的深层神经网络能够完成特征提取和分类任务,包括深度置信网络[12](deep belief network,DBN)、卷积神经网络[13-14](convolutional neural networks, CNN)和循环神经网络[15-16](recurrent neural networks, RNN),相比于人工特征提取方式,深层网络可以提取到样本中更多深层且可分性强的特征,从而获得更优的识别性能,文献[16]使用RNN完成了对3类目标的HRRP样本识别,在100个样本的测试集上识别性能良好。然而,经典的RNN在训练过程中容易出现梯度消失和梯度爆炸问题,进而影响模型的训练和识别效果。文献[17]使用长短时记忆(long short-term mememory, LSTM)网络处理时序数据,LSTM网络能够有效利用序列数据中的长距离依赖信息,模型解决了梯度消失和梯度爆炸问题,该方法在HRRP识别任务上取得了较为理想的识别效果。

为进一步降低模型运算复杂度,将分类模型关注的重点集中在对识别影响较大的特征信息上,文献[18]将注意力机制与RNN模型相结合,在雷达信号干扰抑制领域进行了探索,该方法有效提升了RNN的模型性能,但是模型在针对序列角误差鲁棒性方面还有待提高。文献[19]在LSTM模型中引入了注意力机制,并用于飞机目标的HRRP识别,取得较为理想的识别效果。然而,随着HRRP序列长度以及样本容量的增加,传统的单层LSTM网络已经无法满足现实任务需求。文献[20]使用3层堆叠LSTM(stacked LSTM, SLSTM)达到了更好的识别性能,然而该方法在LSTM层数超过3层时,会再次出现梯度消失现象,从而导致浅层LSTM的权重无法在参数迭代中得到更新,因此本文拟将LSTM中传统的激活函数替换为导数性能更优的Elu函数,以期缓解SLSTM网络中出现的梯度消失问题。

针对目前上述HRRP序列目标识别所面临的困难,本文提出一种基于注意力机制的SLSTM(attention-based SLSTM, Attention-SLSTM)网络模型,模型的创新点主要包括以下几点:

(1) 为了能提升单层LSTM模型的特征提取能力,将SLSTM模型引入到HRRP序列识别任务;

(2) 为区别关注多维特征点的HRRP序列数据中的重要信息,将注意力机制与SLSTM模型相结合,提出Attention-SLSTM模型;

(3) 为缓解Attention-SLSTM模型存在的梯度消失问题,采用求导性能更好的Elu函数替代Attention-SLSTM模型中原始的激活函数。

1 Attention-SLSTM模型

1.1 Attention-SLSTM模型结构

本文提出的基于LSTM的雷达HRRP序列目标识别方法Attention-SLSTM模型结构，其框架如图1所示,模型分为输入层、特征提取层、注意力层和输出层。

图1 Attention-SLSTM模型结构示意图Fig.1 Structure diagram of Attention-SLSTM model

(1) 输入层

采用公开的MSTAR(moving and stationary target acquisition and recognition)数据集作为试验数据进行相关验证实验,该数据集由10种不同类型的SAR图像样本构成,本文数据预处理阶段根据文献[21]的方式将二维SAR图像转换为不同长度的HRRP序列。

(2) 特征提取层

模型采用SLSTM作为特征提取器,通过多层LSTM结构逐层提取HRRP序列的深层可分性特征,较低层提取到基本概念特征,而较高层则关注更加抽象的深层特征。每层输出一个特征向量序列作为后续层的输入,实现HRRP序列更有效的特征表示,增强模型的表达能力。在此过程中,为了缓解文献[20]中出现的梯度消失问题,采用求导性能更优的Elu函数代替LSTM中的原始激活函数,进而促进模型更新迭代,提取更有效的深层抽象特征。

(3) 注意力机制层

模型在SLSTM的每一层输出特征向量后添加注意力机制层[22-24],以前一层LSTM的隐藏状态和单元状态作为输入,为隐藏层特征向量的各个区域计算权重,得到的加权LSTM隐藏状态能够学习更复杂的抽象特征层级的条件分布,更好地表示不同特征层级间的结构关系,进而增强特征的非线性表达能力。

(4) 输出层

模型利用Softmax分类器[25]计算T时刻模型的分类输出结果。输出层的输入为注意力矩阵与LSTM所提取的HRRP隐层序列特征的乘积,输出为样本类别。

1.2 特征提取层

SLSTM的基本组成结构是LSTM单元,是LSTM在同一时间步长上的堆叠,LSTM是一类特殊的RNN,能够有效避免RNN存在的梯度消失和梯度爆炸问题,同时能够有效提取和利用序列样本中长距离依赖信息,常用于序列数据的处理[26-28]。图2为LSTM模型的结构示意图。

图2 LSTM模型结构示意图Fig.2 Structure diagram of LSTM model

LSTM单元通过输入门it,遗忘门ft和输出门ot进行状态迭代。其中:

it=σ(Wixxt+Wi hht-1+bi)

(1)

ft=σ(Wfxxt+Wf hht-1+bf)

(2)

ot=σ(Woxxt+Wo hht-1+bo)

(3)

ct=ftct-1+itφ(Wcxxt+Wchht-1+bc)

(4)

ht=otφ(ct)

(5)

式中：xt表示当前时刻LSTM的输入向量；ht-1、ct-1分别表示t-1时刻LSTM单元的隐藏层状态和单元状态；W为权值矩阵；b代表偏置向量；σ(·)为激活函数sigmoid；φ为tanh函数。

在LSTM单元中,sigmoid函数及其导数为

(6)

(7)

Sigmoid函数及导数图像如图3所示。

图3 Sigmoid函数及其导数图像Fig.3 Graph of sigmoid and its derivative

由图(3)可知,sigmoid函数的导数取值范围为(0,0.25],当LSTM层数增加,在目标函数多次求导时会导致梯度消失问题的出现,因此本文采用求导性能较好的Elu函数替换sigmoid函数作为SLSTM模型的激活函数,Elu函数及其导数分别为

(8)

(9)

相对应的函数图像如图4所示,由图4可知,Elu函数导数的取值范围为(0,1],可以减缓梯度消失现象的出现。

图4 Elu函数及其导数图像Fig.4 Graph of Elu and its derivative

1.3 注意力机制层

将Attention-SLSTM模型的注意力机制层展开如图5所示。

图5 本文注意力机制结构图Fig.5 Structure of attention mechanism in this paper

注意力机制参数学习可分为3个步骤[29]。

步骤 1求解权重得分,权重即特征向量对模型识别的贡献大小,其计算方法为

et=vT·tanh(Wa·Xt+b)

(10)

步骤 2求解归一化权重,即加权系数:

(11)

步骤 3加权求和:

(12)

在式(10)～式(12)中,vT和b均为超参数,Wa为注意力矩阵,需要随机初始化设置,Xt为输入向量,维度为n×r,n表示模型批处理的样本数,r为LSTM隐藏层神经元个数,输入向量为LSTM的隐藏层状态Ht或单元状态Ct,即

(13)

(14)

1.4 输出层

在得到SLSTM模型隐层序列特征Ht之后,采用softmax分类器输出样本的类别:

(15)

式中：p(ytj|X,θ)表示样本序列属于第j类的概率值;wj∈R1×m为分类器中的权值矩阵中的元素；m为隐层单元数。模型最终识别类别为所有j类概率值最大的类别。

2 实验结果与分析

2.1 MSTAR数据集

MSTAR数据集[30-31]是SAR目标识别的标准数据集,其数据来源于分辨率为0.3 m×0.3 m的SAR,雷达在X波段工作,并且采用HH极化方式。MSTAR数据集中包含BTR70装甲运输车、BMP2步兵战车和T72坦克等10种不同类别的地面样本,其光学图像和对应的SAR图像样本如图6所示。数据集中的训练数据来自雷达工作俯仰角为17°时所得到的目标图像数据,而测试集数据的俯仰角为15°,以便于检验模型的泛化性能。

图6 MSTAR数据集光学图像及对应的SAR图像样本Fig.6 Optical and corresponding SAR image in MSTAR dataset

本文实验将每幅SAR图像按照文献[19]的方法变换为HRRP序列。步骤为首先SAR图像做一维逆快速傅里叶变换(fast Fourier transform, FFT)变换得到复数域HRRP序列,再对其取幅度值并求平均得到平均HRRP序列。在此过程中,每幅SAR图像能够得到100幅HRRP样本,再将其转换成10幅平均HRRP。由于原始MSTAR数据集中包含2 747个SAR图像训练样本和3 203个测试样本,因此可以得到27 470个HRRP序列训练样本和32 030个测试样本,表1给出了该数据集的组成。

表1 MSTAR序列HRRP数据集的组成

2.2 实验结果与分析

为验证本文所提出方法在HRRP序列识别种的有效性,设计了两类不同目的的对比实验,分别检验本文SLSTM和注意力机制的有效性。设置了多种传统机器学习方法和深度学习方法作为基线方法开展对比实验,包括SVM、RNN、LSTM、SLSTM和Attention-RNN。为了消除实验中随机误差对结果带来的影响,每种实验方法均在相同参数设置的条件下重复进行5次,最终结果取5次结果的平均值。

本文硬件实验环境为64位操作系统,Inter Core i7-8500 CPU,一片RTX 2080Ti GPU,1T内存;软件环境为python3.7,Tensorflow学习框架。

2.2.1 检验本文堆叠LSTM的有效性

为探究本文采用的SLSTM结构以及梯度消失缓解策略的有效性,本节对单层LSTM,以及不同层数L的SLSTM(SLSTM-sigmoid)和本文缓解梯度消失的SLSTM(SLSTM-Elu) 3种模型的识别性能进行了探究,实验选取经预处理的长度为32的HRRP序列作为模型的输入,最后一个时间步所提取的隐层特征输入到Softmax分类器种完成识别任务。层数L的取值为1～10,层数L与识别性能之间的对应关系结果如图7所示。由图7可知,随着LSTM层数的递增,在一定范围内,两种SLSTM的识别率均保持上升趋势,证明了堆叠的多层LSTM模型的HRRP序列识别性能优于单层模型,这是由于多层结构具有更强的特征提取能力,可以提取到更多的深层抽象可分性特征,其中包括序列种相邻HRRP样本之间的时空相关性。另外,SLSTM-Elu和SLSTM-sigmoid的识别率分别在LSTM层数为6和3之后出现下降,并在层数分别为8和4之后识别率低于单层模型,这是由于随着层数的增加,两种模型均出现了不同程度的梯度消失问题。值得注意的是,在每一个层数上,SLSTM-Elu模型的识别率均高于SLSTM-sigmoid模型,并且识别率出现转折和低于单层LSTM所对应的层数均大于SLSTM-sigmoid,这是由于采用Elu函数在一定程度上缓解了SLSTM的梯度消失现象,模型的每一步迭代均能学习到更深层的特征。综合以上分析,验证了本文采用的SLSTM模型在HRRP序列识别任务中具有有效性。

图7 SLSTM层数与识别率对应关系Fig.7 Corresponding relationship between SLSTM layers and accuracy

2.2.2 检验注意力机制的有效性

为了探究注意力机制在Attention-SLSTM中的有效性,从整体上检验本文所提方法在HRRP序列识别任务中的性能,本节设置了SVM、RNN、LSTM、SLSTM和Attention-RNN 5种对比实验,其中后4种深度学习模型的隐藏层节点数均设置为64,批处理大小batch_size设置为32,最大epoch设置为500,SLSTM、Attention-RNN和Attention-SLSTM模型的最大堆叠层数设置为10。各模型在不同堆叠层数设置上的识别率对比表如表2和表3所示。

表2 单层模型识别率比较Table 2 Comparison of single-layer model recognition accuracy

表3 多层模型识别率比较Table 3 Comparison of multi-layer model recognition accuracy

由表2和表3可知,深度学习模型的识别率高于SVM模型,这是由于深度学习模型具有更强的特征提取能力。另外,加入Attention机制的模型的识别率普遍高于对应的无Attention机制的识别率,其中,本文方法在堆叠层数为7时,取得了最高识别率,比无Attention机制的对应模型的最高识别率高2.6%,验证了注意力机制在HRRP序列识别任务中识别率方面的有效性。

为进一步探究各模型在收敛速度和识别率方面的性能,图8给出了随着迭代次数的增加,6种模型识别率的变化曲线。为保持各模型的最佳性能,RNN和LSTM两种模型的参数设置保持不变,SLSTM-sigmoid堆叠层数为3,SLSTM-Elu堆叠层数为6,Attention-RNN的堆叠层数为5,其中Attention-RNN为基于注意力机制的5层堆叠式RNN网络模型。

图8 6种模型识别率迭代曲线Fig.8 Iterative curve of recognition accuracy for 6 models

由图8可知,随着迭代次数的增加,几种模型的识别率均呈现上升趋势,其中,本文提出的Attention-SLSTM模型识别率最高,并且迭代数为100时最先达到相对稳定的识别率,验证了本文所提出方法具有收敛速度快的优点。另外,表2中单层模型识别率与本文方法最接近的Attention-RNN模型,在其堆叠层数为最优设置的情况下,识别率依然与本文所提Attention-SLSTM存在差距,验证了本文方法的有效性。综上,本文方法具有更快的收敛速度和更好的识别性能。

3 结论

本文提出的Attention-SLSTM模型将SLSTM引入到HRRP序列识别任务,提高了模型的表达能力;通过替换LSTM模型激活函数,缓解了梯度消失问题;将注意力机制与SLSTM相结合,充分提取了HRRP序列中相邻样本之间的时空相关性及其他深层抽象特征,提高了模型的收敛速度和识别性能。在雷达实际工作环境中,HRRP序列往往会出现样本缺失、噪声污染等问题,如何针对以上现实问题提出更有效的雷达HRRP序列目标识别方法,将会是下一步研究的重点方向。