基于改进CLDNN的辐射源信号识别
2021-01-05孙艺聪田润澜王晓峰董会旭
孙艺聪, 田润澜, 王晓峰, 董会旭, 戴 普
(1. 空军航空大学航空作战勤务学院, 吉林 长春 130022;2. 空军实验训练基地二区检验所, 陕西 咸阳 713800)
0 引 言
辐射源信号识别[1-3]是电子对抗侦察中的一项重要的内容。早期电磁环境相对简单,雷达功能较为单一,信号调制类型相对较少,传统的识别方法大多从时域、频域等多种域人工提取特征,如文献[4]提出时域自相关方法,对线性调频信号进行了识别。文献[5]提出基于矩特征的识别方法,对5类常见信号进行了识别。这些方法能够较为准确地识别不同类型的信号,识别速度相对较快,但是选择哪种特征依赖于人的专业知识,而且选取的特征大多数无法适应如今复杂的信号类型,尤其是在雷达体制不断创新、雷达信号类型不断增加的背景下,这类方法更加难以有效识别不同信号的区别。因此,找到一种能自主学习特征的方法对提高雷达信号识别能力具有重要的意义。
深度学习(deep learning,DL)是一种对数据进行表征学习的方法,可以自主提取特征,有效避免了人为设置特征的不完备性。许多学者也将这一方法引入到电子对抗领域中来。文献[6]利用深度学习中的AlexNet网络模型对信号的时频图进行分类识别。文献[7]采用埃尔曼神经网络模型结合时频图像进行识别。文献[8]提出了一种基于积分旋转因子的径向积分方法,在时频图像的基础上对信号进行检测。上述基于深度学习的辐射源信号识别方法主要是对信号转化的二维图像的识别,这类方法需要人为提取特征的过程较少,可以有效避免人为因素的影响,在识别精度上有所提升,但是将信号进行二维变换需要大量的计算,而且对于图像的识别往往需要复杂的预处理,识别速度较慢,不适合样本量较大的情况。此外,在信噪比(signal to noise ratio, SNR)较低的情况下,基于图像识别的方法受噪声的影响较大,导致识别准确率不高,如文献[7]中在SNR低于-4 dB时,多数类型的信号识别准确率大部分都低于80%,不能够较好地识别各类信号。另外一些学者考虑将辐射源信号直接(或通过简单预处理后)输入到神经网络中进行学习,如文献[9]利用长短时记忆(long short-term memory,LSTM)网络对辐射源信号进行分类。文献[10]利用双向LSTM网络和双向门控循环单元(bidirectional gated recurrent unit, Bi-GRU)网络直接对标准化后的原始信号进行特征提取和分类识别,能够有效减少计算量,但是这些网络结构本身存在着训练难度较大的问题。
针对以上问题,本文引入语音信号处理中的卷积长短时深度神经网络(convolutional long short-term deep neural network,CLDNN)[11]模型对辐射源信号进行识别。该模型的输入是原始的时间序列,不需要复杂的变换,解决了计算量过大的问题,能够提高计算精度,可以对样本量较大的数据集进行处理。网络能够自主学习和提取信号特征,避免了人为选择特征的不完备性,使得网络模型能够适应更多类型的信号,实现方式简单,不需要太多的专业知识。此外,CLDNN模型结构中设置的特征提取结构能够有效提取输入信号的特征,降低网络的训练难度,可以提高网络的识别精度。本文在CLDNN模型的基础上,将其中的LSTM网络替换为双向门控循环网络,进一步提升CLDNN模型的识别能力,实现网络在精度和效率上的平衡。
1 CLDNN模型
CLDNN模型主要由卷积神经网络(convolutional neural network,CNN)、LSTM网络和深度神经网络(deep neural network,DNN)组成。该网络结构最早于2015年由Sainath等人提出,现在广泛应用在语音识别领域当中[12-14]。CLDNN模型中包含的3种网络各自具有不同的优势:CNN能够提取抽象特征,有效地减少频率分量和无效数据;LSTM擅长处理时间相关的问题,可以对时间序列进行建模;DNN可以将特征通过非线性映射到更加容易分离的特征空间。将这3种网络按CNN-LSTM-DNN的顺序组合在一起,首先通过CNN提取时间维度上高质量的隐藏信息,然后将这些信息传递给LSTM网络进行时序建模,最后将LSTM网络的输出传递给DNN,将特征空间映射到容易分类的特征空间内。文献[11]已经证明了将3种网络融合起来可以获得比单个网络更好的性能。CLDNN模型的结构如图1所示。
图1 CLDNN模型结构
2 GRU和Bi-GRU
2.1 GRU
GRU[15]是循环神经网络(recurrent neural network,RNN)的一个变体。RNN存在短期记忆问题,不能够解决“长距离依赖”问题。于是后来提出了LSTM网络和GRU这两种模型,这两种模型通过设置不同的门来控制信息的流通,解决长期记忆的问题。LSTM网络和GRU的性能相差不多,但是GRU在结构上更加简单,能够减少计算量,提高训练效率[16-17]。
GRU的内部结构如图2所示。GRU有两个输入,分别为上一时刻的输出状态ht-1和此时刻的序列值xt,输出为本时刻的状态ht。相比于LSTM网络单元内部结构,GRU内部只存在两种门,重置门r和更新门z。重置门控制忽略上时刻状态的程度,使网络能够丢掉无关的信息;更新门可以控制上时刻状态传递到这一时刻的程度,帮助网络记忆长时的信息。
图2 GRU内部结构
GRU的计算公式[18]为
(1)
式中,σ为激活函数;[·]代表向量连接;W为需要训练的权值;⊙为Hadamard积。
2.2 Bi-GRU
Bi-GRU是一种双向的网络模型[19-21]。图3是Bi-GRU的网络模型图,主要由4个部分组成:输入层、输出层和两个GRU层。相比于传统RNN类网络模型,Bi-GRU将隐含层增加为两层,由两个单向的、方向相反的GRU组成,序列信息按照正向和反向各自输入到正向和反向的GRU中,网络的输出由这两个GRU的输出决定,可以采用相加、平均值或连接等方式进行处理,这样模型就可以利用正向和反向两个方向的信息。
图3 Bi-GRU网络模型
3 改进CLDNN模型及训练流程
3.1 改进的CLDNN模型
CLDNN模型最初主要用于语音信号的识别,由于其内部采用LSTM网络模块对包含时间信息的序列进行建模,模型只用到了过去的信息,没有考虑到未来的信息。然而,实际处理的过程中往往需要整条序列上的信息。CLDNN模型中采用的LSTM网络无法编码从后往前的信息,所以无法利用数据的未来信息。另外,LSTM网络结构相对复杂,内部参数较多。如果输入数据时间跨度较大,或者网络深度很深时,计算量会很大,训练效率相对于传统RNN会低很多。
针对上述问题,结合辐射源信号识别问题的特点,本文在CLDNN模型的基础上,提出改进的CLDNN模型,将CLDNN模型中的LSTM网络改为Bi-GRU,利用Bi-GRU的双向结构来提取更多结构信息。改进的CLDNN模型结构如图4所示。原始信号经过简单的归一化处理后,首先经过3层一维CNN,通过16个长度为8的卷积核对原始信号进行卷积处理,同时在每个CNN后接池化层,组成“卷积-池化”结构,这些结构作为网络的特征提取器,也是对序列的降采样,可以对输入的信号序列进行特征提取,也可以降低序列的维度,为后续网络提取高质量的特征信息,减少后续网络的计算量。Bi-GRU对CNN层的输出进行时间建模,通过接收CNN层提取的时间相关信号特征,利用双向结构提取前向和后向的信息,并将这两个方向的信息输出的平均值作为输出,可以去掉数据的时间相关性。最后在Bi-GRU层后加3个DNN层,作为网络最终的分类器,将Bi-GRU中提取到的特征映射到样本标记空间内,本文最终通过softmax函数将特征映射到代表8类信号的离散空间里。
图4 改进的CLDNN模型结构图
3.2 训练流程
不同于传统基于图像识别的辐射源信号识别模型,本文提出模型的输入直接是时间序列,不存在对信号的变换。模型训练流程如下。
步骤 1训练样本处理。对原始样本集中的信号样本进行min-max归一化处理,将数据的值限定在[0,1]内,使得模型在寻找最优解时能够更加平缓,可以提升模型的收敛速度。转换函数为
(2)
步骤 2添加标签。对不同类型数据的标签进行one-hot编码。
步骤 3建立训练集和测试集。将训练样本随机打乱,在打乱后的数据集中选择一定比例样本构成训练集和测试集。
步骤 4训练网络。将训练样本输入到构建的改进网络模型中。损失函数采用交叉熵损失函数,优化器采用Adam。设置初始学习率为0.001,最大训练轮数为100轮。
为了避免出现陷入局部最小值或者过拟合的现象,网络训练过程中还引入了学习率动态调整机制和早停机制。具体描述如下。
(1) 学习率动态调整机制。根据训练的轮数而逐渐减小学习速率,当验证集误差不再减小且再经过3轮的训练仍得不到改善的情况下,学习率将会减少一半。
(2) 早停机制。在训练过程中,随着模型能力的提升,验证集的误差会先减小后增大,这是由于出现了过拟合的现象,为了避免出现这样的现象,本文在训练中采用了提前终止算法,当验证集误差不再减小且再经过10轮的训练仍得不到改善时提前终止训练,否则模型将经过100轮的训练。
4 实验及结果分析
为了验证本文模型的性能,首先采用Matlab仿真不同调制类型的信号,得到原始数据集。本文采用的原始数据集包括8种信号,分别是二进制相移键控(binary phase shift keying, BPSK)、Costas、调频连续波(frequecy modulated continuous wave, FMCW)、Frank、P1、P2、P3和P4。载频范围为1~1.2 kHz之间随机取值,除Costas外采样频率均为7 kHz。具体参数如表1所示。SNR范围为-20~10 dB,间隔为2 dB。每类信号在每种SNR情况下产生2 000个样本,共计256 000个,每个样本长度为200。随机选取80%的样本作为训练集,20%的样本作为测试集。计算机配置:CPU为Intel(R) i7-8750H,GPU为NVIDIA GeForce GTX 1060。
表1 信号主要参数
实验 1改进模型中3类网络的层数对于网络的能力有着很大的影响,为了探究不同网络结构对于训练结果的影响,实验中将3种网络的层数作为变量,以验证集损失作为评价标准进行实验,结果如表2所示。
表2 网络结构实验结果
从表2可以看出,第1组损失最低,相对来说网络识别能力更好;第1组和第2组的实验结果说明通过增加Bi-GRU层的数量不能够提高网络的识别能力,一般情况下1层就能够较好地完成建模;第1组、第3组和第4组的实验结果说明卷积层不能太少,也不能太多,太少特征提取能力不够,而太多网络过于复杂;第1组、第5组和第6组的实验结果说明DNN的层数也应适中,这样才能有效地映射到可分离的特征空间。
实验 2为了探究改进模型的能力,在不同SNR条件下,利用训练得到的模型对8类信号进行识别。8类信号在不同SNR条件下的识别准确率如图5所示。
图5 8类信号识别准确率
从图5中可以看出,在SNR高于-6 dB的情况下,8类信号的识别准确率基本能达到100 %,在SNR高于-10 dB的情况下识别准确率也能够达到70%以上,基本满足低SNR条件下的识别要求,证明了本文提出模型在低SNR情况下对辐射源信号识别的有效性。随着SNR的不断降低,识别准确率急剧下降,到-20 dB的时候识别准确率最高能达到40 %,最低的情况下也能达到20%,其中BPSK和Costas受SNR影响最大,P1码受影响相对较小。其他5类信号的识别准确率相差不大,识别结果较为均衡。图6是FMCW信号在SNR为10 dB和-10 dB条件下原始信号和改进的CLDNN模型第1层CNN的输出信号频谱图。
图6 CNN层输出序列频谱图
从图6中可以看出,CNN输出信号的频谱图与原始信号的频谱图形状相似,说明CNN在学习过程中在试图重构原始信号,但相比于原始信号有一定区别;图6左半部分是在10 dB条件下的频谱,从图6中可以很清楚地看到FMCW频谱特征,而图6右半部分在-10 dB情况下频谱却显得有些杂乱,信号的频谱特征不明显,说明噪声基本上已经覆盖了信号,导致CNN在重构信号的过程中提取的大多数是噪声信息,使得改进模型在后续的处理中无法提取有效的特征而造成混乱,导致在SNR较低的情况下识别准确率急剧下降。
8类信号整体的混淆矩阵如图7所示。从图中可以看出,这8类信号的混淆矩阵整体上呈现出一个比较清晰的对角线,只有少部分样本被错误分类。8类信号在SNR为-20~10 dB之间的识别效果较好,识别准确率均能达到80%以上,基本满足识别的需求。从图7中也可以看出BPSK和Costas受噪声影响较大,相对于其他6类信号识别准确率更低。
图7 8类信号混淆矩阵
实验 3为了进一步研究改进模型的性能,这里将本文提出的改进模型与其他模型进行对比,选择文献[9]和文献[10]提出的LSTM、Bi-LSTM和Bi-GRU3种模型进行对比,另外也将传统的RNN模型和未改进的CLDNN模型以及识别魏格纳时频图像的AlexNet模型作为对照,共7种模型。由于基于图像识别网络需要生成图像特征,而本文采用数据集过大,所以本文在原数据集中每类信号仅选取1 000条数据,共计8 000条产生时频图像,用来构建训练AlexNet网络的数据集,其他网络训练采用的数据集为本文所用的原始数据集。7种模型在不同SNR条件下的识别准确率如图8所示,7种模型训练用时和网络收敛训练的轮数如表3所示。
图8 7种模型识别准确率
表3 7种模型训练情况
结合图8和表3可以看出,相对于其他6种模型,本文提出的改进模型精度最高,训练用时较短,训练轮数最少,说明改进模型在训练过程中收敛速度较快,训练难度相对较小;RNN模型训练用时最短,但是识别精度也是最低的,这是由于RNN结构简单,训练相对容易,但是不能够记忆长期信息,所以精度不高;LSTM网络、Bi-LSTM和Bi-GRU识别精度与本文提出的改进模型差距不大,但是训练所用时间却是本文模型的3~5倍,且训练轮数几乎都达到了最大训练的轮数,这是由于通过3层CNN的特征提取,不仅将特征维度降为原始维度的八分之一,还降低了Bi-GRU模块所需处理的序列长度,此外网络也提取到了较高质量的信号特征,使得本文网络训练的难度降低了不少;CLDNN模型训练总用时与改进模型的总用时相差不大,每轮训练时间更短,这是由于CLDNN模型比本文模型结构简单,但是识别精度比本文模型低约5%,训练时长相对于本文模型优势也不是很大;AlexNet网络精度最低,若使用原始数据集进行训练,网络的识别性能会有所提高,但是网络训练所需要的时间也会成倍的增加,而且图像数据集的生成也需要大量的时间,这样相较于其他6种模型所用的时间就会多出很多,所以基于图像识别的模型不适合于数据集样本数量大的情况。
综合上述分析可以看出,本文模型相对于其他6种模型具有训练精度高、训练难度小和收敛速度快的特点,相比于基于图像识别的方法在识别速度和数据处理速度上都有很大的优势。
5 结 论
本文在语音处理领域常用的CLDNN模型的基础上,提出了改进的CLDNN模型,将模型中的LSTM网络改为Bi-GRU网络,并对8种常见的辐射源信号进行识别。实验结果表明,本文模型能够有效地识别辐射源信号,尤其是在SNR较低的情况下能够有效地识别这8种信号;在与其他常见模型的对比中,本文模型也具有训练难度小、收敛速度快和识别精度高的特点。