生成对抗网络小样本雷达调制信号识别算法

2021-02-21于浩洋李书芳

西安电子科技大学学报 2021年6期

于浩洋，尹良，李书芳，吕顺

(北京邮电大学信息与通信工程学院，北京 100876)

雷达调制识别技术是上世纪80年代中期开展的一项新技术，其在电子侦察、电子支援等领域发挥着重要的作用。早期的雷达调制识别方法主要以信号的载频、信号的脉冲幅度、信号到达时间、信号的脉冲宽度以及信号的到达方向这五大参数作为雷达调制方式识别的特征[1]。由于战场电磁环境日益复杂，各种新式雷达的不断出现，导致这种方式的识别准确率较低。因此雷达调制信号识别方法逐渐转向脉内特征的研究[2-4]。

随着2006年多伦多大学HINTON等[5-7]提出深度学习的概念，越来越多人转向深度学习技术来解决雷达调制信号识别的问题。深度学习技术可以自动提取雷达调制信号的深层次特征，其对雷达调制信号的特征提取更加方便有效[8-9]。在自然图像领域，目前有大规模的公开数据集可以评判算法的优劣，例如在ImageNet数据集[10]，包含超过1 400万张带标签的自然图像。但是由于雷达信号获取成本较高、标注困难等原因，构建大型而且复杂的雷达信号数据集变得十分的困难。目前所使用的雷达信号数据集的规模较小，网络的鲁棒性较差，容易过拟合，因而导致识别率较低。目前主流的小样本学习方法主要包含3种方法，基于度量的方法，基于优化的方法，基于生成式模型的方法。基于度量的方法对样本的数量要求相对较高，性能对模型的敏感度高。而基于优化的方法测试任务需要和训练任务保持高度一致，灵活性较差。生成模型方法支持样本数较小的情况，但会存在生成样本代表性问题。例如文献[11]通过SMOKE算法来扩充样本数据集，以解决样本分布不均匀问题。文献[12-14]通过生成对抗网络产生能够逼近真实分布的生成样本，以提高网络识别的准确率。但当雷达调制种类过多，制式较为复杂时，生成对抗网络对于每种生成信号的质量难以保证。

针对上述问题，笔者做出如下创新来提升多种类小样本雷达调制信号识别准确率。

(1)提出增强深度卷积生成对抗网络(Strength Deep Convolutional Generative Adversarial Network，SDCGAN)方法，使多种类雷达调制信号的生成数据与真实数据具有更为接近的分布。

(2)提出SDCGAN-CNN数据增强方法，提升小样本条件下信号识别的准确率。当信噪比为0 dB，原始样本数为200个的条件下，该方法较卷积神经网络方法识别准确率提升约10%。

1 生成网络模型与卷积神经网络模型

1.1 卷积神经网络模型

卷积神经网络(Convolutional Neural Network，CNN)是一种适合解决图像以及语音识别的网络结构，近几年相关领域的重大突破，都是由卷积神经网络所取得的。卷积神经网络由输入层、卷积层、池化层、全连接层、输出层构成。卷积层通过卷积的过程来提取数据中的特征，数据通过卷积层会输出一个特征矩阵，实现自动提取特征并减少训练参数。池化层的主要作用是滤去特征矩阵中不重要的样本，减少参数数量。全连接层将特征进行综合，最后通过输出层进行分类判决，卷积神经网络结构示意图如图1所示。

雷达调制信号包含I、Q两路数据，其维度为2×n，通过与图像数据维度的比较具有一定的相似之处。因而通过二维卷积神经网络，可以自学习雷达信号深层次的特征，对雷达调制信号实现端到端的识别。

1.2 生成对抗网络模型

生成对抗网络(Generative Adversarial Network，GAN)源自于博弈对抗理论，由生成器G和判别器D两部分组成。生成器的作用是输入的噪声Z，通过不断的学习，拟合出逼近真实分布Pdata，能够欺骗判别器D的生成样本G(Z)。判别器D的作用是对输入的样本进行判别，是真实样本x，还是生成样本G(Z)。这两个网络不断地对抗，生成器不断生成能够迷惑判别器的以假乱真的生成样本，判别器不断地学习，提升区分生成样本和真实样本的能力。两者会达到纳什均衡。最终生成器G生成能够以假乱真的生成样本G(Z)；由于G(Z)趋近于真实分布，判别器D无法对生成样本G(Z)以及真实样本x做出正确的判别。生成对抗网络的流程图如图2所示。

图2 生成对抗网络流程图

判别器D尽可能区分生成样本G(Z)与真实样本x，对于判别器D这是一个二分类的问题。采用最小交叉熵的方法训练D，能够使其有效地分辨并生成样本G(Z)与真实样本x。当输入x时，输出概率尽量为1；当输出为G(Z)时，输出概率尽量为0。判别器D损失函数如下所示：

(1)

其中，D(x)为D判断输出为真实样本的概率，D(G(Z))为D判断输出为生成样本的概率。对于生成器G，其通过学习真实分布Pdata来欺骗判别器D，因此要增大G(Z)被判别为真实样本的概率，即D的输出概率趋近于1。生成器的损失函数如下所示：

(2)

D的输出范围在0到1之间，因此式(2)等价于式(3)，

(3)

因此，判别器D与生成器G的对抗过程的表示为

(4)

1.3 深度卷积生成对抗网络

DCGAN与GAN都使用二分类交叉熵损失函数，但生成对抗网络并没有对生成器G，判别器D的结构做过多的定义，默认的生成器与判别器结构为多层感知机。深度卷积生成对抗网络在生成对抗网络的基础上将生成器与判别器的网络结构改进为深度卷积网络结构，在生成器以及判别器中都添加了批量归一化的操作。DCGAN中的深度卷积网络取消CNN中的池化层，通过卷积以及去卷积来替代，通过全局池化层来代替全连接层来减轻计算量。此外，DCGAN中生成器中输出层使用Tanh激活函数，其他层都是用RELU激活函数，判别器输出层为sigmoid激活函数，其他所有层都为LeakyReLU激活函数。

2 改进DCGAN-CNN网络模型

2.1 SDCGAN网络模型

根据文献[16]中的图像生成实验，其对生成对抗网络网络进行改进，通过最小二乘损失函数替代交叉熵损失函数，组成新的模型LSGAN，证明了LSGAN有更强的收敛性。因此，引入最小二乘损失函数替代DCGAN中的交叉熵损失函数，以增强模型的收敛性，同时加入梯度惩罚机制，使训练过程更加的稳定。生成器的损失函数如下所示：

(5)

由于判别器D的梯度数值空间是整个样本，使用整个数据集样本对于包含了生成样本以及真实样本的数据集容易造成维度过高，计算量过大等问题。因此没必要对整个数据集做采样，只需对每一批次样本中采样，通过生成一个随机数，在生成数据和真实数据中做一个插值来完成每批次样本的采样[16]。

xr～Pdata，xg～Pz(Z) ，

(6)

ε～Uniform[0，1]，ρ=εxr+(1-ε)xg，

(7)

其中，xr为真实数据中的每一批次样本的采样，xg为生成数据中的每一批次样本的采样，ε为0-1的随机数，ρ为在真实数据以及生成数据中每一批次样本的随机采样。通过增加惩罚项使梯度稳定，靠近的过程中使G(Z)靠近x且D(G(Z))不靠近D(x)，判别器的损失函数如下所示：

(8)

2.2 SDCGAN-CNN雷达调制信号识别算法

卷积深度神经网络较传统方法，不需要提取专家特征，但在小样本条件下，由于较少的数据量难以使得卷积等深度神经网络模型得到充分的训练，而生成对抗网络可以通过生成以假乱真的数据扩充数据集，充分地训练网络，因此混合网络模型更具有优势。笔者将SDCGAN与CNN联立，组成混合网络，通过SDCGAN生成逼近真实分布的生成样本，提升卷积神经网络的识别效果。以生成样本与真实样本混合数据，构成新数据集。通过新数据集训练卷积神经网络。实现小样本多种类的雷达信号识别。识别算法流程图如图3所示。

图3 SDCGAN-CNN识别算法流程图

算法的具体实现步骤如下所示：

(1)在真实样本中，每类样本随机采样m/9个样本，采集用样本数为m个。

(2)将噪声样本，真实样本为一批次送入SDCGAN。每批次样本训练判别器n次，训练生成器1次。在生成样本以及真实样本中做插值来完成每批次样本的随机采样，并以此添加梯度惩罚项。

(3)按照初始设定训练轮数以及训练批次，重复(1)、(2)步骤完成对SDCGAN的训练。

(4)将生成样本与真实样本混合，形成新数据集。

(5)以新数据集按照预先设定训练轮数以及批次训练卷积神经网络。

3 实验与结果分析

图4 实验流程框图

实验的整体流程是，先通过Matlab编程生成多种雷达调制信号，下载至矢量信号发生器，通过频谱仪捕获信号；再对数据进行归一化，下采样等预处理操作，将信号送入增强深度卷积对抗网络；最后将真实样本和生成样本一并送入到卷积神经网络，得出分类结果。通过这种方法会考虑实际雷达信号监测过程中接收机的频偏、相偏和动态范围等实际因素，使得采集的数据更接近真实场景。

3.1 数据集

以7种二进制巴克码序列Barker2、Barker3、Barker4、Barker5、Barker7、Barker11、Barker13以及线性调频(Linear Frequency Modulation，LFM)、脉冲信号(Pulse)，共9种雷达调制信号构建数据集。

二进制巴克码序列是一种有限长序列A=[a0，a1，…，an]，各元素取值为+1和-1，其调制相位只有0和π两种取值，长度n≥2，当k≠0时，其非周期自相关系数为

(9)

其中，|yk|≤ 1，yk=y-k。

线性调频调制是一种典型的频率调制的调制方式，其表达式如下：

(10)

通过Matlab编程生成LFM、Pulse、Barker等多种雷达I、Q数据，并下载至是德科技的N5182A矢量信号发生器产生少量的多类型调制方式的射频雷达信号，以同步线方式传输，泰克科技的RSA6114A接收机将信号捕获。

巴克码信号载频为2 GHz，中频采样频率为50 MHz，脉冲重复时间PRI为210 μs，信号发射时长为200 μs。LFM信号载频为2 GHz，调频带宽为10 MHz，中频采样频率为50 MHz，脉冲重复时间(Pulse Repetition Interval，PRI)为310 μs，信号发射时长为300 μs。Pulse信号载频为2 GHz，中频采样频率为50 MHz，脉冲重复时间PRI为310 μs，信号发射时长为300 μs。这些信号的频谱仪扫频带宽均为40 MHz。取一个调制周期内的采样数据为1个样本，由于信号为I、Q两路，每个信号经下采样后的维度为2×1 024，类别标签为One-hot编码，维度为1×9，具体信号采集流程如图5所示。

图5 信号采集流程图

3.2 网络模型设计

笔者设计的SDCGAN生成对抗网络，生成器以及判别器的网络结构，优化器为RMSprop，学习率为0.000 02，判别器卷积层dropout为0.1，LeakyReLU中的alpha为0.2，前3个卷积步进为2，最后一个步进为1，batchnormalization中的momentum为0.8。其具体结构如表1所示。

表1 SDCGAN模型结构

笔者所设计的CNN网络结构，学习率为0.000 5，优化器为Adam，损失函数为交叉熵，每层卷积都有dropout，dropout为0.5。模型详细结构如表2所示。

表2 CNN模型结构

3.3 对比实验

实验所采用的深度学习框架为keras，实验所使用的硬件平台CPU为Intel(R)Xeon(R)E5-2630 v4 @ 2.20 GHz，GPU为GeForce RTX 2080Ti，操作系统为Centos7。

为进一步说明混合网络较传统方法的优越性，生成样本与真实样本的混合数据为实验数据、通过8∶2的比例划分实验数据和测试数据。将混合网络与传统方法进行对比，提取信号的三阶矩和四阶矩特征分别使用类近邻分类器(K-Nearest Neighbor，KNN)、线性支持向量机(Linear Support Vector Machine，Linear-SVM)、非线性支持向量机(Nonlinear Support Vector Machine，Nonlinear-SVM)、梯度提升决策树(Extreme Gradient Boosting，XGBoost)、随机森林(Random Forest，RF)分类器进行分类识别。

从图6结果来看SDCGAN-CNN方法明显优于本次实验的传统方法，混合网络较传统方法的识别率高，泛化性好。同时，传统方法的识别的准确性，受限于人工提取的特征。而混合网络是自动提取特征，不受人工提取特征的制约。

图6 混合网络与传统方法实验对比图

为验证SDCGAN-CNN雷达调制信号识别算法的可行性，对3.1节中9种信号雷达调制信号进行小样本识别实验，训练集中每类含有40个真实样本，信噪比为8 dB，卷积神经网络训练epochs为200，batch_size为32，学习率为0.000 5。CNN以混合数据为训练集，进行训练。通过100次蒙特卡罗实验，得到信号的识别准确率，如表3所示。

表3 不同生成样本数量信号识别准确率

从表3可知，在每类信号只有40个真实样本的条件下，信号识别准确率为81.11%；加入生成数据，提升样本的数量，使深度神经网络能更加充分挖掘数据潜在特征。通过加入生成样本，可以使雷达调制信号识别准确率提升到91.11%，充分验证SDCGAN-CNN算法在小样本条件下，提升信号识别能力的可行性。

采取多维度验证，首先在训练集每类原始信号样本数为40～200个的条件下，对不同信噪比的信号识别效果进行比对，以证明CNN模型的有效性，确定训练集样本数对信号分类(识别)准确率的影响，如图7所示。

图7 训练集样本数对信号识别准确率的影响

为证明SDCGAN-CNN网络的有效性，在信噪比为-10 dB到10 dB条件下，训练集中每类原始数据样本数为40个，生成对抗网络生成每类生成样本数为100个，4种方案的信号识别效果进行比对如图8(a)所示。同时在信噪比为0 dB，每类原始信号样本数为40～200个的条件下，生成对抗网络的生成样本数为100个，4种方案的信号识别效果对比图如图8(b)所示。

从图8(a)可知，通过SDCGAN-CNN方法比CNN方法有较大提升，在训练集原始样本数为40，信噪比为0 dB条件下，SDCGAN-CNN较CNN，识别准确率提升约10%，较DCGAN-CNN以及GAN-CNN分别提升约1%和约2%。从图8(b)可知，在训练集原始样本数为180，信噪比为0 dB的条件下，SDCGAN较CNN提升约8%，较DCGAN-CNN以及GAN-CNN分别提升约4%以及约6%。

(a)不同信噪比信号识别准确率

从上面的实验结果来看，SDCGAN带来了小幅的准确率提升。为更进一步的证明SDCGAN多产生的显著效果，绘制生成信号的Barker7、LFM、Pulse信号包络形状以及时频图做进一步的验证。

首先对比GAN、DCGAN、SDCGAN这3种算法生成Barker7，LFM，Pulse信号I路效果，效果对比图如图9所示。

图9 生成信号效果对比图(第1行为Barker7，第2行为LFM，第3行为Pulse)

通过观察对比SDCGAN生成的信号与原始信号形状更为的相似。其生成信号的噪声影响，较DCGAN、GAN的生成信号更弱。

通过时频图来进一步观察生成信号的质量情况，通过短时傅里叶变换(Short-Time Fourier Transform，STFT)方法进行时频分析来检测生成信号的质量情况。STFT的数学表达式如下：

(11)

其中，g(·)为窗函数，τ为窗函数在时间轴上的平移量。

图10为雷达调制信号时频图。

图10 雷达调制信号时频图

时频图自上而下分别为原始图像、SDCGAN生成图像、DCGAN生成图像、GAN生成图像。自左到右边顺序为Barker4、Barker7、Barker11、Barker13、LFM。信号时频图图像质量对比如表3所示，其性能指标主要是结构相似性(Structural Similarity Index Measure，SSIM)、峰值信噪比(Peak Signal to Noise Ratio，PSNR)、均方根误差(Root Mean Squared Error，RMSE)。SSIM、PSNR、RMSE公式如下所示：

(12)

其中，x，y分别为真实样本像素矩阵，以及生成样本像素矩阵；μx、μy分别为x、y的均值；σx、σy分别为x、y的方差，σxy为x、y的协方差。其中，c1=(k1L)2，c2=(k2L)2，L为像素值范围，k1为0.01，k2为0.03。

(13)

其中，I(·)为生成样本像素矩阵，K(·)为真实样本像素矩阵，i、j分别为矩阵的横、纵坐标。

(14)

其中，MAX1为像素矩阵最大值。

R=(M)1/2。

(15)

表4给出了不同模型生成信号的时频图质量比较。

表4 不同模型生成信号的时频图质量

PSNR是基于误差敏感图质的评价，其数值越大，图像的失真越小。从表4可以看出，SDCGAN的失真度是最小的。SSIM是一种全参考的图像质量评价指标，它分别从亮度、对比度、结构方面度量图像的相似性，其数值越大，失真越小。RMSE为MSE的算法平方根，而MSE是参数估计值与参数真值之差平方的期望值。MSE评价数据的变化程度，MSE越小，数据的精确度越高。这三项指标中，都是SDCGAN的更为优异。

4 结束语

针对雷达信号获取困难、数据集构建困难的问题，笔者提出一种基于生成对抗网络的数据增强方法。该方法同时结合深度神经网络可用来解决雷达信号识别的小样本问题。笔者提出方法分别与GAN、DCGAN数据增强方法做对比，同时还将未使用数据增强的网络与使用数据增强的网络做分类效果对比。实验结果表明，笔者提出的方法在小样本条件下对雷达调制信号的分类具有更好的效果。

文中仅对不同信噪比的信号做了讨论。未来会从信号的频偏、衰落等角度做进一步的深入研究，从多角度来验证模型的泛化能力。