Transformer 网络在雷达辐射源识别中的应用

2021-11-29王亮肖易寒

应用科技 2021年5期

王亮，肖易寒

哈尔滨工程大学信息与通信工程学院，黑龙江哈尔滨 150001

雷达是战争环境下的重要信息来源，可以获得千里之外的战争情报，因此如何获得敌方雷达信息，并且针对敌方雷达进行有效地识别与干扰则显得尤为重要。雷达辐射源识别工作实际上是对不同的雷达辐射源产生的信号进行特征提取，然后进行识别，由于信号特征来自辐射源个体的硬件部分，因此又称辐射源识别。目前对于雷达辐射源个体的识别工作主要可以分为2 个过程，先进行特征提取，再进行分类，从而完成辐射源的识别[1]。目前，将深度学习应用到雷达辐射源个体识别工作的研究越来越多，但是本质上仍然是从信号的脉内特征或个体特征等方面进行识别[2]。卷积神经网络是应用最为广泛的一类深度学习方法，但是在将数据送入网络之前一般会对原始数据提取初步特征，如双谱特征[3]。但是卷积神经网络容易产生梯度问题，因此可以引入残差网络进行优化[4]。除此之外，其他深度学习方法如强化学习[5]、InfoGAN 网络[6]等也可以用于特定辐射源信号特征提取与识别。

然而上述深度学习方法在进行辐射源识别时存在一些问题：一方面雷达辐射源信号的单脉冲时域信号前后具有强相关性，上述方法对于这种特性的关注度不够；另一方面单脉冲信号的数据量较大，采用不同数据量的识别效果不同。为了解决上述问题，本文采用将Transformer 网络应用于雷达辐射源识别工作，并探究不同因素对于识别效果的影响。

1 脉冲信号特征提取

1.1 信号包络特征提取

为了能够提取到雷达辐射源信号自身具有的个体特征，需要对采集后的信号进行预处理，同时尽量避免影响到信号原本的信息。不同信号发射器的功率等方面存在差异，为了使信号幅值与能量保持一致，需要对原始信号进行幅度归一化操作[7]。为了消除原始信号中突变或无效的点带来的影响，本文使用内部归一化的思想进行信号处理，采用Hilbert 变换法取出包络[8]，原始信号s(t)的Hilbert 变换为

取信号包络特征具体操作如下：

1) 首先将原始信号s(t) 中间约的稳态信号x(t)作为标准，计算全部点数的平均幅值A；

2) 对原始信号s(t)做Hilbert 变换，取出其实部s′(t)与虚部(t)；

3) 计算包络幅值S(t)=，再将其除以平均幅值得到归一化后的包络。

图1 展示了信号包络及其上升沿的部分，而上升沿数据量较少，大部分信号仍处于稳态。

图1 信号包络上升沿部分

1.2 信号相位特征提取

信号包络特征作为特征时存在受噪声影响较大的缺点，在噪声强度较高时，会产生较大的起伏。脉内无意相位调制特征同样可以反映出信号无意特征，而相位特征更多体现在信号的稳态部分[9]。取相位具体过程如下:

1) 对原始信号做Hilbert 变换，取出其实部s′(t)与虚部(t)；

2) 对脉冲信号相位为信号实部与虚部的反正切变换，即 φ(t)=arctan((t)/s′(t))。

如图2 所示是信号发生器某个脉冲的稳态相位信息，该信号折叠相位在 [−π,π]之间成周期性变化，在不同的雷达辐射源信号中相位信息会发生变化，体现辐射源个体之间的差别。

图2 信号稳态部分相位

2 基于注意力机制的Transformer 网络算法

2.1 Transformer 网络基本结构

Transformer 网络最初是Google 在2017 年提出的，该结构采用了注意力机制来对输入数据进行并行方式的特征提取，为了保证前后数据的关联性，该网络使用位置编码来对输入数据的位置信息进行记录。因此，一方面Transformer 结构仍然可以保证数据前后的关联性；另一方面，由于并行输入，使得网络训练时间大大缩短。如图3所示是Transformer 网络基本结构单元，完整的Transformer 特征提取网络结构由两部分构成，编码器Encoder 与解码器Decoder，在进行特征提取时，首先将输入数据送入编码器进行编码，得到数据的自相关性等特征，然后再由解码器解码，输出序列[10−11]。

图3 Transformer 基本结构

Transformer 结构采用注意力机制来进行特征提取，本文所需要完成的工作是多台信号源发生器的识别，需要完成不同信号源发生器产生的信号分类工作，因此仅需用到编码器来提取特征。一般情况下，为了充分提取特征，在将数据进行位置编码后，送入到多层结构相同的编码器中，单层编码器一般由自注意力层和全连接层组成。自注意力层一般使用多头注意力机制，在这两层中间可以添加残差网络等结构。

2.2 位置编码

Transformer 网络结构由于不是按照时序结构顺序提取特征的，因此没有结合数据不同位置的序列关系，这对于学习诸如雷达信号这类前后关联性较强的数据特征是极其不利的。因此，在原始数据分段后，需要对其进行位置编码，使之带有位置信息，保持数据相关性[12]。位置编码公式为

式中：dpos为某段信号p在信号脉冲中的实际位置，PE为处于 pos位置信号的向量。在编码后，原始数据如雷达特征序列可以保持前后的关联信息，同时网络的并行运算使得Transformer 的长距离学习能力较为优秀。

2.3 注意力机制

Transformer 网络的核心算法是注意力机制，缩放点积注意力机制是其中的一种，其优点在于可以批量处理数据。可以表示为

为了让注意力机制具有更高的运算效率，Transformer 框架将多个缩放点积注意力机制结合，组成了多头注意力机制[13−14]，n个头的多头注意力机制可以表示为

式中：Concat 为对多个单独的点积注意力机制进行拼接；参数矩阵Rdmodel×dv，dmodel为编解码过程的向量维度。具体过程如图4 所示：首先，将Q、K与V通过一个Linear层进行线性变换，这一点与单层的点积注意力机制相同，之后进行n次单层点积变换，每个机制的参数完全独立，不会共用，在n次运算完毕后，最终得到输出H。

图4 多头注意力机制结构

如图4 所示，这种多头注意力机制是将多头运算的结果进行拼接而成，原始数据经过不同空间的映射，使得模型能够从多个方面进行特征提取。同时多头机制也同样能够对不同位置的雷达数据提取它们逻辑之间的关系。另外，这种机制具有更加强大的矩阵并行运算能力。

2.4 基于Transformer 网络的雷达辐射源算法

雷达辐射源信号一般会具有较大的数据量，对于单个脉冲而言，其中可以包含几万甚至十几万个点，并且数据前后的关联性较强，因此Transformer模型适合用来对雷达辐射源信号进行特征提取。一方面多头自注意力机制能够将数据进行并行的快速运算，另一方面，位置编码使得数据具有关联性。图5 给出了Transformer 模型提取雷达辐射源信号特征的前向特征提取的具体流程。

图5 Transformer 提取特征流程

1)输入信号预处理。首先对雷达信号进行归一化，然后提取雷达包络特征或相位特征，最后进行数据截取。

3 实验模型训练与测试

本文采用3 种信号发生器进行实际信号采集，模拟真实雷达数据，从而进行更加符合战场情况的雷达辐射源个体识别工作[15]。通过添加高斯噪声来改变信噪比，全部信号均为线性调频信号，信号参数设置如表1 所示。

表1 无意信号参数设置

除此之外，各参数均包括正负2 种斜率，因此每个信号发生器产生2 160 个脉冲，其中80%用于训练，20%用于测试。在进行单个脉冲的数据截取时，首先需要将原始数据对齐，以方便截取数据。对于包络信息来说，其上升沿以及下降沿包含较多的特征信息，因此在提取时需要保留。而对于相位信息而言，在信号起振时相位并不稳定，因此上升沿处的相位信息最好舍弃，取稳态处的相位信息。

图6 为信号截取位置示意图，在取用包络特征数据时，以原始信号包络幅值为0.1 处作为起始值，根据需要的数据量进行数据的截取；而在提取相位数据时，首先以包络幅值为1 处对齐，此时，相位已经达到了稳定状态，以该处作为数据起始的索引点，对原始信号进行相位变换，并在索引点处对相位特征数据进行截取。

图6 信号截取位置示意

在模型参数选择的问题上，损失函数选择适合于数据分类的交叉熵(cross entropy，CE)损失函数。由于训练时需要改变数据长度，因此数据维度视数据量而定。Transformer 网络单元设置为6 个，在网络训练时，采用Adam 优化函数。学习率设置初始值为0.001，以使得梯度快速下降，在100 个循环后，设置为0.000 1，以防止梯度跨度过大，难以收敛。对于参数的选择如表2 所示。

表2 参数设置

为了验证网络提取特征的有效性，每类信号源取150 个添加10 dB 噪声的原始数据，经过Transformer 网络层得到输出，并且进行均值池化后，再将数据通过t-SNE 方法进行降维，从而将特征数据可视化。如图7 所示，由图中可以看出经过特征提取的数据具有可区分的特征。

图7 Transformer 网络提取特征可视化

在本文方法中，单个数据样本的长度对于识别结果的影响较大，而识别率是评价网络模型好坏的最有效手段，图8～11 是针对于单个脉冲样本取用不同长度数据以及在不同信噪比下的识别率折线图，其中单个脉冲数据长度分别设置为100 个点、200 个点、500 个点以及1 000 个点，添加的噪声为高斯噪声，信噪比为0～15 dB，间隔为5 dB。

图8 100 个数据点识别率

图9 200 个数据点识别率

图10 500 个数据点识别率

图11 1 000 个数据点识别率

从图8～11 中可以看出各种因素均会对于最终识别率产生影响。首先，就数据长度而言，不同的数据长度对于结果影响较大，在单个样本点数为100 点时，无论哪种方法，整体识别率均较低，这是由于单个样本的雷达数据过小，无法在较小的数据上提取到有效特征而导致的。随着数据长度的增加，各种方法的识别率均有所上升，尤其是相位数据，识别效果随数据长度的增长最为迅速。表3 给出了本文方法采用相位数据的识别混淆矩阵，表示了在信噪比为15 dB 时网络对于每一类的识别情况。其中第1 行为真实数据标签，第1 列为预测标签。

表3 识别混淆矩阵

对于不同的特征而言，在数据长度为100 个点时，包络特征的识别率要高于相位特征，这是由于本文方法在提取包络上升沿部分的特征时更加有效，之后虽然包络数据长度仍然在增长，但是由于该方法难以对包络稳态部分进行有效地特征提取，因此识别率却几乎没有变化。而结合相位特征的识别率却随着数据长度的增加在逐渐上升，并在数据长度为500 点时趋于稳定。最后，对于不同的信噪比而言，噪声对于包络特征的影响要更大一些。

4 结论

本文首先对3 台信号源发生器进行信号采集，以模仿真实雷达辐射源数据。在Pytorch 平台下构建了Transformer 网络模型，并将3 台信号发生器采集的LFM 信号的包络特征以及相位特征作为网络的输入，从而实现对信号源数据的识别与分类。同时本文探究了样本的不同长度对于识别效果的影响。结果表明，本文算法对于原始信号不同特征的敏感度不同，在提取相位特征时更加有效。并且在每个相位特征样本长度为500 个点时即可基本达到最佳的识别效果，同时该方法具有较强的抗噪声性能。