通信特定辐射源识别的多特征融合分类方法
2021-03-09何遵文侯帅张万成张焱
何遵文,侯帅,张万成,张焱
(北京理工大学信息与电子学院,北京 100081)
1 引言
特定辐射源识别(SEI,specific emitter identification)是将接收到的脉冲波形与唯一发射器进行关联[1]。5G 使数据传输速率和可靠性得到了跳跃式的提升,促进了物联网应用的普及和发展。6G 将进一步向万物互联的时代迈进,接入物联网的无线设备呈爆炸式增长,设备的安全性值得关注。物联网中未知的辐射源设备需要能被准确地识别身份,而电磁环境日益复杂,辐射源数目庞大,信号密度极高,这为SEI 技术带来了更多的挑战[2]。
用于个体识别的辐射源信号通常分为瞬态信号和稳态信号[3]。瞬态信号是发射体开关打开时或状态改变时的信号,但是瞬态信号持续时间较短,在实际通信环境特别是非合作通信情况下截获难度较大。相比之下,稳态信号更容易获取,具备较强的操作性,基于稳态信号的SEI 技术在实际应用中具有更强的适用性[4]。
近年来,深度学习在SEI 领域有了广泛的发展和应用[5],深度神经网络能够通过具有非线性激活函数的多个隐含层来检索抽象特征,有利于提取辐射源信号的深层次的细微特征[6]。因此,一些文献使用基于深度神经网络的端到端的SEI 方法,如文献[7-8]将原始I/Q 信号直接送入神经网络,完成端到端的SEI 任务,整体性强。但是这种方法过于依赖神经网络的设计,并且对不同的原始数据类型都要设计不同的神经网络,可扩展性不强。另外,常用的卷积神经网络(CNN,convolutional neural network)更擅长识别二维图像数据,直接处理I/Q数据效果会有一定的折扣。
因此,更有效和可靠的方案仍是将智能学习与信号处理技术相结合,将SEI 任务分为两步,一是数据的预处理和特征提取,二是分类器设计和训练。通过数据预处理和变换以提取稳态信号的细微特征,细微特征由器件内部的物理特性和器件之间的相互作用产生,整个过程被称为信号的非有意调制。信号细微特征也被称为射频指纹,通常表现为不可避免的非平稳、非高斯、非线性[9]。现有的研究主要分为利用信号的时域特征和变换域特征的方法。例如针对信号的时域特征,文献[10]将瞬时振幅和频率直接定义为指纹特征,文献[11]利用经验模态分解(EMD,empirical mode decomposition)相关维数和小波熵提取信号的细微特征,文献[12]基于盒维数和方差维数的分形特征进行识别,文献[13]基于实际信号的固有非线性动力学特性将排列熵提取为信号的射频指纹。但是,这些利用时域波形的非线性特征的方法容易受到噪声的影响,识别准确率波动很大,并且计算量较大,具有一定的局限性。现在更主流的是基于变换域特征的方法,时频分析能够提供信号的时频联合域信息,反映不同信号之间更加细微的差别[14]。文献[15]提取动态小波指纹特征以识别各个射频发射器。文献[16-17]使用短时傅里叶变换时频图表示特征,然而,这种方法本质上是线性的,对于非线性信号的分析效果并不好。希尔伯特−黄变换(HHT,Hilbert-Huang transform)是一种著名的处理非线性非平稳信号的方法[18],因此,HHT 被广泛用于SEI 中。文献[19]将希尔伯特光谱转换为灰度图像表示特征;文献[20]使用HHT,并研究了它们在单跳和中继场景下的各种渠道方案。除此之外,基于高阶谱方法也是研究的热点,高阶谱可以保持信号的幅值和相位信息,抑制噪声对非高斯信号的负面影响。文献[21-22]充分利用了双谱的特点进行SEI 任务。
对于SEI 任务的第二步,即分类器的设计和训练,可以使用传统机器学习方法和深度学习方法。文献[14]使用支持向量机(SVM,support vector machine)作为分类器,文献[13,23-24]在每次实验的分类过程中,采用K 近邻判别分类器。深度神经网络对二维图像有很好的识别效果,因此一些文献使用网络学习能够体现信号特征的二维图像来完成SEI 任务,如文献[19]构造了一个深层的残差网络,用于学习希尔伯特光谱图像中反映的视觉差异以辨别设备;文献[24]利用CNN,将I/Q 信号转换成轮廓Stella图像进行分类。
上述方法中,一方面,无论是使用基于时域特征还是变换域特征和高阶谱的方法,其大多是使用单一信号处理方法提取其中的一种细微特征,而实际通信信号复杂多变,单一的信号特征并不足以全面准确地表示辐射源信号之间的细微差别,最终识别准确率受到限制,具有很大的局限性。另一方面,为了增强识别准确率,多数模型使用深度神经网络作为强分类器;数据驱动的深度学习方法需要大量的数据,实际通信中受限于时间和人力成本,很难获得充足的辐射源信号数据用于深度学习的训练,如果数据量过少,较深层和复杂的神经网络很容易发生过拟合,进而严重影响最终的识别效果。
基于以上讨论,本文提出了一种新型的多特征融合分类方法用于通信辐射源识别。针对信号单一特征的局限性,设计了基于多通道变换投影的特征提取方法,对原始数据集进行小波、双谱、HHT 等多种不同的信号变换,以实现原始信号不同维度细微特征的提取,丰富信号特征数据集的多样性。将信号变换后的特征矩阵表示为三维张量,为了充分利用深度神经网络对二维图像特征提取的优势,选取合适的视角得到二维投影。本文研究了基于多特征融合的双阶段识别分类方法,先利用不同的神经网络对不同的图像特征集分别进行学习和初始分类得到概率表示的特征向量,之后对初始分类的特征向量进行融合学习,得到最终的分类结果。
此外,针对深度学习数据量不足的问题,本文利用改进的辅助分类器(AC,auxiliary classifier)生成对抗网络(GAN,generative adversarial network),对不同的图像特征集进行学习并扩充增强数据集以满足训练需求。基于实测数据集对所提方法进行验证,结果表明该方法相比其他方法具有更高的识别准确率,在低信噪比下仍有较好的表现。
2 基于多通道变换的特征提取与数据增强
SEI 问题本质上是一个信号分类问题,将接收机采集的无线通信信号输入系统,最终得到这个信号的分类结果。所提出的SEI 多特征融合分类方法主要包括4 个部分:多特征提取、数据扩充和增强、初级分类、集成融合,整体流程如图1 所示。
首先,对信号进行多特征提取得到多种不同的特征图像,并在模型的训练阶段使用GAN 对图像特征集进行扩充,进而训练分类器。在识别阶段,直接将特征图像送入分类器,分类器设计包括初级分类器和次级分类器两级结构,采用集成融合学习算法将多种初级分类器的识别结果进行再学习,通过次级分类器得到最终识别结果。
考虑系统内共有K个辐射源信号发射器,接收机接收来自K个发射机发出的理论上相同的信号。接收机接收到的通信辐射源信号可以表示为
算法1K个辐射源信号的特征提取与数据增强
特征提取
输入对于每个类别的辐射源,输入时域信号sk(t)的切片样本,每1 000 个点作为一个信号样本,每个类别的辐射源信号共n个样本,共有K个辐射源
输出对于每个类别的辐射源,输出3 个二维特征图像数据集,每个数据集有n张图像,共有K个辐射源
1)一共n个样本
2)对每个输入样本进行离散小波变换得到小波系数特征矩阵,并表示为三维图像形式
3)取投影视角(90,0,0)得到二维小波特征图像
4)进行双谱变换得到双谱系数特征矩阵,并表示为三维图像形式
5)取投影视角(−45,0,0)得到二维双谱特征图像
6)进行希尔伯特−黄变换得到HHT 系数特征矩阵,并表示为三维图像形式
7)取投影视角(90,0,0)得到二维HHT 特征图像
8)重复步骤1)~步骤7)K次,每个类别的辐射源信号都得到3 个二维特征图像数据集,每个数据集有n张图像
数据增强
输入每次输入一个特征投影图像数据集,包含Kn张图像,共3 个特征投影图像数据集(小波、双谱、HHT)
输出每次输出一个增强的数据集,最终输出3 个特征图像数据集,每个数据集包含K(m+n)张图像
1)对每个输入的特征投影图像数据集
2)将图像输入AC-GAN 训练至收敛
3)得到m张模拟特征图像作为补充数据集
4)扩充数据集与原始数据集共同构成增强数据集
5)得到3 个增强图像数据集(小波、双谱、HHT),每个数据集包含K(m+n)张图像
2.1 基于多通道变换投影的特征提取
单一的信号特征很难准确表示辐射源信号之间的差别,而过多的特征融合可能会影响模型性能。因此选取小波变换、双谱变换、HHT 这3 种有代表性并被证明有效的信号处理方法提取3 种不同的信号变换域特征,小波变换是时间(空间)频率的局部化分析,更能关注信号的区域性信息[25];双谱变换可以更多地关注信号的相位信息,同时可以用来描述信号的不对称程度和非线性程度[21];HHT理论上最适合处理非线性非平稳信号,且更能关注一些突变信号的细微特征,提供有关信号的非线性和非平稳特性的大量信息[18]。以上3 种特征可以从不同维度利用各自的优势,丰富信号特征数据集的多样性。二维图像更有利于深度学习和分类,因此,本文设计一种变换投影的方法对信号变换后的三维特征图像选取合适的视角进行投影,进而将其表示为二维特征图像。
2.1.1 基于小波的特征提取
小波变换(WT,wavelet transform)通过对时间(空间)频率进行局部化分析[25],能够凸显信号区域性的细微特征,在个体识别领域有着独特的优势。Morlet 小波为复值小波,在时域和频域都有很好的聚集性,本文采集的实测数据均为复信号,因此选取Morlet 小波作为基小波函数用于时频分析。
利用尺度参数scale 来衡量小波的频率f,两者之间的转换关系为
其中,Fs为信号的采样频率,Fc为小波的中心频率。为使小波尺度图的频率范围为(0,Fs/2),尺度范围应为(2Fc,+∞)。实际中,尺度应为等差数列形式,即scale=2Fc,…,2Fctotalscale,其中totalscale是预先设定好对信号进行小波变换时所用尺度序列的长度。完成参数设定后,小波变换的过程可以表示为
其中,sk(t)为原始时间信号;为小波基函数,具有平移和伸缩特性;scale 为尺度参数,控制小波函数的伸缩;τ为平移参数,控制小波函数的平移。尺度对应于频率,平移量τ对应于时间。用表示得到的频率−时间−小波系数矩阵,三维图像如图2(a)所示。
2.1.2 基于双谱的特征提取
双谱的物理定义可以近似为信号偏态在频域上的分解,用来描述信号的不对称性和非线性程度,测量信号偏离高斯分布的程度。在实际通信过程中,辐射源个体的一些细微特征更多以非平稳、非线性、非高斯的形式附加在信号中,例如由于发射系统中使用的电路和设备的不同而产生的不同的发射端噪声,可以作为区分辐射源信号的指纹特征。接收系统中大量散射体和热噪声形成的杂波呈高斯分布,通过双谱变换,可以有效地抑制一定数量的高斯噪声,使发射机噪声充分反映在双谱信息中。双谱定义为
2.1.3 基于HHT 的特征提取
HHT 相比傅里叶变换和小波变换这类传统方法,彻底摆脱了线性和平稳性束缚,更适用于分析非线性非平稳信号[20]。为了使瞬时频率具有明显的物理意义,HHT 首先需要进行经验模态分解,也通常被称为一个筛选过程,依据信号特点自适应地把任意一个复杂信号分解为一系列本征模态函数(IMF,intrinsic mode function)[18]。这个过程可以表示为
原始输入信号sk(t)被表示成一系列IMF 分量ci(t)和一个残余项rn(t)的组合。之后对每个IMF 分量进行希尔伯特变换来提供时频分布
构造解析函数
其中,ai(t)、ϕi(t)和ωi(t)分别表示瞬时振幅、相位和频率,计算式分别为
进而希尔伯特谱可以表示为
2.1.4 信号特征表示
图2 信号变换生成的特征图像
原始信号经过3 种变换得到了三维特征矩阵,为了更好地表示特征并利于后续进行深度学习,将三维特征矩阵取投影生成二维特征图像。同一类别的不同辐射源信号样本是基于同一信号的不同时间切片生成的,而不同时间切片的信号差异可能会影响同类信号样本的相似度。因此对于小波和希尔伯特时频特征矩阵,取投影视角(90,0,0)表示投影角度为90°将三维图像投影在YZ平面上,淡化时间维度的影响,更加突出频率和系数的关系,这样更能保证同类信号样本之间的相似度。对于双谱三维特征矩阵,双谱在2 个频率主轴形成的平面上其第一、三象限包含的内容较多,根据双谱的对称性,投影视角(−45,0,0)包含三维双谱图像的轮廓、纹理特征最多,且完全对称,是对2 个频率主轴形成的平面上第一、三象限内容的完全体现,因此选用投影视角(−45,0,0)表征的双谱特征最完备[27]。
最终得到3 种特征的二维投影图像Iik,分别如图2(b)、图2(d)和图2(f)所示。
2.2 基于AC-GAN 的数据增强扩充
后续用于识别的初级分类器使用深度残差网络,网络层数和参数较多,因此在模型的训练阶段需要大量的数据提供给网络学习,受限于信号接收采集的时间长度等因素,原始数据量难以满足训练需求。
因此,所提方法使用AC-GAN 来进行数据增强,通过这种方式能够实现基于有限样本的数据扩充,生成和实测数据具有相似分布与特征的大量训练数据,从而为后级分类识别提供支撑。增强后的数据集可表示为Di´。传统GAN 只能生成单一类别的图像,AC-GAN 将类别标签作为条件信息和噪声一起放入生成器后生成样本,判别器在判断输入样本是否为真的同时,利用辅助分类器来判断输入样本的所属类别,因此AC-GAN 可以生成不同类别的图像。使用3 个AC-GAN 对3 种投影图像数据集进行扩充。AC-GAN 的结构和工作流程如图3 所示。
图3 AC-GAN 的结构和工作流程
生成器有2 个输入,一个是投影图像所属的辐射源类别标签k,k=0,…,K−1;另一个是随机噪声数据,用于生成模拟的投影图像Ifake。网络可以自动学习3种不同投影图像的内在特征,进而生成对应的模拟投影图像。判别器分别给出图像(真假)的概率分布P(S|I)以及分类标签的概率分布P(K|I)。
AC-GAN 的目标函数包含2 个部分。第一部分是面向输入的投影图像真实与否的代价函数LS
第二部分是对输入的投影图像分类准确性的代价函数LK
在优化过程中,希望判别器能够尽可能地区分原始真实的投影图像和模拟的投影图像,并且能有效分类,即令LS+LK尽可能地最大。另外希望生成器生成的模拟投影图像被尽可能认为是真实的,即令LK−LS尽可能地最大。迭代数次后,判别器对生成器生成的模拟投影图像识别准确率趋于稳定,模拟的投影图像已经可以满足数据要求,此时生成器生成的模拟投影图像构成补充数据集,与原始数据集一起构成扩充后的增强数据集。
3 多特征融合双阶段分类识别
通过多特征提取与增强步骤,基于小波变换、双谱变换和HHT 分别获取了原始辐射源信号的某个方面的特征,并将信号特征转换为了二维图像。基于AC-GAN 进一步实现了数据集的增强。基于增强后的特征数据集,在分类识别阶段采用双阶段分类识别方法,融合多种特征识别结果以提升SEI 的准确率。
算法2模型训练和分类识别
模型训练
输入每次输入一个增强图像数据集,一共3个增强图像数据集
输出每次输出对每张图像的预测结果,用于训练反馈
1)将小波特征数据集输入残差网络1 进行训练,输出初始分类结果Pcwt,并保存模型参数
2)将双谱特征数据集输入残差网络2 进行训练,输出初始分类结果Pbis,并保存模型参数
3)将HHT 特征数据集输入残差网络3 进行训练,输出初始分类结果Phht,并保存模型参数
4)将Pcwt、Pbis和Phht输入次级分类器进行训练,保存模型参数
分类识别
输入每次输入待识别信号的一张特征图像,一共3 张特征图像
输出每次输出对待识别信号的最终分类预测结果Pfinal
1)将待识别信号的小波特征图像输入残差网络1 输出初始预测结果Pcwt
2)将待识别信号的双谱特征图像输入残差网络2 输出初始预测结果Pbis
3)将待识别信号的HHT 特征图像输入残差网络3 输出初始预测结果Phht
4)将Pcwt、Pbis和Phht输入次级分类器进行最终识别,输出最终分类预测结果Pfinal
3.1 基于残差网络的初级分类
把原始信号特征转化为二维图像表征,分类器实现方面选用了当前在图像分类领域较成熟的深度学习模型ResNet18,残差网络ResNet因其高效和易优化而被广泛利用在深度学习的研究中[28],网络的参数经过公开数据集ImageNet 预训练,这样不仅可以进一步避免过拟合等问题,还充分利用了网络中已有的参数,使网络具有更好的适应性。更改网络的全连接层,将输出类别更改为K个,输入增强数据集D′j训练网络全连接层的权重,完成训练保存完整模型。在用网络进行SEI识别时,将图像Iik输入网络,网络的输出是Softmax 层输出的各个类别概率,可以表示为Pi=[p0,p1,…,pk]。3 个网络输出的预测分别为Pcwt、Pbis和Phht。
3.2 基于集成融合的次级分类
次级分类器需要完成最终的分类,使用集成学习中的Stacking 方法,将3 个神经网络分类器的初级分类结果进行融合,即使某一个初级分类器预测错误,也能通过另外2 个分类器将错误纠正回来,最大化整体模型的分类能力。为了降低模型整体过拟合的风险,次级学习器选择结构相对简单的线性回归模型(LRM,linear regression model),降低模型的整体复杂度,减少计算开支。
3 个初级分类器基于完整的训练集进行训练,为了防止过拟合,每一个初级分类器需要通过5 折交叉检验的方式进行训练。将训练集样本随机分为5 份,每折训练取其中4 份对一个初级分类器进行训练,取剩下的一份数据进行预测分类,保留分类结果。同时也对测试集所有样本进行分类,直到5 份训练集样本都被分类,得到该残差网络对所有训练集样本的分类结果,此时测试集样本被分类了5 次,最终对分类结果取平均值。训练集和测试集的使用流程如图4 所示。
训练集和测试集中每个样本的分类结果都表示为Pi=[p0,p1,…,pk]。将3 个初级分类器对原训练集的分类结果整合在一起,用作次级分类器的训练样本,而测试集的分类结果用作新的测试样本对次级分类器进行测试。对同一个样本,3 个初级分类器有3 个分类结果,次级分类器分配这3 个结果的权重以进行取舍,得到最终分类结果为Pfinal。
4 实验测试和结果分析
4.1 实验环境配置和数据准备
为了验证所提SEI 框架和方法的可行性,并使应用场景更符合实际,本文选用了5 个型号为Tenda U6的USB 无线网卡作为辐射源发射器。将无线网卡安装在电脑主机作为信号发射端,工作频率为2.462 GHz,带宽为40 MHz,最大发射功率为20 dBmW,均使用IEEE 802.11b 协议。接收机使用NI-PXI8106机柜和NI 矢量信号分析仪连接天线,固定于接收端15 cm 处采集无线网卡信号,采集的信号为I/Q 双路复信号,信号采样率为100 MSPS(million sample per second)。为了对比模型在不同信噪比(SNR,signal-to-noise ratio)下的性能,对原始信号加入高斯白噪声模拟噪声环境,得到5~25 dB 每隔5 dB 的不同SNR 条件下的无线网卡信号采样数据。
将每1 000 个点的信号采样数据作为一个辐射源信号样本,最终识别准确率定义为用于测试的正确分类的样本数量在整体测试样本数量中的占比。
实验在MATLAB 环境进行信号处理工作,深度学习环境为Python3.6+Pytorch1.0。
4.2 实验结果分析
4.2.1 多层融合分类方法的整体表现
首先对整个多层融合框架的性能表现进行测试。选取一种单一特征提取方法[19]、2 种多特征提取方法[4,23]与本文方法进行对比。文献[19]作为对比方法1 仅采用HHT 方法进行识别。与本文方法类似,文献[4]同样使用多特征提取思想,提取信号的能量分布信息、分形特征和双谱特征等多种杂散特征,并利用SVM 进行分类,以此作为对比方法2。文献[23]利用PCA 算法对样本进行降维,实现特征提取,然后利用K 近邻、随机森林和神经网络构建混合分类模型,同样使用多分类器融合的设计,以此作为对比方法3。结果如表1 和图5 所示。
图4 训练集和测试集的使用流程
可以看出,本文方法的最终识别率最高,在识别准确率和抗噪表现上都优于其他方法。对比方法1使用单一特征提取算法HHT,整体表现不如融合模型;对比方法2 虽然同样使用多特征提取,时域方法在特征的选择上具有局限性,且其分类器使用SVM 的分类效果弱于深度神经网络对图像的分类效果;对比方法3 虽然使用了多分类器集成,但使用PCA 方法降维并未充分提取表示信号差别的细微特征,整体表现不佳。本文方法使用基于变换域的多特征提取,并使用深度神经网络集成识别特征图像的方法,具有更好的性能表现。
表1 实测不同方法的辐射源识别准确率
图5 不同方法在不同信噪比下的识别效果对比
4.2.2 使用AC-GAN 扩充数据的影响
比较使用AC-GAN 进行不同比例的数据扩充的最终识别准确率,按扩充数据占原始数据的比例为0~90%进行对比试验,结果如图6 所示。从图6可以看出,当数据扩充比例为50%时,模型的识别精度不再随着数据扩充比例的增加而明显提高,而是逐渐趋于稳定。使用AC-GAN 扩充数据集的模型在抗噪表现和识别准确率都表现更好,特别是在高信噪比的情况下,模型整体识别效果有显著提升,说明使用AC-GAN 对数据集进行增强,能够提升整体识别准确率,从而改善数据量不充足条件下模型整体识别率不高的问题。
图6 模型使用AC-GAN 进行不同比例的数据扩充的最终识别准确率
4.2.3 衰落信道对信号识别的影响
本节使用室外典型场景多径衰落信道模型对辐射源信号进行了处理,选用瑞利衰落信道模型,将辐射源产生的信号通过多径传播模型以模拟其在室外场景下的传播特性[29]。由图7 可以看出,衰落信道环境对辐射源识别效果产生了负面影响,但模型仍可较好地完成分类识别任务,即使是在瑞利衰落信道这种相对恶劣的信道环境下,本文方法在20 dB 信噪比条件下的识别准确率也有80%以上,相比其他对比方法,本文方法有明显的优势。通过上述结果表明,本文方法能够适用于复杂无线信道环境的应用。
5 结束语
本文提出了一种基于多特征提取、集成融合学习和生成对抗网络的通信辐射源融合分类识别方法。通过对原始信号进行小波变换、双谱变换、HHT 等信号变换处理,得到3 种可反映信号细微特征的系数矩阵,对系数矩阵的三维图像进行二维投影以得到特征图像数据集,并采用AC-GAN对图像数据集进行增强。此外,本文设计了一种多特征融合双阶段分类识别方法,利用多个残差网络对不同图像特征集分别进行训练学习,得到初始分类结果,并通过融合得到最终分类结果。结果表明,相对于其他相关的SEI 方法,本文方法在不同信噪比下的平均识别率较高,即使在低信噪比条件下也有较好的表现。通过引入基于AC-GAN 的数据增强机制,能够提升整体识别准确率,改善数据量不足而影响识别效果的问题。
图7 在衰落信道环境下辐射源信号的识别效果对比