基于持续学习和联合特征提取的特定辐射源识别
2023-02-18张立民谭凯文闫文君张婷婷
张立民 谭凯文 闫文君 张婷婷 汤 淼
(海军航空大学信息融合研究所 烟台 264001)
1 引言
特定辐射源识别(Specific Emitter Identification, SEI)是指利用硬件设备物理层的固有缺陷对单个发射机进行识别的技术[1],广泛应用于频谱管控[2]、认知无线电[3]和自组织网络[4]等领域。在真实信道中,截获信号附加的非线性失真往往不可复制,因此采用射频指纹(Radio Frequency Fingerprint, RFF)特性确定设备标签的方案是可行的。基于RFF提取的有监督SEI往往分为两个阶段:第1阶段为基于暂态信号[5,6]或稳态信号的特征提取,第2阶段为构建分类器对前段特征进行训练和判别。暂态信号主要在设备状态突变的瞬间产生,特征区分明显。Ureten等人[7]提出贝叶斯瞬态检测器(Bayesian Transient Detector, BTD),对接收信号的功率增加点进行估计,实现对多个Wi-Fi信号源的匹配;Guo等人[8]利用分形维数(Fractal Dimension, FD)、熵和峰度等特征组合对瞬态信号进行描述。
但暂态信号持续时间较短,截获难度大,因此瞬态检测在实际应用中面临各种挑战。基于稳态信号的SEI技术已经在各种无线通信场景中得到应用[9,10]。Hilbert变换已经被证明是一类有效的非线性、非平稳信号分析方法[11-13]:Yuan等人[11]提取Hilbert-Huang变换后的时频能量分布,采用支持向量机(Support Vector Machines, SVM)完成分类;Zhang等人[12]提出基于能量熵(Energy Entropy,EE)和Hilbert谱分析的SEI算法,并利用相关系数和Fisher判别系数对类Hilbert谱进行分离,验证了其在单跳和中继场景下的识别性能; Pan等人[14]将Hilbert 2维光谱作为信号表征,送入深度残差网络(Deep Residual Network, DRN)提取视觉特征,在利用泰勒级数描述功放失真的仿真数据集上效果良好;文献[13]对接收信号进行变分模态分解(Variational Mode Decomposition, VMD)得到不同的光谱特征,有效解决模态混叠问题;在文献[15]中,VMD被用于将蓝牙信号分解为带限模态分量,得到的模态分量经过重构后送入线性SVM进行分类。此外,Sa等人[16]将功率谱密度(Power Spectral Density, PSD)和相邻功率比(Adjacent Channel Power Ratio, ACPR)作为RFF并利用主成分分析(Principal Component Analysis, PCA)对其进行降维;Sun等人[17]从前导信号中提取基于多维近似熵(Multi-dimension Approximate Entropy, MAE)的非线性动态特征,降低调制信息对于分类的影响;秦鑫等人[18]从观测信号中提取无意调相特征(Unintentional Phase Modulation On Pulse, UPMOP),利用贝塞尔曲线拟合后送入长短期神经网络(Long-Short Term Memory, LSTM)进行识别;Wang等人[19]提出了一种包含统计特征、载波频率和小波包变换的指纹特征提取方法,并设计基于网格搜索的SVM用于分类;韩洁等人[20]利用分形理论提取差分盒维数和多重分形维数,构建基于3D-Hibert 能量谱的特征向量进行识别;Qian等人[21]提出了一种基于多层次稀疏表示(Multi-Level Sparse Representation, MLSR)的SEI方法,从信号中提取深层和浅层特征,实现了对于船舶自动识别系统(Automatic Identification System, AIS)的识别;Ren等人[22]使用短时傅里叶变换(Short Time Fourier Transform, STFT)对信号进行特征预处理,利用稀疏自动编码器对特征进行无监督聚类,但其时频分辨率的矛盾始终难以克服。
近年来,随着4G和5G通信技术的发展,用户访问次数和接入基站数量迅速增加,通过无线信道传输的数据量级迅速增长,因此基于数据驱动建模的深度学习(Deep Learning, DL)方案广泛应用于SEI[23-26]。DL的优势在于能够从大量数据中自动提取有用的信息表示,充分挖掘样本分布的潜在规律。Wang等人[23]提出一种基于网络压缩的I/Q信号SEI算法,将稀疏正则化、量化掩模和近端梯度结构嵌入到复值神经网络(Complex-Valued Neural Networks, CVNN)中,并利用知识蒸馏改善网络性能;Yu等人[24]针对Zigbee设备设计了一种补偿参数提取算法,根据信噪比自适应选择接收信号中的有效区域并输入多采样卷积神经网络(Multi-Sampling Convolutional Neural Network, MSCNN)进行识别;Wu等人[25]将LSTM嵌入循环神经网络(Recurrent Neural Network, RNN)完成对于发射机的特性识别,在低信噪比下仍能保证良好的识别精度;文献[26]利用神经网络融合经验模态分解(Empirical Mode Decomposition, EMD)、固有时间尺度分解(Intrinsic Timescale Decomposition, ITD)和VMD的偏度和峰度值,利用多个接收机完成分集。但现有基于DL的SEI模型通常在样本充足、标签完整的数据集上建立,而在实际的非合作通信场景当中,样本规模往往有限;而且数据库处于动态更新当中,但DL模型的训练大多是基于现有训练集的单次学习,其参数自更新能力较差。基于此,本文提出一种极限学习机和在线训练相结合的SEI算法,设计多个连续增量深度极限学习机(Continuous Incremental Deep Extreme Learning Machine,CIDELM)作为分类器,提取来自同段样本的两类RFF进行联合判别,并利用投票算法融合分类结果。在RFF的选择上,将接收信号经过VMD后得到的Hilbert时频能量谱进行投影降维,并转化为灰度向量;利用高阶谱分析提高原始样本的可分离度,弥补单特征提取的不足。实验结果表明,本文所提算法在少量样本下的识别精度依然较高,能够有效满足数据库动态更新要求,在基于通用软件无线电外设(Universal Software Radio Peripheral, USRP)平台采集的数据集中表现出良好的识别效果。
2 基于联合特征提取的SEI框架
典型的SEI步骤是将预处理后的信号进行特征提取后送入分类器进行识别,图1给出了基于联合特征提取的SEI框架。本文将VMD处理后的Hilbert谱和降维后的高阶谱作为组合特征,目的在于弥补单一RFF提取的不足。利用来自K个辐射源的连续数据流训练多个改进的深度极限学习机,并使用投票算法融合单个模型输出,选取置信度最高的预测类作为最终的识别结果。
图1 基于联合特征提取的SEI框架
2.1 变分模态分解
变分模态分解[27]是利用本征模态函数分量对原始信号进行重构,将原始信号分解为具有稀疏特性的固有模态函数(Intrinsic Mode Functions, IMF),能够有效抑制EMD产生的端点效应和模态混淆现象。变分模态分解将原始信号分解为若干AM-FM信号
其中, R{·}表示实部。本文将经过投影的VMDHilbert光谱图转化为灰度图像,则光谱图内的第(i,j)个 时频点的能量值H(i,j)可以转化为相应的灰度值G(i,j)
其中,ℓ表示灰度图的位数,·」表示向下取整。本文将基于灰度图像的统计特性作为RFF,构造灰度直方图反映图像中各灰度级像素点出现的频率和灰度级关系,从而将VMD-Hilbert光谱中的时频能量的分布情况映射到2维坐标系内。图2为采集的USRP-2922信号VMD-Hilbert谱及其时频域投影。
图2 VMD处理后的3D-Hilbert谱及时频域投影
2.2 高阶谱向量
3 基于IDELM的样本持续学习
3.1 极限学习机
极限学习机(Extreme Learning Machine,ELM)[28]通常只有一个隐含层,它随机生成输入权重和隐节点参数,而输出权重则由解析计算广义逆矩阵求出。ELM通过单步最小二乘误差(Least Squares Error, LSE)确定最优解,具有L个隐节点的ELM表示为
其中
3.2 基于连续增量DELM的特征分选
考虑在现实场景中,辐射源信号通常是连续的动态数据流,因此本文在深度极限学习机的基础上引入持续学习机制,设计连续增量深度极限学习机(CIDELM),按照样本的输入次序对DELM的参数进行更新。CIDELM的训练分为两个阶段,一是隐含层的无监督特征表示,二是输出层的有监督标签分类[29]。在第1阶段中,将多个前馈隐含层串联作为自编码器对输入样本进行稀疏表示[29],优化隐含网络的权重;第2阶段利用单层ELM进行监督回归,输出分类结果。CIDELM通过堆叠隐含层获得深度结构从而提高泛化能力,且连续增加的隐含层能够产生函数序列,理论上能够以任意精度逼近目标函数。
图3 DELM结构
4 实验结果与分析
4.1 实验条件
本节在基于GNU Radio的USRP上进行信号的采集,通过改变收发距离、调制方式和载波频率对算法的鲁棒性进行验证。信号在实验室的真实信道中传输,样式为I/Q双路。6台同一批次生产的USRP-2922作为发射机,1台USRP-B210作为接收设备。信号调制方式选择BPSK和BFSK,载波频率设置为500 MHz和1 GHz,带宽为100 kHz。每一调制方式、每一载频下采样点数为106, USRP-B210的降采样率为1 MHz,采用k折验证法将样本随机划分为训练集和测试集,RFF提取的变换点数设置为1000。
4.2 单特征CIDELM参数寻优
CIDELM的识别性能受初始权重、初始偏置、隐含层数及隐节点数量影响,而模型的初始权重和初始偏置通常随机生成。首先采取参数寻优策略对隐含层个数和隐节点数量进行调整,以获得性能最佳的参数组合[30]。图4给出了两类超参数对于双谱特征识别性能的影响,其中输入和输出隐含层节点个数设置为2000。
从图4可知,在辐射源数量发生改变时,基于CIDELM的高阶谱分析方法能够通过对2维参数的匹配寻优达到较高的准确率。K=3时最佳识别率达到97%,K=4时最佳识别率达到94%,K=5时最佳识别率达到91%,K=6时最佳识别率达到88%。当CIDELM隐含层数为2~4时,隐节点个数为500和1000时表现出较高的识别准确率,这是因为该情况下的隐含层模型较为紧凑,对于输入特征的层稀疏编码效果更好,而隐含层和隐节点数量的增加会提高输出矩阵不满秩的概率,导致MP逆矩阵误差的逐层积累。
图4 高阶谱分析-CIDELM识别性能
图5给出了基于VMD谱灰度向量的识别结果,由图可知,利用CIDELM识别VMD谱灰度向量的准确率能达到91%以上。通过设置合适隐节点和隐含权值的连接,CIDELM能够将信号的特征表示映射到高维空间中,实现对于目标函数的快速逼近。
图5 VMD谱灰度向量-CIDELM识别性能
4.3 基于集成CIDELM的联合特征判别
CIDELM随机生成的初始参数往往会影响模型的可靠性,为此本文构建集成CIDELM,将有限数量的同类网络结构的输出结果进行组合[31]。通过同步训练的方式将来自同一信号样本的两类RFF分别送入CIDELM进行训练,并利用多数投票算法(Boyer-Moore Algorithm, BMA)对每个CIDELM的结果进行投票,判决结果为得票超过半数的辐射源类别。图6给出了CIDELM对于不同参数组合的识别性能。随着收发距离的增加,识别性能发生缓慢下降,这是由于真实信道中的信号传输存在衰减,发射增益较低,因此其传输受信道噪声影响。
图6 识别性能随收发距离变化曲线
选取方法1[13]、方法2[14]和方法3[17]与本文方法进行对比。其中,方法1选择HHT时间熵作为RFF,利用KNN进行分类;方法2选择Hilbert谱作为RFF,利用DRN进行分类;方法3利用PCA算法对信号的MAE进行降维映射。对比结果如图7所示,辐射源个数设置为6个。由此可知,基于联合特征提取的CIDELM对于在真实场景下对于USRP具有更好的识别性能,平均识别准确率高出现有SEI方法2%~4%。
图7 不同方法识别效果对比
4.4 算法计算复杂度分析
算法的计算量主要来自前端双模RFF提取以及CIDELM迭代训练时产生的计算复杂度,选取平均迭代时间和识别时间对时间复杂度进行衡量。实验计算机的操作系统CPU 为 Intel(R) core(TM)i7-9750H,运行内存大小为 16 GB, GPU为NVIDIA GeForce RTX 3080,表1给出了算法的时间复杂度分析。
从表1中可以看出,本文所提基于在线增量学习的SEI方法具有较快的迭代速度和较短的识别时间。由于无需依赖梯度的反向传播以更新全局参数,因此基于CIDELM的分类方法具有较高的实时性。
表1 算法时间复杂度分析
5 结论
针对样本的动态更新导致模型训练代价较大的问题,本文提出一种基于双特征分选和连续增量学习的SEI方法。从待识别信号中构建VMD谱灰度直方向量和双谱矩阵对角值作为RFF,采用CIDELM对样本进行动态权值更新,实现对多批次样本的监督识别。实验结果表明,本文所提算法能够实现对于6台USRP的在线实时识别,识别准确率能够满足实际需求,且不受调制方式和载频影响,鲁棒性较强。