APP下载

基于知识原型网络的小样本多功能雷达工作模式识别

2022-07-02金秋园

电子学报 2022年6期
关键词:先验原型向量

利 强,张 伟,金秋园,姚 欣

(1. 电子科技大学信息与通信工程学院,四川成都 611731;2. 鹏城实验室,广东深圳 518055;3. 电子信息控制重点实验室,四川成都 610036)

1 引言

随着电磁领域技术的发展,电子对抗技术已逐步成为现代战争的核心技术之一,其中多功能雷达(Mul⁃tifunction Radar,MFR)工作模式的识别是电子对抗技术中的重要组成部分. 通过对接收机截获到的雷达信号进行处理,挖掘信号规律、识别雷达工作模式是后续进行雷达行为意图推理、威胁评估、决策干扰的基础.能否对MFR 工作模式进行准确识别是雷达对抗成功与否的关键[1]. 针对该问题,主流识别方法可以分为有监督识别[2~7]和无监督识别[8~11]两类. 基于监督学习,文献[2]通过构造脉内、脉间特征矩阵,再利用证据理论并结合雷达信号特征库实现雷达工作模式的识别;文献[3]使用基于特征提取的模式识别算法,通过提取雷达脉冲组的特征,使用神经网络对信号特征进行识别,并对不同时刻的识别结果进行融合决策;文献[4]将不同的工作模式建模为有限状态机的隐藏序列,以信号参数和目标信息作为观测序列构建隐马尔可夫模型(Hidden Markov Model,HMM),利用HMM 求解算法进行训练,实现工作模式识别;文献[5,6]将雷达在不同工作模式下的信号建模为具有一定语法规则的语言,通过借鉴句法模式识别原理,提出基于多级匹配和有限状态机的雷达工作模式推理方法;文献[7]使用了基于时频分析和扩张残差网络的识别算法,将雷达时域波形信号转换成二维时频图像,构建扩张残差网络以提取雷达信号的时频特征并完成分类识别. 基于无监督学习的雷达工作模式识别,文献[8]使用基于序列比对的模式识别算法完成搜索工作模式的规律重建;文献[9]使用基于包络分析的模式识别算法,根据机载火控雷达不同工作状态的信号特点,提出一种具有工程意义的包络分析法,实现对雷达工作模式的识别和对编队飞机的识别;文献[10]将HMM 模型替换为预测状态表示模型,利用预测状态表示模型的相关算法完成对模型的训练,实现对雷达工作模式的识别;文献[11]使用了基于数据增强和加权辅助分类生成对抗网络的识别算法,利用时间镜像数据增强方法扩充样本数据集,结合加权辅助分类生成对抗网络来优化判别器,提高判别器的识别效果和识别稳定程度. 总体而言,基于无监督学习的雷达工作模式识别研究较有监督学习模式少,且算法局限性较大. 但是,后者要取得较好识别性能通常需要大量带标注的数据样本来训练识别模型. 但在实际中,由于MFR 工作模式的多样性、隐藏性,实际能够获取到的不同工作模式的样本数可能是极其有限的,现有基于大样本的算法难以直接应用于小样本场景下的工作模式识别[12].

另外,由于雷达工作模式设计与其功能应用息息相关,遵循一定设计准则,且同一系列雷达的前后代不同型号间在工作模式上往往存在相似性和继承性,因此根据对雷达的长期监测和资料情报积累,对不同平台搭载的雷达的工作模式往往具有一定程度的先验知识. 将前期积累的相关先验知识与侦收的数据相结合,将有助于提升MFR 工作模式的识别准确率,尤其是在数据样本不足的场景. 基于以上想法,本文提出数据和知识联合驱动的模式识别算法. 通过将先验知识嵌入网络模型训练之中,减轻模型对训练数据“量”的依赖,实现小样本条件下雷达工作模式的准确识别. 实验结果表明,融入了先验知识的原型网络较不使用先验知识的原型网络识别性能有较大提升. 本文的主要创新点和贡献包含以下3点.

(1)提出了一种向量化编码映射方法,实现对MFR工作模式先验知识的映射表征. 通过对雷达脉冲描述字中各参数的变化范围和规律进行编码训练获得工作模式先验知识信息的高效表征.

(2)提出了一种融合先验知识和原型网络的小样本MFR 工作模式识别方法. 结合雷达工作模式先验知识的高维表征,改进原型网络的度量函数,实现先验知识与样本数据在高维特征空间中的融合,使得不同工作模式的特征具有更好的类内聚合性和类间区分性.

(3)对8 款雷达55 种工作模式进行仿真测试,结果表明融入了先验知识的原型网络与不使用先验知识的原型网络、SVM 分类器相比,识别准确率分别提升了2.9%和10.5%,初步验证了方法的可行性和有效性.

2 基于原型网络的小样本雷达工作模式识别

早在2017 年,Snell 等人就提出原型网络结构来解决小样本场景下的学习问题[13]. 其核心是通过度量学习将数据映射到高维特征空间,使得类内样本在高维空间中尽可能聚集,同时类间样本尽可能远离. 在识别过程中,以待测样本在高维特征空间中的特征向量与各原型中心之间的距离差值为依据实现分类. 针对多功能雷达工作模式识别,其原型网络架构如图1所示.

图1 基于原型网络的雷达工作模式识别架构

2.1 雷达脉冲数据预处理

本文考虑将MFR 不同工作模式下的脉冲重复间隔(PRI)、载波频率(RF)和脉冲宽度(PW)这3 个维度的数据作为输入. 首先,对脉冲到达时间(TOA)进行逐差转换为脉冲重复间隔(PRI),并参考小样本图片分类方法[14,15],将脉冲数据的3 个维度看作图片样本的3 个通道,通道上的数值对应脉冲数据各维度上的参数值. 然后,对一帧脉冲数据进行预处理,转化为三通道的图片样本,并按照通道进行归一化后作为原型网络的输入.在实现过程中,使用多层卷积神经网络提取脉冲数据特征. 在原型神经网络结构中,记fθ为原型网络的映射函数,那么图像样本x输入到原型网络后映射为高维空间中的特征向量z的过程则可表示为

其中,H,W表示原型网络输入图片样本的高度和宽度;C表示图片样本的通道数;D表示原型网络输出特征向量的维度;θ表示原型网络参数. 关于实验中原型神经网络的具体结构将在第3节中详细说明.

2.2 原型类中心

在小样本MFR 工作模式识别过程中,使用多层卷积层作为原型网络的特征提取器,将支撑集中的雷达脉冲数据样本映射为高维特征向量,并按类别计算高维特征向量的均值获得原型中心向量,具体的计算过程为

其中,Xk表示类别k的支撑集;Nk表示支撑集中第k类工作模式的训练样本量.

2.3 损失函数与原型网络训练

其中,T表示训练样本总量. 迭代训练过程中使用Adam随机梯度下降和反向传播更新原型网络参数θ,以最小化原型网络的损失,即最大化网络分类识别的准确率.当网络收敛时,同类样本经过原型网络的映射函数fθ输出的特征向量在高维空间中聚成一簇,不同类别对应的簇间距离较远. 完成训练后,输入待分类雷达脉冲数据x̂,经过网络映射为fθ(x̂),按照式(3)计算分类概率,选择最大概率对应的类别作为分类结果.

3 融合先验知识的小样本雷达工作模式识别

本节给出一种在原型网络中融合先验知识的MFR模式识别方法,其主要原理如图2所示.

图2 知识原型网络原理

第一阶段,采用前一节所述方法,预训练原型网络,记录网络输出的不同工作模式所对应的原型中心向量. 第二阶段,按照3.1 节定义编码方法对先验知识进行编码,并连同第一阶段获得的原型网络中心向量作为标签,一同送入中心网络进行训练,当中心网络收敛时将输出的向量定义为预中心向量. 第三阶段,以罚函数形式将第二阶段得到的预中心向量与网络Loss 函数相结合,重新训练原型网络,完成先验知识与数据的深层融合.

测试阶段,将待分类PDW 数据送入已训练的知识原型网络,实现对小样本雷达工作模式的识别. 本文所提出的知识原型网络模型框架如图3所示,下面从先验知识编码、先验知识映射和先验知识融合这3个方面对知识原型网络的原理进行详细阐述.

图3 知识原型网络框架

3.1 先验知识编码

对于已知雷达,根据对抗经验以及掌握的情报知识,能够(大致)获知不同工作模式下PDW 的各维度特征的变化规律,因此可以将PDW 各参数变化范围和规律这一知识信息融入原型网络训练,以提升网络识别性能. 由于本文主要考虑PRI,RF 和PW 这3 个特征维度,其相应的知识定义为:在不同工作模式下,以上3个维度参数的变化范围及规律描述.

确定好训练过程中的先验知识后,需要将其进一步转化为便于计算和使用的形式. 本文提出一种知识编码方式,可以将工作模式的PRI,RF 和PW 这3 个维度上的参数变化范围及规律表征为一定长度的数值(知识)向量,具体实现如下:整个向量包含a,b,c这3 个子段,每个子段刻画先验知识中的一个特征维度,分别对应PRI,RF 和PW 的变化规律,向量总维度为(a+b+c),如图4所示.

图4 知识编码向量

知识向量的a,b,c取值由先验知识中各维度参数变化范围及规律确定. 具体而言,子段一的编码长度为能够完整表征每种工作模式下PRI 特征参数取值和规律变化所需的最小长度. 例如:先验知识记录了3 类雷达工作模式的特征信息,如表1 所示. 对于雷达工作模式3,其PRI 特征值有3 个典型值,分别是5 331,4 157和3 528,且取值按照2,3,4 的组变形式进行变化,那么其PRI 特征一次完整的变化可表示为[5 331,5 331,4 157,4 157,4 157,3 528,3 528,3 528,3 528],取值序列长度为9,则a取值为9. 同样地,对于雷达工作模式1,PRI 特征一次完整的变化可表示为[8 431,3 953,3 953,3 953],取值序列长度为4,则a取值为4. 对于雷达工作模式2,其PRI为固定,完整描述一次PRI特征规律只需要一个参数,a取值为1. 在确定各模式下a的大小后,选最大的a值为最终PRI 维度的编码长度. 在上例中,a取值为9,而对于模式1 和2,由于其PRI 编码长度小于9,可以通过循环扩展为长度9. 在上述例子中,对雷达工作模式1 的知识信息进行编码得到向量的前9 维是[8 431,3 953,3 953,3 953,8 431,3 953,3 953,3 953,8 431];同样地,对雷达工作模式2的知识信息进行编码得到向量的前9维是[3 061,3 061,3 061,3 061,3 061,3 061,3 061,3 061,3 061]. 类似地,知识向量的b和c值的确定取值为先验知识中各个工作模式RF 和PW 特征取值及变化规律能够完整表征一次的最小长度. 对于表1中记录的3类雷达工作模式,a,b,c分别取值为9,9,3. 对于表1 记录的工作模式3,编码知识信息得到向量的前9 维是[5 331,5 331,4 157,4 157,4 157,3 528,3 528,3 528,3 528],中间的9维是[295,295,385,385,385,845,845,845,845],最后的3 维是[70,85,110]. 根据上述编码方法,可以获取各类雷达工作模式先验知识信息对应的知识向量,为后续处理提供基础.

表1 雷达工作模式先验知识表

3.2 先验知识映射

通过建立知识向量到原型中心向量的映射关系,实现知识向量空间到原型网络特征空间的映射. 具体而言,通过1个多层全连接网络将知识向量映射为与第一阶段预训练原型网络的中心向量分布近似的向量,网络输出为融合了先验知识信息的原型中心向量,记为“预中心向量”. 该预中心向量将应用于第三阶段原型网络的重训练. 在本文中,上述多层全连接网络被称为“中心网络”,中心网络的处理流程如图5 所示. 首先,将2.1 节得到知识编码向量进行归一化,然后进行高斯随机化样本扩充,即,对每个知识向量重复多次加入均值为0、方差为σ2的独立同分布高斯噪声,得到中心网络的训练样本. 需要指出的是,高斯随机化过程在扩充训练样本空间、防止中心网络过拟合的同时,可以提高中心网络对知识编码向量扰动的鲁棒性. 中心网络以高斯随机化知识向量样本为输入,以预训练原型网络中心为标签,以MSE 为损失函数进行回归. 网络输出为“预中心向量”,该向量将应用于原型网络的重训练. 中心网络的具体结构详见4.2节.

图5 中心网络处理流程

3.3 先验知识融合

基于校正后的距离度量函数和分类概率式(6),构建损失函数(4),使先验知识信息内嵌到原型网络提取的样本特征中,从而具有更好的类内聚合性及类间区分性. 完成原型网络的重训练后,依据式(5)和式(6)计算待测样本分类概率,得到模式分类结果.

4 仿真与结果分析

4.1 测试数据集

本文使用的雷达脉冲数据包含8 款MFR,涵盖搜索、跟踪、边搜索边跟踪等55 种工作模式. 每个雷达脉冲包含TOA,RF 和PW 这3 维参数,脉冲按照TOA 大小顺次排列,将连续的84 个PDW 处理转化为84×84×3 的图片数据,对应一种工作模式下的一个样本. 为拟合小样本场景,每个雷达工作模式包含20个图片样本(由于在小样本雷达模式识别领域,对“小样本”的样本量的划定暂时还没有一个公认的数量级范围,本文将样本量≤20、单个样本脉冲数≤100 视为小样本场景),其中支撑集和查询集各占一半.

4.2 仿真设置及实验结果分析

在实验中,本文采用的原型网络中卷积神经网络结构如图6 所示,整个网络结构为5 层,卷积层的卷积核大小固定为3×3,池化层的池化模板固定为2×2,池化时的步长设定为2,3 层卷积层将通道数从3 经由32和64 增至128. 最后一层池化层后连接两层全连接层,输出维度分别设定为128和55.

图6 卷积神经网络结构

中心网络的网络结构如图7 所示,整个网络包含4层全连接层,第1~3层激活函数为ReLU,第4层为tanh.实验中经过编码后得到47维知识向量,经4层全连接层从47 维经由128,256,128 再降为55 维. 在中心网络的训练过程中,每个batch大小设置为128,迭代2 000轮.

图7 中心网络结构

首先,考察中心网络的映射性能. 图8 给出了在完成中心网络的回归训练后,用高斯随机化样本测试中心网络映射的准确率. 该准确率由测试样本经中心网络映射后,按与预中心向量的欧氏最小距离作为分类依据统计得到. 图8 中蓝色曲线和橙色曲线分别表示训练和验证过程中的准确率. 由图8 可以看出,中心网络映射准确率约为78%.

图8 中心网络映射准确率曲线

接下来考察先验知识的使用对原型网络识别准确率的影响. 知识原型网络每个batch 大小设置为16,迭代3 000轮. 知识原型网络与经典原型网络在训练过程中识别准确率的对比结果如图9所示.

图9 知识原型网络与经典原型网络训练准确率对比曲线

从图9 可以看出,在训练轮次较少的情况下,融入先验知识有助于快速提升原型网络识别准确率,并最终达到96.7%. 值得注意的是,图9 中的训练曲线随着训练轮次的增加呈现较大的起伏,这一现象产生的原因可能是样本本身数据量小,在使用随机梯度下降法进行网络训练时,单次输入网络的随机样本量较小,致使反向传播算法在对网络参数更新过程中出现较大起伏.

考虑到实际中先验知识可能存在误差,导致先验知识信息中各个参数值不准确,为此,分别在知识编码向量上加入不同程度的高斯噪声来模拟不同程度的先验知识误差. 表2 给出了在不同先验知识误差下,知识原型网络与支持向量机、经典原型网络的对比结果. 其中,知识误差较小和较大场景对应的高斯噪声分别为Gauss(5,0.12)和Gauss(50,0.12). 从表2 可以看出,当先验知识误差较小时,知识偏差对网络性能影响较小,融合先验知识的原型网络在训练和测试过程中的识别准确率分别为95%和94.7%;当先验知识误差较大时,知识偏差对网络性能影响较大,融合先验知识的原型网络在训练和测试过程中的识别准确率分别为93.4%和91.6%,均低于不使用任何先验知识的原型网络的准确率. 该结果表明,较大误差的先验知识已不能很好地反映不同工作模式下参数变化的真实情况,将带有较大偏差的知识向量融入原型网络不但无法提升识别性能,甚至适得其反.

表2 不同识别方案识别准确率对比统计

最后,考虑到实际中先验知识可能存在部分缺失的情况,针对该情况,知识向量缺失部分,可以采用填充全0 或者随机数的方式来补全. 补全后的知识向量仍然可以采用3.2 节及3.3 节的方式融入原型网络中,实现对小样本雷达工作模式的识别. 表3 给出了不同补全方式下的识别准确率统计结果. 仿真结果表明,以随机的方式补全知识向量比全0补充方式稍好,其原因可能是,全0填充缺失的先验知识等价于将缺失的先验信息视为相同,从而导致不同模式的先验知识区分度变小.

表3 基于部分先验知识的识别准确率统计

5 结束语

本文针对小样本MFR 工作模式识别问题,提出了一种融合先验知识的原型网络. 通过对雷达工作模式先验知识编码、映射,将先验知识融入原型网络有效提升了识别准确率. 在涵盖8款MFR、55种工作模式的小样本雷达数据上的仿真结果表明,相比于不使用先验知识的原型网络和SVM 分类器,本文网络识别准确率分别提升了2.9%和10.5%. 值得注意的是,在先验知识有较大误差的情况下,融合知识的网络识别性能会有较大下降,如何设计具有对知识误差鲁棒性的融合网络是下一步值得研究的方向.

猜你喜欢

先验原型向量
BOP2试验设计方法的先验敏感性分析研究*
向量的分解
聚焦“向量与三角”创新题
包裹的一切
一种考虑先验信息可靠性的新算法
《哈姆雷特》的《圣经》叙事原型考证
论《西藏隐秘岁月》的原型复现
先验的风
向量垂直在解析几何中的应用
原型理论分析“门”