APP下载

基于代价敏感剪枝卷积神经网络的弹道目标识别

2021-12-13向前王晓丹宋亚飞李睿来杰张国令

北京航空航天大学学报 2021年11期
关键词:剪枝代价卷积

向前,王晓丹,宋亚飞,李睿,来杰,张国令

(空军工程大学 防空反导学院,西安 710051)

高分辨距离像(High-Resolution Range Profile,HRRP)是宽带雷达的回波在对应散射距离单元上的叠加,包含了散射源丰富的结构信息,且具有获取容易、处理速度快等优势,可作为弹道目标识别的有效信息[1-2]。

作为深度学习的经典算法之一,卷积神经网络(Convolutional Neural Network,CNN)[3]具有较强的特征提取能力,在基于HRRP的雷达目标识别领域中具有较多的研究与应用。例如,Chen等[4]将极值理论引入到CNN中,并使用openmax层代替Softmax分类器用于估计HRRP样本属于已知类别和未知类别的概率,解决了HRRP的开集识别问题;Guo等[5]使用多尺度卷积核提取HRRP的不同精细度特征,并构造中心损失函数对网络进行训练,有效克服了目标平移敏感性和姿态敏感性问题;Wan等[6]将原始的一维HRRP数据转化为二维的光谱图,并利用深度CNN对HRRP光谱图进行识别,同时引入了基于反卷积的解码器结构克服了离群值的影响,相比基于原始HRRP的识别方法具有更高的识别正确率;Wen等[7]结合迁移学习技术,先利用视角完备的HRRP辅助数据集对一维CNN(One-Dimensional CNN,1D-CNN)进行预训练,再使用真实数据对预训练的模型进行微调,提高了视角不完备条件下的HRRP识别效果。

虽然以上基于CNN的方法解决了特定条件下的雷达目标识别问题,但对于弹道导弹目标HRRP识别而言,仍然存在以下2个方面的不足:

1)以目标的整体识别正确率为目标,忽略了各类目标的误识别代价。对于弹道目标识别,把弹头误识别为诱饵比把诱饵误识别为弹头所产生的代价大得多[2],因此,考虑误识别代价的影响至关重要。

2)CNN在网络的构造过程中需要人工调参,因此,很难在有限的时间内找到误识别代价较小的网络结构,同时往往造成模型过参数化,导致其具有较高的运算复杂度。

针对以上问题,本文提出了一种基于代价敏感剪枝(Cost-Sensitively Pruning,CSP)1D-CNN的弹道目标HRRP识别方法,其创新点如下:

1)将1D-CNN的代价敏感识别问题和模型压缩问题统一为寻找误识别代价较小的子网络(即代价敏感子网络)问题,建立了以此为目标的数学规划模型。

2)针对1D-CNN代价敏感子网络的搜索问题,提出了基于人工蜂群算法[8]的CSP算法,实现了网络结构的自动搜索,得到的代价敏感子网络具有相对较低的计算复杂度和整体误识别代价。

3)针对传统剪枝算法在微调过程中未考虑误识别代价的问题,提出了代价敏感交叉熵(Cost-Sensitive Cross Entropy,CSCE)损失函数,使代价敏感子网络以最小化误识别代价为目标进行训练。

1 一维卷积神经网络

CNN是一类包含卷积计算的深度前馈神经网络,1D-CNN主要处理的是一维数据。与处理图像等二维数据的CNN类似,1D-CNN核心模块一般包括一维卷积层、池化层、全连接层和Softmax分类器。其中,一维卷积层和池化层一般以成对的形式存在,通过对卷积-池化层进行多次叠加形成深度1D-CNN。

1.1 一维卷积层

对于包含L 个卷积层的深度1D-CNN,设X(l)∈RD(l)×C(l)为第l层的多通道输入,D(l)和C(l)分别为特征长度和通道个数,且每个通道对应一个卷积核。X(l)与该层的第k∈{1,2,…,C(l)}个长度为H(l)的卷积核W(k,l)∈RC(l)×H(l)进行运算,产生的一维特征图为

式中:b(k,l)为第k个卷积核的偏置参数;δ(·)为非线性激活函数,目的是为模型增加非线性因素。

1.2 批归一化

批归一化通过对每个批次的输入数据进行归一化处理,增加了损失函数的Lipschitz连续性,即降低了损失函数的变化速率和梯度的幅度,使得网络训练对超参数不敏感,从而快速收敛[9-10]。因此,使用其对卷积层的输出归一化到均值为0、标准差为1的分布。设卷积层的输出为x=[x(1),x(2),…,x(d)],每一维的输出归一化为

式中:期望E[·]和标准差Var[·]在训练数据集的每个小批次中进行计算;ε为接近0的数,用以防止分母为0。

引入超参数γ(k)和β(k)对归一化值进行缩放和平移:

1.3 池化层

池化层可以对特征图进行下采样,起到减少数据量的同时保留有用信息的作用。如果采用最大池化的方法,对于第l个池化层的第k个输入特征图,最大池化后输出特征图位置i处的值由式(4)给出:

式中:r(l)和s(l)分别为第l个池化层的池化窗口大小和池化操作步幅。

1.4 全连接层与Softmax分类器

对于末尾的一维卷积层,各个通道的特征图长度如果为1,则可直接连接分类器进行分类,如果不为1,则需将各个通道的特征图进行拉平操作,形成一个长度为Lu的向量u,其后连接全连接层或者Softmax分类器。如果是全连接层,设u经过全连接层的输出为u′,则u′在位置i处的值为

式中:Lu′为全连接层的神经元个数;w为全连接层的权重参数;b′为全连接层的偏置参数。

Softmax分类器可视作特殊的全连接层,其神经元个数与待分类目标的类别总数相等,并且使用Softmax激活函数。设目标的类别总数为K,Softmax分类器的参数表示为θsm={Wsm,bsm},Wsm和bsm分别为Softmax分类器的权重和偏置参数,对于每个输入样本(xn,yn),xn和yn分别为样本数据和对应的真实标签,分类器所在全连接层第j个神经元的输出表示的是将样本x判断为第j个类别的概率,即

2 基于代价敏感剪枝的1D-CNN

2.1 模型结构

基于1D-CNN的弹道目标HRRP识别模型结构具体如图1所示。网络的输入为含有256个距离单元的HRRP样本,输出为弹头、高仿诱饵、简单诱饵、母舱和球形诱饵等5个目标的后验概率,因此K=5。模型含有4个一维卷积层,各层的卷积核数目分别为100、200、400和800,各层输入不进行零填充,卷积核大小和步幅皆分别为5和1,同时将输出进行批归一化之后再使用Mish[11]函数激活。最大池化层的窗口大小和步幅皆为3。由于输入的含有256个距离单元的HRRP数据经过整个网络进行处理之后各个通道输出的特征长度为1,无需拉平操作,直接连接Softmax分类器。

图11D-CNN整体结构Fig.1 Architecture of 1D-CNN

2.2 代价敏感子网络

为了评价模型对测试数据集的整体误识别代价,首先定义一个K×K的矩阵M 用以描述K个类别相互之间的误识别代价:

2.3 代价敏感剪枝

按照如图2所示的典型网络剪枝流程[14],先对较大的原始网络进行预训练,再对网络进行剪枝获得一个代价敏感的子网络,最终构建代价敏感损失函数对其进行微调,进一步降低整体误识别代价。

图2 三阶段网络剪枝流程Fig.2 Three-stage network pruning procedure

式中:cost(·)表示模型的整体误识别代价,由式(10)进行计算得到;α∈(0,100%]为给定的通道个数保留百分比上限超参数,表示在剪枝的过程中子网络每个卷积层最多只保留原始网络N中对应卷积层百分比为α的通道个数,起到了限定子网络通道个数的上界,以达到剪枝效果和缩小搜索空间的作用。

3)跟随蜂阶段。跟随蜂利用式(14)通过轮盘赌选择法选择一个蜜源,并将选择的蜜源使用式(12)产生新的蜜源,再根据其各自的适应度值对新旧蜜源进行贪婪选择。

算法1 基于人工蜂群的CSP算法。

输入:经预训练的初始网络N;搜索周期T;蜜源数量Ω;通道个数保留百分比上限超参数α;蜜源等待更新次数上限Ψ;训练数据集Dtrain;测试数据集Dtrain;计算适度值时子网络训练周期数Φ;轮盘赌选择法参数β。

在算法1所示的人工蜂群算法中的4个阶段,都会因计算新生成的子网络适应度而增加额外的训练周期。对于初始化阶段,Ω个子网络计算适应度增加的额外训练周期总数为Ω×Φ。雇佣蜂阶段每个搜索周期内亦有Ω个子网络需计算适应度,该阶段增加的额外训练周期总数为T ×Ω×Φ。跟随蜂阶段和侦察蜂阶段具有较大的随机性,额外增加的训练周期数的范围分别在0~2×T ×Ω×Φ 范围内,则剪枝过程中增加的额外训练周期总数至少为(T +1)×Ω×Φ,最多为(3T +1)×Ω×Φ。因此,算法1引入相对增加了模型在训练过程中的计算量,但对于弹道目标识别而言,有效降低模型在识别过程的计算量比降低模型在训练过程中的计算量相对更为重要,而控制通道数量超参数α的引入可以使算法1在搜索过程中寻找通道数更少而误识别代价更小的子网络,进而减少识别过程中的计算量。

2.4 CSCE损失函数

传统的剪枝算法在微调过程中对代价敏感子网络的训练策略和预训练过程相同,即通过最小化分类损失进一步使代价敏感子网络分类错误率最小化,不能保证微调后的代价敏感子网络具有较低的误识别代价。为了使代价敏感子网络在微调过程中仍以最小化误识别代价为目标,可构造代价敏感损失函数,使其侧重对误识别代价较高的类别正确分类[15]。

为了实现上述目标,首先对式(8)表示的CE损失函数按照各个类别展开,得

由式(15)可以看出,整体损失函数关于各个类别的分项具有平等的重要性,在训练过程中不能起到侧重对误识别代价较高的类别正确分类的作用。因此,对损失函数中关于每个类别的分项分配不同的权重λi,即

在式(17)中,对于误识别代价较高的类别,可以赋予相对较大的权重,从而使得网络的训练更加倾向于对该类别的样本正确分类,由此得到了CSCE损失函数。对于弹道目标识别而言,弹头识别正确率的重要性是远大于诱饵等其他目标的,模型应该尽量拟合弹头这类目标的样本。假设J1(θ)为J(θ)关于弹头这类目标的分项,可将式(17)简化为

式中:超参数λ>0,用于控制模型对弹头类目标样本和其他类目标样本的相对拟合程度。

3 实验与分析

3.1 实验数据

为检验本文算法的性能,建立了弹头、高仿诱饵、简单诱饵、球形诱饵和母舱等5类典型弹道目标的仿真模型,其具体物理参数如图3所示,同时使用FEKO软件中的物理光学算法对这5类目标进行高频散射计算来获取其HRRP数据[16]。仿真采用水平极化方式,雷达中心频率设置为10 GHz,鉴于各个目标的对称性,仿真的方位角范围设置为0°~180°,仿真精度为0.05°。

图3 仿真目标物理特征Fig.3 Physical characteristics of simulated targets

每类目标分别仿真得到了3601个不同方位角下的HRRP样本,其距离单元个数E=256。随机从每类目标的HRRP样本中选取其中的20%组成测试数据集,将剩余的样本按照表1所示的样本个数组成训练数据集,其中Im0为平衡数据集,Im1、Im2和Im3为相对不平衡的数据集,且Im1的弹头样本数量>Im2的弹头样本数量>Im3的弹头样本数量。假定弹头的误识别代价>高仿诱饵的误识别代价>简单诱饵的误识别代价>母舱的误识别代价>球形诱饵的误识别代价,并且在不平衡数据集中误识别代价高的类别分配的样本数量相对较少,用以检验算法在不同数据分布条件下的识别性能。

表1 数据集样本数量Table 1 Sample number of datasets

3.2 实验设计

为了检验提出的CSP算法和CSCE损失函数对传统1D-CNN的改进效果,分别将单独使用CE损失函数训练的1D-CNN——CNN1D(CE)、同时结合CSP和CE损失函数训练的1D-CNN——CNN1D(CSP+CE)、单独使用CSCE损失函数训练的1D-CNN——CNN1D(CSCE)和同时结合CSP 和 CSCE 损失函数训练的 1D-CNN——CNN1D(CSP+CSCE)进行对比。

模型训练采用diffGrad算法[17],并使用文献[17]中的默认参数设置,训练的批大小统一设置为64。上述4个模型中,需剪枝的模型在微调过程中的训练周期数设置为200,无需剪枝的模型在训练过程中周期数设置为200。算法1的参数设置为:搜索周期T =10,蜜源数量Ω=10,蜜源等待更新次数上限Ψ=5,计算适度值时子网络训练周期数Φ =2,轮盘赌选择法参数β=0.1。按照误识别代价由高到低的顺序,将识别正确的代价设为0,同时假定将弹头误识别为诱饵的代价远高于将诱饵误识别为弹头的代价[2],给出了如下3个代价矩阵进行实验:

3个代价矩阵从上到下、从左到右分别表示的真实类别和预测类别次序为球形诱饵、母舱、简单诱饵、高仿诱饵、弹头。实验中,按照式(10)计算各算法在不同的代价矩阵下测试数据集的整体误识别代价。

3.3 实验结果分析

分别使用CNN1D(CE)、CNN1D(CSP+CE)、CNN1D(CSCE)和CNN1D(CSP+CSCE)等4种方法对不同的数据集进行实验,得到测试数据集整体误识别代价和识别正确率如表2所示。在相同代价矩阵和数据集条件下,测试数据集整体误识别代价的最优结果已在表2中加粗表示。

从表2可以得出以下结论:

表2 四种方法的识别结果Table 2 Recognition results of four methods

1)CNN1D(CE)与CNN1D(CSP+CE)对比实验可以看出,大多数情况下,经过剪枝后的模型相对于未剪枝的模型整体识别正确率有所提高,但是剪枝后的模型却具有较高的整体误识别代价,说明剪枝后的模型主要是提高了误识别代价较小类别的识别正确率。这一结果的主要原因是:剪枝后的模型在微调过程中使用的传统CE损失函数主要以提高整体识别正确率为目标,未侧重使误识别代价较高的类别正确分类。

2)将基于传统CE损失函数训练的模型与基于CSCE损失函数训练的模型对比,即CNN1D(CE)与CNN1D(CSCE)对比、CNN1D(CSP+CE)与CNN1D(CSP+CSCE)对比,可以看出基于CSCE损失函数训练的模型具有较小的整体识别正确率,但是整体误识别代价有所降低,说明误识别代价较高类别的识别正确率有所提升,因此证明了所提出的CSCE损失函数可以通过改变传统CE损失函数对不同误识别代价类别样本的拟合程度来提高模型的代价敏感性。

3)CNN1D(CSCE)和CNN1D(CSP+CSCE)对比可以看出,经过代价敏感剪枝后的模型比未剪枝的模型具有较低的整体误识别代价,且保证了与未剪枝的模型具有相近的整体识别正确率(剪枝后的模型和未剪枝的模型识别正确率分别在93%和92%以上),说明所提出的代价敏感剪枝算法可以有效地找到原始网络的代价敏感子网络。

4)4种方法在不同数据集和不同代价矩阵下的对比实验可以看出,CNN1D(CSP+CSCE)在保证较高的识别正确率前提下具有更小的整体误识别代价,进一步证明了提出的CSP和CSCE损失函数相结合的方法对于降低整体误识别代价的有效性。

图4为代价矩阵为M1时4种模型在不同数据集上训练时测试数据集整体误识别代价的变化曲线。可以看出,经过剪枝后的模型具有较低的整体误识别代价起始值且收敛速度比随机初始化的未剪枝网络更快,这是因为剪枝后的模型继承了原始模型的部分参数,而且这部分参数组成了经过人工蜂群算法挑选出的代价敏感子网络。同时也可以看出,CNN1D(CSP+CSCE)具有更低的整体误识别代价水平渐进线,并且随着训练次数的增加整体误识别代价趋于更加持续的稳定状态。

图4 代价矩阵为M 1 时4种模型在不同数据集上的训练曲线Fig.4 Training curves of four models in different datasets when cost matrix is M 1

为了定量分析CSP算法对模型的压缩效果,分别统计剪去的浮点运算量、模型参数总数和通道总数占原始模型相关量的百分比,结果如表3所示。由实验设置可知,剪枝过程中增加的额外训练周期总数至少为(T +1)×Ω×Φ=(10+1)×10×2=220,最多为(3T +1)×Ω×Φ=(30+1)×10×2=620,显然使得训练过程中的计算量增加。但由表3可以看出,在图1原始模型的参数配置条件下,采用CSP算法在保证降低整体误识别代价和较高识别率的前提下,可分别减少原始网络50%以上的浮点运算量、40%以上的模型参数和20%以上的通道总数,有效降低了模型在识别阶段的计算量。模型在不同的数据集和代价矩阵下具有不同的参数总数和通道总数,说明在剪枝的过程中算法会自动地搜索到代价敏感的子网络,避免了在设计具有代价敏感的网络结构时人工调参。

表3 三种指标下模型剪枝量百分比Table 3 Pruned percentages of model under three metrics

3.4 噪声对模型性能的影响分析

由于弹道中段目标在空间环境中仍会存在一定噪声影响,为了进一步比较模型在不同信噪比(Signal-to-Noise Ratio,SNR)下的整体误识别代价,将上述4个数据集中的样本加入高斯白噪声并采用与上文相同的实验设置进行实验。SNR的定义[5-6,8]如下:

式中:E=256为HRRP的距离单元个数;Pl为第l个距离单元的原始信号强度;PNoise为噪声的信号强度。

SNR的取值范围为{-10,-5,0,5,10,15,20,25,30,35,40}d B,当代价矩阵为M1时,4种模型在不同SNR数据集上的整体误识别代价变化情况如图5所示。可分析得到如下结论:

图5 代价矩阵为M 1 时4种模型在不同SNR数据集上的整体误识别代价Fig.5 Total misrecognition cost of four models in different datasets with different SNR when cost matrix is M 1

1)CNN1D(CSP+CE)虽然引入了CSP算法,但其误识别代价某些情况下比CNN1D(CE)的误识别代价高,这是因为其在剪枝后的微调过程以整体识别正确率为目标,忽略了各个类别目标之间的误识别代价,致使整体误识别代价在不同SNR条件下变化较大。说明在噪声条件下,1D-CNN中单独使用CSP算法不能有效降低整体误识别代价。

2)当-10 dB≤SNR≤30 dB时,随着SNR逐渐增大,4种模型在4个数据集上的整体误识别代价逐渐减小,大多数情况下,CNN1D(CSCE)和CNN1D(CSP+CSCE)比CNN1D(CE)和CNN1D(CSP+CE)的整体误识别代价低,说明CSCE损失函数在不同程度的噪声条件下亦可以有效降低整体误识别代价。当30 d B<SNR≤40 d B时,随着SNR增大,4种模型在相同的数据集上的误识别代价基本相似,且基本不再减少。

3)CNN1D(CSP+CSCE)与CNN1D(CSCE)的整体误识别代价在不同的SNR条件下的差异相对较小,但CNN1D(CSP+CSCE)是对CNN1D(CSCE)剪枝后得到的子网络,其模型计算复杂度更小。

总之,在上述SNR的取值范围内,与传统的1D-CNN相比,将CSP算法和CSCE损失函数相结合优化1D-CNN的方法大多数情况下仍然同时实现了降低模型复杂度和降低整体误识别代价2项任务,且在-10 dB≤SNR≤30 dB时效果相对比较明显,进一步证明了所提方法在不同程度的噪声数据集上具有一定的有效性和通用性。

3.5 超参数对实验结果的影响分析

首先对CNN1D(CSCE)中CSCE损失函数的超参数λ取不同的值进行实验,从而确定相对较优的λ取值λ*。在讨论剪枝算法的超参数α对模型的影响时,先取λ=λ*,再选取不同的α值对模型CNN1D(CSP+CSCE)进行实验。代价矩阵为M1时2个超参数在4个数据集上对模型的影响效果分别如图6和图7所示,图中“Non”表示未剪枝的原始网络。

图7 代价矩阵为M 1 时超参数α对实验结果的影响Fig.7 Effects of hyper-parameterαon experimental results when cost matrix is M 1

由图6(a)可以看出,随着CSCE损失函数的超参数λ从101减小到10-4,CNN1D(CSCE)在4个数据集上的平均整体误识别代价呈现出先减后增的变化趋势,同时从图6(b)可以看出其他目标与弹头识别正确率之比呈现出递减趋势,说明适当地减少λ的值可以增加模型对弹头这类误识别代价相对较高目标的拟合程度,进而减少整体误识别代价,当λ过小时会导致其他类别样本的拟合程度显著降低,进而导致整体误识别代价的增高。λ∈[10-2,10-1]时,模型在各个数据集上都取得了较小的整体误识别代价,因此在分析超参数α对模型的影响时令λ*=0.05。

图6 代价矩阵为M 1 时超参数λ对实验结果的影响Fig.6 Effects of hyper-parameterλon experimental results when cost matrix is M 1

由图7(a)可以看出,在图中的取值范围内都会一定程度上减少原始未剪枝模型的通道数,但随着α的增加,剪枝后模型的通道总数整体上呈现上升的趋势,同时通道总数的上升也意味着模型的参数总量和计算复杂度的上升。图7(b)表明模型在不同的数据集上的最优的α取值不尽相同,为了实现降低整体误识别代价和降低模型计算复杂度的折中,α在Im0、Im1、Im2和Im3上相对较优的取值分别在[60%,80%]、[60%,80%]、[70%,90%]和[30%,50%]之间。

从图6(a)和图7(b)还可以看出,训练集中误识别代价较高类别的样本数越少,大多数情况下测试集的平均整体误识别代价越高,说明在现实情况下增加误识别代价高类别的样本数量的必要性。

4 结 论

1)在不同的数据集和代价矩阵下的对比实验表明,提出的基于CSP的1D-CNN与传统的1D-CNN在各个数据集上的识别正确率分别在93%和92%以上,提出的方法保证了与传统的1D-CNN具有相近的识别正确率前提下有效降低了整体误识别代价。

2)所提方法一定程度上增加了学习过程中的计算量,但经过CSP后的1D-CNN与未剪枝的原始模型相比,可分别减少50%以上的浮点运算量、40%以上的模型参数和20%以上的通道总数,有效降低了模型识别过程中的计算量。

3)在不同SNR数据集上,与传统的1D-CNN相比,将CSP算法和CSCE损失函数相结合优化1D-CNN的方法,大多数情况下仍然同时实现了降低模型复杂度和降低整体误识别代价2项任务,且当-10 dB≤SNR≤30 dB时效果相对比较明显,进一步证明了所提方法在不同程度的噪声数据集上具有一定的有效性和通用性。

4)随着CSCE损失函数的超参数λ从101减小到10-4,模型在4个数据集上的平均整体误识别代价呈现出先减后增的变化趋势,综合来看,λ的最优取值范围是[10-2,10-1]。

5)随着CSP的超参数α的增大,剪枝后的模型在不同数据集上计算复杂度整体呈现上升趋势,而其整体误识别代价变化差异较大,综合考虑计算复杂度和误识别代价的折中,α在Im0、Im1、Im2和Im3上相对较优的取值分别在[60%,80%]、[60%,80%]、[70%,90%]和[30%,50%]之间。

猜你喜欢

剪枝代价卷积
基于梯度追踪的结构化剪枝算法
基于全卷积神经网络的猪背膘厚快速准确测定
基于FPGA的卷积神经网络加速优化方法
基于YOLOv4模型剪枝的番茄缺陷在线检测
工业场景下基于秩信息对YOLOv4的剪枝
基于图像处理与卷积神经网络的零件识别
基于深度卷积网络与空洞卷积融合的人群计数
幸灾乐祸的代价
幸灾乐祸的代价
代价