基于Frost滤波和改进CNN的SAR图像TR方法
2023-07-03廉小亲罗志宏
廉小亲,黄 雪,高 超,罗志宏
(北京工商大学人工智能学院,北京 100048)
1 引言
合成孔径雷达(Synthetic Aperture Radar, SAR)是一种有源微波传感器,区别于传统的光学遥感,SAR不受到光线、云、雾等自然条件的限制,可以实现全天时、全天候的工作,弥补了光学传感器的不足,被广泛应用于军事侦察、农林管理、城市规划等领域[1]。SAR由于其独特的成像特点,与通过人眼就可以进行直接解释的光学图像不同,在解读SAR图像时,往往需要专业人员来展开工作。传统的人工判读方法不仅成本高昂而且效率低下,已经无法满足SAR图像目标检测与识别技术快速且精准的需求,因此基于SAR图像的目标识别技术也受到了广泛的关注[2]。
随着人工智能技术的广泛应用及发展,深度学习算法逐渐在SAR ATR领域大放异彩。早期应用在SAR图像目标识别领域中的卷积神经网络的网络结构和训练的方法都比较简单、基础,但成效却不逊于传统的SAR图像目标识别算法,因此,也启发了更多的研究学者们去进一步探讨深度学习在SAR图像目标识别领域中的实际应用[3]。在众多深度学习模型中,卷积神经网络具有主动学习图像特征及参数共享等优势,在图像识别领域发挥了明显的优势。文献[4]对卷积神经网络进行改进,将类别可分性度量引入代价函数中,然后使用支持向量机(Support Vector Machine,SVM)代替softmax对特征提取后的SAR图像进行分类。文献[5]提出了将卷积神经网络和卷积自编码器相结合的方法,降低了算法的时间复杂度。
文献[4]和文献[5]都是基于改进网络结构和优化算法,从而降低算法复杂度和提升识别精度,但是并未考虑到SAR图像中存在的相干斑噪声导致图片质量下降的问题以及小样本数据给网络造成过拟合风险的情况。由于SAR图像标注较为困难且获取成本较高,导致目前公开的SAR图像样本较少,因此,数据集样本量不足的问题一直是SAR图像目标识别领域的热点问题。针对该问题,文献[6]利用生成对抗网络(Generative Adversarial Network, GAN)扩充了样本数据,并将生成的图像和原始图像一起输入到卷积神经网络中,提高了网络的识别准确率。
相对于上述深度学习方法,本文综合考虑数据及网络优化两个方面,提出了基于Frost滤波和改进CNN网络的SAR图像识别方法。由于SAR图像具有相干斑噪声干扰的问题,采用Frost滤波算法对SAR图像进行去噪;针对SAR图像采集、标注困难导致样本较少的问题,采用了水平翻转、旋转、剪切、缩放相组合的数据增强方法来扩充样本数量;针对模型容易出现过拟合的问题,构建多层卷积神经网络,采用Dropout结构和L2正则化项,利用Adam优化算法更新网络的参数。实验结果证明,本文所使用的方法,减小了过拟合现象的影响,模型泛化能力较强,且具有较高的识别准确率。
2 数据预处理
2.1 实验数据集介绍
为了验证本文方法的可行性和有效性,使用运动和静止目标获取与识别(Moving and Stationary Target Acquisition and Recognition, MSTAR)SAR图像数据库进行实验[7]。MSTAR数据集的采集条件分为两类,分别为标准工作条件(Standard Operating Condition,SOC)和扩展工作条件(Extended Operating Condition,EOC)[8]。数据库中的SAR图像分辨率为0.3 m×0.3 m,MSTAR数据库中包含了多种俯仰角下采集到的2S1(自行榴弹炮)、BMP2(步兵战车)、BRDM2(装甲侦察车)、 BTR60(装甲运输车)、BTR70(装甲运输车)、D7(推土机)、T62(坦克)、T72(坦克)、ZIL131(货运卡车)、 ZSU234(自行高炮)、等10类目标的SAR图像数据[9]。实验的训练样本采用SOC条件下17°俯仰角下的图像,测试样本采用15°俯仰角下的图像。图1所示为,在同一方位角下,10类车辆目标的光学图像以及其SAR图像。
图1 10类车辆目标光学图像和SAR图像
2.2 数据增强方法
实验数据中的原始图像尺寸包括128×128、158×158、172×173、192×193像素大小。尽管尺寸存在差异但它们所包含的目标均位于图像的中心处,而且在整幅图像中所占区域不大。SAR图像存在大量的斑点状相干斑噪声,背景中噪声的存在可能会对特征提取造成干扰,影响识别准确率。为了减小此干扰,在不影响目标的前提下,将原始图像裁剪成100×100像素大小。
训练过程中,当样本过少时模型容易出现过拟合现象,因此需要大量的训练样本作为支撑[10]。与光学图像不同,SAR图像很难大量获取,带有标注的SAR图像更是稀有。
因此,本文通过数据增强的方式扩充训练样本集,进而增强模型的泛化能力,抑制过拟合。
在MSTAR的SOC标准条件下采集的十类目标上,对训练样本采用水平翻转、旋转、随机剪切、缩放的四种数据增强组合方式,原始图像和数据增强后的图像如图2所示。
图2 数据增强后图像
2.3 Frost滤波算法
由于雷达相干成像的原理,SAR图像中存在着与光学图像不同的斑点状噪声。研究学者们通过对SAR图像进行观察分析及实验验证发现,图像中斑点噪声越多的区域,亮度越强,因此建立了 SAR 图像乘性噪声模型[11]。
Y(i,j)=x(i,j)·n(i,j)
(1)
式中:Y(i,j)是SAR图像中第(i,j)个像素点的强度值,x(i,j)是不含噪声的反射系数,n(i,j)是表示斑点噪声信号且服从单位均值独立同分布。通俗来说,相干斑噪声让图像变得不清晰,降低了图像的分辨率,严重影响了目标检测、分类等图像处理任务的精确性。
一些去噪算法被应用于SAR 图像斑点噪声抑制,算法类型有基于空域滤波的去噪算法、基于变换域的去噪算法和基于深度学习的去噪算法等[12]。根据前人的研究,空域滤波算法直接在利用滑动窗口技术,将某些特定频段的噪声滤除,有效地抑制了均匀区域的噪声。而且空域滤波算法容易实现、实时性较好,因此基于空域滤波的去噪算法被广泛应用于SAR图像相干斑噪声的去除,常用的空域滤波算法有 Lee 滤波、Frost滤波和Kuan滤波等[13]。
对相干斑噪声抑制的算法中,Frost滤波算法对相干斑抑制的效果较好,在SAR目标识别领域中得到了广泛的应用。当滤波窗口为(2N+1)×(2N+1)且滤波器的冲激响应是双边指数函数时,滤波算法公式的输出结果表示如下
(2)
其中,wkl表示滤波器的权值,wkl的值直接影响着平滑的效果,其公式如下
(3)
式中,窗口内像素(k,l)与(i,j)的欧氏距离表示为Dkl;ρ是一个微调因子;Vi,j和Ii,j分别表示在滤波窗口里的所有像素灰度值的方差以及均值,其函数表达式如下[14]:
(4)
(5)
3 基于正则化和优化算法的卷积神经网络
卷积神经网络强大的特征提取能力使其具有很高的研究和应用价值,已成为了SAR图像处理领域的研究热点。
图3所示为算法框架,本文设计了一个8层的卷积神经网络并对其进行了改进,梯度下降算法选用Adam优化算法,为了减小过拟合的影响,引入Dropout结构和L2正则化项,由此构建了一个改进的SAR目标识别网络[15]。对SAR图像数据集进行Frost滤波后,使用组合的数据增强方法将数据集扩充,并将其送到网络中进行训练。
图3 算法框架
3.1 网络结构的设计
本文设计的网络结构如图4所示,单幅SAR图像的尺寸为100×100。“Conv”表示卷积层,“96@11×11”表示此卷积层的96个卷积核大小为11×11,选择修正线性单元ReLU作为激活函数,卷积层的Padding模式均为“SAME”, 其输出特征图大小仅与步长有关[16]。“Max pool 2×2”表示选择Max Pool作为池化层,且下采样窗口的大小为 2×2。
图4 网络整体结构
图5 卷积层部分通道特征图可视化
将100×100×3大小的图像输入到网络中,步长为4,经过第1个卷积核大小为11×11、步长为4的卷积层后,输出为96个大小为25×25的特征图;通过第1个池化层后特征图的大小变为6×6,此后步长均为1;经过第2个卷积核尺寸为5×5的卷积层后,输出256个大小为6×6的特征图,通过第2个池化层后特征图的大小变为4×4;第3个卷积层的卷积核大小为3×3,输出是384个大小为4×4的特征图;通过第3个池化层后特征图的大小为 2×2,该池化层将特征图进行展平。384个 2×2的特征图展平后为一个1536维的向量,经过全连接层后,10个神经元节点经过Softmax层后分别输出该目标对应每个类别的概率。
3.2 Dropout结构和L2正则化的引入
深度学习模型具有强大的非线性拟合能力,使其能够在很多复杂任务中有更高的识别精度及鲁棒性。然而基于深度学习的算法在实际训练中往往会产生过拟合现象。当网络出现过拟合现象时,通常解决的方法有两种,一是减少特征,保留最重要的特征,即Dropout结构;二是惩罚不重要的特征的权重,即正则化方法。根据前人的研究,引入Dropout结构和L2正则化项可以有效缓解网络的过拟合现象,增强模型的泛化能力。
Dropout方法可以通过较低的计算代价使网络获得更强的泛化能力。在训练过程中,根据预先设定好的概率值随机的将该层中部分输出神经元激活值置为零,则其与输入神经元之间连接上的网络权重不再参与当前迭代过程的参数更新,从而避免对局部特征的过拟合。此方法在训练过程中为网络增加了稀疏性,也有效减小了特征之间的关联度。
正则化是提高模型泛化能力、降低过拟合影响最常用的方法,在 L2 正则化中,将L2范式作为惩罚项加入到目标函数即损失函数中,也就是加入了约束条件。L2 正则化的公式如下
(6)
参考文献[15],在改进后的CNN网络中将Dropout概率设为0.3,选用交叉熵损失函数,L2正则化项中λ设为0.005。
3.3 网络优化算法的选取
在深度学习领域中,常用的优化算法有随机梯度下降算法、小批量梯度下降算法等。然而,这些算法的学习率依赖于研究人员的经验进行人工调整,工作繁琐且复杂。为了克服这些局限性,一些具有自适应学习率的优化算法应运而生。Adam算法是当前深度学习领域中十分受欢迎的优化算法。Adam是基于使用动量的小批量梯度下降算法的优化,其对梯度的一阶矩估计和二阶矩估计进行了综合考量来计算更新步长[17]。Adam算法的所占用的内存较小,计算高效,可以对不同的数据采用不同的自适应学习速率。其公式如下
mt=β1*mt-1+(1-β1)*gt
(7)
(8)
(9)
(10)
(11)
在改进后的CNN模型中,β1为0.9,β2为0.999,初始学习率η为0.001,ε为10e-6。
4 实验结果与分析
4.1 实验平台
本文的实验主要在64位windows 10.0操作系统环境下进行,软件环境主要基于深度学习跨框架keras-2.1.4版本和tensorflow-1.8.0版本,硬件平台为一台CPU为AMD Ryzen 7-5800、GPU 为 NVIDIA GeForce RTX 3060、内存为 16G的计算机。
4.2 特征提取结果可视化
本文模型的设计共有三层卷积层,分别是Conv2d_1、Conv2d_2和Conv2d_3,且每层卷积层分别得到了通道数为96、256、384的特征,因此每个阶段分别输出96、256和384幅特征图。frost滤波前后,SAR图像经由第一层卷积层Conv_1特征提取后的特征图如图4、5所示。选取特征图的前4个通道,正如图中所示,与未经去噪的SAR特征图相比,用frost算法处理后,提取的SAR图像轮廓特征更加清晰,纹理信息更加丰富,便于后续的特征提取及分类,进一步验证了SAR滤波算法是行之有效的。
将每层卷积层提取到的特征图可视化后,选取通道4,特征图由图6所示,第一层特征图包含的信息最多,轮廓特征更清晰,随着层数加深,提取的特征越来越抽象,网络学习到的特征越来越复杂。
图6 模型特征提取流程图
4.3 SAR图像滤波结果分析
4.3.1 滤波结果评价指标
主本文从客观角度出发,选用平均后向散射系数(PM)、有效视数(ENL)和边缘保持指数(EPI)来评价SAR图像滤波算法平滑噪声的效果以及边缘保持的能力。平均后向散射系数(PM)的公式可以表示为滤波前后图像的均值之比,是评价算法保持图像后向散射系数能力好坏的指标[19]。
有效视数(ENL)是衡量图像相干斑噪声强弱的指标,其公式如式(12)所示。其中u和σ分别表示一块区域像素的均值和标准差。有效视数越大,表明该算法去除噪声能力越强。
(12)
(13)
4.3.2 滤波结果分析
本文选用滤波窗口大小为7×7,依据各评价指标对三种滤波算法效果进行评价,结果见表1。
表1 各滤波算法抑斑性能比较
从表1中可以看出,Frost算法的有效视数最大,说明其去除噪声的能力越强,且其PM值也最接近原图像的1值,说明其去噪后图像的灰度值分散性较小。Lee算法的边缘保持指数最大说明其对图像的边缘信息进行了较好的保存,但其有效视数最低,则其去噪能力较弱。综合表1中的三个评价指标,虽然Frost算法边缘保持能力较弱,使滤波后图像丧失了边缘部分纹理细节,图像分辨率有所降低,但其PM值和ENL值最大,其综合性能最好,可以有效的滤除相干斑噪声。
为了进一步证明Frost算法在本文方法的有效性,本文对每一种滤波算法做了单独实验,使用SOC条件下MSTAR数据集的十类SAR图像目标,分别比较了三种滤波方法,如表2所示。
表2 数据增强后不同滤波方法在MSTAR数据集上的识别率
从表2中可以看出,没有施加任何滤波算法时,改进后的CNN的检测正确率为96.44%。分析可得:每种滤波算法虽以牺牲图像分辨率为代价降低噪声的影响,但对最后识别正确率的提升都发挥了作用,而采用Frost滤波方法得到的结果最优,其识别率达到了98.06%。
4.4 SAR图像识别结果分析
4.4.1 模型评价指标
为了验证本文提出方法的有效性,采用了深度学习中常用的四种不同的评价指标进行评估:准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1度量(F1-score),如下式所示。
(14)
(15)
(16)
(17)
其中,TP表示属于正例的样本被正确划分为正例;TN表示属于正例的样本但被划分为负例;FP表示属于负例的样本但被划分为正例;FN表示属于负例的样本且被划分为负例。
4.4.2 对比实验
为了证明本文所使用的技术对提高分类性能的有效性,依次对基线未改进的CNN模型引入Dropout结构及L2正则化项、数据增强方法以及SAR图像滤波处理算法,利用MSTAR数据集进行实验,得到的对比实验结果如表3所示。
表3 对比实验测试结果
从表3可以看出,依次对基线未改进的CNN模型引入Dropout结构及L2正则化项、数据增强方法以及SAR图像滤波处理算法在各个评价指标上的精度均优于基线CNN模型。对基线CNN模型引入Dropout结构及L2正则化项后,准确率提升了1.02%;在此基础上,继而再对SAR图像数据进行数据增强方法后,准确率提升了3.37%,最后加入frost滤波算法对SAR图像进行去噪,准确率提升了1.62%。本文提出的基于frost滤波的改进CNN模型的识别方法相较于未改进的CNN模型在准确率上提升了6.01个百分点。在ROC曲线的绘制中,取十类目标ROC曲线的均值,如图7所示,从结果中可以看出,本文提出的方法在十分类SAR图像数据上都达到了最优ROC曲线和总体最大的AUC值,进一步证明了本文的模型具有很好的泛化力。
图7 不同模型的ROC曲线
4.4.3 模型实验结果
实验中,采用SOC条件下采集的MSTAR数据集,目标包括2S1、BRDM2、BTR60、D7、BTR70(BTR70_SNC71)、T72(T72_SN132)、BMP2(BMP2_SN9563)、T62、ZIL131、ZSU234、等10类,训练集图像共2636张,测试集图像共2536张。对数据进行Frost滤波后,选择剪切强度为0.2、旋转角度为20°、缩放比例为0.2和水平翻转组合的方式进行数据增强,图8为模型的混淆矩阵结果。
图8 模型混淆矩阵
表4为本文提出模型的各性能指标,从表4的结果中可以看出,本文方法对10类SAR图像目标分类的平均识别准确率可以达到98.06%,具有较好的识别效果,同时也表明了本文方法具有较高的泛化能力和鲁棒性。同时,本文设计的模型在精确率、召回率以及F1 度量上分别达到了98.02%、97.96%和97.99%,精确率越高说明模型查找正样本的能力越准,召回率越高意味着模型寻找正样本的能力越强,验证了本文提出算法的有效性。
表4 10类MSTAR目标识别结果
前人的研究多是通过优化网络结构来提升SAR图像分类的准确率,却很少有人考虑相干斑噪声的影响。忽略SAR图像的相干斑噪声会导致后续处理时复杂程度更高,影响目标识别的准确率;并且,也很少有研究学者进行数据扩充的操作,由于卷积神经网络具有主动提取特征的特性,使得其在训练过程中通常需要大量的数据来进行特征提取,未进行数据扩充操作往往会导致模型过拟合,从而影响识别效果。同时,本文为了抑制模型过拟合现象,引入了dropout结构和L2正则化项,降低了模型复杂度,对最终模型的识别起到了关键性的作用。本文在尽量保证图片细节和边缘信息不丢失的情况下,对SAR图像进行了滤波处理,抑制了相干斑噪声对SAR图像分类的影响,提高了SAR图像分类的准确率。为进一步验证本文方法的有效性,与前人的研究方法相比,在MSTAR数据集上,本文的识别准确率具有一定的优越性,对比结果如表5所示。
表5 MSTAR数据集下不同算法的分类结果
5 结 论
本文提出了一种基于卷积神经网络的SAR图像目标识别方法,通过加入Dropout结构以及L2正则化项,梯度下降算法选用Adam算法,改进优化了卷积神经网络,有效抑制了过拟合。利用Frost滤波算法对图像数据去噪后,通过数据增强方法扩充样本在MSTAR数据集上进行了验证。结果表明,本文方法在MSTAR数据集十类目标分类实验中,平均识别率可以达到98.06%,在精确率、召回率以及F1度量上均达到了较高的精度。
在本文的基础上,可以对Frost算法作进一步改进。由于Frost滤波算法边缘保持能力较弱,可通过调整滤波器的权值来改善边缘保持的效果。因此,设计出一种既能有效去除噪声又能很好地保持图像边缘纹理细节的滤波算法,也是下一步的重要研究方向之一。