基于CNN的SAR图像目标分类优化算法

2017-03-12刘晨曲长文周强李智

雷达科学与技术 2017年4期

刘晨，曲长文，周强，李智

(1.海军航空工程学院电子信息工程系，山东烟台 264001；2.海军航空工程学院科研部，山东烟台 264001)

0 引言

合成孔径雷达相比于光学、红外等传感器，具有不受天气、光照等外界条件的限制，可以全天候、长期、实时对目标进行监测。随着其技术的日益成熟，在民用和军事领域都得到了较为广泛的应用，具有较高的研究价值。通过对SAR图像目标的分类识别，可以实时对陆地和海洋等军事目标进行监测，获得陆地及海洋军事目标的位置、类型和运动状态等信息，为取得战场主动权、提升目标打击能力提供了有力保证。

卷积神经网络(CNN)可以有效地从大量样本中学习到相应的特征，提取出优于人工设计的特征，并且样本数量越大，提取的特征越有利于分类识别。由于卷积神经网络可以直接对二维图像进行处理，因此，在图像处理方面得到了越来越多的关注，并取得了较多的研究成果，如医学图像识别[1]、人脸识别[2]、人体行为识别[3]等。该网络是一种端到端的学习模型，经过对卷积神经网络的训练，可以学习到图像中的特征，并且通过学习到的特征完成对图像的分类识别[4]。CNN通过简单的非线性模型从原始图像中提取出更加抽象的特征，并且在整个过程中只需少量的人工参与[5]。

本文主要研究卷积神经网络在SAR图像上的应用，解决人工设计的特征分类识别能力不足的问题，提升SAR图像分类识别能力。通过对比激活函数和改变权值更新方式，对卷积神经网络进行优化，提升卷积神经网络对SAR图像的适用性，同时提出了一种ZCA白化与PCA相结合的SAR图像预处理方法。实验结果表明，该优化方法可以提升网络的训练和检测速度并且取得较优的分类效果。

1 卷积神经网络的基本原理

1.1 卷积神经网络基本结构

目前典型的卷积神经网络结构仍然采用卷积层和下采样层交替连接的方式，并且最后通过全连接层与输出层相连，如图1所示。

图1 卷积神经网络结构图

卷积层主要用于提取特征和降低噪声。假设第l层为卷积层，则第l层第j个特征图的计算公式如下所示：

(1)

下采样层主要利用图像局部之间相关性的原理，降低需要处理的数据量。将邻域4个像素变为一个像素，常用的方法有均匀下采样、最大下采样和概率最大下采样，最终产生一个大概缩小4倍的特征映射图Sx+1。

卷积和下采样过程如图2所示。

图2 卷积神经网络卷积和下采样过程

1.2 BP算法

卷积神经网络权值更新方式采用的是后向传播(Back Propagation, BP)算法[6]。算法的流程图如图3所示。

图3 BP算法流程图

具体步骤如下：

1) 对参数进行初始化： ΔW=0， Δb=0，

2) 计算网络各层的输出，计算公式为

(2)

式中，l表示层数，x表示特征图，w表示卷积核，b表示当前层的偏置，f表示激活函数。

3) 假设输出结果分为m类，即最后输出为m维数据，将输出值与样本标签之间的均方误差作为代价函数，进而求得第n个样本的代价函数J(w,b;x,y)为

(3)

为求取单个样本的代价函数对参数的导数，通过引入灵敏度的概念，定义第l层的灵敏度为

(4)

第nl层为输出层，根据式(2)、式(3)可得输出层的灵敏度为

δ(nl)=-(y-a(nl))·f′(z(nl))

(5)

式中， “·”表示点乘。

对于l=nl-1，nl-2,…,2的各层灵敏度为

δ(l)=((w(l))Tδ(l+1))·f′(z(l))

(6)

完成上述代价函数的反向传播后，利用梯度下降法，将代价函数对网络中参数求偏导，对参数进行更新，最终使代价函数达到极小值。代价函数J(w,b;x,y)对w(l)和b(l)的偏导计算公式如下：

(7)

(8)

更新权重参数为

(9)

式中，α表示学习率。

2 卷积神经网络的优化

2.1 前向传导过程的调整

在前向传导过程中激活函数的正确选择可以极大地降低网络训练的时间和提高网络训练的准确度。卷积、下采样和全连接操作仅能够表达出线性映射，即使引入更深层的网络结构，仍然还是一个线性映射，对于非线性分布的数据不能有效地建模，因此需要引入一个非线性激活函数来增加网络的非线性学习能力。从最早的Sigmoid函数开始，针对不同的训练需求，逐渐发展出各种改进版的激活函数，如Tanh函数、RELU函数等。各函数图如图4所示。

(a)Sigmoid函数

(b)Tanh函数

(c)RELU函数图4激活函数

从图4可以看出，Sigmoid函数在定义域内处处可导，有利于BP算法的计算，而Tanh函数的输出均值相比于Sigmoid更接近0，可以加快训练速度。但是二者有一个共同的缺点，当输入值的绝对值过大时，函数的导数接近为0，进入饱和区，在BP算法中将导致向低层传递的导数变得非常小，不利于网络的训练，发生梯度消失现象[7]。RELU激活函数解决了上述问题，该函数的导数为0或1，可以有效地缓解梯度消失的问题。

2.2 BP算法的调整

BP算法采用梯度下降的方法对权重进行调整，常用的梯度下降方法主要分为3类：全量梯度下降、随机梯度下降和小批量梯度下降。这3类方法的区分方式主要是根据每次训练样本的个数决定的。全量梯度下降每次使用全部的样本进行训练，具有每次更新都向着正确的方向进行的优点，但是对于大量样本，将导致训练时间过长、消耗大量内存等问题。随机梯度下降每次用一个样本进行训练，该方法可以解决全量梯度下降的训练时间长和占用大量内存的问题，但同时也导致每次更新并不是按照正确的方向进行，产生扰动现象。因此，通过对上述两种方法的分析，小批量梯度下降结合二者的优点，每次训练从样本中随机选取n个样本(n小于样本总数)进行训练。该方法在提高训练速度的同时使权重更新更加稳定。

但是小批量梯度下降方法在局部极值点附近容易产生振荡，降低网络的收敛速度。为使网络可以更快地收敛，选择梯度下降优化算法中动量更新的方法进行权重的调整，如式(10)所示：

(10)

式中，γ为动量系数，一般为γ∈(0,1)，η为学习率， ΔW为权重更新量，W为权重。

从式(10)可以看出，通过以前经验积累，有利于降低网络训练过程中的振荡现象，从而加快网络训练速度[8]。

2.3 图像预处理方法

2.3.1 主成分分析(PCA)

PCA是一种数据降维方法，通过计算出输入数据的协方差矩阵，求得相应的特征值，选取前k项主成分，其余全部赋值为0，通过PCA降维处理在极大保留数据特征的同时可以降低图像相邻像素之间的相关性，提升算法的分类识别速度。

2.3.2 白化

由于SAR图像相邻像素之间具有很强的相关性，所以用原始图像进行训练时会存在冗余现象，而白化的目的就是降低图像的冗余性。通过白化处理后的图像会降低特征之间的相关性以及使所有的特征具有相同的方差。

首先假设输入的数据为：X∈Rn×m，n为数据维数，m为样本个数。求得数据的协方差矩阵：

(11)

对该协方差矩阵进行奇异值分解：

[U,S,V]=svd(Σ)

(12)

式中，U为Σ的特征向量矩阵，S为其特征值矩阵，因为Σ是对阵方阵，所以V=U′，Σ=USV。

ZCA白化结果如下：

(13)

结合上述两种方法的优点，本文将ZCA白化与PCA降维结合起来对SAR图像进行预处理。首先通过ZCA白化降低图像相邻像素之间的相关性，然后将ZCA白化后的数据进行PCA降维，提高算法的训练速度。实验结果表明，该方法在提高分类准确率的同时提高了检测速度。从每类目标中随机选取一幅图片，经过预处理后结果如图5所示。

(a)原始图片 (b)PCA处理后

(c)ZCA白化后 (d)ZCA白化和PCA 处理后图5预处理后的图像

3 实验仿真

3.1 实验数据集

为对本文提出的方法进行验证，数据集采用的是美国MSTAR数据库，实验采取其中的BRDM2，BTR60，D7，S1和T62五类目标进行分类识别，如图6所示。

图像的分辨率为0.3m×0.3m，大小为128×128像素，训练样本为17°俯视角的SAR图像目标，共1 450幅，测试样本为15°俯视角的SAR图像目标，共1 290幅。为加快网络的训练速度，截取图像中心包含目标的42×42大小的图像块进行实验。

(a)BRDM2 (b)BTR60

(c)D7 (d)S1

(e)T62图6MSTAR数据实验目标

3.2 算法分类准确率对比结果

实验采用的卷积神经网络模型如图1所示，由5层网络结构组成，第一层卷积层包含8个滤波器，大小为5×5，第二层下采样层采用均值下采样，大小为2×2，第三层卷积层包含16个滤波器，大小为4×4，第四层下采样与第二层一样，最后一层为全连接层。动量系数γ为0.9，最大迭代次数为10次。

3.2.1 优化后的卷积神经网络分类结果

采用不同激活函数的实验结果如表1所示。

表1 不同激活函数下的分类准确率对比

3.2.2 预处理后的分类结果

在已经调整好网络结构参数的条件下，对SAR图像分别进行PCA降维和ZCA白化处理，实验结果如表2所示。

针对本文提出的方法，通过ZCA白化与PCA相结合的方法对SAR图像进行预处理，对比3种预处理方法，结果如图7所示。

表2 不同预处理条件下的分类准确率对比

图7 3种预处理后结果对比

从图7可以看出，本文提出的方法在经过5次迭代后就已经得到了最优的分类效果，与其近似的ZCA白化方法需要经过8次迭代才能达到相同效果，可以看出本文提出的ZCA白化与PCA降维相结合的预处理方法在较少的迭代次数下可以得到更优的分类效果。

最终改进后的预处理方法实验结果如表3所示。

表3 5类目标的SAR图像分类结果

从表3可以看出，本文方法对5类SAR图像取得了较好的分类效果，平均识别率达到了96.74%。

4 结束语

针对海量SAR图像目标特征提取困难、分类精度不高的问题，本文采用卷积神经网络对其进行分类识别，通过优化网络结构参数，提高卷积神经网络对SAR图像目标分类的适用性，同时提出了一种改进的SAR图像预处理方法，对输入的SAR图像进行ZCA白化与PCA相结合的预处理方法。实验结果表明，该方法对5类SAR图像目标的分类可以达到96.74%的准确率，并且训练速度得到显著的提升。

[1]CIOMPI F, DE HOOP B, VAN RIEL S J, et al. Automatic Classification of Pulmonary Peri-Fissural Nodules in Computed Tomography Using an Ensemble of 2D Views and a Convolutional Neural Network Out-of-the-Box[J]. Medical Image Analysis, 2015, 26(1):195-202.

[2]MA Yukun, HE Jiaoyu, WU Lifang, et al. An Effective Face Verification Algorithm to Fuse Complete Features in Convolutional Neural Network[C]∥ 22nd International Conference on Multimedia Modeling, Miami, FL, USA:Springer, 2016:39-46.

[3]IJJINA E P, MOHAN C K. Human Action Recognition Based on MOCAP Information Using Convolution Neural Networks[C]∥ 13th International Conference on Machine Learning and Applications, Detroit, MI, USA:IEEE, 2015:159-164.

[4]李彦冬,郝宗波,雷航. 卷积神经网络研究综述[J]. 计算机应用, 2016, 36(9):2508-2515.

[5]LECUN Y, BENGIO Y, HINTON G. Deep Learning[J]. Nature, 2015, 521(7553):436-444.

[6]RUMELHART D E, HINTON G E, WILLIAMS R J. Learning Representations by Back-Propagating Errors[J]. Nature, 1986, 323(6088):533-536.

[7]GLOROT X, BENGIO Y. Understanding the Difficulty of Training Deep Feedforward Neural Networks[J]. Journal of Machine Learning Research, 2010, 9(1):249-256.

[8]韩力群. 人工神经网络教程[M]. 北京:北京邮电大学出版社, 2006:67-68.