基于迁移学习和特征融合的航空器图像分类算法*

2018-08-22查宇飞张胜杰李运强张园强

火力与指挥控制 2018年7期

陈兵，查宇飞，张胜杰，李运强，张园强

（空军工程大学航空航天工程学院，西安 710038）

0 引言

当前，各种各样的空中作战目标层出不穷，大规模的航空器协同作战，造成了空中情报信息的复杂度极大地增加，这对作战员的判断与决策和作战方案的制定造成了很大的困难和干扰。精确识别空中航空器目标［1］是实现作战方案制定的重要环节。

如何高效地实现图像的分类，国内外学者提出过许多方法［2-3］。文献［4］提出使用词袋BOW模型来进行图片分类，该算法利用视觉词袋量化图像特征，但BOW模型对图像空间信息的表达不足。文献［5］提出用方向梯度直方图（HOG）特征来表示图像中物体形状边缘的特征算子，其与支撑向量机（SVM）［6］分类器结合被广泛地应用于图像分类领域。但这种手工设计的特征只能表示图像的浅层信息，对于图像的深层语义信息还表达不够。近年来随着深度神经网络［6-9］成为机器学习新的热点，基于卷积神经网络（Convolutional Neural Networks，CNN）［10］的图像分类算法因其较强的鲁棒性和突出的性能被广泛使用。文献［8，10］采用卷积神经网络进行自然图像分类，取得了很好的分类效果，但卷积神经网络需要大量有标签的数据作为训练样本进行训练，否则会造成网络参数过拟合。目前，航空器图像分类方面还存在很大问题，一方面由于航空器图像在拍摄过程中会出现旋转、位移，航空器图像存在背景复杂、尺度不一、目标会被云层遮挡、航空器表面涂层颜色各异等问题，边缘、颜色等特征对于航空器图像的表达不佳。另一方面目前关于航空器图像分类的研究少之甚少，且没有相关方面的数据库，因此，这些自然图像分类的方法并不适用于航空器图像分类。

针对航空器图像分类方面存在的问题，本文组建了航空器数据库并提出了一种基于迁移学习和特征融合的航空器图像分类算法。本文算法的基本思想是采用迁移学习的思想，用在大数据集上训练得到的网络模型在本文数据集上精调参数来减轻参数过拟合。在此基础上，把网络提取的深度特征和手工设计的浅层特征（灰度、HOG）结合起来，然后使用融合后的特征去训练一个多分类的SVM分类器，从而实现航空器图像的分类。根据本文迁移学习的算法训练网络参数较之直接随机初始化网络参数进行训练得到的分类准确率有很大的提高，按照本文特征融合的算法进行图像分类较之使用单一特征进行图像分类的准确率均有所提升。

1 基于迁移学习的网络训练

在网络的训练中，本文采用迁移学习中模型迁移的思想，将在ImageNet数据库上训练得到的预训练网络模型迁移至航空器图像分类任务上，以减轻参数过拟合。

1.1 网络模型的迁移学习

迁移学习，就是将源领域中学到的模型应用到目标领域。如何利用现有的模型在一个新的领域发挥作用，这就是迁移学习要解决的问题。在目标领域存在数据量小的情况下，可以通过有效的方式，把在源领域的数据上训练得到的模型迁移至目标领域，从而在目标领域中训练出更好的模型。

深层的卷积神经网络中含有大量的网络参数，训练这些参数需要大量的训练数据，由于本文组建的数据库数据量小，在训练网络时网络参数容易过拟合。而在大数据集上训练好的模型相当于学习到了图像一般性特征的提取方法，故而本文把ImageNet上训练好的模型迁移到本文的任务上来减轻模型过拟合。

1.2 网络参数的预训练

本文采用有监督学习的方式，首先在ImageNet数据库上对网络参数进行预训练，然后在本文数据库上对网络参数进行精调，对于输入样本（x，y），y为输入样本的类别，网络首先经过前向计算得到fc8层特征f，输出特征维度为1×1×4 096，则fc8层的输出为 Z=［z1，z2，…，zk］∈Rk，则网络预测的类别 k∈1，2，…，K 由式（1）计算：

本文网络用交叉熵函数来作为损失函数，其公式如下：

其中，当 k=y 时 q（k）=1，当 k≠y 时 q（k）=0，在本文中最小化交叉熵损失函数就等同于使网络预出正确标签的概率最大化。

然后采用梯度下降算法通过调整网络参数对目标函数J（f，y）进行优化。参数的梯度下降公式如下：

式中，琢为学习速率，采用反向传播算法对式（3），式（4）中后两项的偏导数进行计算，多次迭代更新直到参数收敛网络训练结束，得到最优的网络参数W，b。

1.3 网络参数的精调

预训练的目的是得到初始值较好的参数集合，解决因为本文数据库数据量小而容易引起网络参数过拟合的问题。然后用预训练模型来初始化本文的网络，按照同样的算法流程对网络的参数进行微调，得到符合本文数据库统计特性的参数集。具体算法细节如下：

图1 基于迁移学习的网络训练示意图

在把预训练模型迁移到本文的任务上时，把网络结构修改成符合任务的网络。因为ImageNet数据库有1 000类，所以网络的预训练模型fc8的维度为1*1*4 096*1 000维，而数据库有10类，则要把预训练模型的fc8层的维数改成1*1*4 096*10维，并对这一层的参数进行随机初始化，再使用预训练模型来初始化网络其他层的参数。本文把航空器图像调整成适合网络的大小，并对图像进行白化、归一化、减去均值等操作来提高分类的准确性和收敛速度。其中图1为以AlexNet实现算法的网络结构图，图1所示的网络有5个全连接层和3个卷积层，其中网络的大部分参数都在全连接层。在训练时固定所有的卷积层和前两个全连接层参数，在本文数据库上精调fc8层的参数，然后再使用softmax分类器进行分类。

2 基于迁移学习的特征融合分类算法

本算法首先采用迁移学习的思想训练卷积神经网络，然后融合卷积神经网络提取的深度特征和手工设计的浅层特征，在本文组建的航空器数据库上进行图像分类研究。针对航空器图像数据库缺乏的问题，本文自己搜集和组建了航空器图像数据库；针对手工设计特征缺乏对图像予以信息的表达能力的问题，利用卷积神经网络来提取图像的深度特征；对于小数据库难以训练深层的网络问题，本文算法提出迁移学习的方法来训练网络，然后再进行航空器图像分类。针对单一特征对图像信息表达不足的问题，提出了特征融合的分类算法。

2.1 特征融合算法

图像分类的关键在于特征的提取，提取出能充分表达图像信息的特征，对于分类任务性能的提高有着重要的意义。HOG特征和灰度特征分别表示了物体边缘、能量分布信息，但不能充分表达图像的深层语义特征，而深度特征能充分表达图像的语义信息，但欠缺对一些浅层特征的表达。针对这3种特征和本文数据库的特点，提出特征融合算法来进行航空器图像的分类，融合深度特征和浅层特征，实现特征的优势互补，不论是从形状、边缘，还是从语义上都能很好地表达图像的特征。

本文通过融合深度特征与手工设计特征（包括HOG特征、灰度特征），来构建一个多特征融合的分类算法。使用迁移学习训练好的卷积神经网络模型，去掉网络最后的损失函数层，把这个模型当作一个特征提取器来提取图像的深度特征。在训练时，首先把训练集的图片输进网络，经过前向计算，得到图片的深度特征，同时提取训练集图片的浅层特征，然后再把图片的深度特征与浅层特征进行融合，用融合后的特征去训练分类器，如图2所示。

图2中，把航空器图像输入迁移学习训练好的网络里，在网络的fc8层得到了一个4 096维的深度特征。同时通过相关计算提取到图像的HOG特征和灰度特征，然后按照本文提出的线性组合的方式把深度特征、HOG特征，以及灰度特征3种表示图像不同属性信息的特征进行融合，融合后的特征既包含语义信息又包含浅层信息，适合于本文数据库这种类内的分类任务。

特征融合就是将多种特征经过一定的方式融合成一个描述物体的新特征。即

其中，f（x）为特征的组合函数，该函数根据自己的组合方式而定，既可以是线性的，也可以是非线性的，根据具体的任务而定表示不同的特征，i、j、k表示对应特征的维度，m表示当前为第m张图片，Y表示组合后的特征。本文提出一种线性的函数来作为组合函数，把所要融合的特征进行并集，组成一个包含这几种特征的集合，特征融合算法的示意图如图3所示，融合公式为：

图3 特征融合算法示意图

2.2 特征融合的分类算法

通过特征融合形成一个新的特征向量Ym，然后再用融合得到特征向量作为训练样本去训练一个多分类的SVM分类器，其目标函数为：

式中：m=1，2，…，n，其中 n 为样本数量；i=1，2，…，k，其中，k为类别数量。

用特征融合后的特征向量作为样本去训练SVM分类器，通过最小化式（7）中的目标函数得到服从输入样本分布的参数w的最优集合，这样就可以得到决策函数：，判别结果为第m类，即完成了对输入航空器图像的分类。

3 实验数据库及结果分析

本文在自己整理的航空器图像数据库上测试算法的有效性，其中数据库包含7 000张训练图片和1 000张测试图像。本文的实验环境为CPU为Intel Core i5-4460 ，主频为3.2 GHz、GPU 为GTX1070，内存16 G的计算机，实现算法的软件为Matlab（2016a），使用 Matconvnet深度学习框架。

3.1 航空器图像数据库

目前航空器图像方面的数据库很少，为了实现航空目标的分类，收集并整理了相应的航空器图像数据库。数据库为可见光航空器图像，数据库图像具有背景复杂、姿态万千、尺度不一的特点，同类航空器表面的涂层多变、改进版本多、挂载武器数量不同，不同类的飞机有的外形很接近、且数据采集时也引入了一些带有运动模糊和云层遮挡的图片，使得分类任务更加困难。该数据库总共有8 000张图片，包含10种类别的军用飞机目标，分别是：F15、F16、F18、F22、EP3、P8、歼轰 7、歼 8、苏 30 以及F35，训练集有图片7 000张，测试集有图片1 000张。图片在收集后经过矫正调整，使目标基本位于图片的中央且图片的分辨率不小于400*300。数据库概图如图4所示。

图4 航空器图像数据库

3.2 迁移学习算法实验结果及分析

为了验证迁移学习算法的有效性，分别使用AlexNet、VGG-F、VGG-VD16 这 3 种结构的网络进行试验。在图片输入网络之前将图片分别缩放成227*227（AlexNet规定的输入尺寸）、224*224（VGG-F和VGG-VD16规定的输入尺寸）。并对图像数据进行白化、归一化、减均值等预处理来提高分类的准确性和收敛速度，通过平移、旋转、随机裁剪操作来扩充数据。把这3种网络在ImageNet上预训练得到的预训练模型迁移到本航空器图像分类任务上，在训练时只更新fc8层的参数并固定其他层的网络参数，将其他层的学习速率设置为0，将最后一个全连接层的学习速率在前60个迭代周期设置为0.01，后40个周期迭代的速率设为0.001。

图5 采用迁移学习与不迁移学习的性能对比

图5中绿色的线为本文算法的准确率曲线，蓝色的线为直接训练网络参数的准确率曲线。表1给出了直观的分类准确率对比。实验表明在本文的航空器数据库上采用迁移学习训练网络参数的方法，要比直接训练网络参数的方法分类准确率在AlexNet、VGG-F 上分别提高 3.19%、7.01%、8.8%，数据表明在小数据集上训练网络时，不使用迁移学习直接进行训练的效果远差于使用迁移学习的效果，这是因为网络的层数越深、参数多，使用少量的数据就越容易产生过拟合。以上结果说明直接在本文数据库这样的小数据库上训练网络，一方面会收敛的很慢，另一方面训练得到的分类准确率也远不如采用迁移学习的分类准确率。

表1 采用迁移学习与不迁移学习的最佳准确率对比

3.3 特征融合算法实验结果及分析

为了验证特征融合算法在不同网络结构上的有效性，使用前边迁移学习得到的AlexNet、VGG-F、VGG-VD16 3种网络模型在本文数据库上进行广泛实验。使用训练集数据融合后的特征训练一个多分类的SVM分类器，然后提取测试集图片的特征，直接用训练得到的SVM分类器进行测试实验。在试验中把深度特征、HOG特征和灰度特征3种特征分别融合进行实验，如表2所示：

表2 不同特征组合的分类性能

实验数据表明：在本文数据库上本算法要比使用单一的深度特征、HOG特征、灰度特征进行航空器图像分类的精确率高，使用迁移学习得到的AlexNet、VGG-F、VGG-VD16 3 种不同结构的网络模型提取深度特征，把提取到的深度特征、HOG特征、灰度特征3种特征融合后进行试验，分类精确率比使用单一的深度特征分别提升了1.24%、1.08%、1.12%，比使用单一的HOG特征分别提高了26.63%、27.58%、28.67%，比使用单一的灰度特征分别提高了35.21%、37.53%、38.63%。这说明特征融合后的特征向量含有图像更多的信息，表征图像信息的能力也比单一特征表征图像的能力要强。可见本文的特征融合算法满足对航空器图像的分类任务。