卷积神经网络特征在遥感图像配准中的应用

2019-06-10叶发茂罗威苏燕飞赵旭青肖慧闵卫东

自然资源遥感 2019年2期

叶发茂, 罗威, 苏燕飞, 赵旭青, 肖慧, 闵卫东

(南昌大学信息工程学院，南昌 330031)

0 引言

通过遥感图像配准可以获取同一场景中不同时间、不同类型的遥感图像之间的空间变换关系，因此图像配准是遥感图像融合或变化检测等许多遥感任务中不可或缺的部分。

一般来说，遥感图像配准方法大致可以分为基于图像灰度的方法和基于图像特征的方法2种[1]。其中，基于图像灰度的方法是通过计算待配准图像与参考图像之间像素灰度的最大相似性，寻找相似性度量最大的几何变换，最常用的相似性度量有互相关和互信息[2]。然而，基于图像灰度的方法相似性度量计算量大，易受纹理干扰。基于图像特征的方法通过检测明显且稳定的匹配特征来估计图像之间的几何变换，可大大减少图像配准过程中的计算量，且能够克服基于图像灰度的方法对图像灰度敏感等缺点，已经成为遥感图像配准研究的主要发展方向[3]。张谦等[3]采用尺度不变特征变换(scale-invariant feature transform, SIFT)特征和由粗到精的多级匹配策略进行多源遥感图像配准；李少毅等[4]利用加速稳健特征(speeded up robust features, SURF)进行彩色遥感图像配准； Yang等[5]利用格陵兰冰盖上的冰面河流特征配准高精度卫星图像。但这些低层特征表达能力有限，易受到旋转角度、缩放倍数和亮度等因素干扰，从而有可能导致配准失败。

随着深度学习方法的发展，卷积神经网络(convolutional neural network, CNN)[6-7]已在图像分类[8]、图像检索[9-10]和目标识别[11]等领域得到广泛应用，并取得令人瞩目的成绩。在这些应用中，从利用大规模数据集ImageNet预训练的CNN模型中提取的中高层特征比常见的低层特征表现得更优秀，具有更好的性能。为了充分利用CNN强大的特征提取和表示能力，并克服低层特征的不稳定性、提高配准的可靠性，本文对应用CNN特征进行图像配准的性能开展研究。首先，研究和分析了不同的CNN中的全连接层特征和不同聚合大小的卷积层特征；接着，研究了利用这些特征进行遥感图像配准的方法；然后，通过实验验证了该方法的可行性；最后，通过定量方法分析其在图像的旋转角度、缩放倍数和亮度分别变换时的性能，并与传统SIFT特征的性能进行了对比分析。

1 基于CNN特征的遥感图像配准

1.1 CNN模型

CNN模仿了动物视觉皮层组织神经元之间的连接模式，是一种多层前馈人工神经网络的深层学习结构[12]。该模型可以直接输入原始图像，因其避免了对图像的复杂前期预处理而得到了更为广泛的应用，是众多科学领域，特别是图像分类、识别领域研究热点之一。CNN一般由多个卷积层、池化层和全连接层相互连接而成。卷积层利用各种卷积核对输入进行卷积运算，提取各种特征；池化层通过池化操作对输入进行降维，从而减少网络参数的数量；全连接层通常是CNN的最后部分，是一种传统的多层感知器网络，其每一个神经元都与前一层的每一个神经元相连接。网络最后输出输入图像的高层特征，经过分类器统计计算，输出该输入图像所对应类别标签的概率。

本文采用的AlexNet模型[6]是一个简单但富有竞争力的CNN模型。它由5个卷积层、3个池化层和3个全连接层组成。AlexNet模型架构如图1所示，图中Conv为卷积层，Pool为池化层，各层下方数字为输出特征图的大小及个数，如Conv1层的输出由94个55像素×55像素的特征图组成，FC为全连接层，下方数字为维数。

1.2 全连接层的特征

CNN能够提取不同层次的特征，并且这些特征的层次从前往后依次增加。本文从AlexNet模型中提取配准特征。由于AlexNet模型的最后一层(FC8层)的1 000维特征是来自ImageNet的1 000个类别的后验概率分数，其通常用于分类，因此舍弃FC8层，采用4 096个维数的FC7和FC6层的输出用于CNN的遥感图像配准。

1.3 聚合卷积特征

全连接层特征是复杂的高层特征，可以在一定程度上视为全局特征。由于卷积层特征在遥感图像检索等领域表现出比全连接层特征更好的性能[13]，因此需对各种维数的卷积层特征进行遥感图像配准分析。

卷积层输出的是一个由h×w×d个元素组成的三维张量T。其中，h×w为特征图的大小，d为特征图的个数。T包含h×w个向量，每个向量是一个d维深度描述符。令x表示d维深度描述符，可以得到T={x(i,j)}，其中(i,j)是一个特定的矩阵(i∈{1,…h},j∈{1,…w},x(i,j)∈Rd)。然后，将T扁平化为h×w行d列的二维特征矩阵n，则卷积层特征可以定义为

F=(x1,x2,…,xn)。

(1)

卷积层特征维数较高，因此不宜直接用作遥感图像配准的相似度量。因此采用平均池化来将这些卷积层特征聚合成紧凑的特征[14-15]。

图1所示的AlexNet模型的Conv5层输出是256个大小为13像素×13像素的特征图。为了获得不同维数的配准特征，利用4种不同大小的池化核对Conv5层进行池化，并得到了6×6×256(Agg1)，4×4×256(Agg2)，2×2×256(Agg3)和1×1×256(Agg4)这4种维数的聚合CNN特征。

1.4 预训练的CNN模型微调

为了使得从AlexNet模型提取的特征更适合遥感图像配准，本文建立了一个配准数据库对预先训练的AlexNet模型进行微调。首先，人工配准16组遥感图像；然后，从这些图像对中提取数量N=3 756个64像素×64像素的“种子”图像对，每一个“种子”图像对都被声明为代表它自己的一个类；最后，为了扩展这些类，将K=210个随机变换应用于每个“种子”对，每个变换都是由旋转、缩放和亮度的3个随机变换组成的。因此，在建立的数据集中，包含N个类别的图像，每个类别包含2K个样本，这些样本按大约8∶2的比例随机分成训练数据集和测试数据集。

在微调过程中，利用预先训练的AlexNet模型初始化权重，学习速率设为0.001，动量值为0.9，权值衰减值设为0.000 5。

1.5 基于CNN特征的图像配准

基于CNN特征的配准流程如图2所示。

图2 基于CNN特征的图像配准流程

首先，对参考图像和待配准图像采用SIFT方法检测特征点；其次，截取以特征点为中心的尺寸为64像素×64像素的图像作为特征点的特征图像，并将其输入到微调的AlexNet模型中来获取特征点的CNN特征；然后，根据特征点的CNN特征进行匹配，获取同名点；最后，根据同名点计算变换参数，进行图像变换和重采样。

2 实验及分析

2.1 配准结果

为了验证利用CNN特征进行遥感图像配准的可行性，对4对不同类型的遥感图像进行了实验，其结果见图3和图4。

(a) P-A参考图像 (b) P-A待配准图像 (c) P-A图像配准结果

(d) P-B参考图像 (e) P-B待配准图像 (f) P-B图像配准结果

(a) P-C参考图像 (b) P-C待配准图像 (c) P-C图像配准结果

(d) P-D参考图像 (e) P-D待配准图像 (f) P-D图像配准结果

前2对遥感图像(P-A和P-B)与用于微调AlexNet模型的训练图像的类型相同，是多波段合成的彩色遥感图像；另外2对图像(P-C和P-D)是Landsat TM单波段图像。图3(c)和(f)分别为图像P-A和P-B图像利用FC6特征进行配准得到的棋盘镶嵌结果图像；图4(c)和(f)分别为P-C和P-D图像对应的棋盘镶嵌结果图像。从配准结果图像中可以看到图像上的边缘和区域等地方是完全重叠的。因此可知，CNN的特征不仅可以用于与训练图像一致的遥感图像配准，而且可以用于与其不同类型的遥感图像配准。

2.2 定量分析

为了对遥感图像配准的性能进行定量分析，采用以下3种评价准则来对本文方法进行评估。

(2)

2)RMSLOO(均方根保留1)表示留一交互验证的RMSE[16]。该值越低越好。

3)Nred，即冗余控制点的数量，其等于匹配方法检测到的正确同名点的数量。数量越多越好。

利用以上评价准则对SIFT特征、FC特征(FC7，FC6)和聚合卷积特征(Agg1, Agg2, Agg3, Agg4)的配准性能进行比较分析。在4个图像对上利用这些特征进行配准的精度如表1所示。其中fine-tuning表示微调的特征，pre-trained表示预训练的特征。

表1 不同特征的图像配准精度

可以看出，微调的FC6特征的RMSall和RMSLOO的值较低，因此其配准性能比其他特征要好。其与传统SIFT相比，RMSall平均减少26.5%，RMSLOO平均减少23.7%，平均每张图多匹配25.3个正确点。在聚合的卷积特性中，Agg1特征和Agg2特征的表现明显优于Agg4特征。与Agg4特征相比，Agg1特征和Agg2特征的RMSall和RMSLOO平均都减少50%以上。Agg1特征平均每张图多匹配20个正确点，而Agg2特征平均每张图多匹配35.5个正确点。因此聚合卷积特性的性能受其特征维数大小的影响。另外，比较微调特征和预训练特征的配准结果，可发现微调的特征配准效果要好于预训练特征。其中，微调后的FC7, FC6和Agg2特征效果提升最明显，微调后的FC6特征相比于微调前的FC6特征RMSall平均减少18.31%，RMSLOO平均减少15.19%，每张图平均多匹配近3个正确点。微调后的FC7特征相比于微调前的FC7特征的RMSall平均减少23.90%，RMSLOO平均减少29.07%，每张图平均多匹配近5个正确点。可见通过自定义数据集进行模型微调可以提高图像配准的性能。

为了进一步评估微调的CNN配准特征(FC7，FC6，Agg2)和SIFT特征对各种图像变换的鲁棒性，对以上4个测试图像对分别进行旋转、缩放和亮度不同大小变换，并根据Nred分析这些特征在不同变换下配准精度变化的情况。结果如图5所示。对大多数图像来说，CNN特征的Nred比SIFT特征平均提升了20%以上，其中P-C图像对的Nred甚至翻了一倍；微调的FC特征在所有变换中都比SIFT表现得更好，Nred平均增加了近50%；而微调的Agg2，除了当旋转角度大于28°时，在大多数变换中都优于SIFT，Nred平均增加了40.11%。因此，微调后的FC特征对图像的各种变换具有更强的鲁棒性。