VGG与DoG结合的光学遥感影像精确配准方法
2021-11-11王少杰武文波徐其志
王少杰 武文波 徐其志
VGG与DoG结合的光学遥感影像精确配准方法
王少杰1武文波*2徐其志3
(1北京化工大学,北京 100029)(2北京空间机电研究所,北京 100094)(3北京理工大学,北京 100081)
光学遥感成像分辨率高、幅宽大,相似地物多,在图像配准中极易产生特征点误匹配。现有深度网络配准方法直接将特征图中的极大值点作为图像配准的特征点,特征点提取与匹配的准确性差,导致图像精度低。针对该问题,文章提出新方法,将高斯差分图像(Difference of Gaussian,DoG)与Visual Geometry Group(VGG)网络组合起来,构成一个新网络,即Difference of Gaussian with VGG(DVGG)网络;然后从高斯差分图像中提取极大值点作为配准的特征点,将DVGG网络提取的特征图作为特征点的特征描述,用于计算两幅图像特征点匹配的相似度。最后,利用Google Earth软件获取的遥感影像,进行了实验验证,并与尺度不变特征变换(Scale Invariant Feature Transform,SIFT)和加速稳健特征(Speeded Up Robust Features,SURF)方法进行了对比。实验结果表明:新方法的图像配准精度高,优于对比方法。
图像配准 深度学习 特征提取 光学遥感
0 引言
图像配准技术是指将不同时间、不同视角和不同传感器获取的两幅图像进行匹配的过程,目前此技术已经广泛应用到了遥感、医学等领域[1]。其中遥感领域的图像配准是许多遥感图像处理过程中必不可少的一部分,例如目标检测、图像融合、语义分割等任务都需要在配准成功的前提下进行,因此光学遥感影像的配准技术成为了研究热点[2]。
传统的图像配准方法主要分为基于灰度的方法和基于特征的方法[3-4],其中基于特征的配准方法通过提取图像的显著特征来进行匹配,不易受到旋转、尺度缩放等因素的干扰,在自然图像的配准领域得到了广泛应用[5-6],最具有代表性的是尺度不变特征变换(Scale Invariant Feature Transform,SIFT)方法[7-8]。该方法通过构建高斯差分金字塔来确定候选关键点,然后对候选关键点进行筛选和精确定位,最后生成对应的特征描述来进行关键点之间的匹配,在自然图像的配准中得到了较好的效果。但是遥感图像通常幅宽较大、相似地物更多,SIFT方法难以准确提取到遥感影像的深层特征,配准效果有待提高[9]。
近年来,深度学习技术飞速发展,卷积神经网络(Convolutional Neural Network,CNN)在很多计算机视觉任务中取得了不错的效果[10-12]。在图像配准领域,学者们通过CNN提取更深层次的语义特征进行特征匹配[13]:文献[14]提出的D2-Net网络利用Visual Geometry Group(VGG)网络生成的特征图来直接计算关键点和特征描述;文献[15]提出的MatchNet网络用深度网络来提取特征,然后用全连接层来度量对两个特征描述子之间的相似性;文献[16]介绍了一种深度学习框架,将特征点检测、方向估计和描述符计算结合起来,并实现了端到端的训练。相比于传统的图像配准方法,卷积神经网络可以提取到图像更深层次的特征,更好地抵抗图像角度变换、亮度变化以及成像模式等因素带来的干扰,使得配准效果更加精确[17-18]。但是目前基于深度学习的图像配准方法主要应用于自然图像,遥感图像通常分辨率更高、尺寸更大,CNN提取的关键点数量少且准确性差。如图1所示,对同一张光学遥感影像来说,D2-Net网络检测到的关键点数量较少而且代表性较差,在机场跑道边缘或者建筑物边缘等位置检测出的关键点数量很少;而传统的SIFT方法检测出的关键点数量较多且准确性更好,且大都集中在地物边缘,利用这些关键点进行图像配准的效果通常会更好。
图1 不同方法检测出的关键点对比
针对上述问题,本文将高斯差分图像(Difference of Gaussian,DoG)与VGG网络组合起来,提出DVGG网络,再用高斯差分图像检测出关键点,通过DVGG网络获取相对应的特征描述子进行遥感图像配准,得到了更多正确的匹配点对,配准效果更加精确。
1 基于DVGG网络的配准方法
对于幅宽较大、背景复杂的光学遥感影像来说,SIFT描述子难以对图像的深层特征进行描述,从而导致出现误匹配较多;VGG网络可以提取到图像的深层特征,同一地物经过网络得到的特征向量基本相同。将这两种特征向量相结合作为特征点的特征描述可以使得匹配效果更加精确,配准结果对光照、角度等因素的抗干扰能力更强,误匹配点对更少。
本文提出的配准方法流程如图2所示,首先构建输入图像的高斯差分金字塔,确定关键点的坐标及所在尺度,同时将图像重新调整大小,输入到预训练过的VGG网络中,得到不同尺寸的特征图。将尺寸相同的高斯差分图像和特征图拼接起来,构成DVGG网络,将DVGG网络输出的特征作为关键点的特征描述,计算关键点之间的相似度,得到匹配对。
图2 本文方法流程
1.1 通过高斯差分图像确定关键点
高斯差分图像是SIFT配准方法中为了确定关键点而生成的图像,这种方法检测出来的关键点不仅可以克服角度变换、灰度差异带来的干扰,还具有尺度不变性,对遥感图像进行配准时取得了很好的效果。其计算过程主要包括以下两个步骤:
1)通过高斯核函数构建高斯金字塔;将原始图像上采样一倍,然后用式(1)生成图像的尺度空间,作为高斯金字塔的第一组图像。
2)高斯金字塔中相邻图像做差得到高斯差分图像。
高斯金字塔中所有组的相邻图像都相减之后,即可得到高斯差分金字塔。将高斯差分图像中的每1个采样点与其同层的8个相邻点以及上下相邻尺度相对应的9个点进行比较。如果该采样点为极大值点,就保留该点为1个候选特征点。得到所有的候选特征点后,对这些点的坐标进行三维二次函数拟合,得到更精确的关键点坐标,最后去除掉低对比度的关键点和不稳定的边缘响应点,即可确定关键点的位置。
1.2 通过DVGG网络生成描述子
对VGG16网络[19]进行修改,只保留前10层,并且删去最后一层池化层,修改最后一个卷积层使得输出的特征图尺寸为原图尺寸的四分之一,通道数为128。DVGG网络为高斯差分金字塔与修改后的VGG16网络拼接而成,用在模型的训练和测试阶段。训练时通过高斯差分金字塔获取特征点的位置,将特征点的位置作为真值对VGG网络进行训练,这样进行的训练可以使得生成的VGG特征更加适合进行光学遥感影像的配准;测试时,如图3所示,为了与高斯差分金字塔中不同组别的图像匹配,需要先将原始图像重新调整大小,然后再输入到预训练过的VGG网络中,得到不同尺寸大小的特征图。将相同尺寸大小的特征图和高斯差分图像拼接起来,用来计算特征描述向量。
图3 获取VGG特征描述
将对应尺度的关键点坐标输入DVGG网络,网络的输出为SIFT特征描述子和feature map中的特征向量拼接起来的特征向量,将其作为关键点的特征描述。最后通过这些特征描述计算出关键点之间的相似度,得到匹配点对。
2 实验与结果分析
2.1 实验数据与评价指标
为了验证算法的性能,本文使用从Google Earth软件上获取的三组图像进行配准。
第一组图像为巴西阿雷格里港附近的遥感图像,其中待配准图像于2021年1月2日拍摄,参考图像于2021年1月24日拍摄,地面分辨率为1m,图像尺寸为512像素×512像素;第二组图像为以色列阿什杜德市的一处机场的遥感图像,其中待配准图像于2014年12月31日拍摄,参考图像于2016年7月9日拍摄,地面分辨率为1m,图像尺寸为512像素×512像素;第三组图像为以色列雷霍沃特市市的一处机场的遥感图像,其中待配准图像于2014年12月31日拍摄,参考图像于2016年7月9日拍摄,地面分辨率为1m,图像尺寸为512像素×512像素。其中第一组和第二组图像只有成像时间不同,主要是为了测试算法对于同一角度不同时相的光学卫星影像的配准能力;第三组图像除了成像时间不同,待配准图像和参考图像的成像角度还存在已知变换,主要是为了测试算法对于不同角度不同时相的光学卫星影像的配准能力。
本文使用均方根误差rms、正确匹配点数量两个指标来评价图像配准的结果[20]。因为本方法主要针对的是同一区域不同时相或者同一区域不同角度的光学遥感影像的配准,选取的测试图像中的角度变换为已知的值,所以每一组图像中的待配准图像的特征点在参考图像上都有对应的已知的真值点。当待配准图像中的匹配点经过仿射变换后与对应的参考图像上的真值点距离小于1.5个像素时[21],判定该组匹配点对为正确匹配点对;均方根误差的公式为
得到匹配点对后,用随机抽样一致算法(Random Sample Consensus,RANSAC)算法对其进行筛选并计算出转换矩阵,然后利用转换矩阵对配准图像进行几何变换得到配准后的图像。利用配准后的图像与参考图像计算得到棋盘镶嵌图,通过棋盘镶嵌图即可直观看出不同方法的配准效果差异。
2.2 实验结果分析
将本文方法与SIFT方法以及加速稳健特征(Speeded Up Robust Features,SURF)方法进行比较,结果评估如表1所示,图4为第一组图像特征点匹配结果和棋盘镶嵌图,图5为第二组图像特征点匹配结果和棋盘镶嵌图,图6为第三组图像特征点匹配结果和棋盘镶嵌图。
表1 图像配准结果评估
Tab.1 Evaluation of image registration results
注:*表示rms>4,图像配准失败
图4 第一组图像匹配结果对比
图5 第二组图像匹配结果对比
图6 第三组图像匹配结果对比
从表中数据可以看出,与SIFT方法和SURF方法相比,本文方法计算得到的rms值较低,说明用本文方法得到的配准后图像和参考图像更为接近,配准精度更高。分析三幅图像的棋盘镶嵌图可得, SIFT方法和SURF方法在图像的边缘处出现很多偏差,如机场跑道、道路等明显的地物一致性较差,而且受图像角度变换影响较大,对第三组图像进行配准后得到的棋盘镶嵌图出现了更大的偏差;本文方法计算得到的棋盘镶嵌图在图像的边缘区域可以精准重叠,同时对图像角度等因素的抗干扰能力更强,在第三组图像的配准中本文方法得到的棋盘镶嵌图效果依然稳定,机场跑道等地物的一致性较强,配准精度优于对比方法。
另外需要说明的是,与SIFT方法和SURF方法相比,尽管本文方法因为有大量的卷积操作导致更加耗时,但是有效减少了错误的匹配点对数量,对光照、角度等因素有更强的抗干扰能力,提升了配准精度,可以得到更好的配准效果。
3 结束语
本文提出了基于DVGG网络的图像配准方法,将高斯差分图像与VGG网络相结合,用高斯差分图像检测关键点,DVGG网络生成关键点的特征描述,提高了光学遥感影像的配准精度。利用Google Earth软件获取的不同时相的遥感图像进行实验,结果表明:本文方法获取了更多的正确匹配点对,得到了更高的配准精度。针对配准速度的问题,我们后续还会对方法进行优化,在保证配准效果的同时减少耗时。
[1] ZITOVA B, FLUSSER J. Image Registration Methods: a Survey[J]. Image and Vision Computing, 2003, 21(11): 977-1000.
[2] PAUL S, PATI U C. A Comprehensive Review on Remote Sensing Image Registration[J]. International Journal of Remote Sensing, 2021, 42(14): 5400-5436.
[3] SALVI J, MATABOSCH C, FOFI D, et al. A Review of Recent Range Image Registration Methods with Accuracy Evaluation[J]. Image and Vision Computing, 2006, 25(5): 578-596.
[4] LI Jiayuan, HU Qingwu, AI Mingyao. Robust Feature Matching for Remote Sensing Image Registration Based on L-q-Estimator[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(12): 1989-1993.
[5] 张谦, 贾永红, 胡忠文. 多源遥感影像配准中的SIFT特征匹配改进[J].武汉大学学报(信息科学版), 2013, 38(4): 455-459.
ZHANG Qian, JIA Yonghong, HU Zhongwen. An Improved SIFT Algorithm for Multi-source Remote Sensing Image Registration[J]. Geomatics and Information Science of Wuhan University, 2013, 38(4): 455-459.(in Chinese)
[6] 余先川, 吕中华, 胡丹. 遥感图像配准技术综述[J]. 光学精密工程, 2013, 21(11): 2960-2972.
YU Xianchuan, LYU Zhonghua, HU Dan. Review of Remote Sensing Image Registration Techniques[J]. Optics and Precision Engineering, 2013, 21(11): 2960-2972. (in Chinese)
[7] LOWE D G. Object Recognition from Local Scale-invariant Features[C]//1999 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), June 23-25, 1999, Fort Collins, CO, USA. IEEE, 1999.
[8] LOWE D G. Distinctive Image Features from Scale-invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[9] 胡明娣, 张中茂, 杨洁, 等. 一种基于融合特征的多源遥感图像配准算法[J]. 西安邮电大学学报, 2020, 25(2): 7-14.
HU Mingdi, ZHANG Zhongmao, YANG Jie, et al. A Registration Algorithm for Multi-source Remote Sensing Images Using Features Fusion[J]. Journal of Xi’an University of Posts and Telecommunications, 2020, 25(2): 7-14. (in Chinese)
[10] REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-time Object Detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), June 26-July1,2016, Las Vegas, USA. IEEE, 2016.
[11] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), June 26-July1,2016, Las Vegas, USA. IEEE, 2016.
[12] CHEN L C , PAPANDREOU G , KOKKINOS I , et al. Deeplab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.
[13] 许东丽, 胡忠正. 基于深度学习特征提取的遥感影像配准[J]. 航天返回与遥感, 2019, 40(6): 107-118.
XU Dongli, HU Zhongzheng. Remote Sensing Image Registration Based on Deep Learning Feature Extration[J]. Spacecraft Recovery & Remote Sensing, 2019, 40(6): 107-118. (in Chinese)
[14] DUSMANU M , ROCCO I , PAJDLA T , et al. D2-Net: A Trainable CNN for Joint Description and Detection of Local Features[C]// 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 16-20,2019, Long Beach, CA, USA. IEEE, 2019.
[15] HAN X , LEUNG T , JIA Y , et al. MatchNet: Unifying Feature and Metric Learning for Patch-based Matching[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),June 8-10,2015, Boston, USA. IEEE, 2015.
[16] YI K M, TRULLS E, LEPETIT V, et al. Lift: Learned Invariant Feature Transform[C]//2016 European Conference on Computer Vision(ECCV), October 8-16, 2016, Amsterdam, Netherlands.
[17] 叶发茂, 罗威, 苏燕飞, 等. 卷积神经网络特征在遥感图像配准中的应用[J]. 国土资源遥感, 2019, 31(2): 32-37.
YE Famao, LUO Wei, SU Yanfei, et al. Application of Convolutional Neural Network Feature to Remote Sensing Image Registration[J]. Remote Sensing for Land and Resources, 2019, 31(2): 32-37. (in Chinese)
[18] WANG S, QUAN D, LIANG X, et al. A Deep Learning Framework for Remote Sensing Image Registration[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 145: 148-164.
[19] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large Scale Image Recognition[EB/OL]. [2020-11-20]. https://arxiv.org/pdf/1409.1556.pdf.
[20] MIKOLAJCZYK K, SCHMID C. A Performance Evaluation of Local Descriptors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1615-1630.
[21] 张明祥, 王泽根, 白茹月, 等. 一种由粗到精的光学与SAR遥感图像配准算法[J]. 地球信息科学学报, 2020, 22(11): 2238-2246.
ZHANG Mingxiang, WANG Zegen, BAI Ruyue, et al. A Coarse-fine Optical and SAR Remote Sensing Image Registration Algorithm[J]. Journal of Geo-information Science, 2020, 22(11): 2238-2246. (in Chinese)
An Accurate Registration Method for Optical Remote Sensing Images Based on VGG and DoG
WANG Shaojie1WU Wenbo*2XU Qizhi3
(1 Beijing University of Chemical Technology, Beijing 100029, China)(2 Beijing Institute of Space Mechanics & Electricity, Beijing 100094, China)(3 Beijing Institute of Technology, Beijing 100081, China)
At present, optical remote sensing imaging has the characteristics of high resolution, large coverage width and many similar ground objects, so it is very easy to produce feature point mismatch in image registration. The existing deep network registration methods directly take the maximum points in the feature map as the feature points of image registration. The accuracy of feature points extraction and matching is poor, which leads to low image accuracy. To solve this problem, this paper proposes a new method combining the Difference of Gaussian(DoG)and Visual Geometry Group(VGG)network to form a new network, that is, the Difference of Gaussian with VGG(DVGG)network. The maximum points are extracted from the Gauss difference images as the registration feature points, and the feature map extracted from the DVGG network is used as the feature description of the feature points, which is used to calculate the similarity between the two image feature points.The remote sensing images obtained by the Google Earth software are experimentally verified and compared with scale invariant feature transform(SIFT)and accelerated up robust features(SURF). The experimental results show that this new method has high accuracy and is superior to the contrast methods.
image registration;deep learning;feature extraction;optical remote sensing
TP751
A
1009-8518(2021)05-0076-09
10.3969/j.issn.1009-8518.2021.05.009
王少杰,男,1998年生,现在北京化工大学计算机科学与技术专业攻读硕士学位。主要研究方向为遥感图像配准、遥感图像目标检测。E-mail:2019200817@mail.buct.edu.cn。
徐其志,男,1983年生,2013年获北京航空航天大学计算机学院计算机应用技术博士学位,副教授。主要研究方向为遥感图像融合、目标识别、大数据分析。E-mail:qizhi@buaa.edu.cn。
武文波,男,1979年生,2007年获武汉大学摄影测量与遥感专业博士学位,研究员。主要研究方向为遥感信息智能处理。E-mail:yimeng_whu@126.com。
2021-08-09
国家自然科学基金面上项目(61972021,61672076)
王少杰, 武文波, 徐其志. VGG与DoG结合的光学遥感影像精确配准方法[J]. 航天返回与遥感, 2021, 42(5): 76-84.
WANG Shaojie, WU Wenbo, XU Qizhi. An Accurate Registration Method for Optical Remote Sensing Images Based on VGG and DoG[J]. Spacecraft Recovery & Remote Sensing, 2021, 42(5): 76-84. (in Chinese)
(编辑:陈艳霞)