APP下载

基于深度学习的图像配准方法综述

2020-12-03郭春生陈华华张宏宽

关键词:特征提取变形深度

黄 鹏,郭春生,陈华华,张宏宽

(1.杭州电子科技大学通信工程学院,浙江 杭州 310018;2.数源科技股份有限公司,浙江 杭州 310012)

0 引 言

图像配准是图像处理中的一个基本问题,一直以来都是图像处理和计算机视觉领域极为重要的研究方向。有着广泛的应用领域,比如在遥感图像领域,用于多光谱分类、环境监测、变化检测、图像拼接、天气预报、高分辨率图像创建等[1];在医学图像处理领域,用于影像导航、运动跟踪、图像分割、图像重建等[2];在计算机视觉领域,用于目标定位、自动质量控制等[3]。随着图像采集设备的不断发展,获得图像的数量及其多样性不断增加,加上外界环境的干扰,给图像配准带来了很大的挑战。为了应对这些挑战,需要不断改进图像配准方法。

1 图像配准

图像配准是在同一场景下将从不同时间、不同的角度、不同传感器获取的两张图像进行对齐的过程[1],也就是建立场景中不同位置在图像对中的一一对应关系。图像配准方法可以从很多角度进行分组,比如,按照图像的维度可分为2D-2D、3D-3D和2D-3D配准,按照成像模式可分为单模态和多模态图像配准,按照图像的变换性质可分为线性变换和非线性变换配准,线性变换又包括刚体变换、仿射变换和投影变换。

传统图像配准方法主要分为基于特征的图像配准方法和基于灰度的图像配准方法。

基于特征的图像配准主要包括特征提取、特征匹配、模型变换参数估计、图像重采样4个步骤。

(1)特征提取:提取出一幅图像的显著特征,比如点、线、边缘、轮廓等。在固定图像和移动图像检测到的特征集必须有足够多的公共元素,即使是在图像未完全覆盖相同场景或存在物体遮挡等情况下也是如此[1]。常见的特征检测方法有尺度不变特征变换(Scale Invariant Feature Transform,SIFT)[4],加速健壮特征(Speeded-Up Robust Features,SURF)[5]等方法。

(3)模型变换参数估计:选择合适的变换模型,并根据特征之间的对应关系去估计模型的变换参数。

(4)图像重采样:利用估计出来的变换参数对待配准图像进行重采样,使得待配准图像向固定图像对齐。

基于灰度的图像配准方法根据图像维度的不同又可分为基于像素(二维图像)和基于体素(三维图像)的图像配准方法。基于灰度的图像配准方法的流程如图1所示,该方法不需要对特征进行提取以及匹配,而是直接利用整个图像的灰度值信息进行配准。首先,选择合适的变换模型,通过几何变换得到形变图像,计算形变图像和参考图像之间的相似度。然后,通过合适的优化算法找到最佳的变换参数,使得形变图像和参考图像之间的相似度最大。其中常见的基于灰度的图像配准方法有互信息法[6-7]、互相关法[8-9]等。

传统的基于特征的图像配准方法计算量小,对各种变化的鲁棒性较好,但是,对于图像外观有较大变化以及由很多参数构成的复杂模型时,配准效果较差[10]。另外一点,传统的基于特征的图像配准方法提取特征十分复杂,而且只能提取到浅层次的特征,很难得到更深层次、更具有表现力的特征。而基于灰度的图像配准方法原理简单,但计算量大,耗时长,在实际应用中很难保证实时性。而且大多数相似性度量方法存在很多局部极小值,很难得到一个全局最优的解[11]。

随着深度学习的飞速发展,在计算机视觉领域取得突破性进展。比如目标检测[12]、图像分类[13]、图像去噪[14]、图像分割[15]等方向。研究者也在积极探索通过深度学习的方法来解决传统图像配准中出现的问题。比如,在解决传统特征提取的问题上,Yang等[16]利用卷积神经网络(Convolutional Neural Networks, CNN)强大的特征提取能力得到具有鲁棒性的多尺度特征描述符来实现图像配准,在特征提取效果上优于传统的特征提取方法。在解决传统的相似性度量方法中出现的问题上,Cheng等[17]使用深度学习方法来学习图像对之间的相似度,相比于传统的相似性度量准确性更高,鲁棒性更强。在解决配准速度的问题上,Chee等[18]和De等[19]利用深度网络来充当回归器,模型训练完成后可一次性估算出形变参数,大大加快了配准速度。

2 基于深度学习的图像配准的研究现状

目前,基于深度学习的图像配准方法主要分为基于特征的组合配准方法、有监督学习的直接配准方法以及无监督学习的直接配准方法。

2.1 基于特征的组合配准方法

基于特征的组合配准方法就是在传统图像配准流程框架下,利用深度学习的方法代替特征提取以及特征匹配步骤来进行组合配准。

2.加强新知识、新理论的教育,提高领导干部的创新能力。加强新知识、新理论的培训教育,以“知识更新、技能增强、素质提高”为核心,实施以“新理论、新技能、新信息、新知识”为主要内容的继续教育工程,不断提高领导干部的创新意识和创新能力,准确把握发展形势,善于抢抓机遇和开拓创新,以创新谋求发展,以创新提高领导水平,以创新提高执政能力。

Han等[20]提出了MatchNet网络,该网络由CNN构成的特征网络和3个全连接层构成的度量网络组成。其中特征网络用于生成特征描述符,并采用度量网络来学习特征描述符之间的相似度,代替了传统采用欧式距离来度量特征描述符距离的方法,提升了匹配的准确率。为了进一步减少计算复杂度和模型的运行时间,提升深度网络的效率,Balntas等[21]提出了PN-Net网络,将包含正负样本对的三元组输入到CNN中得到特征描述符,并引入新的损失函数SoftPN去训练网络,和MatchNet网络[20]相比较,匹配效果得到提升,而且提高了模型的效率。在Photo-Tour[22]数据集上,相比于传统的SIFT[4]方法匹配错误率从27%降到了约7%,特征提取速度快了近40倍。接着Rocco等[10]通过特征提取网络、匹配网络、回归网络这3个网络来分别模拟标准步骤中的特征提取、特征匹配以及变换参数估计。一方面通过CNN强大的特征提取能力来处理图像对外观发生较大变化时的匹配问题,另外通过设计可训练的匹配网络和回归网络来处理错误匹配。

随后,Ono等[23]提出了LF-Net网络,该网络由两部分组成,一个是由全卷积网络构成的检测器网络,另外一个是特征描述符网络。其中检测器网络用来得到关键点的位置、尺度和方向,特征描述符网络用来生成特征描述符。并且LF-Net网络可以实现端到端的训练,更好地提升匹配效果。Shen等[24]在LF-Net网络[23]的基础之上,提出了基于感受野的匹配网络RF-Net网络,相比于LF-Net网络[23]有两点改进,一是利用感受野特征图来构建响应特征图,在不同大小的感受野上检测关键点,提高了关键点检测的有效性;二是提出采用名为近邻掩码的损失函数以学习更加稳定的特征描述符。近期,Luo等[25]提出了ASLFeat网络结构,通过引入可变形卷积网络[26-27]来加强对特征点的局部形状(尺度、方向等)的估计,以获得更强的几何不变形,并利用多层检测机制来恢复空间分辨率以及低层次的细节,以提高关键点定位的准确度。

基于特征的组合配准方法虽然取得一定的成功,但是依然是基于传统的图像配准的框架。为了进一步提高图像配准的效率,研究者们开始探索如何利用深度学习方法直接估计出变换参数,也就是基于深度学习的直接配准方法,将其主要分为有监督学习和无监督学习的直接配准方法。

2.2 有监督学习的直接配准方法

有监督学习的直接配准方法的通用框架如图2所示,监督学习需要获取真实的变换参数作为标签来训练网络。常见的获取标签的方式有以下3种[2]:(1)通过随机变换生成;(2)通过传统的配准方法生成;(3)通过模型去生成。根据图像的变换性质可以将有监督学习的直接图像配准分为有监督学习的刚性图像配准以及有监督学习的可变形图像配准[28]。

2.2.1 有监督学习的刚性图像配准

Chee等[18]利用AIRNet网络去直接估计两个输入图像的转换参数来实现仿射图像配准。AIRNet网络由编码器和回归器两部分组成,其中编码器由DenseNet[29]改编而来用来捕获输入图像的可判别特征,而回归器由多个全连接层组成用来生成变换参数。该网络的输入是一对图像,输出的是仿射变换矩阵的12个参数(三维图像),相应的标签是在设定的参数范围下随机生成的。之后将预测的仿射变换参数和真实的仿射变换参数之间的均方误差作为损失函数去优化网络。在配准速度上相比于传统的配准方法要快上100倍,而且整体上实现了更好的配准效果。Sloan等[30]利用CNN来回归刚性变换参数,证明了此方法在单模和多模图像配准中的有效性,并且研究了添加逆一致性损失对预测参数准确性的影响。

2.2.2 有监督学习的可变形图像配准

有监督学习的刚性图像配准方法只能处理简单的线性变换,对于复杂的非线性变换,需要采用可变形图像配准的方法。Sokooti等[31]提出了一种有监督的可变形图像配准的网络结构RegNet,利用CNN直接从一对输入图像中预测出位移矢量场(Displacement Vector Field,DVF),使用大量人工合成的光滑的DVF去训练网络。但是直接估计DVF无法保证变换是光滑且可逆的,为了更好地保证变换的微分同胚特性[32-33],Rohé等[34]提出了SVF-Net网络。该网络利用一个类似于U-Net[35]的全卷积网络去估算一对图像的平稳速度场(Stationary Velocity Fields,SVF)[36],同样将真实的SVF参数和预测的SVF参数之间的均方误差作为损失函数去训练网络。接着,为了更好地预测具有大位移的DVF,Sokooti等[37]在RegNet[31]模型基础上提出了多阶段的有监督可变形图像配准方法。该网络由RegNet4、RegNet2以及RegNet1网络构成,3个RegNet网络分成3个阶段来逐级渐进地进行图像配准,并生成最终的DVF。

虽然有监督学习的直接配准方法取得一定的成功,但是这种方法严重依赖具有真实变换参数的标签,具有以下3方面的局限性[2]:(1)人工模拟的变换可能无法反映真实数据的变换;(2)人工模拟的变换可能无法捕获实际图像配准场景中的大范围形变;(3)训练阶段使用的通过人工模拟的变换参数生成的图像对和在测试阶段使用真实数据的图像对不同。为了应对监督学习的各种局限性,研究者们提出了无监督学习的直接配准方法。

2.3 无监督学习的直接配准方法

无监督学习的直接配准方法的通用框架如图3所示。根据网络结构的不同,可以将无监督学习的直接图像配准分为基于编码器-解码器结构的无监督图像配准、基于多尺度和金字塔结构的无监督图像配准以及基于生成对抗网络的无监督图像配准。

图3 无监督学习的直接配准方法通用框架

2.3.1 基于编码器-解码器结构的无监督图像配准

Balakrishnan等[38]提出了VoxelMorph无监督的可变形图像配准网络,利用一个类似于U-Net[35]的编码器-解码器网络结构,将生成的DVF作用在移动图像生成形变图像。损失函数除了形变图像和参考图像之间的相似性度量之外,还包括正则项,用来约束形变场,使得网络能够尽可能生成符合实际的形变场。

为了让预测的形变场更加光滑,更好地保证变换的微分同胚特性[32-33]。Kuang等[39]提出了一个避免形变场发生折叠的新的正则项,即在原来的平滑度约束上,加入了对负的雅克比行列式进行惩罚的正则项,进一步提高了形变场的平滑性,同时又能够尽可能减小配准准确度的损失。Zhang等[40]提出了一种逆一致性网络ICNet来鼓励一对图像彼此对称变形,从而保证一对图像之间变换的逆一致性特性[41]。同时为了更好地避免形变场发生折叠,在原有的平滑度约束上,又添加了反折叠约束。另外Kim等[42]和Kuang等[43]都借鉴了CycleGan[44]中的循环一致性思想来实现图像配准。通过循环一致性约束来更好地保证变换的微分同胚特性。

在解决大形变的图像配准问题上,De等[45]提出了将仿射变换和可变形配准方法相结合的图像配准网络DLIR,其中仿射变换用来全局对齐,可变形配准用来局部对齐,在局部对齐中,采用由粗到细的方法,通过堆叠多个ConvNet网络来细化形变场。接着,Zhao等[46]利用级联递归网络来实现无监督的图像配准,将一个大的形变通过级联的方式分解为很多小的位移,每个级联网络只需要学习其中小的位移即可,这样待配准图像通过每个级联网络依次变形,最终对齐参考图像。在配准准确率上要高于前面的VoxelMorph[38]模型,不过要增加模型的运行时间,得到的形变场也出现了一定程度的折叠,而且在级联递归的过程中形变场折叠的程度会被放大。如何在提高配准准确度的同时,尽可能保持图像的拓扑结构也是未来重要的研究方向。

2.3.2 基于多尺度和金字塔结构的无监督图像配准

Hu等[47]提出了双流金字塔无监督图像配准模型Dual-PRNet,该模型通过预测出的金字塔形变场,来依次对不同尺度的特征图进行变形。利用由粗到细的方式不断细化形变场,使模型能够很好地处理大形变的图像配准问题。Zhou等[48]在此基础上提出了金字塔剩余形变场估计模块PRDFE,解决了Dual-PRNet[47]中存在的问题,让网络产生更加准确的形变场。Fechter等[49]提出了利用多尺度的方法来进行图像配准,将3个不同分辨率的图像分别输入到3个不同的可变形配准网络。每个网络分别负责捕获大、中等、小的形变,最后将这3个不同尺度的形变场相加得到最终的形变场。Liu等[50]提出了一种多尺度的微分同胚配准模型。给定一对图像,通过三层CNN来提取不同尺度的特征,再通过深度传播框架得到最终的形变场。

2.3.3 基于生成对抗网络结构的无监督图像配准

Fan等[51]指出了无监督的图像配准中所用的传统的相似性度量和图像的性质密切相关,在处理其它数据集时可能不适用。于是将生成对抗网络[52]应用到图像配准领域中来代替传统的相似性度量。利用生成对抗网络中鉴别网络代替传统的相似性度量,来鉴别图像是否对齐良好,使其能够自动学习图像对的相似性度量,并在训练过程中将相似性信息提供给配准网络。配准网络和判别网络通过对抗训练的方式进行学习。Li等[53]在Fan等[51]的基础上,将多分辨率损失引入其中,使得鉴别器需要判断高、低和中等尺度下的相似度。Lei等[54]通过额外引入一个对抗损失来约束形变场,使生成的形变场更加符合实际。

无监督学习的直接配准方法在单模图像中已经取得很大的成功,但是处理多模图像的配准却有很多困难。因为不同模态的外观差异很大,直接通过多模图像之间的相似度损失去训练网络效率低下[11]。为了解决这个问题,Hu[55]等人通过标签驱动的弱监督图像配准方法来处理多模态的图像配准。Zhang[56]利用对抗学习的方法将多模图像转换为单模图像,并且首次引入了梯度损失,可以有效地解决大形变、噪声和模糊的多模图像配准。

3 总结与展望

本文系统地介绍了基于深度学习的图像配准方法。回顾了传统图像配准方法并指出其存在的问题,并阐述了基于深度学习的图像配准方法如何突破传统图像配准方法的局限性。重点对基于特征的组合配准方法、有监督学习的直接配准方法以及无监督学习的直接配准方法进行了综述。

目前,基于深度学习的图像配准方法虽然取得了较大的进步和发展,但是也面临很多挑战。一方面需要解决在训练数据集小的情况下,如何更好地训练网络;另外一方面,需要思考如何在提高大形变的图像配准的准确率的同时,更好地保持图像的拓扑结构,即如何利用基于深度学习的微分同胚模型来解决大位移的可变形图像配准。此外,如何在具有复杂形变的图像配准条件下,进一步降低深度模型的复杂度,使得模型运行速度更快,以满足现实应用中实时的需求,以及如何更好地处理具有噪声、遮挡以及部分缺失的图像数据的配准问题都是较大的挑战。

猜你喜欢

特征提取变形深度
四增四减 深度推进
深度思考之不等式
变形记
谈诗的变形
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
简约教学 深度学习
微动目标雷达特征提取、成像与识别研究进展
“我”的变形计