基于深度学习的图像配准方法研究进展

2022-12-06陈建明曾祥津钟丽云邸江磊秦玉文

量子电子学报 2022年6期

陈建明,曾祥津,钟丽云,邸江磊∗,秦玉文∗

(1广东工业大学信息工程学院,先进光子技术研究院,广东广州 510006;2广东省信息光子技术重点实验室,广东广州 510006)

0 引言

图像配准技术是将不同时间、不同视点或不同传感器拍摄的同一场景的两幅或多幅图像经过某种几何变换进行对齐的技术。作为图像预处理的一项基本任务,图像配准在多个领域有着广泛应用,如在图像遥感领域可辅助用于多光谱分类、环境监测、变化检测、图像拼接、天气预报、图像超分辨率等,在医学图像分析领域常结合多种成像方式用于协助进行病变部位切除、超声消融、靶向用药、治疗评估、手术导航等,在计算机视觉领域用来对输入图像进行预处理,从而提高分类和检测精度[1]。

按照配准任务维度的不同,图像配准技术可分为2D-2D、3D-3D和2D-3D图像配准;按照图像模态的不同,可分为单模态图像配准和多模态图像配准;按照图像变化性质的不同,分为刚性图像配准和非刚性图像配准。常用图像配准方法可分为基于灰度、基于变换域和基于特征的三种配准方法,常由变换模型、目标函数和优化算法组成,而其中决定配准效果的关键在于变换模型和相似性度量函数的选取[2]。

传统图像配准为迭代优化过程,每配准一对图像都要从零开始指导参数更新并优化目标函数,限制了其计算速度和配准效率。近年来,得益于深度学习理论和计算机硬件技术的快速发展,作为基于数据驱动的方法,神经网络具有非常出色的图像特征提取能力、非线性拟合能力及泛化能力,在图像分类、目标识别、图像超分辨等领域取得了巨大成功。这一技术同样被引入图像配准领域,基于深度学习的图像配准方法相比传统方法具有配准速度快、精度高、鲁棒性强等优点,表现出巨大的发展潜力,从而获得研究人员的广泛关注。本文在概述传统图像配准方法基本原理的基础上,系统综述了基于深度学习的图像配准研究进展,以期能够帮助相关研究人员梳理图像配准技术的发展趋势及存在的问题。

1 图像配准方法

1.1图像配准原理

图像配准旨在求取图像对之间的空间变换和灰度变换关系,并在此基础上实现两幅或多幅图像的对齐。对于给定图像的参考图像I2(x,y)以及待配准图像I1(x,y),配准过程可表示为

式中:f表示空间坐标变换,F表示灰度变换,(x,y)为图像中某一点的位置,此时图像配准可转化为优化问题min|I2(x,y)−F{I1[f(x,y)]}|。因此,图像配准过程就是通过一种数学优化算法找到最优空间坐标变换关系f和灰度变换关系F满足上式的极小化问题。根据空间坐标变换f的不同,可分为刚性变换和非刚性变换。刚性变换中图像变换前后任意两个像素点之间对应的位置关系保持不变,可进行平移变换、旋转变换和反旋转变换等,旨在解决图像整体移动等简单问题。非刚性变换中图像两个像素点之间对应的位置关系在变换过程中会发生缩放、裁剪、投影、拉伸、扭曲等,包括仿射变换、透视变换和曲线变换等,应用范围相对较广且计算任务比较复杂。仿射变换是图像配准中最常用的一种变换模型,变换后直线仍然映射为直线且比例和相交性保持不变,属于线性变换,可表示为

式中:(tx,ty)表示平移量;参数ai(i=1,2,3,4)表示图像旋转、缩放量等,是一种从二维到二维之间的坐标变换。透视变换属于空间变换,是从三维到二维的变换,可通过4个点的前后坐标值来求解透视变换模型。曲线变换包括非线性变换、弹性变换、可形变变换、扭曲变换等,常用的变换模型有多项式函数[3]、薄板样条法[4]和基函数法[5]。

1.2传统图像配准方法

1.2.1 基于灰度信息的图像配准方法

基于灰度信息的图像配准方法主要思想是选取合适的相似性度量参数,通过迭代优化相似性度量参数得到待配准图像间的变换模型,如图1所示,常用配准算法包括互相关法、投影匹配法和互信息匹配法等。

图1 传统基于灰度信息的图像配准方法实现流程Fig.1 Implementation flow of traditional gray-scale information-based image registration method

利用互信息(MI)作为相似性度量进行图像配准最早由Wells等[6]提出,该方法利用图像灰度值统计数据形成单个图像的灰度值概率函数以及两个图像相似部分对应的灰度值联合概率函数,以此衡量两幅图像的相关程度。该方法实现简单,仅利用单个像素间的对应关系,但无法获得图像的空间信息。Studholme等[7]提出将局部互信息(RMI)用作相似性度量以充分利用图像的空间信息并降低其局部灰度值变化引起的配准误差。除此以外,差值平方和(SSD)、绝对误差和(SAD)、归一化互相关(NCC)、相关比率、均方误差和(MSD)以及相关系数(CC)等均作为相似性度量被用于图像配准。基于灰度的图像配准方法实现简单,无须对图像进行复杂预处理,有利于减少人为误差和计算成本,但计算量大,易受拍摄角度、光照条件和遮挡等影响,且在大多数情况下利用相似性度量函数并不能获得全局最优解[8],因此该方法仅适合对简单图像进行配准,不能直接用于矫正图像的非线性形变误差。

1.2.2基于变换域的图像配准方法

基于变换域的图像配准方法主要应用于一些空间域难以处理的图像场景中,通过某种空间变换将图像转换到变换域再进行后续处理,并借助其平移不变性特点,使配准方法获得一定程度的抗噪能力。Kuglin和Hines[9]提出一种相位相关方法,通过将两幅待配准图像转换到频域并利用互功率谱计算获得其平移矢量。Reddy等[10]使用快速傅里叶变换实现了具有旋转、平移和仿射变换的图像配准。此外,该方法还可以使用沃尔什变换(Walsh transform)、傅里叶-梅林变换(Fourier-Mellin transform)等。基于变换域的图像配准方法可有效解决配准过程中图像的平移、旋转、尺度变换、遮挡、形变等问题,配准形式简洁、速度快,不过该方法的应用范围有限。

1.2.3 基于特征的图像配准方法

基于特征的图像配准方法是当前最为常用的一种配准方法,其配准流程如图2所示,通常包括特征提取、特征匹配、模型变换参数估计及图像变换等步骤。图像特征点能够反映图像的本质特征,用于标识图像中的目标物体,通过特征点匹配能够完成图像配准;特征提取主要实现输入图像的显著特征提取,如边缘、点、区域、轮廓等;特征匹配旨在建立所提取特征的准确对应关系,可采用不同的特征描述符和相似性度量;模型变换参数估计和图像变换本质上是选择合适的变换模型,通过建立两张图像的对应关系估计变换参数而使待配准图像和参考图像对齐。基于特征的图像配准方法计算量小、效率较高、鲁棒性强,但特征提取非常复杂,面对复杂参数模型时配准效果较差[11]。

图2 传统基于特征的图像配准方法实现流程Fig.2 Implementation flow of traditional feature-based image registration method

1.3评价指标

对结果的评价是衡量配准算法性能优劣性的重要依据。评估配准算法性能优劣的常用指标有:精确率、成功率、鲁棒性、抗噪能力和配准时间等。精确率是指利用配准算法预测的值与真实标签(或者黄金标准)之间的差异,两者之间的差异越小,则说明配准效果越好;成功率是衡量配准算法可重复性的一个重要指标;鲁棒性是指配准算法的稳定性和可靠性。由于待配准图像的成像方式和研究重点不同,所以评价指标不存在绝对的黄金标准,图像配准也不存在真正意义上的配准,通常需要针对多个评价指标做到相对最优配准。表1总结了图像配准中常用的评价指标,如DICE相似性系数(Dice,DSC)、靶点匹配误差(TRE)、豪斯多夫距离(HD)等,并给出了各种不同评价指标的定义和作用。

表1 图像配准常用评价指标Table 1 Common evaluation indexes for image registration

1.4小结

本节介绍了图像配准基本原理,根据配准方式将传统图像配准方法按照基于灰度信息、基于变换域和基于特征配准方法分别进行讨论,并对其优缺点进行分析,结果如表2所示。从表2中可以看出,传统图像配准技术已经发展的比较成熟,配准精度好、成功率高,尤其是基于特征的图像配准算法能在保证配准精度的同时使算法具有一定的鲁棒性。但传统的图像配准算法需要过多的人工干预,导致配准成本高、效率低,很难满足实时配准的要求。因此,将深度学习方法引入图像配准,有望解决传统图像配准的实时性问题,提升配准精度,并使配准算法具有较好的泛化能力。

表2 传统图像配准方法总结Table 2 Summary of traditional image registration methods

2 深度学习中的神经网络模型

深度学习技术已经在图像识别、自然语言处理、计算机视觉等领域取得非常成功的应用,尤其是卷积神经网络(CNN)广泛应用于计算机视觉领域,可实现目标分类[12]、语义分割[13]、图像去噪[14]、目标识别[15]等。典型CNN通常由多个卷积层、池化层、激活函数、批量归一化层等组成。卷积层又包含若干卷积单元,而卷积单元内的参数根据反向传播算法(BP)最优化获得。卷积层通过滑动可训练卷积核来完成输入图像特征提取;池化层主要用于压缩数据特征,提高网络的空间不变性,以及减小过拟合;激活函数常用来解决神经网络中的非线性问题,有Logis、Tanh、ReLU、LReLU、PRrLU等不同类型;批量归一化层旨在加快模型的收敛速度,提高神经网络的泛化能力。

CNN出现之前,LeCun[16]结合随机梯度下降(SGD)算法相继提出LeNet网络以及更加成熟的LeNet-5,并在手写数字识别问题中取得成功[17]。LeNet系列网络定义了现代神经网络的基本结构,其所采用的训练策略也被其后的深度学习模型所保留。随着深度学习理论以及GPU等数值计算设备的快速发展[18],CNN不断进化,相继出现AlexNet[19]、VGG[20]、GoogLeNet[21]、ResNet[22]等网络,其中相继发展的大量学习策略和优化算法可以用来帮助网络进行训练,用户根据不同任务需求可以选择最优的骨干网络和学习策略进行组合。

全卷积神经网络(FCN)[13]是一种只包含卷积层的新型神经网络,网络结构如图3(a)所示,其出现推动了端到端模型的发展。Ronneberger等[23]基于FCN思想提出一种基于编-解码结构的U型CNN(U-net),如图3(b)所示,进一步提高了神经网络的特征提取能力,所采用的跳跃连接策略在一定程度上解决了图像在卷积过程中信息丢失的问题,随后被广泛应用于计算机视觉领域,其U型网络结构及所采用的跳跃连接策略几乎成为骨干网络的标配。

生成对抗网络(GAN)[24]是一种无监督深度学习模型网络结构,如图3(c)所示,由生成网络和鉴别网络两个子网络组成,核心思想是“二人零和博弈”,通过博弈交替训练两个子网络,多用于解决小样本问题。GAN的出现推动深度学习向无监督学习方向发展,但依然存在训练不稳定和难以收敛等问题。

Transformer[25]是一种不同于CNN和RNN的新网络结构,如图3(d)所示,完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系,不需要循环和卷积操作。Transformer中的自注意力模块主要参数包括查询(Query,Q)、键(Key,K)、值(Value,V)三个向量,自注意力函数可以描述为将查询和一组键值对映射到输出,输出矩阵计算为

图3 网络模型。(a)全卷积神经网络[13];(b)U型卷积神经网络[23];(c)生成对抗网络;(d)Transformer[25]Fig.3 Network model.(a)FCN[13];(b)U-net[23];(c)GAN;(d)Transformer[25]

式中:dk是Q和K的维度。由于模型不包含递归和卷积,为让模型利用序列顺序,模型堆栈底部的输入嵌入中添加有“位置编码”。

3 深度学习技术在图像配准中的应用

深度学习应用于图像配准可以更好地处理图像细节信息,从而提高图像配准效率。这里根据图像配准中应用神经网络时的不同特点,将其归纳为基于深度迭代的图像配准方法、基于深度学习的全监督配准方法、基于深度学习的弱/双重监督配准方法以及基于深度学习的无监督配准方法四类。

3.1基于深度迭代的图像配准方法

基于深度迭代配准的图像配准方法其基本思想是使用CNN提取特征或替代传统配准算法中的相似性度量函数,配准算法基本框架如图4所示。Wu等[26]将传统算法与堆叠自动编码器结合,构建了一个双层堆叠CNN以实现图像的高级特征提取,并利用网络自适应提取图像特征以代替手工设计特征,从而改进图像配准效果,在多个不同数据集上均取得更好的配准精度。但上述方法在多模态图像配准中表现不佳,Cheng等[27]针对此问题将深度学习引入到多模态图像的相似性度量上,提出一种深度相似性学习配准的新方法,通过训练分类器学习两张图像的对应关系,将分类器输出的概率值用作相似性得分从而改进多模态图像配准效果。与此类似,Sedghi等[28]提出一种基于最大轮廓似然的图像配准框架,将基于分类器的深度度量与信息理论相结合,利用深度判别分类器实现最大似然配准,并将基于深度迭代的图像配准方法推向执行具有挑战性的配准任务,但该方法的泛化性问题并未解决。因此,Simonovsky等[29]提出一种基于CNN的相似性度量方法,用深度学习的方法来解决多模态图像配准中相似性度量的选择问题,从而提升配准算法的泛化能力。同时,为了使配准算法获得较强的鲁棒性,Czolbe等[30]定义了一种用于配准的语义相似性度量方法“DeepSim”,通过CNN学习数据集的语义特征作为配准的相似性度量指标驱使配准模型优化,提高配准的抗噪能力。图5给出了基于DeepSim、MSE(均方误差)、NCC、NCCsup(有监督的NCC)和VGG(基于VGGnet的度量指标)等不同度量方法训练得到的配准模型的比较结果,相比较而言,基于DeepSim度量方法训练的模型对噪声具有更好的抑制效果。

图4 基于深度迭代的图像配准算法框架Fig.4 Depth iteration-based image registration framework

图5 不同相似性度量指标训练的配准模型结果对比[30]Fig.5 Comparison of results of registration models trained with different similarity metrics[30]

基于深度迭代的配准方法本质上依然使用传统图像配准框架,操作简单,并且使用深度学习的方法来提取图像的特征可减少在配准过程中的人为误差,从而降低配准成本。但该方法仅仅是使用CNN等神经网络提取图像特征,没有充分发挥深度学习的优势,因此基于深度迭代的配准技术很难用于实时配准。表3对部分典型文献中所使用的网络结构、数据集、网络细节、评价指标及其特点进行了总结。

表3 基于深度迭代的配准方法的特点总结Table 3 Summary of features of deep iterative-based registration methods

3.2基于深度学习的全监督图像配准方法

基于深度学习的全监督图像配准方法在配准过程中需要提供与待配准图像对应的标签数据来辅助网络训练,算法框架如图6所示。按照变换方式的不同,该方法可进一步分为刚性配准和非刚性配准。

图6 基于深度学习的全监督配准算法框架Fig.6 A fully supervised registration framework based on deep learning

3.2.1 刚性配准

刚性配准在配准前后图像中两点的距离保持不变。Sloan等[31]证明了基于CNN回归的刚性配准参数的可行性。Miao等[32]首次将神经网络应用到刚性图像配准中,通过构造一个5层CNN网络来估计图像变换参数,进一步针对图像局部区域训练改进CNN回归模型以获得变换参数[33],有效改善传统灰度配准方法中计算速度慢、捕获范围小等问题,极大提高了图像配准效率。同样,针对此问题,MohseniSalehi等[34]构建了以ResNet-18为骨干网络的深度CNN回归配准模型以应用于3D胎儿脑部MR图像配准,引入均方误差和测地损失函数(Geodesic loss)对网络进行训练,有效增加图像姿态估计的捕获范围。而Zou等[35]则提出一种通用的提升配准精度的“FIP-CNNF”方法,通过FCN检测兴趣点并使用CNN完成特征检测、特征描述和配准,同时还提出一种“TrFIP-CNNF”方法,在“FIP-CNNF”方法基础上加入迁移学习策略辅助网络进行训练,进一步提升配准效果和鲁棒性,其实验结果如图7所示,证明了“FIP-CNNF”和“TrFIP-CNNF”方法相比传统基于SIFT的方法有着更好的配准精度,同时也说明了迁移学习策略应用于图像配准的可行性。

图7 不同配准方法实验结果对比[35]Fig.7 Comparison of experimental results of different registration methods[35]

不同于分层估计配准变换参数,Chee和Wu[36]提出一种由DenseNet编码器和多个全连接层回归器组成的直接估计变换参数的配准网络,编码器部分用来捕捉输入图像特征,回归器负责预测变换参数,在配准速度和精度上均优于传统迭代优化配准方法。为解决配准过程中训练集不足的问题,Zheng等[37]采用大量人工合成数据和少量真实数据一起训练网络,提出一种自适应模块来学习图像之间的不变特征并减少二者差异。同样,Guo等[38]提出一种由粗到精的多阶段配准框架,使用人工合成数据来训练网络并根据每个阶段的数据分布生成合成数据来调整网络训练过程,提升网络配准的泛化能力。

基于深度学习的全监督刚性配准使用CNN回归的方法来获取待配准图像的变换参数,能得到具有泛化能力的高精度配准模型,极大改善了传统图像配准中存在的计算速度慢、捕获范围小等问题,从而使配准满足实时性要求。

3.2.2 非刚性配准

刚性配准适合执行简单的线性变换任务,非刚性配准方法则适用于解决图像变换前后像素点的相对位置发生变动的非线性变换问题。Yang等[39]结合深度编-解码器提出一种通用的可形变图像配准网络框架,编码器利用类似于VGG-16的FCN提取图像特征,同时使用两个并行CNN结构的解码器生成配准形变场,不过在获得形变场后仍然需要一些复杂的后处理。Cao等[40]提出一种基于相似性度量指标的配准网络,通过学习相似性度量指标引导网络直接获取图像块之间准确的形变场,并进一步提出使用具有相似性特征的图像块训练网络以提升网络的泛化能力和鲁棒性[41]。与此不同,Teng等[42]以浮动图像和参考图像块对作为输入,使用CNN直接对图像块各个阶段之间的形变矢量场进行配准,相比传统迭代优化方法具有快速、高鲁棒性等优点,更适合于临床应用。

为了克服训练数据不足的问题,Eppenhof等[43]提出一种类似于U-Net架构的网络模型,通过合成数据训练网络对肺部3D-CT图像进行配准,亦可对3D图像非线性配准中的误差进行估计。Sokooti等[44]则提出一种基于多尺度CNN结构的配准框架RegNet,利用大量人工生成的形变场对网络进行训练,融合图像的多尺度信息,采用端到端方式直接获得图像对之间的非刚性形变场,配准效果优于局部控制性好的B样条配准算法。后续,Sokooti等[45]进一步提出在RegNet架构下嵌入多阶段配准任务以增加网络捕获范围,准确获取更大位移的形变场,配准模型由基于块的RegNet1和RegNet2以及基于U-Net的RegNet4构成,分别用来预测局部形变场和对整个图像进行配准,整个配准流程按阶段进行并最终生成形变场。为有效利用有限元生成的形变场进行网络训练,Fu等[46]将生物力学约束应用于三维点匹配控制形变场的生成从而完成MR-TRUS图像配准。

与基于深度学习的全监督刚性配准方法类似,非刚性配准方法也具有实时、高精度等特点。表4给出了基于深度学习的全监督刚性配准方法和非刚性配准方法的主要特点。虽然基于深度学习的全监督图像配准方法能提高配准的效率、增强配准模型的泛化能力,对图像进行实时、高鲁棒性的配准,但这种配准方式过于依赖标准标签数据和金标准,对标签的标注要求较高,面对复杂多样的配准任务,往往难以获得足够的标签数据,限制了这一方法的应用范围。

表4 基于深度学习的全监督图像配准方法特点总结Table 4 Summary of characteristics of fully supervised image registration methods based on deep learning

3.3基于深度学习的弱/双重监督配准方法

3.3.1 基于深度学习的弱监督配准方法

全监督学习配准方法的标准数据难以获得,而将图像中的关键点或结构信息作为标签数据辅助有限的标准标签数据进行训练,能够减少网络对标准数据的依赖,因此提出如图8所示的基于弱监督学习的配准网络框架,其主要特点是通过提取图像中的关键点信息来辅助网络进行训练。Hu等[47]构建“Global-net”和“Local-net”两个网络生成形变场,通过标签驱动使CNN学习标签数据中更高级别的特征,以最小化移动图像和固定图像间解剖标签构成的损失函数优化配准网络。Blendowski等[48]在此方法基础上提出一种端到端可训练的弱监督学习配准框架,侧重于多模态图像外观特征学习和形变估计,研究表明在胸腹CT和MRI图像配准中该方法优于CNN。与此类似,Hering等[49]以分割标签和图像相似性的互补信息来训练网络,使用基于U-net的深度CNN架构来代替迭代优化算法;而Shao等[50]则利用VGG16网络结构对图像进行特征提取和配准变形参数估计,用Dice系数和正则化损失来辅助网络训练并提升配准效果。Zhu等[51]为解决fMRI图像配准不充分问题,提出了一种半监督学习模型,利用类U-net结构来计算形变场,并利用图像中的灰质和白质信息辅助网络训练。

图8 基于深度学习的弱/双重监督配准框架Fig.8 Weak/dual-supervised registration framework based on deep learning

针对大多数可形变图像配准前需要独立进行刚性配准的问题,Zhu等[52]提出一种联合仿射配准和可形变配准网络,将图像间的全局相似性和局部相似性共同作为损失函数用于网络训练,以对整个配准网络进行弱监督,从而实现端到端配准,但无法得到鲁棒性的配准效果。针对此问题,Wang等[53]引入自适应思想,提出一种自适应弱监督配准联合网络框架,由自适应分割网络、SuperPoint网络、离群点剔除网络三部分组成。自适应分割网络为编/解码器结构,负责输入图像分割,SuperPoint网络则对分割后的图像进行特征检测和描述,最后离群点剔除网络对离群点进行剔除,生成形变场对图像进行配准,该方法提高了配准网络的鲁棒性和准确性。同样,Peng等[54]提出一种两步联合仿射配准网络框架,引入关键点匹配损失解决视网膜图像在有监督学习配准中标签难以获取、以及无监督学习表现不佳等问题。为进一步在空间上获得良好的多模态图像对齐效果,Wang等[55]提出一种新的约束仿射网络,采用解剖标签进行训练。与基于CNN的可变形图像配准方法不同,此方法提出的全局约束仿射模块可以预先计算仿射参数范围,经过U-net模型预测全局位移矢量场后再对图像进行配准。

考虑到形变场估计将影响到配准图像的外观或结果,通常会在形变场估计过程中加入约束条件。在Lei等[56]的工作中,将GAN引入到弱监督配准中,通过对GAN的鉴别器增加惩罚使生成的配准图像外观更加真实。Hu等[57]则基于GAN的思想提出一种通用的对抗变形正则化的策略,以训练鉴别器规范化形变场的正则项,使生成的形变场更加真实。Chen等[58]为了解决形变场不连续问题,提出了一种深度不连续性图像配准网络,在实验中将待配准的图像分割成不同的四个子区域,U-Net学习各子域特征映射再分别预测四个不同的形变场并将它们组合得到最终的形变场,同时保持形变场界面光滑性。

不同于基于深度学习的全监督配准方法,弱监督配准方法将图像中的关键点和结构信息引入到配准的过程中,使得配准算法在保证速度和精度的同时还能获得一定的抗噪能力。基于弱监督的配准方法不完全依赖于标签数据,因此该方法更易于训练。

3.3.2 基于深度学习的双重监督配准方法

同弱监督配准方式一样,双重监督配准通过引入其他监督信息减弱配准模型对标准标签数据的依赖。双重监督配准方法通常融合两种损失函数以实现对网络的优化[59]。Fan等[60]针对脑部MR图像用标准标签数据和图像相似性度量指标构成两种损失惩罚的配准网络,解决以往基于深度学习的图像配准方法中缺少标准标签数据的问题。基于这一思想,Cao等[61]将双重监督引入到多模态图像配准中,利用类U-net网络预测形变场,同时使用CT-CT损失和MR-MR损失两种同模态内的损失来优化网络训练过程,充分考虑两种模态的互补解剖信息,从而实现跨模态图像配准。Yan等[62]将GAN的思想引入到多模态图像配准中,提出一种基于WGAN[63]的对抗式图像配准AIR网络框架,通过有监督和无监督两种方式分别约束生成网络和鉴别网络训练,最终实现配准图像生成。AIR模型训练时提供的标签样本数据一定程度上可弥补无监督学习的不足。为提升配准精度,Qiu等[64]建立配准和分割间的联系,首次提出综合概率微分配准网络和三维分割网络的联合学习网络框架,其由无监督配准网络和有监督分割网络两部分组成,概率微分配准网络用于改善配准效果,三维分割网络通过保证良好微分形态进行数据增强,从而提高分割精度。图9给出了不同分割方法的示例结果,充分表明了该方法优于单个分割配准的方法,并可将分割和配准的准确率分别提高7.0%和1.4%。

图9 不同分割方法配准结果示例[64]Fig.9 Examples of registration results for different segmentation methods[64]

结合全监督学习配准中标签数据和弱监督学习配准中图像关键信息构造损失函数,使得基于深度学习的双重监督配准方法能充分发挥两种配准方法的优势,并在配准精度上能与传统的配准方法相媲美。表5总结了基于深度学习的弱监督配准和双重监督配准方法的相关文献中所使用的网络结构、数据集、网络细节及评价指标,并对两种方法的特点进行了简要对比。弱监督和双重监督学习配准方法虽然相比全监督图像配准方法在一定程度上可以降低配准网络对标准标签数据的依赖,但仍然避免不了使用标签数据,正因为如此,研究人员转向无监督学习图像配准方法研究。

表5 基于深度学习的弱/双重监督配准方法的特点总结Table 5 Summary of features of deep learning-based weak/dual-supervised registration methods

3.4基于深度学习的无监督图像配准方法

基于深度学习的无监督图像配准方法的流程如图10所示,此方法进一步弱化了网络对监督数据的需求,仅需待配准图像对即可构建配准网络以直接估计变换参数,但在没有标准标签的情况下很难定义网络损失函数,而Jaderberg等[65]提出的空间变换网络(STN)可有效解决此问题。按照所使用的神经网络模型,无监督图像配准方法可分为基于CNN、Transformer和GAN三类。

图10 基于深度学习的无监督配准框架Fig.10 Unsupervised registration framework based on deep learning

3.4.1 基于相似性度量的CNN无监督图像配准方法

相似性度量能够评定两种图像之间的相近程度,相似性度量越大表示图像之间的信息越接近,因而配准模型性能的优劣取决于相似性度量的准确选择。基于相似性度量的CNN无监督图像配准方法是将固定图像与浮动图像之间的相似性度量作为损失函数在神经网络中反向迭代更新,以此优化配准模型。CNN具有平移、缩放和扭曲不变性等特性,并能够实现图像特征的分层提取,因此在无监督图像配准模型中获得了广泛的应用。

de Vos等[66]首次提出基于相似性度量的无监督可变形图像配准框架DIRNet,由CNN回归器、空间变换器和重采样器三部分组成,以移动图像和固定图像之间的相似度作为损失函数更新网络参数。其中CNN回归器计算固定图像和运动图像之间的形变参数作为空间变换器输入;空间变换器负责生成位移矢量场,使重采样器能够将运动图像扭曲为固定图像。此后,为了解决3D图像配准带来的计算量问题,de Vos等[67]进一步提出图像配准框架DLIR,使用转置卷积执行B样条配准来提高配准速度。为了进一步提升配准效率,Balakrishnan等[68]提出一种无监督可变形图像配准网络框架VoxelMorph(如图11所示),以负局部互相关作为损失函数指导U-Net和STN结构估计形变场,并使用参数直接计算配准域,以实现三维脑部MRI图像的快速配准,最终模型的Dice指标与SyN[69]算法相当。在后续的工作中,Balakrishnan等[70]引入解剖分割标签作为配准辅助信息进行训练,有利于网络向更优的变换参数收敛,进一步提高了可变形图像的配准精度。

图11 VoxelMorph配准框架[68]Fig.11 VoxelMorph registration framework[68]

与上述配准方式不同,Zhao等[71]提出一种递归级联配准网络,运动图像通过每个级联网络依次扭曲,最后与固定图像对齐,实验表明只要训练更多的级联网络就能逐步提高配准性能。而Zhang等[72]针对复杂变形问题提出一种级联特征扭曲网络,采用共享权重编码器网络为未对齐的图像生成特征金字塔以实现粗到细的配准,利用特征扭曲配准模块来估计各层次的形变场,同时引入多尺度损失进一步提高配准精度。

基于深度学习的可变形图像配准方法利用CNN从相似度度量中学习空间变换实现快速图像配准,但不能实现逆变换,因此,有学者在微分可变形图像配准方面做出研究。Dalca等[73]在经典方法和深度学习方法之间建立了联系,扩展此前用于快速概率微分同胚配准的无监督学习研究[74],分析了不同微分可变形配准方法对形变场正则化和运行时间的影响,并在此基础上提出经典配准方法和基于CNN配准方法相结合的模型,生成的形变场对C形图控制效果如图12所示。与此类似,Mok等[75]提出一种无监督对称图像配准方法,在非同构映射空间内最大化图像之间的相似性,并同时估计正变换和逆变换。此方法还提出一种方向一致正则化来惩罚具有负雅可比行列式的局部区域,这进一步鼓励了变换的微分同构性。Chen等[76]则提出一种基于准共形几何学习框架的图像配准网络来增强映射的微分同构性。此外,此模型还引入傅里叶近似压缩Beltrami系数,从而减少网络参数的数量和计算复杂度以提升配准速度。

图12 C形控制实验[73]Fig.12 C-shaped control experiment[73]

现有的深度学习方法使用形变场进行配准时,在保持原始拓扑结构方面仍存在局限性,为此,Kim等[77]提出了一种循环一致的可变形图像配准方法。该方法通过提供隐式正则化来保持变形期间的拓扑结构,从而提高图像配准性能,其适用于2D和3D图像配准,并且可以扩展到多尺度配准任务中。大多数深度学习配准方法采用单流的编-解码器网络结构,容易忽视一些严重变形的局部区域,为此Xu等[78]提出由两个并行流组成的无监督全分辨率残差配准网络。“全分辨率流”学习图像全分辨率的信息,实现像素级的配准;“多尺度残差流”学习深度多尺度残差表示,以获得配准的高鲁棒性。

3.4.2 基于特征的CNN无监督图像配准方法

研究人员已经提出许多基于图像强度信息相似性度量的配准方法,但这些方法在多模态图像配准任务上仍具有挑战。因成像的物理原理不同,跨模态图像之间的信息存在显著差异,评估图像相似性变得困难。基于特征的无监督配准方法能够有效利用图像之间的语义信息,解决跨模态图像之间强度差异大带来的相似性度量困难的问题。此外,与基于强度的迭代优化过程相比,基于特征的无监督配准方法也更加快速。

考虑到设计良好的损失函数可以促进学习模型收敛,Han等[79]提出一种混合损失函数的可变形配准模型,能有效整合t1加权MRs图像中的灰度和边界特征,在保持变形平滑的同时实现高精度配准。由于t1和t2加权MRs这两种图像模式之间的外观差异并不显著,Kori等[80]使用预先训练好的网络进行微调,对多模态图像进行特征提取和仿射变换参数回归后对图像进行二值化,再使用Dice得分作为损失函数训练网络。

虽然基于相似性度量的无监督配准方法在精度和效率上表现良好,但网络很难意识到不匹配的边界信息,导致在一些场景下图像对齐不理想,为此,Xu等[81]提出自适应梯度引导的配准方法。在图像的梯度映射引导下,网络可更专注于器官边界的空间关系,而可学习的融合模块自适应地融合两个网络分支输出的信息而生成最终的形变场,配准流程如图13所示。与该工作近似的是Sideri-Lampretsa等[82]提出的基于边缘映射多模态无监督脑图像配准模型,此模型整合了Pluim等[83]的想法,将互信息与基于图像梯度大小和方向的术语结合起来,利用从图像中提取的边缘映射作为补充信息,不必处理模态之间复杂的强度关系。Tian等[84]提出了边缘相似性(ES)损失项,损失函数由变形矩阵空间梯度上的局部互相关、边缘相似性和扩散正则化子组成,并使用一种具有空洞卷积结构和压缩激励(SE)块的U-Net进行图像配准。损失函数中的边缘相似性损失项可以减少固定图像和扭曲图像在边缘的差异,从而解决光学中心和边缘的不同畸变问题。

图13 自适应梯度引导的配准[81]Fig.13 Adaptive gradient-guided registration[81]

表6总结了基于相似性度量和基于特征的CNN无监督配准方法的相关文献中所使用的网络结构、数据集、网络细节及评价指标,并对两种方法的特点进行了简要对比。基于特征的CNN无监督配准方法能够有效利用图像中的边缘信息进行多模态配准,从而减少处理跨模态图像之间复杂的差异信息,一定程度上能够提升多模态配准的性能,但提升仍然有限。

表6 基于CNN的无监督配准方法的特点总结Table 6 Summary of characteristics of CNN-based unsupervised registration methods

3.4.3 基于Transformer网络的无监督图像配准方法

CNN在医学图像配准领域占据主导地位,但其性能仍然受到无法建模图像中像素之间的长距离空间关系的限制。Transformer在自然语言处理方面的巨大成功使研究人员对开发图像自注意力体系结构越来越感兴趣。鉴于Transformer模型ViT[85]在视觉领域表现优异,有学者将Transformer模型引入到深度学习的图像配准任务中。

由于ViT连续的降采样和强调低分辨率的特性,导致其缺乏详细的定位信息,不适合直接用于图像配准,因此Chen等[86]改进U-Net模型并提出ViT-V-Net配准框架,将一部分编码器中的CNN层替换为Transformer层,以获得图像的全局特征和降低计算复杂度,并在Dice指标上超越经典算法SyN和学习法VoxelMoprh。随后,Liu等[87]在此基础上改进并提出TransMorph配准模型,该模型使用swin Transformer[88]层代替了U-Net编码器所有的卷积层,且不需要位置嵌入操作,进一步提升了模型的配准性能。Wang等[89]提出的TUNet在编解码器中都嵌入了改进的Transformer层,进一步获取配准图像对之间的长距离关系。同时,该模型对ViT结构进行修改,利用CNN直接计算权值矩阵,代替原ViT的线性映射,在提升配准性能的同时进一步降低了计算的复杂度,TUNet与其他算法的配准效果比较如图14所示。而Wang等[90]提出完全基于自注意力的配准模型,不依赖任何的CNN主干作为先验特征提取工具,并在性能上超过了传统配准算法。

图14 TUNet与其他配准算法效果比较[89]Fig.14 Comparison of TUNet and other registration algorithms[89]

表7给出了基于Transformer网络的无监督图像配准方法的主要特点、数据集、网络细节和评价指标。Transformer能够有效学习图像中像素之间的长距离空间关系,一定程度上能够提升配准模型性能;此外,Transformer模型在处理跨模态信息方面表现优异,将Transformer应用于多模态图像配准或许能成为未来的一个研究方向。但相较于CNN模型,Transformer模型的计算量和参数量都有所增加,且基于Transformer的无监督图像配准还是一个相对新的研究方向,应用尚未成熟。

表7 基于Transformer网络的无监督配准方法总结Table 7 Summary of characteristics of unsupervised registration method based on Transformer network

3.4.4基于GAN的无监督图像配准方法

跨模态图像之间的相似性度量是一个挑战,如果能将不同模态图像转化为同一模态,则能够解决相似性度量困难问题,而使用GAN可以将复杂的多模态问题转换为单模态问题。Singh等[91]对在医学图像领域较多使用的几种GAN网络框架进行了深入讨论,包括深卷积GAN(DCGAN)、拉普拉斯GAN(LAPGAN)、pix2pix、CycleGAN和无监督图像到图像转换模型(UNIT),验证了在GAN框架下图像跨模态转换的可行性和有效性。

针对多模态图像配准问题,Zhang等[92]首次将局部梯度损失函数引入GAN网络中,由于该损失是可学习的,可以惩罚输出和目标之间任何可能存在的结构差异,因此可以处理具有非泛函数强度关系、噪声和模糊特性的图像。Arar等[93]不完全依赖于损失函数,使用空间变换网络和模态转换网络进行多模态配准、网络鼓励生成器保持几何图形的训练方案,允许在多模态配准中应用单模态度量,其跨模态的配准效果如图15所示。

图15 RGB与深度模式图像的配准效果[93]Fig.15 Registration effect of RGB and depth mode images[93]

与上述试图将多模态问题转换为单模态问题的思路不同,Qin等[94]先将移动图像和固定图像映射到共同的语义空间,再抽取特征来表示和配准。而Xu等[95]提出一种双流配准场融合的新型跨模态配准方法,借助改进后的Cycle-GAN网络实现CT-MR图像跨模态转换,再通过双流配准网络融合原始跨模态流得到最终的变形场,缓解了GAN网络转换过程中所导致的变形场失真问题。

尽管GAN的功能强大,但其训练耗时较长、很多情况下难以控制和优化出较为理想的结果,所生成特征可能导致不匹配问题,将GAN直接应用于医学图像的临床诊断仍面临诸多挑战。此外,基于GAN的模态转换的图像配准方法大部分仍使用传统的度量方法定量评估,这也限制了多模态配准性能。表8给出了基于GAN的无监督图像配准方法的主要特点、数据集、网络细节和评价指标。

表8 基于GAN的无监督配准方法总结Table 8 Summary of characteristics of GAN-based unsupervised registration methods

除了上述按照网络模型划分的配准方法外,还有其他提升无监督图像配准性能的方法。超参数的选择影响着配准的质量,为此Hoopes等[96]提出用于图像配准的摊销超参数学习的框架获取最佳的配准超参数,Mok等[97]提出一种自监督的图像配准模型,学习与正则化超参数相关的条件特征,证明了具有任意超参数的最优解可被单个深度CNN捕获。当图像被噪声或伪影破坏,此时使用基于强度的相似性度量作为损失函数的方法可能不那么有效,对此Jia等[98]提出了一种基于低秩表示的方法来解决噪声污染的图像配准问题。由于无监督图像配准不依赖于标准数据,模型训练好之后就能实现快速的端到端配准,同时拥有媲美传统方法的精度和远超传统方法的速度,因此在计算效率上更胜一筹。目前的无监督配准研究主要还是聚集在单模态图像,由于不同模态图像之间相似性难以量化计算[59],处理多模态图像配准的难度要比单模态大得多,因此,多模态无监督图像配准可能会成为未来几年的一个研究重点。此外,现有的无监督配准框架较为单一,更多高效和多样化的模型还有待进一步探索。

3.5小结

本节总结了深度学习方法在图像配准技术中的应用情况及发展现状,针对与深度学习相结合的图像配准方法进行了对比总结。表9中给出了基于深度学习的不同配准方法的配准原理,分析了其优缺点,并给出了不同方法的实施难点。从表9中可以看出,每种配准方法各有利弊,基于深度迭代的配准方法虽然有较高的配准精度,但依然无法满足配准的实时性问题;基于监督学习的图像配准算法能达到配准的实时性和精度要求,但网络训练面临着标准标签数据匮乏等问题,而数据增强或迁移学习虽然可在一定程度上解决此问题,但会引入额外不真实人工变换偏差等误差;基于无监督学习的图像配准方法不依赖于标准数据,在图像相似度和正则化约束下具有较高的鲁棒性和配准精度,不过难以找到一个合适的相似化度量函数来约束网络训练生成形变场。因此,实际操作过程中往往需要根据配准任务的不同进行配准方法的合适选择。总的来说,基于深度学习的图像配准方法在保证高精度配准的同时,还能在一定程度上克服传统图像配准算法泛化能力差、计算效率低等瓶颈,更符合临床需求。此外,由于深度学习本身也处于快速发展阶段,许多最新的深度学习技术尚未应用到图像配准中,在未来结合深度学习的图像配准技术具有非常大的发展潜力。

表9 基于深度学习的图像配准方法总结Table 9 Summary of image registration methods based on deep learning

4 总结

基于深度学习技术来实现图像配准是大势所趋。虽然基于深度学习的图像配准方法近年来取得了较大的进步和发展,但深度学习在图像配准技术中的应用尚有许多问题亟待解决:(1)神经网络的可解释性和泛化性;(2)在提高大形变的图像配准准确率的同时,如何更好地保持图像的拓扑结构;(3)针对配准后的图像建立统一的客观评价指标。这些问题有待后续进一步深入研究和解决。

本文总结了近年来使用深度学习方法进行图像配准的研究成果,按照深度迭代配准、全监督学习配准、弱监督或双重监督学习配准和无监督学习配准四大类方法讨论了基于深度学习的图像配准方法的最新进展,并对不同方法的优缺点进行了总结。其中,无监督配准方法因消除了对标准数据和标签的依赖,更加契合缺乏数据集的现状,是图像配准技术未来的发展方向之一。特别是针对多模态、大形变等图像配准的难点问题,基于GAN的无监督配准方式以引入额外的正则化方法将复杂的多模态配准问题转化为简单的单模态配准问题受到人们关注。