视差图像配准技术研究综述

2021-01-22夏丹，周睿

计算机工程与应用 2021年2期

夏丹，周睿

华中师范大学教育信息技术学院，武汉430079

普通相机受限于焦距与传感器，采集的图像有时无法满足人们对于高分辨率与宽视角的图像的需求，为了利用普通相机获得此类特定需求的图像，图像拼接技术应运而生。图像拼接技术是指通过对输入的、具有重叠部分的图像序列进行图像预处理、图像配准、图像融合等操作，将其拼接成一幅具有高分辨率、宽视角图像的技术。目前该技术广泛地应用在无人驾驶[1]、虚拟现实[2]、遥感图像处理[3]、医学成像[4]、视频编辑[5]等领域。

图像拼接算法通常可分为图像配准与图像融合两个步骤。其中，图像配准是核心，也是解决视差问题的关键。图像配准的难点在于如何构建一个更加精准、合适的模型，以减少配准误差且不破坏图像内容的结构。根据相机的运动状况，图像配准算法主要可分为单视点配准算法和多视点配准算法两种。图像视差产生于多视点情况下，具有视差的图像的配准是长期以来图像配准技术中的一个挑战，也是当前的研究热点。近年来，针对视差图像配准的研究工作多数采用基于特征的空域变换方法。根据生成变形模型的方式不同，可主要将其分为基于多平面对齐的图像配准、基于网格变形的图像配准以及缝合线驱动的图像配准三类。本文对三类方法近年的一些相关工作进行了分析并讨论了其优缺点。

1 视差问题概述与图像配准流程

1.1 视差形成原因

视差是指从具有一定间隔的两个点上观察同一目标时产生的方向上的差异。在拍摄时，如果相机的位置发生移动，则获取的图像间会存在视差。图1为一个简单视差案例。分别从视点1 与视点2 处观察图像，在视点1处的成像结果中，被观测物体位于背景中的灰色正方形处，而在视点2 的成像结果中，被观测物体落于绿色圆圈处。对比两成像图可以发现，被观测物体在两视点的成像结果中的位置发生了改变，即产生了视差。在实际的拍摄场景中，往往难以保持相机的位置不发生改变而只围绕垂直于光轴的方向做旋转运动。因此，通常获得的多数照片之间具有视差。

图1 简单视差模型图

1.2 视差图像配准难点

视差图像配准的关键与难点是找出一个可以较好地描述两幅图像之间转换关系的数据模型。对于视差较小的情况，如图2（a）所示，相机做简单的平移运动，此时图像重叠区域中的对应点只存在单一方向的视差。这类情况可以利用特征匹配点轻松求解出对应变换关系模型。实际场景中，相机的运动往往较为复杂可能包含平移、旋转、镜头缩放等，如图2（b）所示。重叠区域的物体在真实的场景中可能处于多个平面（具有较大深度差异），较大的深度差异加上复杂的相机运动使得很难通过特征获得一个复杂的转换关系模型，来实现对大部分的场景物体进行精确变换描述。同时，输入图像的重叠区域时常会出现纹理较少、特征不足的情况，这使得对大视差图像进行精确配准更为困难。此外，由于采用空域变换的方式进行图像配准，当视差较大时，为保证重叠区域的精确对齐，往往会导致非重叠区域图像结构遭到破坏。因此，如何保证对齐精度的同时保护图像结构也成为视差图像配准中的一个难点。

图2 相机运动方式图

2 多视点图像配准技术

Lowe 与Brown[6]于2007 年提出了一套完整的自动图像拼接算法流程，基本确定了单视点配准算法的一般步骤，同时也为多视点图像配准算法的研究提供了较大的启示。当前基于多视点模型配准的主流配准算法可主要分为基于多平面对齐的图像配准、基于网格变形的图像配准以及缝合线驱动的图像配准三类。

2.1 基于多平面对齐的图像配准

当场景中的景物近似处于同一平面时，可利用单个全局单应矩阵来表达图像之间的关系。然而实际场景往往较为复杂，景物之间由于深度信息相差较大难以将其归属于同一平面，单个全局单应矩阵无法准确表达图像之间的几何变换关系。解决该问题的一种方法是将图像分割为多个平面，利用多个单应性矩阵来分别表达图像中不同平面景物的关系。

Gao等人[7]首先提出利用双单应性矩阵分别对齐不同平面来进行视差图像配准的思想。针对景点这类可以明显区分前景和背景的场景，可将图像从物理层面简单分割为近地面与远背景面两个平面，分别使用两个单应性矩阵将其对齐，然后根据两个单应性矩阵求出一个通用表达式对所有像素点进行投影。该方法利用K-means算法[8]根据特征点的位置将其聚类成Gg和Gd两组实现对图像分割。相较于使用单个单应矩阵对齐图像，该方法可以一定程度提升对齐精度，但对于具有多个平面的复杂场景，该方法将处于不同的平面错误地分为一个结构，将导致配准出错。此外，该方法使用Kmeans 算法进行聚类耗时较长，导致整体配准效率较低。Yan等人[9]将此方法推广至上方为建筑下方为地面的图像场景中，提出一种利用图像中的直线特征分割图像的方法以实现配准效率的优化。该方法充分利用建筑场景中直线特征较多这一特点，使用霍夫变换（Hough Transform）[10]对图像中的直线结构进行提取，然后选取所有直线中，位置处于最下端的直线作为平面分割线。通过将复杂的点聚类求解转化为直线搜索，在保证一定分割精度的同时较好地提高了配准效率，然而该方法的适用场景较为有限。

上述的双平面对齐方法采用的为基于物理平面的分割方式，其分割依据为近地平面与远背景平面具有完全不同方向的法向量。当场景较为复杂，存在多个物理平面时，该方法将会出错。对于此类复杂的场景，Zheng等人[11]借鉴Gao 等人将平面法向量作为分割依据的思想，充分考虑图像成像的特点，提出了一种基于投影一致平面的新颖图像配准方法。该方法将滤除外点后的特征点作为顶点，利用德洛内三角剖分方法[12-13]生成一个初始三角平面集合，并将三角平面的一般表达式定义为：

进而得到平面的法向量(a,b,c)。利用法向量求出各平面间的方向相似度后，结合投影误差可对各三角平面进行合并，进而实现平面的分割。最后，在对各个平面求解单应矩阵进行对齐后，该方法从各个平面中选取相同数目的特征点用于估计全局变换进一步提升配准的精度。此方法可以较好地处理大视差图像的配准问题，但由于三角平面合并时需要利用从深度信息中计算得到的投影误差，因此其性能依赖于三角平面初始化时估计的图像深度信息的精度。此外，对于弧形的非平面结构，由于其中不同的点运动不一致，单个投影变换模型无法对整个平面的运动情况进行描述。因此，对于此类包含有非平面结构的场景图像，该方法的配准精度不高。

对于具有复杂场景的图像平面分割，一个有效方法是借助深度学习的方法。Haines 等人[14]通过从一个最大标记样本集中训练法向量方向，将图像中的显著点分组至具有不同法向量的平面区域，实现对图像进行分割。Lou 等人[15]借鉴文献[16]中的深度学习方法，利用参考图像中的光照强度、梯度、纹理、对极几何等信息获得一个初始图像片段集。为每个图像片段估计一个仿射变换，并将具有相似变换参数的相邻片段合并可得到若干平面。最后分别对各个平面求解仿射变换即可实现多平面的对齐。为避免各对齐后平面间出现重叠或分离情况，该方法通过添加一个全局约束保证了各平面区域连续性。相较于Gao 等人[7]所采用的简单分割方法，借助深度学习方法进行平面分割，可以充分挖掘图像中各物体的内在联系，实现更精准的分割，进而有利于估计出更精确的变换模型。

当前用于图像配准的区域分割方法可大致总结为固定单元分割法[17-21]、多结构数据分割法[22-23]、基于物理平面分割法[7，11]以及基于图像表征特征分割法[24-30]四类，四类方法的特点及局限性如表1 所示。其中固定单元分割法由于其灵活性高、操作简易以及对大部分场景鲁棒性较好等特点近年来得到快速发展，在其基础上衍生的基于网格变形的图像配准方法已成为一种主要配准方法。其余三类分割方法则逐渐与深度学习技术相结合，利用机器学习的优势以提升分割精度。基于多平面对齐的图像配准方法的配准精度易受平面分割精度的影响。由于平面分割的目的是通过使用相同的局部变换模型以保证各分割区域中的所有像素得到相应的变换，进而实现平面的对齐。若平面分割精度较低，部分像素可能会被误划分到错误平面，然后执行错误的变换从而产生重影等误配准现象。Zheng等人[11]对此进行了相关的实验并证实在一定范围内，平面分割的精度与图像配准精度呈正相关。此外，该配准方法的精度还易受图像视差大小的影响。随着图像间的视差的增大，部分大视差平面的变换模型可能出现单应矩阵过少、对齐能力不足情况，导致配准精度较低。此时若该部分平面分割精度较低，可通过提升分割精度细化分割一定程度提升配准精度。在实际应用中，结合考虑图像场景的内容结构与各类方法的局限性选择对应的分割方法可获得综合性能较好的算法。

2.2 基于网格变形的图像配准

基于网格变形的图像配准的主要思想为对粗对齐后的图像进行网格划分，将图像的变形转化为网格的重绘，再将网格的变形对应到图像的变形，使绝大多数的匹配特征点对完全对齐。此类方法通过为网格顶点构造一个能量函数实现整个流程，通过在能量函数中添加不同的约束项可达到不同目的。

Liu 等人[31]提出内容保护变换（Content-Preserving Warps，CPW）用于三维视频稳定。该方法将已对齐的图像划分为多个网格单元，然后为网格顶点构造一个由数据项、相似变换项以及全局对齐项组成的能量函数，通过最小化能量函数，得到重绘的网格顶点坐标。特征点所在网格的顶点坐标经过能量函数的优化，可以保护图像重要区域的形状在变换中不被改变。文献[32-33]使用一种平滑过渡的仿射变换模型，以解决传统算法求出的全局仿射变换参数无法准确对齐待拼接图像问题[34]。该算法在高斯函数的平滑约束下，利用SIFT特征点的仿射变换参数插值得到任意点的仿射变换参数，进而利用各位置的仿射变换进行局部配准，提升配准精度。Zaragoza等人[17]在上述两种方法基础上更一步，提出了一个基于网格变形的平滑过渡的透视模型。该方法的配准过程示意图如图3 所示。首先利用传统配准方法计算出一个全局单应矩阵，然后将图像划分成若干均匀网格单元，并在DLT（Direct Linear Transform）算法基础上提出一个移动的DLT 算法以求解每个网格单元的局部单应矩阵。求解局部单应矩阵时，该方法依然采用DLT算法来优化特征点的配准误差，但其考虑了特征点周围的结构，为每个配准误差赋予了一个相应的权重。权重的大小根据特征点到网格中心的距离计算，距离中心点越近权重越大。特征点的权重通过高斯函数计算得到：

表1 区域分割方法总结

其中，x*为网格中心位置，xi为特征点位置，σ2为尺度参数。

图3 APAP算法配准示意图

通过将图像分割成多个网格，在全局对齐的基础上利用多个局部单应矩阵对各网格单元内容进行局部优化调整的方法，在处理具有一定视差的图像时，可以实现更精确的配准。但它过分依赖于特征点对的数量，若图像纹理信息较少或图像间的重叠区域较小，则部分区域无法满足计算得到可靠的单应矩阵所需的最小条件，致使配准效果不佳。且同一单元可能包含来自不同平面的特征点，该情况下计算得到的单应矩阵准确性不高，对于配准精度也会产生影响。因此该方法最终的拼接效果很大程度取决于特征点对的数量以及网格单元的划分情况。

Zaragoza等人[17]提出的尽可能射影变换（As-Projective-As-Possible Image Stitching with Moving DLT，APAP）算法为视差较大的图像的配准提供了一个较好的解决示例。在此基础上涌现出了许多基于网格变形优化的图像配准工作，这些工作主要从提升对齐精度与改善图像的自然性两方面改进图像配准效果。

2.2.1 提升对齐精度的图像配准

如何精确、高效地对齐图像是图像配准的核心问题。基于网格变形的配准的方法虽较好地提高了对齐精度，但过分依赖于特征点，特征点的数量与分布对于最终的拼接效果有着较大影响。针对过度依赖特征点对配准精度造成的一些影响，近年来涌现出了一些解决方案[18-19，35-38]。

图像网格划分的方式对于对齐的精度有着很大影响。若网格划分过密，会导致计算量过大或因网格内特征点过少致使估计的单应矩阵不准确；而划分过于稀疏，当图像重叠区域包含复杂纹理时，会由于矩阵对齐能力不足致使配准结果中产生重影。针对这一问题，齐向明等人[18]提出一种细分网格变形的方法。在对图像粗分割的基础上，对重叠区域内特征点较为密集的区域进行细化分割以适当增加变换矩阵数量，提升配准精度。但该方法对于不同场景需多次调整以获得最佳的细分阈值，且易出现过分割问题。王元炜等人[19]提出了一种自适应四叉树分块的网格划分法，在初始分割时迭代地对图像进行四叉树分块直至区块内特征点数量小于预先设定阈值或达到树的最大深度。该方法可在保证APAP算法配准精度的同时大幅提升算法的效率，但对于图像的纹理稀疏部分，该划分方式会加剧误匹配。Liu等人[39]提出一种利用图像中特征点的分布实现自动网格生成的方法。该方法对特征点分别建立（横坐标，特征点数）与（纵坐标，特征点数）两个数据集。对特征点数据集进行处理后，令两组数据中的局部极大值数分别为其对应特征点分组数W与L。然后利用公式（3）进而可得网格在竖直与水平两个方向的分割系数w 与l。

其中，ImageWidth 与ImageLength 分别表示图像的宽度与高度，FeatureWidth 与FeatureLength 分别为当前图像在重叠区域的宽度与高度。此外，该方法为进一步提升算法的多图像配准效率，采用了与Qu 等人[40]相似的思想，即在初始对图像两两之间进行特征点检测与匹配时记录其各自对应的信息，当下次对具有对应信息记录的图像进行配准时，直接利用原有记录信息，以避免反复执行特征点提取与匹配过程。该网格自动生成方法受图像特征点的分布影响较大，若特征点分布较为平均则难以生成有效的网格且可能会降低算法效率。

当重叠区域纹理分布不均或特征匹配对不足时，已有的局部单应矩阵无法对图像进行精确的配准，此时调整网格的划分也很难有所改善。针对重叠区域特征点匹配对数量不足问题，Liu 等人[39]提出了一套自动识别未对齐区域并在其中插入匹配点的算法。该算法通过对图像的视觉显著图进行迭代阈值处理求得一系列新增插入像素点，然后利用获得像素的强度值，根据定义的强度匹配代价函数在对应图像中找到相应特征点组成匹配对。该方法可以解决重叠区域关联性较弱时配准出错的问题，但其搜索对应特征关系耗时较长，且由于需要输入图像间在颜色与亮度具有一致性，因此在配准前需进行预处理操作，导致整体算法效率不高。此外，该方法插入的特征匹配对接受率较低，算法性能不高。

除点特征外，还可利用图像中的线特征作为辅助，为图像低纹理区域提供丰富可靠的对应关系[35-37，41]。Li等人将线段作为补充特征元素，提出一种采用点、线结合的双特征配准算法。通过利用线段作为点特征的补充，在缓解纹理稀疏区域特征点不足问题的同时也保护了图像中的直线结构。该方法首先使用EDLine直线检测法[42]检测图像中的直线结构，并对检测的线段采用端点参数化以解决点线度量不一致无法进行计算的问题。然后使用MSLD 描述子[43]对检测到的线段进行表述。针对MSLD 描述子采用固定大小的方形区域采样导致无法处理缩放、透视变换等情况，该方法提出了使用点引导线进行匹配使得采样区域可变的解决方案。进行局部调整时，该方法在网格顶点坐标的能量函数中加入直线约束项Eline(V)，以提升对齐精度，其表达式为：

图4 网格变形模型中线段特征对应关系图

Joo 等人[36]对APAP 算法中的移动DLT 进行了扩展，提出了一个直线引导moving DLT（L-mDLT）图像拼接框架。该方法将求解函数中的点权重替换成一个综合了点、线误差的混合权重w=diag([wp,λwl])，并根据点、线的几何投影误差，计算出一个权重平衡参数λ 进一步改善拼接效果。由于需要手动对图像中的直线进行标注，该方法实际操作较为复杂。Lin 等人[35]在利用直线特征作为特征补充的基础上，将光流法[44]与网格变形配准结合，提出了基于网格的光度校准（Mesh-based Photometric Alignment，MPA）方法，以进一步提升对齐精度。该方法借鉴了光流法思想，根据像素点的光强度构造了一个测光误差函数Ec(τ(q))，并将该函数作为约束项添加到网格顶点的能量函数中，以优化配准误差。改进后的能量函数公式如下：

特征点中的外点对于配准精度也有着较大的影响。多数配准算法利用RANSAC算法对外点进行过滤以提高配准的精度，然而对于不同的场景，很难保证每次都能确定一个合适的阈值在尽可能保留内点的同时滤除外点。针对这一问题，Zhang 等人[41]提出一种局部DLT方法在局部去除外点。对于任意特征点，若它们间的距离小于R，则视其为一个平面，利用DLT算法计算它们的单应矩阵，然后计算该单应矩阵的残差，残差值小于γ 则视为内点，反之为外点。局部DLT方法仅适用于纹理丰富区域，在特征点不足的区域会失效。且如果邻域内的匹配特征点数小于4，无法估计出可靠的单应矩阵。

2.2.2 改善图像自然性的图像配准

基于网格变形的配准方案普遍使用单应矩阵对图像进行射影变换。由于射影变换的特性，生成的单视角图像会不可避免地在变换图像的非重叠区域产生投影失真，影响最终拼接图像的观感。针对这一问题，可利用全局相似性保留多幅图像的视角以减少投影失真。Chang 等人[45]率先提出一个保留形状的半射影（Shape-Preserving Half-Projective Warps，SPHP）方案以解决图像投影失真问题。其主要思想为在重叠区域使用射影变换保证较好的对齐效果，同时在非重叠区域使用相似变换保留每个视图的视角。为使目标图像从射影变换平滑地过渡到相似变换，该方法使用两条平行于v 轴的直线u1与u2将待变换的目标图像分割为RH、RT与RS三个部分。然后构造一个分段变换函数W(u,v)分别对图像三个区域进行变换，利用函数W 连续这一条件可求解出各部分对应的表达式。该分段函数的表达式为：

该方法还为每幅图像Ii定义了一个代价函数Ei来衡量图像变换函数Wi与其最近相似变换的偏差。通过最小化代价函数值求解参数u1与u2，可最大范围地保留图像视角。SPHP算法可以有效地改善非重叠区域透视失真问题，然而该方法从全局单应变换中推导出相似变换，当估计的单应矩阵不准确时，可能会导致拼接结果出现非自然的旋转问题。

Liu 等人[39]同样采用单应矩阵结合相似矩阵的思路，但只将图像分为两部分处理。对于重叠区域，该方法利用APAP的射影变换进行处理，对于非重叠区域则定义一个形状优化变换对图像优化。权重Wn为一个3×3的矩阵，其中的子元素的表达式为：

Lin等人[20]提出了一个自适应尽可能自然的图像拼接算法（AANAP）进一步解决投影失真问题。该方法首先对非重叠区域的单应矩阵进行线性化以解决非线性外推导致的图像结构扭曲。通过将图像网格顶点p 附近的点q 的单应变换函数展开成泰勒级数形式，可以实现单应矩阵线性化。求解相似变换矩阵时，由于图像中的物体可能存在于不同平面，该方法在RANSAC 中设置双重阈值对特征点进行迭代过滤并分组。各组点近似代表不同平面，分别对其计算相应的相似变换，自动选择旋转角度最小的变换作为最佳候选。AANAP算法使用自适应选择最佳相似变换的方法，相较于SPHP 算法，非自然旋转的问题得到了更好的改善。通过将单应矩阵线性化，有效地改善了非重叠区域结构扭曲的情况。但是AANAP 算法使用特征匹点配来确定最佳相似性变换，获得的全局相似变换估计鲁棒性不强，在配准时图像仍可能存在非自然旋转和缩放情况。此外，该算法直接将使用齐次坐标的最优相似变换矩阵与使用像素坐标的单应变换矩阵的对应元素进行加权平均，以得到最后的变换矩阵，由于二者坐标单位不同，若直接进行运算可能会出现错误。庞荣等人[46]对两个变换矩阵的坐标进行了转化统一处理，并提出一个基于网格变形的双向moving DLT 算法。对图像进行变换前，首先在两幅输入图像间寻找一个较为自然的中间状态，然后让二者以基于moving DLT的方式同时向此中间状态进行变换，实现图像的对齐。该方法可以实现自主调控最终图像的自然观感。

Chen 等人[21]提出在网格顶点能量函数中添加全局相似先验项约束来改善图像的自然性。他们构造了一个由对齐项Ψa、局部相似项Ψl以及全局相似项Ψg组成的能量函数Ψ(V)。其中局部相似项Ψl将对齐约束从重叠区域传递到非重叠区域，确保每个网格进行相似变换。全局相似项Ψg约束每幅图像尽可能地进行经历全局相似性先验，以解决配准后图像倾斜和非均匀变形的问题。该全局相似性项定义为：

其中，R(Φij)为相对旋转角Φij对应的二维旋转矩阵，二维单位向量(u,v)表示对应的旋转角θ 。最小化函数EMLDR即可求解出最优旋转角度。利用最佳缩放因子与最佳旋转角度可获得一个最优全局相似项进而保护图像的自然性。该方法对于图像的自然性进行了较好的保护，但它基于网格连续性相似约束变换，只能保证网格内部不会产生形变，当直线结构跨网格时，该约束将不存在，此时直线结构可能产生形变。

获得具有较好自然观感的图像，除解决投影失真问题外，还需保证图像中的显著性结构不被破坏。直线是图像中最易被人眼所察觉的显著结构，在配准过程中容易受配准误差的影响导致结构弯曲进而影响图像的观感。在各种基于网格变形优化的算法中，这一现象由于图像中直线结构往往横跨多个网格，而图像在局部变换时，每个网格的内容进行的变换不一致所导致。通过在网格顶点的能量代价函数中添加一个直线约束项可以有效地解决这一问题。文献[37，47-48]中采用相似的方法，对每条跨越网格的直线进行分段，使得每个网格区域只包含直线的一部分，对线段与网格的交点使用点所在网格的四个顶点表示，然后采用点到直线的距离作为惩罚项约束三点共线。得到直线约束项能量代价函数Eline(V)后，将代价函数添加到网格顶点能量函数E(V)中，从而对图像的变换实现直线约束以保护直线的线性结构不被破坏。

基于网格变形优化的图像配准技术具有较好的灵活性，通过对能量函数中添加不同的约束项可以很好地解决图像配准中的许多问题，然而此类方法太过于依赖特征点。如何处理好特征点信息以获得更精确的单应变换是提升对齐精度的关键。当前基于该方法的配准算法多数致力于解决纹理稀疏特征点不足带来的配准出错问题，虽取得了一些较为不错的效果，但距离实际应用仍有一定距离。此外，该类方法存在一个显著问题，即被分割至同一网格内的特征点未必处于同一平面，这会导致估计出的单应矩阵不够准确。对于图像自然性的保护，通过对能量函数中添加不同的约束可以较好地解决问题，然而会带来巨大的计算量，算法的整体效率不高。且采用单应变换和相似变换的组合虽可缓解透视失真问题，但由于相似性变换保留了单个视角，会导致两变换间的过渡区域结构弯曲或同一物体显示不同的视角问题。

2.3 缝合线驱动的图像配准

当图像视差较大时，即使采用对视差具有一定容忍性的基于网格变形的配准方法也会配准出错，此时基于空间变换的配准方法已无法得到正常配准结果。对于此类更大视差的图像配准问题，目前较为有效的方法是基于缝合线的图像配准技术。其中，缝合线选择是基于缝合线的图像配准方法中的重要步骤，只有缝合线的相邻区域精确对齐，才能够生成一个视觉上无缝的全景图像。基于缝合线的配准技术结合了局部配准与缝合线搜索算法，利用缝合线来辅助选择优化图像对齐，并从对齐优化后的图像中估计出一条最佳的缝合线，以使得在后期图像融合时能够获得较好的拼接效果。基于缝合线的图像配准示意图如图5所示。

图5 缝合线驱动的图像配准示意图

Gao等人[49]提出缝合线驱动的图像配准算法。与传统配准方法不同，该方法并非根据已匹配特征点的最佳几何拟合选择单应性矩阵，而是根据生成的缝合线的直观质量来评估选择最终变换矩阵。首先对所有获得的特征匹配对估计单应矩阵，并使用每个单应矩阵对图像执行对齐变换。然后对每幅生成图像执行缝合线分割，通过在缝合线上选取一个17×17 像素大小的方块与输入图像中对应大小方块进行比对实现对生成的缝合线质量进行评估。这种利用缝合线的质量而非对齐误差大小进行变换矩阵选择的方法可以使生成图像达到更好的感官效果。但是该方法只使用了局部的少数特征点计算单应矩阵，图像的配准精度不高。且当进行多幅图像拼接时，误差会累积，导致拼接结果产生弯曲、图像自然性较差。

大视差的图像的配准，很难实现，也无需在整个重叠区域中精确对齐图像，只需在重叠区域中的局部区域对齐图像即可。基于该思想，Zhang 等人[50]将单应变换与内容保留变换相结合，提出了一种在缝合线附近使用CPW 进行局部对齐的方法，并将该方法扩展到立体图像拼接。该方法首先随机选择种子特征点并在其邻域进行增量聚合分组的方式来估计出多个初始单应变换矩阵，若估计得单应矩阵引起较大的图像形变则将其丢弃。然后通过使用Canny 边缘检测法[51]提取出变换图像与参考图像的边缘图，并计算它们得到差分图，结合graph-cut图割算法[52]可求出最佳缝合线。最后，利用缝合线代价得到最佳变换矩阵后，结合文献[49]中方法，采用CPW对重叠区域进行局部对齐优化以弥补初始变换矩阵对齐精度的不足，进一步提升整体对齐精度。该方法在对特征点进行聚类分组时，使用一个较大的拟合阈值以尽可能包含周围更多的特征点，这使得图像之间的特征点无法完全对齐。虽然后续使用CPW方法缓解该问题，但是对于重叠区域中存在大量显著结构的情况效果较差。且该方法的对齐模型选择与CPW优化步骤耗时较长，导致算法的效率不高。

文献[49-50]采用从生成的大量初始对齐假设中获得最佳对齐假设的方法会导致配准效率低下，且单纯利用缝合线来筛选出最佳的单应变换对于对齐精度的提升很有限。Lin等人[53]提出一种基于超像素的特征分组方法来优化初始对齐假设的生成。该方法使用文献[54]中的方法对目标图像进行分割，然后采用增量式的合并方式将包含特征的超像素划分为几个具有代表性的超混合组，并采用排列组合的方式对超混合组进行组合，以丰富初始对齐假设的丰富性。为进一步利用缝合线提升对齐精度，该方法将CPW 框架中对齐项的权重w替换为自适应特征权重wi，将局部对准计算和缝合线估计紧密结合起来。自适应特征权重wi的表达式为：

其中括号中的项取决于特征的对齐误差，λ 取决于特征到当前缝合线的最短距离ds。初始值设为0.1，若ds≤20,λ 值取1.5。

在提升对齐精度的同时，该方法还在CPW 框架中增加了一个新的非局部结构保留项Ecs，对图像中的直线、曲线等显著结构进行保护。通过使用定义在每个线性轮廓上的三角形计算一组非局部相似性约束，实现对非局部结构项构造，具体如图6所示。基于CPW框架优化后的总能量函数为一个稀疏线性函数，函数中各项均为二次型。利用这一特性，Li等人在文献[48]中对能量函数形式进行变形优化了计算效率。汪洋鑫等人[55]提出一种利用缝合线的质量迭代选择局部匹配点的方法，可同时找到最佳局部区域与缝合线。该方法首先迭代地对缝合线进行分割，并采用配准质量Qp对分割的片段进行评估，对筛选出的质量较差片段的邻域依次进行特征点检测。Qp表达式为：

其中，pt(pj;θ)和分别表示以点′对应点为中心的来自变换后目标图像It′和参考图像Ir的图像小块，其大小被设为θ,σp为图像小块差异的标准差。然后将检测的新特征点添加到局部匹配点集合中直到计算出一个有效的单应变换。最后将新的特征点补充到全局匹配点集进而获得更好的初始单应矩阵及缝合线。该方法可以在避免大量初始配准假设带来巨大计算开销的同时，更好地优化局部的配准。基于缝合线的配准方法对色彩差异较大的图像进行处理时会产生明显拼接缝问题，通过改进缝合线搜索算法并结合图像融合算法可使问题得到较好缓解[56-59]。

图6 非局部结构项构造原理图

基于缝合线的图像配准方法的关键步骤为寻找最佳初始对齐矩阵与寻找最优缝合线。其中初始对齐矩阵作用与传统图像拼配准[6]中的全局单应矩阵作用相似，用于对齐两幅图像。因此，初始对齐假设越好，其对应的单应矩阵表达能力则更强，相应地图像的配准精度也更高。缝合线则被用于评估初始对齐的质量以筛选出最佳的初始对齐。文献[49-50]即通过改进缝合线与初始对齐间的关联表达式以获得更好的初始对齐，进而提升图像的配准精度。由于该方法在配准中引入了图像融合中的缝合线元素，因而对于大视差图像的配准可以取得较好的视觉结果。但该类方法的最终缝合精度主要取决于初始对齐精度以及搜索到的最佳缝合线的质量，其对齐精度相对前两种方法较差一些。且由于选择最佳单应变换矩阵需要生成大量的初始假设并验证，因此算法的计算量也较大。此外，由于使用单应矩阵进行初始的对齐，缝合的结果基本是单一视角，因此该类方法也会出现投影失真问题。

3 结语

本文将近年来基于特征的视差图像配准的研究工作大致分为基于多平面的图像配准、基于网格变形的图像配准以及缝合线驱动的图像配准三类，分别介绍和分析了各类算法的思想与限制，具体如表2所示。同时对近年各类方法的发展现状进行了归纳与总结：

（1）基于多平面对齐的图像配准方法的性能受平面分割精度的影响。当平面分割精度较高时，对于一般视差的图像可获得较好的配准效果。近年来该类方法的发展主要为对其中平面分割部分的不断优化。随着深度学习网络在计算机视觉处理中取得巨大成功，此类配准方法中采用的平面分割法也从早期Gao等人[7]使用的种子区域生长法逐渐转变为结合深度学习网络的基于物理平面分割法[11]、基于图像表征特征分割法[15]等方法。借助于深度学习的强大学习能力与特征表现能力，近年来基于多平面对齐的图像配准方法的配准精度得到了较大提升。

（2）基于网格变形的图像配准由于其较高的灵活性备受研究学者青睐，其相关研究取得了飞速发展。该类方法的发展主要分为提升对齐精度与加强自然性。由于依赖于特征点，该方法对齐精度提升部分的研究主要从优化网格的划分[18-19，39]、补充特征匹配对[35-36，38]以及提升内点纯度[41]几个方面进行。自然性的保护方面则是聚焦于减少投影失真[20-21，39，45-46]和对显著结构进行保护[37，47-48]。通过调整网格的划分以及优化网格顶点的能量函数，对于一般视差场景该类方法可以取得较好的视觉效果。

（3）缝合线驱动的图像配准方法从图像拼接的结果着手，通过结合图像融合技术，利用缝合线选出最佳的初始对齐，进而实现图像的配准。该方法的配准精度与初始对齐假设的有效性在一定范围内呈正相关。其近年的发展主要从优化初始对齐假设[50，53]以及改进缝合线与对齐假设间的筛选关系进行[48，55，57]。通过该方法获得图像配准精度与传统的全局单应矩阵配准精度相近，相较于前面两类配准方法要更差一些。但是将其与图像融合技术相结合，对于大视差图像的拼接可以获得比前面两者更好的拼接效果。

表2 基于特征的视差图像配准方法总结

尽管三类方法针对视差图像配准中的特定的问题可以取得不错的效果，但要提升其实用性仍有许多值得研究的问题：

（1）基于多平面的图像配准方法精度主要取决于分割平面的准确性。因此可以考虑将图像分割技术中的先进方法引入图像配准技术中，但需考虑算法的复杂度避免过于强调平面分割的准确性而导致算法效率低下。

（2）基于网格变形的图像配准需计算多个单应矩阵，且要手动设置较多的参数，提高算法的效率以及自适应选择参数对于提升其实用性具有重要意义。此外，该类方法的精度太过于依赖特征点。同一网格单元内特征点对应不同变换矩阵导致局部配准出错问题以及尚未得到较好解决的纹理稀疏区域配准出错问题也都是未来需要进一步研究的难题。

（3）基于缝合线的图像配准虽不要求严格初始对齐，但良好的初始对齐有助于配准精度的提升。因此可考虑将此类方法与基于多平面对齐的配准方法结合以期提升配准精度。此外，该类方法由于使用单应矩阵进行初始对齐会导致最终结果出现透视失真问题。如何提升此类方法配准结果的自然性也是未来的研究方向之一。