基于局部单应性矩阵的图像拼接与定位算法研究

2020-06-08迟龙云赵晨旭

导航定位与授时 2020年3期

迟龙云，张海，赵晨旭

(1. 北京航空航天大学自动化科学与电气工程学院，北京100083；2.北京航空航天大学中法工程师学院，北京 100083)

0 引言

为了保证大型场景的安全稳定，视频监控作为一种安防的有效手段，已经被广泛应用在各种复杂的公共场合。由计算机代替人眼对视频进行分析处理，不仅可以减轻监控人员的劳动强度、提高监控识别的准确率，而且还可以提供许多人工监控不能实现的功能。目前的监控技术大多都采用一个固定安装的摄像机对某个场景进行监控。对于场景比较大的区域如机场、火车站、海关、停车场等，由于传统的摄像机的视野范围有限,不能同时获取周围环境中所有目标的位置，监控人员需要对着多个监控画面分别进行观察，对目标的监控定位只能限定在有限的摄像机监控范围内[1]，这样不仅丧失了对目标监控的连续性，更不利于从整体上把握分析监控目标的状态。因此，需要一种经济的广角图像生成技术实现对大场景的广角监控，以多摄像机拍摄图像为基础的图像拼接技术应运而生。

早期的图像拼接技术以Brown等[2]的Auto-Stitch算法为代表，但是该算法有2个应用前提：拍摄到场景大致在一个平面上和拍摄图片时的光心位置必须相同。当拍摄场景或拍摄条件不符合以上情况时，拼接结果会产生明显的重影。Gao等[3]提出了基于双单应性矩阵假设的拼接算法，即假设待拼接图像可以分为背景和地面2个基本平面，通过计算2个平面对应的单应性矩阵，实现图像的精确配准。Lin 等[4]使用仿射变换对齐图像，能够处理一定视差下的图像拼接问题。网格优化模型是一套灵活的图像优化框架，网格优化方法以Zara-goza等[5]提出的尽可能投影(As Projective As Po-ssible Image Stitching，APAP)算法为代表，将图像划分为均匀的网格，并分别为每个网格计算一个单应矩阵，使用局部单应性对齐图像。Lin 等[6]提出了使用缝合线引导的局部单应对齐(Seam-guided Local Alignment，SEAGULL)方法，通过聚类产生多条局部单应性矩阵假设，然后计算最佳缝合线生成一系列的候选拼接结果，并提出了一种评价标准来评估缝合效果，最后选择得分最高的结果作为最终的全景图像。Chang 等[7]提出了形状保护半投影(Shape-Preserving Half-Projective，SPHP)算法，通过引入结构保护方法，使得图像的非重叠区域到重叠区域，由相似变换逐渐过渡到透视变换，不仅可以使重叠区域准确对齐，并且能最大限度地减少非重叠区域的投影失真。Chen等[8]提出的具有全局相似性先验的自然图像拼接(Natural Image Stitching with the Global Similarity Prior，NISwGSP)算法使用APAP初始化网格，并同时利用局部相似项和全局相似项对网格优化结果进行约束，减小了投影失真，大大提升了多张图像的拼接效果。

针对存在视差的图像拼接问题，现有算法虽然能得到一定的拼接结果，但是仍会出现重影、鬼影和形状扭曲变形等问题。因此，需要研究全局配准方法的局部优化问题，尽可能地消除投影畸变，实现重叠区域的平滑过渡。

论文基于NISwGSP算法进行改进,针对该算法特征匹配数量较少并且分布不均匀、特征稀疏区域配准方法不合理及直线结构容易遭到破坏等问题，对特征点筛选算法加以改进，利用超像素区域辅助网格匹配点的筛选，并对网格优化过程添加直线保持项，以实现部分重叠区域的合理配准。最后采用最佳缝合线的方法避免了未配准区域出现重影，提升了大视差复杂场景下的拼接性能并保持了拼接结果的合理性。在由上述方法得到大场景下的全景图像后，调用最优摄像机配置资源实现对图像中目标的快速定位，方便监控人员从整体上直观把握前景目标的位置。

1 基于网格变形的图像拼接算法

1.1 特征点匹配与筛选

该算法首先对所有待拼接的图像进行快速特征点提取和描述 (Oriented FAST and Rotated BR-IEF，ORB)[9]并进行暴力匹配得到候选匹配信息。传统的随机抽样一致性(Random Sample Consen-sus，RANSAC)算法[10]针对纯旋转条件下的错误匹配点剔除十分有效，但是当拍摄2张待拼接图像的相机光心不再重合时，图像之间对应的转换关系不能单纯地利用一个单应性矩阵来表达，该算法便无法获得足够多的正确匹配点对。针对此问题，本文利用鲁棒的多平面RANSAC算法[11]实现了大视差图像间的匹配点对的有效筛选。通过计算多组可能的假设模型，每组假设模型对应一个全局单应性矩阵或全局基础矩阵，找到使得匹配点投影误差小于阈值数量最多的假设模型即为最终合理的模型。模型对应的投影残差小于阈值的候选匹配点即为筛选后的匹配点。经过筛选后的正确匹配点为后续的网格匹配点生成及图像配准过程提供支持。

1.2 网格匹配点生成与筛选

为了使图像匹配点位置分布更加均匀，在得到正确匹配特征点后，将输入图像分别划分为均匀的网格，然后用APAP算法将重叠区域的网格顶点利用局部单应性矩阵投影得到相应的网格匹配点。

Mij=

{(Vi1,P(Vi1)),(Vi2,P(Vi2)),…,(Vik,P(Vik))}

(1)

其中，P(·)为网格顶点经局部单应性矩阵投影后的图像坐标，并且P(Vjk)位于图像Ij内。同理定义集合Mji为对于顶点Vjk满足P(Vjk)位于图像Ii内的匹配点对集合，即(P(Vjk),Vjk)∈Mji。以Mij∪Mji表示图像Ii和图像Ij中所有区域初步得到的网格点匹配对集合。

(2)

(3)

1.3 全局尺度项与全局旋转项计算

(4)

(5)

1.4 基于网格优化的图像配准方法

λgΨg(V)+λsΨs(V))

(6)

在式(6)中，Ψa(V)为区域配准项，Ψl(V)为局部相似项，Ψg(V)为全局相似项，Ψs(V)为直线保持项，λl、λg、λs分别为各项对应的系数。

区域配准项：在得到网格匹配点后，区域配准项通过最小化匹配点之间的像素坐标误差，求取最优的网格顶点位置集合。具体可以表示为

(7)

局部相似项：为了保证匹配点附近的网格在配准时不会发生局部扭曲的现象，该项通过局部相似变换的方式最小化网格的形变量，可以使变换合理地由重叠区域过渡到非重叠区域。具体定义如下

(8)

(9)

全局相似项：该项通过上文求取的全局尺度项和全局旋转项保证待拼接的图像能够自然地投影到最终的全景图像平面上。能量函数定义如下所示

(10)

(11)

直线保持项：在NISwGSP算法中，当图像中的直线结构穿越多个网格时，由于每个网格进行的变换均不相同，可能会导致直线在经过变形之后失去原本的特性。针对此问题，算法设计了直线保持项。在计算该项之前，首先利用LSD算法分别检测待拼接图像中的直线，并根据直线的长度对其进行筛选，当直线长度大于网格对角线长度时，以该直线起点作为起始采样点对直线上的点进行均匀采样，最后将采样点作为优化项的输入参与网格顶点的优化过程。该项的具体形式为

(12)

1.5 最佳缝合线融合

待拼接图像经过对准后必须通过融合才能形成完整的全景图像。传统的图像融合算法有多分辨率融合算法、加权平均法、泊松融合算法和最佳缝合线算法等[18]。多分辨率融合算法具有算法复杂度低、速度快等特点，但是当图像重叠区域不能严格对齐时，融合效果并不理想；加权平均法速度较快，但是容易出现伪影和曝光等问题；泊松融合算法融合效果较好，但是计算量较大并且用时太长；最佳缝合线算法虽然能够较好地处理大视差场景下的图像融合问题，但是当图像存在明显的曝光差异时，融合区域不能自然地进行过渡，造成全景图像出现明显的接缝。

为了实现重叠区域的自然过渡，得到更加准确、合理的融合图像，本文将最优缝合线搜索算法与多分辨率融合算法相结合。首先根据待拼接图像相邻像素的相似性构造重叠区域的加权图，利用最大流-最小割算法得到待拼接图像的掩码;然后构造图像的拉普拉斯金字塔，将原图像分解到不同的空间频带上，并在每个频带上采用不同的融合算子进行融合;最后根据最佳缝合线信息对图像进行重构得到最终的全景图像。其中加权图的具体构造方法如下

(13)

式中,p和q代表图像Ii和图像Ij重叠区域的2个相邻像素，E(p,q)表示像素p、q之间的边的权重。若p、q在2幅图之间的内容均具有较高的相似性，则认为该部分得到了准确的对齐，相应边的权重较小，反之则权重较大。

2 基于全景图像的目标定位算法

2.1 基于标定参数的定位方法

当目标在某一时刻出现在多个摄像机的视野重叠区域时，可以通过摄像机配置信息联合三角测量的方式实现目标空间位置的快速定位，具体介绍如下：

(14)

进一步可得

(15)

联立多个观测到该目标的相机给出的方程可得

(16)

为了简便，式(16)可以表示为

(17)

(18)

运动目标在世界系的坐标可以直接通过求解伪逆的方式获得

(19)

2.2 基于单应性矩阵的快速定位方法

当场景中存在如地面和操场之类的平面或者监控摄像机的内参或外参矩阵不再可信时，可以通过平面在世界系与图像坐标系下的对应关系实现前景目标的快速定位。具体方法如下：

由摄像机透视投影关系可知，平面在不同坐标系间的转换关系可以由一个单应性矩阵H表达

(20)

已知平面上的点P在世界系下的坐标Pw和图像平面的齐次坐标p，则两者的关系如下

(21)

一般情况下，运动目标都会与地面等场景中的主平面有接触，因此可以选取目标在平面上的点作为待定位点。由于单目视觉在无外界测量辅助或先验知识的情况下不具备距离无尺度模糊恢复能力[19]。因此，需要选取至少4组已知世界系坐标的图像点作为控制点，计算该平面在射影变换中的投影矩阵H，并且控制点与待定位的目标点都处于最佳缝合线的同一侧。

在获取目标在图像平面的像素坐标后，可以通过单应性矩阵H求取前景目标在世界坐标系的大致位置，实现目标的快速定位。

3 实验验证

由于图像拼接没有公用的数据集，为了验证算法对大场景下图像拼接结果的合理性以及对目标定位结果的精确性，本文在相关论文中的图像以及真实采集的图像的基础上进行了一系列实验，并与AutoStitch、APAP、SPHP、NISwGSP算法进行了比较。具体结果如图1所示。

如图1所示，A列和B列输入图像来自于文献[6]，明显可以看出，AutoStitch、APAP、SPHP和基于平均融合的NISwGSP算法均出现了明显的鬼影问题，除此之外AutoStitch、APAP和SPHP算法也出现了不同程度的尺度失真问题。基于最佳缝合线的NISwGSP算法虽然解决了鬼影和尺度失真的问题，但是由于重叠区域对齐效果不理想，拼接结果在接缝处出现了结构不连续的现象。本文的方法则得出了相对较好的结果。

图1的C列是由实际采集的图像得到的拼接结果。由于条件的限制，实验以操场看台上手机拍摄的图像模拟监控摄像机拍摄的真实操场场景。输入图像存在重复的纹理结构(草坪、跑道等)，拥有多个复杂平面，存在较大的视差并且共视区域包含特征稀疏区域和特征丰富区域等繁杂的场景信息。由C列可以看出，基于平均融合的NISwGSP算法的拼接结果存在明显的失真情况，如严重的鬼影、损失了操场边缘的直线特性及左侧路灯及建筑发生了明显的变形等状况。虽然基于最佳缝合线的NISwGSP算法消除了鬼影问题，但是图中的结构信息仍然遭到了严重的破坏。本文中的算法则相对较好地解决了这些问题，提升了拼接结果的自然性与准确性。

图1 输入图像及结果对比Fig.1 Input image pair and results comparison

实验在Windows10环境(2.80GHz CPU, 8GB RAM)下进行，算法运行时间对比如表1所示。将融合算法由平均融合改为最佳缝合线算法后，算法耗时大幅增加。相对于基于最佳缝合线的NISw-GSP算法来说，本文提出的改进算法在时间上稍有增加，但是能取得良好的拼接效果。

表1 运行时间

对于前景目标定位问题，如图2所示，首先选取已知世界坐标的4个点(任意3点不共线)作为控制点。其中以点1处作为世界系坐标原点建立直角坐标系，然后基于此求取操场平面与图像平面的单应性矩阵H。最后利用求得的单应性矩阵H对场景中的一些平面点进行定位的结果及误差如表2所示，其中估计误差由目标点的世界坐标估计值与实际值的欧氏距离表示。

图2 控制点选取Fig.2 Control points selection

表2 定位结果及误差

Tab.2 Location results and errors

序号图像坐标/pixel估计的世界坐标/m真实的世界坐标/m估计误差/m1(717,1857)(8.66,8.72)(9.35,7.85)1.112(2043,1827)(53.67,-0.50)(51.20,-2)2.893(257,1889)(0.47,16.16)(0,15.70)0.664(1986,2464)(50.19,71.47)(53.25,69.10)3.875(827,1820)(6.07,-0.33)(6.35,-2)1.77

由实验结果可以看出，利用该方法可以实现监控角度下目标的快速定位，最终估计误差在2.06m左右。