一种基于自适应关键帧的视频序列拼接方法

2011-07-13郭三华谢绍霞

电子设计工程 2011年21期

初玲，郭三华，谢绍霞

（1.烟台汽车工程职业学院电子工程系，山东烟台 265500；2.烟台汽车工程职业学院汽车工程系，山东烟台 265500）

视频序列拼接是由多帧视频序列拼接而成的完整全景图像，在视频监控、医学图像处理，遥感图像处理等方面得到广泛应用[1]。在视频序列的拼接中，相邻帧间重叠部分较大，若每相邻帧都做一次拼接，不仅耗费了大量时间，而且随着所需拼接帧数量增多，匹配误差会增大，造成拼接效果不佳。利用关键帧拼接表示整个视频序列拼接成为有效的方法，文献[2]提出利用分层式自适应帧采样的视频拼接，算法限制条件较多，对获取的视频有严格的限制，容易导致拼接失败。文献[3]提出SIFT结合Kalman跟踪算法进行关键帧的提取及拼接的实现，由于视频序列本身帧数量较大，关键帧的选取数量较大再加上SIFT算法本身的复杂性，累积造成运算时间比较长，累积匹配误差较大。

针对于此，提出了一种基于自适应关键帧的视频序列拼接方法，首先，将固定间隔采样的视频帧作为关键帧，并对其进行特征点提取；其次，利用特征点匹配结合RANSAC鲁棒估计算法得到相邻、非相邻关键帧间的单映矩阵，依此计算关键帧间的重叠区域，按照重叠区域的比例结合折半排序方法重新定位关键帧，将此关键帧作为基准帧，重复固定帧采样、重叠区域确定，定位后续满足条件关键帧过程，直至满足条件关键帧提取完毕，最后，利用特征点匹配矩阵和单映矩阵的级联性，并通过融合实现了关键帧所表示的视频无缝拼接，取得比较理想的效果。

1 单映矩阵变换模型及关键帧的选取

1.1 帧间变换模型

单映矩阵变换是一种常用的帧间变换模型，主要适用于任意场景空间摄像机为旋转或者缩放运动，或者空间为平面场景和任意摄像机的运动[4]。单映矩阵变换表示为：

对于相邻的关键帧，可以直接采用上述帧间变换模型，但是对于非相邻的关键帧，考虑利用单映矩阵的级联性质，得到非相邻关键帧之间的单映变换矩阵。

假设第k帧、第h帧为非相邻的关键帧，以第h帧作为基准帧，第帧为目标帧，利用单映矩阵的级联性质，可以得到两非相邻关键帧的单映变换矩阵。

其中，Hh，tHt，n…Hm，lHl，k分别是第 k 帧、第 h 帧之间的相邻关键帧的单映变换矩阵。示意图如图1所示。

图1 单映矩阵的级联示意图Fig.1 The cascades skeleton map of homograph matrixes

1.2 关键帧的选取过程

在进行视频序列拼接时，相邻帧间的冗余量是比较大，重叠区域范围较大，但场景变换不是很大，这样考虑利用重叠区域的范围来寻找关键帧，在文献[5]中认为视频序列拼接时，一般将重叠区域限定在25%-50%范围内为佳，在减少所选关键帧的同时，能够满足拼接的需要，故文中的方法是：

1）将固定间隔采样的视频帧作为关键帧，考虑到拼接场景范围需要，设定第一帧和最后一帧为必须的关键帧；

2）对上述关键帧进行特征点提取，并完成基准帧与后续相邻目标关键帧特征点匹配和单映矩阵的求解，后续相邻目标关键帧经过单映矩阵变换之后，与基准帧重叠区域进行确定，分两种情况来重新定位关键帧：

①若当前关键帧与基准帧的重叠区域大于设定阈值，则要考虑当前关键帧后续的目标关键帧，计算目标关键帧与基准帧之间的重叠区域，直至后续目标关键帧与基准帧的重叠区域大于设定阈值，而目标关键帧后续相邻关键帧与基准帧的重叠区域小于设定阈值时，在两关键帧之间重新定位所需关键帧，采用折半排序方法找到适合条件的关键帧，流程如图2所示。

图2 折半排序寻找适合条件关键帧流程图Fig.2 The flow chart of finding keyframes by binary search

②若当前关键帧与基准帧的重叠区域小于设定阈值，则须在当前关键帧和基准帧之间重新采用折半查找方法定位关键帧，流程如图3所示。

图3 折半排序寻找关键帧流程图Fig.3 The flow chart of extracting keyframes by binary search

3）再以重新定位的关键帧为基准帧，对后续视频帧进行1）、2）步骤操作，这样获取最终满足条件的视频关键帧序列。

2 SURF实现特征点提取

SURF算子是Bay等人发明[6]的，其使用了积分图像和均值滤波器来提高检测速度并减少局部图像描述器的维数，更适用于实时图像处理和视频帧间处理，SURF算法利用快速Hessian检测算法提取特征点，Hessian矩阵具有良好的计算时间和精度表现。其行列式用来判定其特征点的尺度和位置。

1）Hessian特征提取器对于图像 I中的任意一点X（x，y）T，在 X 点处以尺度 σ 定义 Hessian 矩阵 H（X，σ）为：

2）积分图像的使用使用积分图像可以迅速计算出箱式滤波器的图像卷积，积分图像定义为：

其中 II（X）表示以图像原点和图像上某点 X=（x，y）为顶点的矩形区域内所有像素之和。

3）极值点的判定通过计算H矩阵行列式的决定值，并利用这个值进行特征点的判别。特征点提取时首先构建图像的高斯金字塔，然后在不同的尺度空间下寻找极值，在每一个尺度下收集一定量的最值点作为候选特征点。

4）SURF特征描述子 SURF特征描述子的提取可以分为两步：第一步根据特征点周围的一个圆形区域找到特征点的主方向；第二步在选定的主方向上构建一个矩形区域，并提取所有的特征描述点信息。按主方向构建一个大小为20σ的窗口，σ表示尺度，并将该窗口区域分为4×4的子区域，对于每一个子区域，分别计算相对于主方向的水平和垂直方向Haar小波响应，每个子区域得到四维向量，因此4×4的子区域得到64维特征点描述子，它可以扩展到128维的特征点描述子，一般采用128维特征点描述子。

3 拼接方法的实现及相关实验

3.1 拼接方法的实现步骤

按照上述所述，拼接的具体实现步骤如下：

1）为了选取关键帧子序列，使全景图内容丰富，第一帧和最后一帧为必选关键帧，选取第一帧视频序列关键帧为基准帧，提取基准帧的特征点。

2）利用SURF算法对关键帧提取特征点，采用最近邻距离比进行特征点匹配，并利用帧间单映矩阵模型和关键帧选取过程进行自适应关键帧选择。

①利用SURF特征点提取算法对间隔选定的关键帧特征提取；

②对相邻关键帧利用帧间单映矩阵模型进行匹配计算；为了使单映矩阵H的估计准确，利用RANSAC鲁棒估计方法得到相邻关键帧之间单映矩阵H的估计[7]，具体步骤为：

Step 1随机抽取n≥4对匹配特征点来估计矩阵H的参数；

Step 2对于②中的每一对匹配点，计算对单映矩阵H的拟合误差；

Step 3设定一个门限值，若拟合误差小于此门限值，表示匹配点对是一致点，并统计一致点的数目；

Step 4重复上述 Step 1、Step 2、Step 3步骤，直到所有的一致点集中至少有一个有效表征集的概率大于一定的数值为止；

Step 5选择具有最大一致点集的单映矩阵H；

③对非相邻关键帧利用单映矩阵的级联性进行计算；

④利用SURF算法结合关键帧的选取过程步骤实现自适应关键帧的选取。

3）将2）选定关键帧作为最终拼接的关键帧，利用单映矩阵级联和加权融合算法完成自适应关键帧表示的视频序列拼接。

图4 最终获取的关键帧Fig.4 The final keyframes of this video

图5 关键帧所表示的视频序列的拼接效果图Fig.5 The final video mosaic by adaptive keyframes

图6 获取的最终关键帧Fig.6 The final keyframes of this video

3.2 拼接实验

实验采用手持数码相机拍摄的两组视频序列图像，利用上述方法进行了视频序列的拼接，取得比较好的效果。

1）手持数码相机拍摄的一组80帧视频序列，利用上述方法获取的的关键这如图4（a-d）所示，最终获取的拼接效果图如图5（a-b）所示。

（2）手持数码相机拍摄的125帧的视频序列，利用本文方法获取的关键帧如图6（a-f）所示，其拼接效果图如图7（ab）所示。

图7 关键帧所表示的视频序列的拼接效果图Fig.7 The final video mosaic by adaptive keyframes

4 结论

利用自适应关键帧进行视频序列的拼接，取得比较理想的效果，将固定间隔采样帧作为关键帧并对利用SURF算法对其特征点提取；利用特征点匹配结合RANSAC鲁棒估计算法得到关键帧间单映矩阵，进而获取关键帧间重叠区域，结合重叠区域比例及折半排序方法重新定位关键帧，将此关键帧作为基准帧，重复帧采样、重叠区域确定、定位后续所需关键帧过程，直至关键帧提取完毕，结合级联单映矩阵和加权融合实现视频序列无缝拼接。

[1]Kim D H，Yoon Y I，Choi J S.An efficient method to build panoramic image mosaics[J].Pattern Recognition Letters，2003，24 （1）：2421-2429.

[2]刘永，王贵锦，姚安邦，等.基于自适应帧采样的视频拼接[J].清华大学学报：自然科学版，2010，50（1）：108-112.

LIUYong，WANGGui-jin，YAOAn-bang，etal.Videomosaicking based on adaptive sampling[J].Journal of Tsinghua University：sci&Tech，2010，50（1）：108-112.

[3]Fadaeieslam M J，Fathy M，Soryani M.Key frames selections into panoramic mosaics[C]//Proceedings of the 7th International Joint Conference on Information，Communication and signal，Macau，2009.

[4]Man S，Picard R W.Video orbits of the projective group：A simple approach to featureless estimation of parameters[J].IEEE Transactions on Image Processing，1997，6 （9）：1281-1295.

[5]Steedly D，Pal C，Szeliski R.Efficiently registering video into panoramic mosaics[C]//The 10th IEEE InternationalConference on Computer Vision，Beijing，2005.

[6]Bay H，ESS A，Tuytelaars T，et al.SURF：Speeded up robust features[J].Computer Vision and Image Understanding，2008，110（3）：346-359.

[7]Hartley R，Aissenrman A.Multiple view geometry in computer version[M].Cambridge，UK：Cambridge University Press，2000.