基于优选特征轨迹的全分辨率视频稳定

2015-02-05余家林孙季丰宋治国

电子与信息学报 2015年5期

关键词：像素点边界轨迹

余家林孙季丰宋治国

（华南理工大学电子与信息学院广州 510641）

基于优选特征轨迹的全分辨率视频稳定

余家林*孙季丰宋治国

（华南理工大学电子与信息学院广州 510641）

该文提出一种基于优选特征轨迹的视频稳定算法。首先，采用改进的Harris角点检测算子提取特征点，通过K-Means聚类算法剔除前景特征点。然后，利用帧间特征点的空间运动一致性减少错误匹配和时间运动相似性实现长时间跟踪，从而获取有效特征轨迹。最后，建立同时包含特征轨迹平滑度与视频质量退化程度的目标函数计算视频序列的几何变换集以平滑特征轨迹获取稳定视频。针对图像扭曲产生的空白区，由当前帧定义区与参考帧的光流作引导来腐蚀，并通过图像拼接填充仍属于空白区的像素。经仿真验证，该文方法稳定的视频，空白区面积仅为Matsushita方法的33%左右，对动态复杂场景和多个大运动前景均具有较高的有效性并可生成内容完整的视频，既提高了视频的视觉效果，又减轻了费时的边界修复任务。

图像处理；视频稳定；特征点轨迹；图像扭曲；光流；运动修复

1 引言

视频稳定是近些年国内外研究的热点［13］-，尤其是稳定包含大运动前景和动态复杂场景的抖动视频仍然是该领域的研究难点。常见的视频稳定方法主要包括块匹配［4］、位平面匹配［5］、特征点匹配［6］和灰度投影［7］等。这些算法各具优势，譬如，块匹配法估计的运动矢量精度高；位平面匹配法计算量小，实时性强；投影法效率高，性能稳定。但它们均采用单应性模型估计全局运动矢量，在较长视频序列中会造成运动估计误差累积，导致稳像精度不高。据此，文献［8］提出一种基于特征的快速视频稳定算法，它利用一种基于二进制稳健独立基元特征的描述符实现帧间特征点匹配，并用一种改进的运动平滑方法平滑仿射模型参数以减少全局运动估计误差。文献［9］又提出一种基于背景特征点分类的视频稳定算法，该算法利用前一帧对应的特征点和全局运动参数估计当前帧的运动矢量，相比文献［8］可以完全避免全局运动估计误差对视频稳定的影响。文献［10］提出了一种基于特征点轨迹的在线视频稳定算法，该算法通过Kalm an滤波平滑原始序列的特征轨迹来校正抖动的输入视频序列实现稳像，打破了文献［8，9］采用单应性模型估计全局运动矢量的模式。2013年，文献［11］又提出一种基于时空优化的视频稳定方法，在保证特征轨迹空间关系的前提下，用Bézier曲线表示特征轨迹，采用时空优化方法平滑特征轨迹，取得了较好的稳定效果。但是针对存在多个大运动前景或动态复杂场景的抖动视频，文献［8～11］方法目前还无法达到稳像的目的。

针对以上问题，本文提出一种基于优选特征轨迹的全分辨率视频稳定算法，与Matsushita传统方法［12］相比，最大特点为无需采取单应性模型估计全局运动矢量，而是同时考虑视频序列中有效特征轨迹平滑度与视频质量退化程度来平滑特征轨迹获取稳定视频，在确保稳像精度的前提下，减少视频信息丢失。

2 视频稳定系统的工作流程

本文算法流程如图1所示，虚框中是传统方法，其依赖单应性模型计算摄像机运动参数，比如仿射变换、相似变换等。本文提出一种基于优选特征轨迹的视频稳定算法，避免了传统估计方法带来的累积误差。

图1 视频稳定系统的工作流程

3 获取特征点轨迹

3.1 改进的Harris算法提取特征点

为了提高传统的Harris算子检测效率与定位精度，本文采用一种改进方法，该方法首先假设一个角点响应函数CRF（Corner Response Function）：

式中，z为确定特征点坐标的参数，ρ1（z）和ρ2（z）可以分别表示为

式中，O为中心点，M'（N'）为M（N）相对于O的对称点，fM，fN和fO分别表示M， N与O点处的灰度值。fM， fM'，fN和fN'分别表示为

其中，A（A'）与B（B'）分别为x轴与y轴上的点，在进行高斯滤波之前，计算出某像素点（x，y）在水平和垂直方向上灰度值的强度变化ρA和ρB，计算公式为

最终，得到改进后的CRF函数可以表示为

当某像素点的CRFi'超过设定阈值T1时，该点被视为角点，参与后续的高斯滤波环节，否则，忽略该像素点。经过该过程，大约可过滤掉整幅图像中75%的像素点，计算量大幅降低，并提高了检测效率。

为提高定位精度，计算点（x，y）在8邻域内相似像素点个数排除伪特征。计算8邻域像素点与点（x，y）的灰度差值，如果差的绝对值小于T2，表示与点（x，y）相似，用K（x，y）来计算与点（x，y）相似的点的数目，记

式中，m，n∈｛-1，0，1｝，但m与n不能同时取0，g（∗）为某像素点灰度值，T2为设定阈值，其大小决定抗噪能力。当K（x0，y0）是其8邻域中最小时，由CRF局部非极大值抑制即可判断图像中（x0，y0）为真实角点。

3.2 基于K-Means聚类算法剔除运动前景特征点

运动前景上的特征点所形成的特征轨迹与摄像机抖动无关，应事先剔除，剔除运动前景上的特征点不仅可以降低计算量，而且还可以提高系统的稳像精度。

将Ci中所有样本｛Vpk｝与均值ai的误差平方和对所有类｛ci|1≤ i≤ m， i∈ Z ｝求和作为聚类准则，记

式中， Esum表示m个聚类中心点｛ai|1≤ i≤ m， i∈Z｝在样本子集｛Ci|1≤ i≤ m， i∈ Z ｝中所产生的误差总和。通过循环迭代，找到使 Esum取得极小值的最优化聚类｛Ci|1≤ i≤ m， i∈ Z ｝。

聚类后的每一类Ci，依据该类中每个样本所在位置求解类内散度Si，记

将所有类的类内散度Si都计算出，并比较Si的大小，即可判定Si值较大的一类运动矢量集对应特征点位于背景中，视为有效并保留，Si值较小的一类运动矢量集对应特征点位于运动前景上，视为无效并剔除。

3.3 特征轨迹的形成

从输入视频获取特征轨迹是关键的一步，常用特征跟踪法和光流法，跟踪法形成的轨迹长而稀疏，而光流法形成的轨迹短而密集。参考文献［13］提出的视频粒子化方法可获取长而密集的特征轨迹。

假设ξi表示视频帧中的第i条特征点轨迹，它可以用一个2维点集来表示，其中，表示某一特征点，m与n分别为视频的起始与结束帧编号，经历t帧后，可得一个特征轨迹集｛ξi｝，对于第t+1帧，提取特征后得到点集进行Delauuay三角剖分［14］可知，位于同一条边上的点是邻接的，该邻接关系持续至特征轨迹变平滑为止，换言之，位于同一条边的轨迹是邻接的。

设ψt为第t+1帧所提取的特征点追加至前t帧所形成的轨迹。当第t+1帧中的特征点数小于｛ξi｝中的轨迹数时，ψt为0，假设第i条轨迹的速度场为：在第t+1帧中匹配的特征点。为了找到有效特征轨迹，需做两方面工作：一是利用空间运动一致性减少错误匹配；二是利用邻接特征轨迹的时间运动一致性来实现长时间跟踪。代价函数表示为

式（10）第1项表示帧间对应特征点错误匹配的代价，第2项表示邻接特征轨迹运动不一致的代价，h（∗）表示Harris角点描述算子，P为邻接点对集合，其中，权系数wij可通过式（11）计算。

式中，τ表示输入视频帧的集合，V表示帧间对应特征点的速度场，dij表示第i， j两条特征轨迹的运动相似度，它等于两条轨迹遍历帧集τ后速度场差值的均值，G（∗； σ0）为零均值高斯函数，σ0为标准差。

3.4 筛选有效特征轨迹

设Φ和Γ分别为筛选前后的轨迹集，输入视频共N帧，帧计数器CNT=0。轨迹筛选分为以下5步：

（1）计算ψt的值，如果为0，从Φ中剔除满足该条件的轨迹，得轨迹集Π。否则，进入步骤（2）；

（2）设定相似度阈值为Th（轨迹集中各轨迹代价均值确定），然后，由式（12）计算第i条轨迹代价Ω0：

（3）如果Ω0＞ Th，则Th= Th+Δ，并从Π中剔除满足该条件的轨迹，否则，Th= Th-Δ（Δ为某一正数），从而得到轨迹集Γ；

（4）帧计数器CNT++，如果CNT= N，则系统暂停运行，否则，进入步骤（5）；

（5）第t+1帧后如果出现新的轨迹，添加至Φ中，并返回步骤（1）。

经过以上特征轨迹的迭代筛选，得到有效的Harris特征轨迹集Γ，就将视频稳定的问题从帧间特征点匹配求解单应性模型转向单纯的特征轨迹平滑问题。

4 平滑特征轨迹与图像扭曲

4.1 特征轨迹的权值

轨迹集Γ中存在与摄像机抖动无关的轨迹，比如运动前景上或错误匹配形成的特征轨迹。假设第i条轨迹对前t帧的权值为和te（ξi）分别为轨迹ξi的起始和结束时间，记为

运动前景上或新出现和消失的短轨迹会影响视频稳定精度，为了减小这种影响，应分配较小权值，而对于来自背景或中心区域的长轨迹对视频稳定发挥重要作用应分配较大权值。

为了解决图像纹理比较明显的区域出现轨迹“聚簇”的问题，由式（14）中实现空间的归一化，保证特征轨迹在空间分布均匀；为时间的归一化，实现对各条轨迹在帧中权值的归一化，表达式分别为

4.2 建立目标函数

本文的方法是通过估计视频序列的几何变换集，使特征点以恒定的速度运动从而平滑特征轨迹获取稳定视频，但这会造成视频质量退化，譬如，图像模糊、图像失真及图像边界信息丢失等。因此，需要考虑两方面因素：一是特征轨迹粗糙度Ωrou（T）；二是视频质量退化程度Ωdeg（T），得目标函数：

4.3 相似变换

本文既要考虑帧间相似度，又要进行仿射变换，为兼顾二者，采用一种相似变换的几何变换，记为

式（22）中，V为帧角点集，E表示帧边界集，L（ e）为帧边界长度，D（ v， e）为点v到边e的距离，当v∈ e时，D（ v， e）=0。为解决式（22）的“凸优化问题”，需满足ψ（D）为凸函数，实验中δ取一个较小值0.001。

5 图像修复

图2 相邻帧t'腐化当前帧t的过程示意图

为了获得全分辨率的视频序列，以帧间较强的相关性为依据，首先，利用参考帧将当前帧的空白区域进行腐蚀，然后，利用参考帧进行图像拼接［15］，实现当前帧的全分辨率。假设在补偿帧中，有像素的区域为定义区M，无像素的区域为空白区M0，当前帧中无像素而相邻帧中有像素的区域为待填充区域Mt。

假设Qt为M与Mt边界上的一点，A（ Qt）为以Qt为中心半径r的小邻域，Pt为该邻域内的一点，（ Q）表示第t帧中的点Q到第t'帧的光流，λ（Q， ttt

利用双线性插值方法计算Qt的灰度值，记为

式中，M表示当前帧对参考帧的相对运动，由式（20）可得

同理可得Mt与M边界上的所有点灰度值，并将它们归于M中，以此类推，基本上可以将待填充区Mt腐化掉，对于Mt中未被腐化的像素点，采用图像拼接方式求解灰度值：

经过以上操作，就可将含有空白区域的补偿帧修复为全分辨率的视频帧。

6 实验结果

6.1 抖动视频的稳像测试

为了验证算法的有效性，本文采用多个分辨率为640× 360的视频序列进行实验，并对稳像前与稳像后的视频序列进行了对比分析。

针对存在动态场景的视频，本文采用的是DITF（Difference of Inter-frame Transformation Fidelity）来评估稳像精度，该指标不是针对单一帧，而是相邻两帧，记为

式中，fk表示第k帧，MSE（fm， fn）表示相邻两帧在帧宽W和帧高H的范围内对应像素点灰度值I（ i， j）的均方差，它反映帧间变化快慢和偏差大小，如果MSE越小，可得DITF就越小，表明两帧间差异也越小，即视频越稳定，反之，视频越不稳定。图3为特征点有效性判定结果。图3（a）为提取特征点和特征点三角剖分结果；图3（b）为K-Means算法剔除前景特征点的结果。图4为边界修复的整个过程。

图5和图6分别显示了存在多个大运动前景和动态复杂场景的抖动视频稳定结果，第1行为抖动序列，第2行为文献［12］中Matsushita方法稳定序列，第3行为本文方法稳定序列，第4行为图像修复后的序列。

从输入视频序列中任意选取90帧，尺寸为640× 360。表1表明，本文方法获得的补偿帧中丢失区域面积仅为文献［12］方法的33%左右，既减轻了费时的边界修复任务，又提高了视频的视觉效果。

图7显示了本文方法与文献［12］方法各自补偿帧的边界空白区域修复时间，前者仅为后者的30%左右。

图3 特征点的有效性判定

图4 边界修复的完整过程

图5 视频边界和中心区域存在大运动前景视频稳定结果

图6 动态复杂场景视频稳定结果

表1 补偿帧边界丢失区域比例（%）

本文实验是在Core i3处理器，2.27 GHz CPU，2 G内存的双核计算机上进行。图8归纳了本文算法各模块的计算量分布。图9显示出了80.25%的观察者对本文方法获取的稳定视频具有更高的满意度。

6.2 特征轨迹的空间拟合

图10显示了第i条特征轨迹平滑前后的空间分布。实验中，随机选取60帧，通过特征点提取与帧间匹配，在3维空间中形成抖动幅度约50像素的特征轨迹。以下显示了4种轨迹平滑方法达到的平滑效果。

图11针对包含动态场景和多个大运动前景的视频，本文获得的视频的DITF明显低于文献［12］方法。

图7 帧边界修复时间比较

图8 本文方法计算量分布

图9 视频稳定性满意度调查

图10 特征轨迹平滑效果比较

图11 DITF值的比较

7 结束语

本文提出了一种基于优选特征轨迹的视频稳定算法，与Matsushita方法相比，该方法不需要采用单应性模型估计全局运动矢量，直接平滑视频中有效特征轨迹获取稳定视频，在确保稳像精度的同时，减少了帧边界丢失区域面积，并对补偿帧边界实时修复达到全分辨率。对含有动态复杂场景和多个大运动前景的抖动视频均具有很好的稳定效果，但要求视频帧至少存在5个有效特征点，对于没有足够有效特征点的视频，该方法有待改进。另外，对于存在可变深度信息的视频，3D深度信息的估计方法还需要进一步探讨和研究。

［1］ Song Chun-he， Zhao Hai， Jing W ei， et al.. Robust video stabilization based on particle filtering w ith weighted feature points［J］. IEEE Transactions on Consum er Electronics， 2012，58（2）: 570-577.

［2］ O reifej O， Li Xin， and Shah M. Simultaneous videostabilization and moving ob ject detection in turbulence［J］. IEEE Transactions on Pattern Analysis and M achine In telligence， 2013， 35（2）: 450-462.

［3］ Chao Jia and Evans B L. Constrained 3D rotation sm ooth ing via global manifold regression for video stabilization［J］. IEEE Transactions on Signal Processing， 2014， 62（13）: 3293-3304.［4］ Tang Chong-wu， Yang Xiao-kang， Li Chen， et al.. A fast video stab ilization algorithm based on b lock m atching and edge com p letion［C］. IEEE International W orkshop on M ultim ed ia Signal Processing， Hangzhou， 2011: 1-5.

［5］ Zhu Juan-juan and Guo Bao-long. Fast layered bit-plane matching for electronic video stabilization［C］. International Con ference on Multimedia and Signal Processing， Guilin，2011: 276-280.

［6］ Abdu llah L M， Tah ir N M， and Sam ad M. V ideo stabilization based on point feature m atching technique［C］. IEEE Control and System Graduate Research Colloquium， Shah Alam，Selangor， 2012: 303-307.

［7］ Yang W， Zhang Z， and Zhang Y. A real-time gray projection algorithm for electron ic im age stabilization［C］. Proceedings of 2011 International Con ference on E lectric Inform ation and Control Engineering， W uhan， 2011: 4687-4690.

［8］ Xu Jie， Chang Hua-wen， Yang Shuo， et al.. Fast feature-based video stabilization w ithout accumulative global motion estimation［J］. IEEE Transactions on Consumer Electronics，2012， 58（3）: 993-999.

［9］ Kim Seung-kyun， Kang Seok-jae， Wang Tae-shick， et al.. Feature point classification based global motion estimation for video stabilization［J］. IEEE Transactions on Consum er Electronics， 2013， 59（1）: 267-272.

［10］ Ryu Yeon-geol and Chung Myung-jin. Robust online digital image stabilization based on point-feature trajectory w ithout accum ulative global m otion estim ation［J］. IEEE Signal Processing Letters， 2012， 19（4）: 223-226.

［11］ Wang Yu-shuen， Liu Feng， Hsu Pu-sheng， et al.. Spatially and tem porally op tim ized video stabilization［J］. IEEE Transactions on Visualization and Computer Graphics， 2013，19（8）: 1354-1361.

［12］ M atsush ita Y， O fek E， Ge W， et al.. Full-fram e video stab ilization w ith m otion inpainting［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2006， 28（7）: 1150-1163.

［13］ Sand P and Teller S. Particle video: long-range motion estim ation using point trajectories［J］. International Journal of Com puter V ision， 2008， 80（1）: 72-91.

［14］闫自庚，蒋建国，郭丹. 基于SURF特征和Delaunay三角网格的图像匹配［J］. 自动化学报， 2014， 40（6）: 1216-1221. Yan Zi-geng， Jiang Jian-guo， and Guo Dan. Image matching based on SURF feature and delaunay triangular meshes［J］. Acta Autom atica Sinica， 2014， 40（6）: 1216-1221.

［15］ Qi Zhi and Cooperstock J R. Toward dynam ic im age mosaic generation w ith robustness to parallax［J］. IEEE Transactions on Image Processing， 2012， 21（1）: 366-378.

余家林：男，1989年生，博士生，研究方向为数字视频处理、智能计算方法、无线通信网络.

孙季丰：男，1962年生，教授，博士生导师，研究方向为图像理解、计算机视觉.

宋治国：男，1985年生，博士生，研究方向为机器学习、图像处理.

Full-frame V ideo Stabilization Based on Preferred Feature Trajectories

Yu Jia-lin Sun Ji-feng Song Zhi-guo
（School of Electronic and Information Engineering， South China University of Technology， Guangzhou 510641， China）

A novel video stabilization algorithm based on preferred feature trajectories is p resented. Firstly， Harris feature points are extracted from frames， and foreground feature points are elim inated via K-Means clustering algorithm. Then， the effective feature trajectories are ob tained via spatial m otion consistency to reduce false matches and tem poral motion sim ilarity for long-time tracking. Finally， an ob jective function is established， which contains both smoothness of feature trajectories and degradation of video qualities to find a set of transformations to smooth out the feature trajectories and obtain stabilized video. As for the b lank areas of image warping， op tical flow between the defined area of current frame and the reference frame is used as a guide to erode them， mosaicing based on the reference fram e is used to get a fu ll-frame video. The simu lation experim ents show that the blank area of the stabilized video with the p roposed method is only about 33% of that with Matsushita method， it is effective to dynam ic com plex scenes and multiple large moving ob jects， and can obtain content com plete video， the proposed method can not only im prove the visual effect of video， but also reduce the motion inpainting.

Image processing； Video stabilization； Point-feature trajectories； Image warping； Optical flow； Motion inpainting

TP391.4

： A

：1009-5896（2015）05-1141-08

10.11999/JEIT141019

2014-07-30收到，2014-10-22改回

国家自然科学基金青年科学基金（61202292）和广东省自然科学基金（9151064101000037）资助课题

*通信作者：余家林 sci_jlyu09@126.com