视频稳像算法综述
2019-03-30王传胜管来福童磊贾锈闳熊炜
王传胜 管来福 童磊 贾锈闳 熊炜
【摘要】 数字视频稳像技术发展已有30多年的历史,随着计算机视觉、人工智能及深度学习的发展,视频稳像算法也在不断的发展。从最初的传统方法到近年来深度学习方法的提出,数字稳像技术也在向前迈进。稳像技术算法分为传统方法和深度学习的方法。按照不同方法对视频稳像技术进行简单介绍,再对稳像评估方法进行说明,最后对视频稳像技术研究的难点与发展的趋势进行了展望。
【关键词】 视频稳像 传统方法 深度学习 评估方法
引言
视频稳像技术也称视频去抖技术。视频稳像技术主要通过算法减少视频的抖动,以生成稳定的视频,提高视频的质量。
传统视频稳像算法通常包含2D方法、2.5D方法和3D方法。3D方法通常用于三维重建。2.5D方法适用于专业拍摄设备。2D方法由于处理速度快以及有较好的鲁棒性,常被用于处理视频稳像问题。视频稳像算法一般分成3个部分:运动估计、运动平滑和运动补偿。
随着计算机视觉、人工智能及深度学习的发展,视频稳像技术也在不断的发展。深度学习方法通过不同的网络对视频数据集进行训练、测试以及相应参数的设置处理抖动视频,以便达到稳像的效果。
一、传统方法
传统视频算法主要分为3部分:运动估计、运动平滑和运动补偿。
1.1运动估计
运动估计是在特定相机运动模型下确定相机运动向量的过程,这些运动向量是描述连续视频帧之间的运动转换的量[1]。常见的运动估计算法有块匹配法、灰度投影法、光流法和特征点匹配法。
块匹配法具有较好的鲁棒性,计算量小,原理简单等特点,因此常用于实时稳像。块匹配是将视频帧分成块,再对每一帧搜索当前帧的特定块的位置,帧间匹配块的运动构成单个运动矢量。由所有块运动矢量估计出视频序列的全局运动矢量。
灰度投影法一般是利用图像的灰度分布信息进行全局运动信息的估计。由于灰度分布不能较好的反映视频运动矢量的变化,所以该方法效果较差。
光流法主要是依据时域空间图像亮度梯度来进行光流场的估计。
特征点匹配法是一种精度高计算量大的运动估计方法。常用的特征点检测法有边缘检测、角点检测、斑点检测等。
1.2运动平滑与补偿
抖动视频的相机运动存在抖动的“噪声”,运动平滑即消除噪声,使得运动路径变得平滑。运动平滑通常采用滤波器对运动路径进行平滑。常用的有卡尔曼滤波、高斯滤波、均值滤波等。
卡尔曼滤波是一种利用线性系统状态方程,利用递推估计,估计性能最优。递推计算形式能够适合实时处理,因此卡尔曼滤波被称为最优滤波器。
高斯滤波是一种线性平滑滤波,适用于消除高斯噪声。抖动视频的噪声可以建模为符合高斯分布的噪声。高斯滤波抑制噪声的过程即为运动平滑的过程。
均值滤波是典型的线性滤波算法,主要采用领域平均法。用均值替代原图像中各个像素值。
通过运动平滑得到平滑路径,接下来对视频每一帧进行补偿,再得到每一帧的补偿矩阵对每一帧进行几何变换,由此得到稳定的视频帧序列。
二、深度学习的方法
随着计算机视觉、移动设备及深度学习的发展。深度学习在图像和自然语言等领域深受追捧。利用深度学习算法解决稳像问题从近年开始。2018年Xu等人[2]提供了一种新颖的在线深度学习框架,使用对抗网络来处理抖动视频,开创了深度学习算法在视频稳像的先河;2019年Wang等人[3]提出一种StabNet神经网络模型处理抖动视频,但最终稳像效果并不理想;2019年Yu等人[4]直接将帧的外观变化建模为连续帧的密集光流场,同时提出了一种新的优化方法,将非凸问题转移到卷积神经网络参数域,在每个特定的输入视频中从头开始训练卷积神经网络(CNN),并且有意地过度拟合CNN参数以在输入视频上产生最佳结果。通过解决CNN权重空间中的问题而不是直接解决图像像素问题;其中此类方法对计算机显卡及内存要求较高。
三、稳像评估方法
视频稳像算法通常包含主观和客观两类评估指标。
3.1主观评估方法
主观评估方法是通过人眼对最终生成的稳定视频进行评价。由于受到人为因素的干扰,评估存在较大的不确定性,对稳像后的视频评价可能存有差异。
3.2客观评估方法
1.峰值信噪比(PSNR)
峰值信噪比是基于均方差的图像质量描述方法。通常采用帧间的峰值信噪比评估视频稳像的效果,PSNR值越高说明稳像效果越好。
2.均方差(MSE)
MSE可以表现视频帧间内容变化的快慢以及位移量改变。
3.帧间转换精度
帧间转换精度(ITF)是PSNR的均值表现形式。
4,结构相似性
结构相似性(SSIM)常用于视频帧像素间的相互关系,注重视频帧内在规律的相似性。也是一种常用的稳像评估方法。其中,SSIM值越接近1说明稳像效果越好。
5.全曲率评价法
2019年Zhang等人[5]提出一种直接度量视频运动路径平滑的无参考稳定评价算法,称为基于全曲率的稳定评价法。由相邻帧间的特征点计算单应变换,再将该变换映射到李群空间,最后借助离散测地逼近方法计算路径全曲率,由此判断运动路径的平滑程度。曲率值越小,说明路径越平滑,稳像效果越好。
四、稳像技术的难点与展望
4.1稳像中的难点
1.黑边问题,由于抖动视频的“噪声”,在对视频进行每一帧几何变换时,会出现黑边的现象。目前解决黑边问题的常见方法是对视频的黑边进行裁剪,但是经过裁剪后的视频会有一部分内容的损失。对于一些运动剧烈,黑边较大的视频需要裁剪很大的部分,这样会导致保留的有用图像信息较少。所以,稳像中的黑邊问题是一个亟待解决的问题。
2.大前景運动。对于某些拍摄的视频包含大前景运动,在运动估计阶段会估计出不合理的相机运动,这将对后期的操作造成较大的影响,使得视频出现扭曲甚至更严重的抖动。所以,包含大前景运动抖动视频也成为待解决的难题。
4.2展望
随着科技的进步与发展及移动智能设备的普及,市面上的大部分移动设备品牌内部都嵌入稳定传感器。但是在拍摄过程中,会受到外部条件的干扰,使得视频存有抖动。因此还是需要后期的处理来稳定视频。而对于现代人而言,更偏向实时,比如实时微信视频聊天,这就使得需要一个实时的运动平滑滤波器。
在生活应用中,车载设备也嵌入稳定传感器,当行驶在颠簸的路面,行车记录仪记录的视频也可能存有部分抖动,或者经过减速带也将引起大的抖动。
不论是学术研究还是应用于现实生活,稳像技术还需继续发展。
参 考 文 献
[1]魏闪闪, 谢巍, 贺志强. 数字视频稳像技术综述 [J]. 计算机研究与发展, 2017, 54(09): 2044-2058.
[2] Xu S, Hu J, Wang M, Mu T, Hu S. Deep video stabilization using adversarial networks [J]. Computer Graphics Forum, 2018, 37(7): 267-276.
[3] Wang M, Yang G, Lin J, Zhang S, Shamir A, Lu S, Hu S. Deep online video stabilization with multi-grid warping transformation learning [J]. IEEE Transactions on Image Processing, 2019, 28(5): 2283-2292.
[4] Yu J, Ramamoorthi R. Robust video stabilization by optimization in CNN weight space [C]//. Proc of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Long Beach: IEEEPress, 2019: 3800-3808.
[5] Zhang L, Zheng Q, Huang H. Intrinsic motion stability assessment for video stabilization [J]. IEEE Transactions on Visualization and Computer Graphics, 2019, 25(4): 1681-1692.