基于深度体素流的模糊视频插帧方法
2020-06-06林传健高钦泉
林传健,邓 炜,童 同,高钦泉,*
(1. 福州大学物理与信息工程学院,福州350116; 2. 福建省医疗器械与医药技术重点实验室(福州大学),福州350116;
3. 福建帝视信息科技有限公司,福州350116)
(*通信作者电子邮箱gqinquan@fzu.edu.cn)
0 引言
随着科技发展,生活水平提升,人们可以随时随地观看视频,对视频质量的要求也越来越高。而视频插帧正是计算机视觉在视频增强中的一个典型应用。视频是由一系列内容连续的静态图像按照一定的时序连贯组成,插帧任务将视频中每每两帧连续帧作为输入,利用帧间信息预测出中间帧,从而重制出帧率更高且画面更加连贯的视频。对于视频插帧这个研究热点,难点在于如何快速精确生成中间帧,使源序列在视觉上更加平滑过渡。
近年来随着人工智能浪潮的兴起,各种基于深度学习的视频插帧思路频频提出。FlowNet[1-2]方法最早证明了用卷积神经网络直接预测帧间光流的可行性,但是在一些特定情况下估计所得光流的精度不够理想(如运动过大、目标遮挡、光线剧烈变化、模糊等),因此基于光流的插帧方法常常出现像素混乱。另外缺乏准确的光流真值用于训练也是光流法的一个弊端。Niklaus 等[3-4]通过估计能够用于捕获帧间运动与插值系数的空间自适应卷积核以合成中间帧,该方法无需光流监督,且能够较好地应对局部的运动变化。Liu 等[5]提出用一个卷积神经网络估计出帧间紧密的体素流,基于体素流直接从两帧输入参考帧中拷贝相同的像素,使得合成帧更加清晰真实,同时大大节省了计算量。Jiang 等[6]对帧间的双向光流进行线性融合从而能够合成任意时间节点的中间帧,在视频慢动作应用上效果亮眼。另有研究者探究如何融合利用图像的深度、背景、边缘等[7-9]信息更好地保护图像结构,以获得更加清晰的插帧效果。上述这些方法虽然能够初步良好估计出帧间物体的小幅运动,对于画中目标遮挡情形的处理也有了不小的提升,但针对视频画面模糊的情况进行插帧则研究甚少,而往往视频中的运动模糊会大大影响插帧效果,甚至引起中间生成帧的画面全盘崩坏。
图像盲去模糊是一种高度病态问题,许多先驱工作从各种角度出发尝试解决[10]。尤其近年来深度学习的发展,同样带动图像去模糊任务取得不少新的突破。Kupyn 等[11]将生成对抗网络的思想应用到去模糊任务之中,其图像恢复细节更加丰富生动;Nah 等[12]利用多尺度信息融合以学习图像模糊特征,效果显著但是网络相对复杂;Tao 等[13]在此基础上通过长短时记忆(Long Short-Term Memory,LSTM)级联多尺度间的模糊-清晰对加强特征学习。图像去模糊技术开始突破特定场景壁垒慢慢走向实用。
综上所述,深度学习带来的多种计算机视觉任务突破为多任务融合的端对端方法打下坚实的基础,本文即在此背景下,提出针对模糊输入帧的高质量插帧重制方法,设计了一个完整有序的深度卷积神经网络,其中去模糊网络模块用于提升源图像质量,插帧网络模块对去除模糊之后的参考帧提取有效的帧间信息,依据可靠的体素流估计出理想的中间帧。
本文的主要内容如下:1)针对模糊视频影响插帧任务性能的背景,制作了适用于模糊插帧的训练与测试数据集,提出了一种新型的去模糊与插帧相结合的网络结构;2)训练并结合了图像去模糊模型与视频插帧模型。设计了合适的损失函数和分步联合训练策略,使模型有效收敛;3)对比两组前沿的去模糊算法与插帧算法组合以及本文所提出联合训练方法两个阶段的模型,客观评估指标的提升与可靠的视觉结果验证本文的工作能够将两帧连续模糊输入帧有效地端对端重制为三帧连贯且清晰的视频帧序列。
1 网络设计方案
借鉴最新的研究成果,综合考虑性能,设计了新型的网络结构。整体网络主要由去模糊模块与插帧模块两部分组成。首先将内容连续的两帧输入帧分别通过去模糊网络生成对应清晰帧,接着通过插帧网络估计出清晰帧之间的体素流,再经过三线性插值计算得到中间帧。下面将详细阐述整个网络的结构组成。
1.1 去模糊模块
关于运动模糊的去除,已有不少可供参考的研究,在去模糊任务中,需要获取足够大的感受野以应对剧烈的运动,而网络一味加深又将造成特征图过小而难以恢复,参数数量急剧上升导致收敛速度下降等负面效应。U-Net[14]网络结构最早应用于医学图像分割任务,编码器与解码器对称堆叠组合的特殊设计如今也被广泛应用于视频超分辨率、图像修复等其他计算机视觉任务[15-17]。残差网络和跳跃连接由He 等[18]提出,通过残差学习可以使网络中各层的梯度信息尽可能被传递,缓解深层网络中的梯度消失问题。经过实验测试权衡,本文的去模糊模块采用了一种适量残差块(ResBlock)堆叠的UNet变形网络结构。残差块的基本结构如图1所示。
图1 残差块示意图Fig. 1 Schematic diagram of ResBlock
如图1 所示,每个残差块包含两个卷积核数相同的卷积层,两个卷积层间经过ReLU 非线性激活函数。该残差块可用式(1)表示:
其中:x表示恒等映射,F(x)表示网络前向传播学习到的局部残差,通过跳跃连接将两者相加得到残差块的输出结果H(x),并作为下一个残差块的输入。残差块的适当堆叠能够有效提取模糊图像的深层特征,并且可以解决训练深层网络时的梯度消失问题,从而学习清晰图像与模糊图像之间的映射关系,最终实现高质量的图像去模糊功能,保证后续插帧处理初始的可靠性。去模糊模块框架如图2所示。
图2 去模糊模块框架Fig. 2 Debluring module framework
图2 中Ib表示输入的模糊图像,Is表示输出的去模糊图像。该网络由编码块与解码块对称堆叠组合,编码块中的卷积层与对应解码块的反卷积层通过跳跃连接以融合不同尺度间的信息。每一个编码块都由一个卷积层和三个残差块依次排列组成,对应的解码块由三个残差块和一个反卷积层依次排列组成。其中每个卷积层与反卷积层后都接有非线性激活函数ReLU,且卷积核大小均为5×5,以便通过更大的感受野获得更丰富的全局特征,同时步长设置为1,以保证输出特征图与原图大小一致。具体的各卷积层参数设置如表1 所示。整个过程可用式(2)、(3)近似表示:
其中:NE(·)和ND(·)分别表示带有超参数θE与θD的编码器部分网络与解码器部分网络,f表示模糊图像Ib经过带有三个编码块的编码器部分网络得到的特征图,Is即为特征图f经过三个解码块输出的去模糊图像。后续在整体网络框架中(见图3)对去模糊模块框架作简单表示。
表1 去模糊网络各卷积层参数设置Tab. 1 Parameter setting of each convolution layer in deblurring network
1.2 基于深度体素流的插帧模块
在插帧模块,将对两帧去除模糊之后的图像进一步做插帧处理。目前已有不少视频插帧算法可供参考,比如AdaConv 和SepConv 等[3-4]在引言中已作介绍。深度体素流(Deep Voxel Flow,DVF)模型[5]通过卷积神经网络从两帧连续视频帧预测出体素流图和掩膜,继而引导图像之间的各像素合成更加真实的中间帧,本文尝试借鉴该方法的思想指导本文插帧部分。
整体网络框架如图3 所示,将经过去除模糊的两帧连续帧联结作为输入,插帧模块部分的网络结构共有三对编-解码块和一个瓶颈块,每一对编-解码块经过跳跃连接加强信息传递,除了第一个编码块单独由卷积层构成,每个编码块和瓶颈块由卷积层与最大池化层组成,解码块由反卷积层与卷积层组成,各卷积层的参数设置如表2 所示。最后通过一个卷积核大小为1×1的卷积层估计得到通道数为三的帧间体素流。
图3 整体网络框架Fig. 3 Overall network framework
体素流F的空域成分代表相邻帧间的光流,时域成分代表两个参考帧对于合成中间帧像素的线性混合权重。依据体素流F对相邻两帧进行三线性插值合成中间帧,此过程可近似表示如下:
表2 插帧网络各卷积层参数设置Tab. 2 Parameter setting of each convolution layer in frame interpolation network
图4 三线性插值示意图Fig. 4 Schematic diagram of trilinear interpolation
下面阐述体素采样的过程。如图4 所示,给定一个体素,前后参考帧光流映射的对应区域有(R0,R1)∈(),坐标区间可分别表示为式(6):
每个区域的4个顶点Cijk分别表示如式(7):
由表3数据可以看出,两组简单组合算法的模型测试所得指标较于本文算法的模型的结果显然偏低。对比指标较高的SRN+SuperSlomo,本文方法Ours-stage2所合成中间帧的峰值信噪比提高1.41 dB,结构相似性提升0.020,插值误差降低2.11,说明本文所提出网络结构在去模糊与插帧任务上有着显著作用。而相对的,本文在第一阶段通过单独更新插帧模块参数的联合训练模型(Ours-stage1)在指标上明显有所提升,而联合训练第二阶段最终模型(Ours-stage2)取得最佳指标,其合成帧的峰值信噪比较前者提高0.53 dB,同时结构相似性提升0.007,插值误差降低0.52,说明联调训练策略效果显著。
3.2 主观视觉对比
本节分别对两组前沿算法组合的模型及本文联合训练两个阶段模型输出的中间帧进行视觉对比。
如图6所示,图6(a)是两帧模糊的连续输入帧,内容为少女由前往后转动腰间的呼啦圈,呼啦圈是图像中主要的运动物体,即待估计的关键目标。图6(b)是待估计中间清晰帧的真实值,其整体的图像清晰度高,图像中呼啦圈的位置契合相邻帧的运动趋势。余下四对图像图6(c)~(f)为不同算法模型预测的中间帧图像进行对比分析,它们都一定程度去除了图像模糊并且作出了对输入图像对的中间帧运动估计。
图6 各算法模型的视觉对比Fig. 6 Visual comparison of each algorithm model
相对的,图6(c)与(d)两组算法的模型所预测图像不能很好地拟合帧间运动变化,导致合成帧中呼啦圈尾部的像素出现大幅错乱。而本文方法的结果则接近于图6(b),对呼啦圈形状的预测更加完整且符合真实世界的运动趋势。相较于联合训练第一阶段模型的结果图6(e),本文第二阶段模型所得结果图6(f)对呼啦圈尾部的预测更加平滑,像素混乱现象微乎其微,整体画面观感和谐。
总的来说,本文所用联合训练策略提升了对模糊视频帧序列中间帧的预测质量,取得更为清晰且运动估计更加合理的重制结果。然而图像模糊经过修复依然不可避免地会丢失一些纹理细节,因此基于重建图像估计所得中间帧在评估指标和视觉结果没有达到特别高的精度,这也是不得不面对的挑战。
3.3 重制序列展示
本节进一步展示了通过本文方法取得的三组重制序列样例。如图7 所示,对于每一组样例,前两列为输入的两帧连续模糊帧,后三列为三帧清晰且视觉连贯的重制帧序列。
由图7 可见,三组不同模糊程度的两帧输入帧经过本文方法进行重制之后,输出的视频帧序列画面中的人与物都转变清晰,且中间合成帧在内容上符合其前后帧之间的运动趋势,使得源序列中目标动作更加清晰连贯。方框区域标记了组图帧间目标的主要运动变化,样例一(a)中理发师手中的剪刀逐渐抬升;样例二(b)中化妆女士的眼线笔从眼睛中部缓慢移动到眼角;样例三(c)中吹头发女士的眼睛慢慢闭合。上述结果验证了本文去模糊高帧率重制方法的可靠性与适用性。
4 结语
提出了一种针对模糊视频的插帧方法。设计了多任务融合的网络模型,制作了大型的模糊视频数据集,利用联合训练策略使网络有效收敛。对比了多种模型,测试指标显著提升,展示了模糊视频帧序列经过重制取得的良好视效,证明本文提出的同步去模糊高帧率方法的可行性,对未来端对端解决多种问题混合的计算机视觉任务具有一定的参考意义。
下一步研究方向大致如下,将去模糊与插帧两个过程中的图像特征提取与信息处理方法进行合理融合以简化整体网络、设计更加合理高效的损失函数、加快深度网络的速度等。