APP下载

基于深度学习的高新技术格式电影智能化转换研究

2022-11-09

现代电影技术 2022年6期
关键词:分辨率深度图像

王 健

(中国电影科学技术研究所(中央宣传部电影技术质量检测所),北京 100086)

1 引言

近年来,随着人们对电影视听品质的高质量追求以及数字电影摄制技术的发展,高新技术格式电影和视觉特效影片持续推出。一方面,4K、8K、高帧率 (HFR)、高动态范围 (HDR)、广色域(WCG)、沉浸式音频(IA)等新兴视听技术的应用促使当前电影拍摄、制作、放映的质量要求不断提升;另一方面,研究常规电影格式向高新技术格式转换,提升经典影片图像质量,丰富高新技术格式电影片源也成为当下热点研究之一。

随着新一代信息通信技术、智能科学技术的发展以及图形处理器 (GPU)计算硬件的加持,以电影大数据为驱动,基于人工智能、机器学习、深度学习的算法、模型和技术,用以实现电影图像分辨率、帧速率、量化深度、动态范围、色域等高新技术格式的提升比基于传统计算机图像处理方法会表现出更好的品质与性能,这也为电影制作提供了新的发展机遇与应用模式。

本文首先对国内外通过深度学习算法实现视频图像分辨率、动态范围、帧速率等相关技术格式提升的研究现状进行梳理,并在此基础上,结合数字电影特有的技术格式属性,探讨基于深度学习技术实现数字电影图像由2K (2048×1080)到4K(4096×2160)/8K (8192×4320)、标准动态范围(SDR)到高动态范围(HDR)、常规色域(CCG)到广色域(WCG)、标准帧率(SFR)到高帧率(HFR)转换的技术框架,为高新技术格式电影智能化转换提供可行性技术研究。

2 相关研究

2.1 视频超分辨率重建

视频超分辨率重建是将低分辨率视频转为高分辨率视频的过程,可视为图像超分辨率的一种扩展。相比于静态单一图像的超分,基于深度学习技术的视频超分辨率需要更多考虑不同时刻相邻视频帧之间的运动信息、时序信息以及自适应的特征提取、融合与图像重建策略来提升效果,主要利用的深度学习基准模型有卷积神经网络 (CNN)、循环神经网络(RNN)及生成对抗网络(GAN)等。

根据深度学习视频超分辨率算法是否利用了序列帧之间的时序信息,可分为基于帧间预测算法与非帧间预测算法。在基于帧间预测算法中,根据不同视频序列帧之间的信息提取与对齐方式,可分为显示帧对齐与隐式帧对齐两种算法模型。显示帧对齐一般从运动估计与运动补偿的角度设计时序信息表示方法,隐式帧对齐主要通过3D CNN、RNN 等神经网络自主学习序列帧之间的时序信息。非帧间预测算法主要指利用当前单帧图像信息进行超分辨率重建,更多应用在图像领域。

在相关研究中,Caballero等人提出基于子像素卷积与时空网络的视频实时超分算法以及基于多尺度空间变换器网络的密集帧间运动补偿方法,通过结合运动补偿技术和视频超分辨率算法实现高效、端到端的视频超分;Chu等人提出对抗性视频超分辨率训练方法,在不损失视频图像空间细节的前提下保证时间连贯度。模型中的循环生成器用于生成高分辨率视频帧,光流估计网络学习相邻视频帧之间的运动补偿,两者一起训练以欺骗时空判别器,时空判别器可从时间与空间维度对生成的时间不连贯、不切实际的结果进行惩罚。生成器与判别器不断博弈对抗,直到产生以假乱真的视频超分辨率结果;Wang等人提出可变形卷积网络EDVR 模型用于视频恢复与增强,该模型主要设计了可变形对齐模块和时空注意融合模块,分别解决输入视频帧与相邻帧运动对齐问题以及对齐帧融合问题,最后通过视频重建模块以及上采样等操作得到超分视频帧;Zhu等人提出了残差可逆时空网络(RISTN),用于视频超分辨率重建。该网络主要由三部分组成:在空间部分,设计轻量级残差可逆块,以减少视频图像特征转换过程中的信息丢失,提供鲁棒性特征表示;在时间部分,提出残差密集连接的循环卷积模型,以构造更深层次的网络,避免特征退化;在重建部分,提出一种稀疏特征融合方法以融合空间和时间特征,降低模型过拟合。Jo 等人提出一种端到端的深度神经网络,包括滤波器生成网络和残差生成网络。通过对每个像素的局部时空邻域进行计算,可生成动态上采样滤波器和残差图像,避免了显式运动补偿。动态上采样滤波器可直接将输入图像重建为高分辨率图像,生成的残差图像可用于增加图像高频细节。Wang等人提出可变形非局部网络(DNLN),该网络不依赖于运动光流估计,采用可变形卷积提高输入帧在特征级别的自适应对齐能力,利用非局部结构来捕获当前帧和对齐相邻帧之间的全局相关性,并同时增强对齐帧中的画面细节。

相比于传统视频超分辨率方法,基于深度学习的方法能够自动提取视频图像的潜在特征,通过运动估计与补偿、神经网络自动学习等帧对齐策略可以有效叠加相邻帧的时序信息,有利于恢复视频图像的高频信息,解决伪影、模糊、噪声等图像问题,可以有效处理视频中各种场景的超分辨率重建。

2.2 视频动态范围扩展

HDR 视频具有更宽的亮度范围、更高的比特深度以及更广的色域,能够表现出更丰富的高亮和阴影细节,提升画面对人眼视觉的冲击效果。通常将视频图像从低动态范围扩展到高动态范围的过程称为逆色调映射。目前,常见深度学习逆色调映射算法主要以解决图像高动态范围扩展为主,涉及视频领域的较少。

Eilertsen等人提出从低动态范围输入图像重建高动态范围输出图像的全卷积深度自动编码器网络,该网络采用CNN 编码器提取输入图像上下文潜在特征,解码器将其重建为高动态范围图像,重建过程注重图像高光区域信息的提升;同时该网络通过跳跃连接实现编码器与解码器网络各层之间的信息传输,有利于高动态范围图像的细节重建;Ning等人通过设计具有生成对抗性的深度网络来解决图像逆色调映射问题,生成器基于U-Net网络生成高动态范围图像,判别器基于CNN 网络对真实HDR 图像和生成的HDR 图像进行判断。约束网络的损失函数采用混合损失函数,包括图像内容相关的损失以及生成对抗正则化器,以提高生成HDR 图像的稳定性和鲁棒性。在HDR 视频扩展方面,Xu等人利用3D 卷积网络、3D 逆卷积网络解决视频逆色调映射过程中画面闪烁问题,并采用均方差(MSE)损失函数、本征损失函数等进一步约束HDR 视频输出的亮度信息与颜色信息。

相比于传统基于数学模型实现像素点一对一计算映射的方法,基于深度学习的逆色调映射算法能够自动捕捉视频图像的低维时空特征与高维特征,重建图像丢失的信息与细节部分,解决传统方法对不同视频处理效果差异大、非线性不足、泛化能力不足等问题。

2.3 视频帧率提升

视频帧率提升是视频插帧技术的一种应用,主要通过计算合成连续输入帧之间的中间帧来提高视频序列的帧数。帧率提升能够降低视频画面的闪烁感,减少运动模糊,使得运动画面更加平滑流畅。

常见深度学习视频插帧算法可以分为基于光流估计生成中间帧方法和基于深度神经网络直接预测中间帧的方法。基于光流估计的方法是指通过提取连续输入视频帧之间的光流信息,之后利用相关估计策略得到待插入中间帧与输入视频帧之间的中间光流信息,最后利用中间光流信息对输入视频帧进行变换映射得到中间帧图像;直接预测的方法通常采用CNN 等深度网络提取输入视频帧之间的时空特征,并基于端对端的方式预测生成中间帧。

在相关研究中,Bao等人提出一种深度感知视频帧插值 (DAIN)算法模型,该算法通过探索深度信息来检测图像遮挡。DAIN 的输入为两个不同时刻的视频帧,先估计两帧的双向光流与深度特征信息,并通过深度感知流投影层合成中间光流信息。此外,DAIN 基于残差块提取相邻像素点上下文特征,之后在自适应映射层根据中间光流信息和插值内核对输入帧、深度特征信息和上下文特征信息进行变换映射,最后将所有信息输入合成网络生成输出帧。Huang等人提出一种用于视频插帧的实时中间光流信息估计算法,相比于其他先计算输入帧双向光流再估计中间帧光流的方法,其提出的IFNet网络采用线性运动假设能够更快地直接估计输入帧的中间光流信息,然后利用中间光流信息分别将连续输入帧进行变换映射,最后将视频输入帧、中间光流信息、变换帧输入合成网络进行重建。Li等人针对动画视频平滑区域纹理不足以及动画非线性运动大等问题提出一个动画插值框架,该框架包括Segment-Guided Matching (SGM)和Recurrent Flow Refinement(RFR)两个专用模块,SGM 模块通过色块分割、采用VGG-19预训练模型对输入动画帧进行特征提取与融合以及利用色块匹配等操作估计粗略的双向光流,并通过RFR 模块对光流进一步增强,之后通过多尺度CNN 提取输入动画帧的特征,并将输入动画帧与增强的光流进行映射得到转换帧,最后将转换帧与提取的动画帧特征输入到Grid Net网络合成目标帧。Kalluri等人提出一种简单高效的CNN 架构,利用3D 时空卷积网络来预测视频中间帧,能够实现单镜头、端到端的多帧预测,可以有效解决视频中非线性运动、复杂遮挡等问题,同时该网络不依赖于光流估计或深度特征信息的额外输入,推理速度更快。该网络采用3D 时空卷积和反卷积的U-Net架构设计,利用3D 卷积网络对输入帧之间的时空关系进行显式建模,预测层采用卷积网络,可将3D 特征信息映射到多帧预测中。

基于光流的视频插帧算法主要依赖于光流信息的提取,模型表现效果受光流估计算法的影响较大。此类算法通常先估计输入视频帧的双向光流,再采用相关策略得到中间光流用于合成插入帧,对视频中运动场景进行插帧时能够表现出较好的效果,但同时也会造成模型较大的计算开销,较难实现实时视频插帧处理,在运动边界区域有时会产生伪影问题;基于深度神经网络直接预测中间帧的方法缺少对视频帧之间精确运动信息的利用,表现效果缺乏鲁棒性与稳定性。

2.4 视频超分辨率重建与视频动态范围扩展同步实现

视频超分辨率重建与动态范围扩展分别属于对视频图像像素点的数量和质量进行提升,可视为对图像空间信息增强的范畴。因此,也有学者利用深度学习模型同步实现这两个技术指标提升。

Kim 等人于2019 年提出一种超分辨率(SR)与逆色调映射 (ITM)相融合的框架,称为深度SR-ITM,实现将低分辨率 (LR)、SDR 视频到高分辨率 (HR)、HDR 版本的直接映射。SRITM 将输入图像通过Guided Filter分解为Detail layer和Base layer,不同的layer与输入图像信息拼接后作用于不同的任务。Base layer即为低频层,主要专注于颜色转换和扩展;Detail layer为高频层,专注于恢复高频信息(边缘和纹理)的细节。最后融合两个层特征提取的信息,通过Pixel Shuffle上采样层实现特征空间分辨率提升,并与输入图像Bicubic插值后的结果相加后合成输出。此外,该框架设计残差跳跃调制模块来增强图像局部对比度。Kim 等人于2020年提出一种新的基于GAN 的联合SR-ITM 网络,称为JSI-GAN,它由三个子网络组成:图像重建 (IR)网络、细节恢复(DR)网络和局部对比度增强 (LCE)网络。通过DR 网络学习可分离滤波器,用于细节恢复;通过LCE网络学习局部滤波器,用于对比度增强;通过IR 网络预测输出HR、HDR 图像。此外,为了有效训练JSI-GAN,作者在传统GAN 损失函数的基础上提出一种新的细节GAN 损失函数,这有助于增强图像局部细节和对比度,从而重建高质量的HR、HDR 结果。

3 高新技术格式电影智能化转换技术框架

高新技术格式电影智能化转换涉及的视频超分辨率重建、动态范围扩展以及帧率提升等任务是从空间域、宽容度、时间域对电影图像进行增强,将低信息量的图像输入转为高信息量的图像输出。

随着深度学习技术的发展、算法模型的演进以及GPU 硬件的设计升级,深度学习在图像处理领域也取得重要研究成果。常见的卷积神经网络在利用局部感知、权值共享减少训练参数的基础上采用多卷积核能够有效捕获图像的不同特征信息;3D 卷积神经网络从视频图像的长度、宽度、通道、时间四个维度提取特征信息,增加视频帧之间的时域信息;Attention机制能够对视频图像不同维度提取的特征进行权重分布学习,体现不同特征的重要程度,增强网络模型的特征表达能力;生成对抗网络等深度生成模型能够有效提升图像信息的生成效果;残差网络采用跳跃连接可将网络浅层信息传递到更深层,有效解决深度神经网络层数过多时产生的退化问题。以数据驱动的深度学习技术具备强大的特征提取、特征表达和特征选择能力,具有良好的泛化性能,图像细节信息呈现效果更好,可用于高新技术格式电影智能化转换与制作,技术框架主要涉及技术选型、任务划分、训练数据集构造、模型设计优化与部署应用等方面。

3.1 技术选型

(1)深度学习模型训练数据量大,训练时间长,需借助GPU 显卡硬件提升计算性能,加速数据处理与模型训练。GPU 显卡选择涉及品牌、型号、数量、参数配置等方面的评估,目前主流GPU 显卡以NVIDIA 公司设计的GPU 芯片为主。电影是视听内容最佳的呈现方式,常规电影图像一般为2K(2048×1080)或4K (4096×2160)分辨率,帧率为24FPS、48FPS或60FPS,位深度为12比特,图像尺寸、图像信息数据量都比普通视频大,需优先考虑显存容量高、显存带宽大的GPU 显卡,提高训练模型输入数据量与数据传输速率,可选用Tesla V100 32G、RTX A6000 48G 此类 型号的GPU 显卡。

(2)为提高研发效率,深度学习算法模型的训练与应用基本都是基于深度学习框架实现,可通过分析相关深度学习工程实现框架的易用性、安全性以及生态体系(技术文档、社区交流、计算图可视化、部署应用等)的完善程度来选择技术开发与部署应用框架。通过对国内外视频超分辨率重建、动态范围扩展以及帧率提升相关深度学习模型的开源代码梳理可知,多数使用Python 编程语言实现,主流框架使用Py Torch、Tensor Flow 居多。

3.2 任务划分

通过对电影高新技术格式转换任务分析可得,2K→4K→8K、SDR→HDR、CCG→WCG 属于图像空间信息、高度信息、颜色信息的转换,而SFR→HFR 涉及图像内插帧,属于时间序列的任务转换,因此可将整个任务划分为时间与空间两部分,分别设计深度学习模型进行训练。在SDR→HDR转换过程中一般会涉及色域、位深度的提升,该过程需将CCG→WCG 的转换任务同步完成。数字电影倡导组织(DCI)于2021年7月发布 《高动态范围(HDR)数字电影补充条款草案》新增了对HDR-DCDM 的规定。HDR-DCDM 包含的图像和字幕应针对HDR 放映系统进行调色,并同时满足SMPTE ST2084电光转换函数 (Electro-Optical Transfer Function,EOTF)的要求,即满足Dolby提出的PQ EOEF 曲线 (Perceptual Quantizer,感知量化),该曲线动态范围为0~10000尼特,量化深度为10或12Bit。目前DCI规范中要求数字电影采用DCI-P3色域,在DCI针对HDR 应用实施的双盲图像测评也均在DCI-P3色域下进行,然而考虑到电影未来发展趋势,高动态范围扩展模型可将DCI-P3色域的数字电影图像转为支持高亮度、高对比度、12Bit量化编码、BT.2020色域的HDR图像。

3.3 训练数据集构造

深度学习以大数据为驱动,数据质量决定模型性能。当前高新技术格式电影智能化转换领域并没有公开的完全符合电影技术格式的训练数据集,比较接近的有UVG、REDS 数据集,包含3840×2160、1920×1080、120FPS 等技术格式的视频。在数据集构造方面,可采集4K/8K HDR 电影与视频的多种类型场景片段,基于FFmpeg、HDRTools等工具或相关制作类软件转换得到SDR 标准的帧序列,利用下采样方法降低图像分辨率、减小图像尺寸;选择60或120帧电影素材作为高帧率提升模型的训练数据;同时可采用图像平移、图像翻转、通道打乱等数据增强方法扩充数据集,提高训练模型的泛化能力。

3.4 模型设计、优化与部署应用

深度学习模型设计包括神经网络结构设计、损失函数设计、超参数选择等方面,设计原则应在充分考虑模型表现性能的前提下提高网络参数利用率,提升模型运算效率。在设计思想方面,图像低频信息指灰度值变化缓慢区域,高频信息指图像灰度值变化剧烈的部分,对应图像边缘、噪声、细节等内容。电影高新技术格式空间任务转换模型设计可考虑将图像高频信息和低频信息分离,并分别进行处理。图像低频信息处理可更多关注图像动态范围扩展,高频信息处理可更多关注图像细节恢复,用于空间分辨率提升。根据图像不同的高低频信息分别设计更有针对性的网络结构,提高模型差异化信息处理能力,理论上能够提升模型性能与表现效果;为保证电影视听品质,在帧率提升任务上可通过光流法进行运动估计,基于运动补偿技术预测中间帧,并融合多特征信息优化中间帧图像细节,实现插帧功能。

在模型优化方面,可将电影图像特有的技术特点与专业属性融合到深度学习模型中,使得训练模型更有针对性,提高模型在电影领域的应用性能;同时研究高新技术格式电影智能化转换各个任务的模型评价指标,为训练模型的性能评价与效果表现提供量化参考,便于模型改进与调优。此外,深度学习模型通常比较复杂,模型参数量以亿万计,需要较高的存储空间与计算资源。为保证训练模型能够实际部署应用,可利用模型剪枝、知识蒸馏等方法压缩模型参数量使网络稀疏,加快模型计算与推理速度,从而达到减少权值参数仍能接近原始网络性能的目的。

在模型部署应用方面,可利用TF-Serving、NVIDIA Tensor RT 等工具实现跨平台、高性能、支持硬件加速的模型部署方案,并将模型集成到整个业务系统的软硬件架构中,对外提供应用访问接口。

4 高新技术格式电影智能化转换若干思考

随着影视行业步入大数据时代以及深度学习算法模型不断改进优化,基于深度学习技术的视频超分辨率重建、动态范围扩展以及帧率提升已经逐步取代传统的处理方法,成为计算机视觉领域研究的热点。尽管深度学习技术的应用使得视频图像呈现效果明显增强,但有些方面仍需进一步研究探讨。

4.1 训练数据集构造

在视频超分辨率重建方面,训练数据集的构造大多数由高分辨率视频图像经过模糊、下采样、随机压缩和噪声干扰等特定类型的降质操作得到,而降质操作得到的退化视频图像数据能否有效模拟现实场景的低分辨率视频图像对模型应用性能有较大影响,训练模型只能处理满足同样退化类型的视频图像。尽管一些盲视频超分辨率重建算法提出用于解决未训练退化类型的视频图像超分,但现实世界中视频图像复杂多样,降质退化建模仍旧很难学习到所有退化类型的先验信息,训练模型的泛化能力与自适应能力需进一步研究。在电影领域,老旧电影的智能化修复与增强同样存在这样的问题,基于退化数据训练的算法模型可能无法自适应地满足各种类型的修复场景。

4.2 模型评价指标

视频超分辨率重建、动态范围扩展、帧率提升的模型评价指标基本上采用图像峰值信噪比(PSNR)和结构相似性(SSIM)来评价模型输出图像的质量,这些客观指标只是从数学角度计算图像之间的信息差异,并不能完全代替人眼的感知特性以及人们对图像视觉效果的主观感受,甚至存在指标偏差问题,因此需要研究更具针对性与多样性的主客观模型评价标准。目前,一些研究已开始应用其他指标来评判视频超分辨率重建模型的性能。

4.3 场景连续变化视频处理

基于深度学习的视频图像增强算法通常利用视频相邻帧之间的时域信息,比如视频超分辨率和帧率提升模型中常用的光流估计,动态范围扩展模型涉及的三维卷积网络等。采用的训练数据集通常是独立的场景片段,场景之间缺乏连续性,模型训练时基于独立场景的帧序列可有效提取帧间信息训练网络参数,但模型推理应用时也需要将输入视频按场景切分后再分别进行处理,这对数据预处理的计算开销、视频场景切分算法具有较高要求。因此研究场景连续变化视频图像增强的深度学习方法会更具应用价值。

4.4 多任务轻量级模型设计

视频超分辨率重建、动态范围扩展、帧率提升都属于视频增强的研究领域。目前,大多数研究都局限于单一任务的增强,多任务融合的模型因训练数据集、网络复杂度、性能表现等原因研究成果较少。此外,深度学习模型参数量庞大,处理视频图像增强任务时对硬件计算资源要求高,利用模型优化、模型压缩等技术实现轻量级模型应用一直是重要研究方向。在高新技术格式电影智能化转换领域,需优先考虑模型推理性能与表现效果,可离线部署应用模型,但实现深度学习模型多任务高性能实时在线处理仍是技术发展趋势。

电影是科技进步的产物,电影表现艺术只有与科技发展融合起来,电影才能不断创新与进步。通过借鉴人工智能技术实现普通视频图像增强的研究成果,结合数字电影的技术格式,基于大数据、人工智能、深度学习、GPU 加速等技术实现高新技术格式电影智能化转换,这对于丰富高新技术格式电影片源,促进影视行业数字内容提质升级、提升我国电影制作效率与智能化水平具有重要意义。

猜你喜欢

分辨率深度图像
四增四减 深度推进
深度思考之不等式
我国科学家发明计算超分辨图像重建算法拓展荧光显微镜分辨率极限
简约教学 深度学习
A、B两点漂流记
ARM发布显示控制器新品重点强化对分辨率的支持
名人语录的极简图像表达
一次函数图像与性质的重难点讲析
趣味数独等4则
从600dpi到9600dpi