基于多尺度卷积和超分辨率分频模型图像去模糊算法研究
2022-08-31刘婷张辰章宜玉
刘婷 张辰 章宜玉
摘要:由于盲去模糊任务中存在模糊信息和内容信息的纠缠,因此从模糊图像中直接恢复尖锐的潜图像具有很大的挑战性。考虑到在高维特征图中,模糊信息主要存在于低频区域,而内容信息存在于高频区域。该文研究一种从频率的角度实现解纠缠的编解码器模型,并将其命名为频率解纠缠蒸馏图像去模糊网络(FDDN)。首先,对传统的蒸馏块进行了改进,将频率分割块(FSB)嵌入到蒸馏块中,以分离出低频和高频区域。其次,改进后的蒸馏块称为频率蒸馏块(FDB),可以递归地提取低频特征,将模糊信息从内容信息中分离出来,从而提高恢复后的图像质量。此外,为了降低网络的复杂度,保证特征图的高维性,将频率蒸馏块(FDB)放置在编码的终端。
关键词:去模糊;超分辨率;分频
中图分类号:TP3 文献标识码:A
文章编号:1009-3044(2022)19-0079-03
1引言
日常生活中存在很多图像模糊类型,如运动模糊、高斯模糊、散焦模糊等。在进行图像的拍摄时,一般很难长时间保持摄像设备的稳定,一般会存在抖动等现象。道路上的交通电子抓拍违规车辆、拍摄抓拍嫌疑人等场景领域,图像的运动模糊进行图像复原是具有非常重要的意义。在进行图像去模糊时,一般可以用公式(1)表示[1];B表示模糊的图像,i表示清晰的图像,k表示模糊因子,n表示随机噪声。不同的场景下K的形式不同,因此可以将其分为两个大的分支:图像非盲去模糊和图像盲去模糊。非盲去模糊是在已知K和B的情况下反解出清晰的图像I,这是一个较为容易的过程。而图像盲去模糊是在仅知模糊图像的情况下估计出清晰图像I, 由此可见非盲去模糊显然是一个计算机视觉中的不适定问题[2]。较为传统的方法就是同时估计模糊核与清晰图像,这些方法借助一些假定的先验知识来限制模糊因子的不确定性,这样就把盲去模糊问题转化成了非盲问题。比如,Chen L认为模糊会导致图像的梯度改变,因此不断地更新梯度来恢复清晰图像。但很显然这些假定的先验知识很有局限性,很难完整地表达真实场景下的模糊情况。因此不具备泛化能力。
B = K*I +n (1)
科研工作人员近十几年在模糊处理问题的研究中,大多数情况下都是利用模糊核估计和能量函数最小化两步,并且对于这一研究付出了很多努力。尽管如此,把模糊图像中的模糊处理掉,变成清晰程度很高的图像,仍然还是比较困难的。由于多目标运动、拍摄时抖动、场景的变化等问题导致模糊还原这个问题是很不适定的。故而计算机视觉在模糊还原问题上的研究仍然还是一个热点[3]。
综上所述,卷积神经网络在解决去模糊取得了不错的效果,在一定程度上解决了图像复原所面临的一些难题,但是还有许多地方需要进一步探讨和研究。随着深度学习的发展,诸多方法则不再预测模糊核,而是直接通过构建一个编码到解码结构的端到端恢复清晰图像。
2算法研究
2.1 多尺度卷積分频模块降低卷积神经网络中的空间冗余算法研究
随着深度学习的发展,图像去模糊也得到了很大的效果提升。并且随着网络深度的增加以及多尺度图像的输入,是非常有效果的。虽然增加网络深度和采用多尺度图像输入网络可以显著提高性能,但也会导致问题。首先,随着参数数量的增加,加深的网络会出现训练困难。其次,过度密集的跳过连接会使网络变得过于复杂,从而导致速度变慢和内存负担过重。因此为了做到轻量级的实时去模糊算法,通过RFDN、LMFN等诸多算法表明在图像修复任务中蒸馏块级通过将特征分成多个支流的并逐步集成,以协同工作,该多流结构通过将重要的通道从主干道直接传输到特征融合部分,将不重要的通道特征通过支流继续进行特征提取,最后到达特征融合部分,这种多流的结构能够更全面地保留住图像的原始细节信息,并有助于降低网络复杂度,加快模型训练速度。但是在分流引导中,这只是简单地通过设定固定的参数,对将特征从通道的维度进行分流,这很明显是不灵活的,对更偏向保留哪一部分通道的特征也是不可解释的,完全靠实验效果来验证有效性[4]。在模糊图像中,大部分的模糊信息都存在图像的低频区域;而大部分的轮廓信息、结构信息则存在于图像的高频区域。那么如果在蒸馏的过程中,主动保留的通道部分是高频区域,并将低频区域继续送到其他支流继续进行特征提取,不仅可以增大这部分特征的感受野,而且可以在特征提取下采样的过程中弱化模糊现象。因此我们将特征在通道维度上进行高低频的筛选来决定蒸馏的特征传送方式。通过分频筛选方式进行图像去模糊,分频筛选是提高图像清晰度的一种比较有效的方式[5]。在实际应用场景中,我们都是试图采用实时性和可靠性比较高的算法,而分频筛选的处理方式恰好在这两个方面有一定优势。此算法缩短了运动图像模糊还原的计算时间,提高了时效性,也丰富了计算机视觉在实际问题中的解决方法。同时,我们可提出根据混合特征图的频率进行分解,并设计一种新的多尺度卷积操作来存储和处理以较低空间分辨率的空间“较慢”变化的特征图,降低了内存和计算成本。与现有的方法不同,它被表现为一个单一的、通用的、即插即用的卷积单元,可以用来直接替代(普通的)卷积,而无须在网络体系结构中进行任何调整,它也是正交和互补的方法,同时可以有更好的拓扑或减少通道冗余,如群或深度卷积。实验表明,通过简单地用多尺度替换卷积,可以提高图像和视频识别任务的准确性,降低内存和计算成本[6]。
一般,用[X∈Rc*h*w]表示输入的特征向量,其中X可分解为高频部分和低频部分,可表示为[{XH,XL}]。低频的部分[XL∈Rα*c*h*w]表示整体的架构,高频部分[XH∈R(1-α)c*h*w]表示细节部分,其中[α∈[0,1]]表示通道被分配到低频部分的比率[7]。
其设计的目标是有效地处理相应频张量中的低频和高频,同时实现有效的频间通信。设X,Y是分解的输入和输出张量,然后输出Y={Y,[YH],[YL]}的高频和低频特征图,[YL]分别由[YH=YH->H+YL->H]和[YL=YH->L+YL->L]给出。
2.2 关于轻量型超分辨率模型算法研究
图像超分取得了极大的进展,尽管基于CNN的方法取得了极好的性能与视觉效果,但是这些模型难以部署到端侧设备(高计算量、高内存占用)。为解决上述问题,已有各种不同的快速而轻量型的CNN模型提出,IDN(Information Distillation Network, IDN)是其中的佼佼者,它采用通道分离的方式提取蒸馏特征。然而,我们并不知道这个操作是如何有利于高效单图超分(SISR)的[8];单图像超分辨率(SISR)的最新进展探索了卷积神经网络(CNN)的力量,以获得更好的性能。尽管基于CNN的方法取得了巨大的成功,但由于需要大量的计算,要将这些方法应用于边缘设备并不容易。为了解决这一问题,人们提出了各种快速和轻量级的CNN模型。信息蒸馏网络是最先进的方法之一,它采用信道分割操作來提取蒸馏后的特征。然而,该算法[8]对于如何设计出高效SISR模型暂未提出,后续论文提出了特征蒸馏连接(FDC)[9],它在功能上等同于通道分裂操作,同时更轻量级和灵活。在FDC的基础上,我们可以重新考虑信息多蒸馏网络(IMDN),并提出了一个轻量级和精确的SISR模型,称为残余特征蒸馏网络(RFDN)[10]。
3实验结果
为了更有力地证明频率解纠缠蒸馏图像去模糊网络(FDDN)的有效性并避免该网络由于过拟合而仅在特定数据集上具有优异性能的情况,我们将在三个不同的数据集上进行比较实验。GoPro数据集使用GoProHero4相机以每秒240帧(fps)的速度捕捉视频序列[11]。该数据集由3214对模糊和尖锐的图像组成,分辨率为1280×720。其中,有1111对作为测试集。不同于使用模糊核对一个清晰的图像进行卷积以获得一个模糊的图像,GoPro遵循在模糊的图像生成过程中的近似相机成像过程,并在一定的曝光时间内集成连续的帧,以突出显示曝光时间。物体内部的运动是由位移引起的伪影引起的,从而产生一个模糊的图像,而不是假设一个特定的运动并设计一个复杂的模糊核。因此,在数据集中只有成对的尖锐/模糊的图像对,并且没有模糊核。这种无核估计的去模糊数据集与传统的具有均匀模糊核的合成去模糊数据集相比,出现在前景中,静态背景显示出更真实的空间模糊变化。HIDE数据集是精心构建的人类感知的图像去模糊,涵盖了广泛的场景运动。HIDE数据集有8422对尖锐和模糊的图像对,广泛地注释了65784个人类边界框。为了评估的目的,这些图像被分成单独的训练集和测试集。经过随机选择,我们得到了一个包含6397个训练图像和2025个测试图像的独特分割,图3中最后一列去模糊算法为本文研究算法结果展示。
4总结
图像去模糊处理是保证图像质量的重要技术手段。本文希望从频率的角度实现模糊信息和内容信息的解纠缠。因此,我们提出了频率解纠缠蒸馏图像去模糊网络(FDDN),它有三个贡献:首先,提出了频率分割块(FSB),它可以在消音通道中提取高频和低频。第二,频率蒸馏块(FDB),它是频率分割块(FSB)和蒸馏块的组合。FDB可以看作是一种基于频率的解纠缠方法。FDB通过直接保持高频特征,并将低频特征发送到递归蒸馏过程中,从而逐步蒸馏出有用的特征。第三,利用合成数据集和真实图像对运动去模糊的任务进行了广泛的实验,并取得了有效的结果。我们发现FDDN具有良好的泛化能力,可以有效地恢复模糊区域的细节。
参考文献:
[1] 吴庆,肖力,孙志刚.基于运动检测的图像去模糊算法[J].计算机与现代化,2013(12):4.
[2] 张磊,王广生.运动模糊图像重构的算法及其并行化处理研究[J].现代电子技术,2008(10):153-155+158.
[3] 吉训生,滕彬.基于生成对抗网络的行人异常行为图像去模糊算法研究[J].光电工程, 2021,48(6):11.
[4] 苏秉华,金伟其,牛丽红,等.超分辨率图像复原及其进展[J].光学技术,2001,27(1):4.
[5] Liu Y, GuoJ,Yang S, et al. Frequency Disentanglement Distillation Image Deblurring Network[J].Sensors, 2021,21(14):4702.
[6] 刘微.运动模糊图像恢复算法的研究与实现[D].中国科学院长春光学精密机械与物理研究所,2006.
[7] 洪汉玉, 张天序. 基于多分辨率盲目去卷积的气动光学效应退化图像复原算法[J].计算机学报,2004,27(7):12.
[8] 张晓玲,沈兰荪.超分辨率图像复原技术的研究进展[J].测控技术, 2005, 24(5):1-5.
[9] Nah S, Hyun Kim T, Mu Lee K. Deep multi-scale convolutional neural network for dynamic scene deblurring[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 3883-3891.
[10] Aittala M, Durand F. Burst image deblurring using permutation invariant convolutional neural networks[C]. Proceedings of the European Conference on Computer Vision (ECCV), 2018: 731-747.
[11] 王辉,杨杰,黎明,等.一种基于神经网络的图像复原方法[J].红外与激光工程,2006(z4):5.
收稿日期:2022-03-20
基金项目:该文系2021年度湖南省教育厅科学研究项目:基于多尺度卷积和超分辨率分频模型图像去模糊算法研究(项目编号:21C1366)
作者简介:刘婷(1990—),女,湖南娄底人,助教,硕士,主要从事人工智能、数据分析、软件技术方面研究。