一种基于卷积神经网络的图像复原算法Match-Map
2017-05-12龚雪友陶青川
龚雪友,陶青川
(四川大学电子信息学院,成都 610065)
一种基于卷积神经网络的图像复原算法Match-Map
龚雪友,陶青川
(四川大学电子信息学院,成都 610065)
传统通过预测点扩展函数的图像盲复原方法具有依赖于边缘的缺点,这限制其在平滑图像上的效果。提出一种基于卷积神经网络的图像复原方法,通过训练两个结构相同的网络Pre-Net和Iter-Net,分别实现模糊图像特征分解和重构清晰图像的目的,从而达到省略传统图像复原方法中预测点扩展函数等中间步骤,直接进行图像-图像的复原效果。实验证明,该方法具有良好的图像盲复原效果,在一定程度上克服传统图像依赖边缘特性的缺点。
图像复原;卷积神经网络;盲复原
0 引言
在图像生成过程中,相机抖动、对焦不准确和相机本身质量都会影响照片成像质量,导致生成的照片模糊不清。这些模糊的产生在一定程度上限制了视频监控、医疗成像等领域的应用。虽然可以通过使用专业辅助设备让相机在拍照过程中保持稳定或者通过精确对焦防止模糊产生,但是这种做法一方面并不能完全避免模糊的产生,另一方面需要一定的专业技术和拍摄经验,这对于普通用户和自动拍照监控设备来讲,往往不能达到要求。因此,在获取到模糊图像后,利用软件手段从中恢复出对应的清晰图像具有重要实用意义。目前虽然已经出现许多图像复原技术,但由于图像模糊的复杂性和种类的多样性,使得图像的复原仍非常困难。
随着GPU硬件技术的发展,深度学习方法在图像识别、物体检测、语音识别等领域取得优于传统方法的技术突破。图像处理领域,基于卷积神经网络的技术也出现大胆尝试。Li Xu[1]等人利用模糊先验知识初始化权值,通过构建两部分神经网络实现图像端对端非盲复原。但是该方法具有计算量大,对硬件技术要求高,速度慢等缺点。Christian J.Schuler[2]等人提出一种新的基于CNN的点扩展函数预测方法,但是该方法只适用于具有全局不变特性的模糊种类。Bolun Cai[3]等人将深度学习技术应用到去雾任务,运用神经网络技术成功预测出中间图像,结合传统方法在去雾领域取得良好的效果。Leon A.Gatys[4]等人在VGG模型基础上实现两张图像内容和风格的融合,获得有趣的图像融合结果。
本文参考Leon A.Gatys等人的技术,提出一种新的基于图像内容感知的图像复原方法Match-Map。该方法构基于VGG19模型,通过构建两个结构相似的网络Pre-Net和Iter-Net,分别实现模糊图像特征分解和清晰图像重构目的。该方法主要分为两个阶段:第一阶段网络训练,主要目的是通过清晰图像模糊图像对的有监督训练,调整Pre-Net权值,将Pre-Net训练成一个具有抗模糊效果的图像特征提取网络;第二阶段图像重构,将模糊图像输入训练好的Pre-Net网络提取鲁棒特征,再将此特征作为标准内容特征图,指导Iter-Net迭代,最后复原出对应的清晰图像。本文提出的方法达到省略预测点扩展函数等中间步骤的目的,实现图像-图像的复原。实验证明,本文提出的方法具有良好的图像盲复原效果,在一定程度上克服了传统图像依赖边缘特性的缺点。
图1 Match-Map结构
1 Match-Map结构信息
VGG模型[5]在2014年ILSVRC分类任务中取得了第二名的成绩,经过后续的改进,VGG19将错误率降到25.5%。哈佛团队使用4个NVIDIA Titan Black GPU并行训练,总共花费2-3周时间才将网络训练成功。该模型除了具有良好分类作用之外,Leon A.Gatys等人还基于该模型成功分别将两幅图像的风格和内容融合,生成具有指定风格和内容的新图像。
本文Match-Map采用的结构主要由两部分组成,分别命名为Pre-Net和Iter-Net。二者结构相似,均由一系列卷积层、非线性映射层和下采样层级联而成。为了节省训练时间,本文选择VGG模型作为Match-Map网络的基础,使用VGG19前3个层次的参数初始化Iter-Net和Pre-Net权值。如图1所示,本文输入训练样本为184×184大小的彩色图像,Block1、Block2结构相同,分别包括两个卷积层和非线性映射层,其中卷积核大小为3×3,卷积步长为1,非线性映射层使用ReLU[6]函数作为激活函数;Block3包含四个卷积层和下采样层。与VGG19不同的是,Match-Map网络没有下采样层。
2 训练数据准备
本文采用有监督学习的方法,使用成对的清晰样本和模糊样本训练Pre-Net。清晰图片来主要自Cifar100和VOC07,少部分图片来自于Fliker网站。如图所示,图片的内容包含静物、自然风景、动物和人物图像等。由于通过以上途径获取的图片大小不一,且数量有限,为了满足训练Pre-Net对样本尺寸和数量的要求,本文将图片统一裁剪成184×184大小,裁剪步长取40个像素。为了提高训练样本的有效性,需要对裁剪后的样本进行有效筛选,即将质量不高(如不清晰、含较多噪声等)的部分样本摒弃。最后,原始图片经过裁剪和筛选,剩下约80k个训练样本,这些样本将用于训练Pre-Net。
图3 裁剪后部分样本
自然图像模糊类型包括相机噪声、长时曝光抖动、大气散射等,本文假设图像模糊模型为:
其中k表示模糊点扩散函数,x表示清晰图像,n0表示噪声,y表示对应产生的模糊图像。为了使Match-Map网络能够学习到尽可能多的模糊信息,训练样本应当包含尽可能多的模糊类型。为此,模拟自然环境模糊,根据公式(1),本文将每幅清晰样本图像x分别与多种模糊核k进行卷积,并添加高斯随机噪声n0,形成相应的模糊样本y。其中模糊核k的类型包括高斯模糊、散焦模糊和运动模糊。通过以上模糊方法,本文从约80k张清晰样本中获得约240k个样本对。
图4 部分用于训练的清晰-模糊样本对
此外,在后面的训练过程中,样本对会随机进行翻转,以达到增加样本多样性的目的。
3 训练过程
训练阶段,本文首先将清晰图像X和模糊图像Y分别输入Iter-Net和Pre-Net,如公式(2)所示,分别得到二者各层的特征图像f。
其中,l表示层数,i,j示特征图序号,n表示l层特征图数量,表示第l层对应的权值表示偏置,*表示卷积运算,为特征图。当l=1时,f0=X,Y表示输入图像。
训练时,Iter-Net权值固定不变,其主要作用是通过公式 (2)将输入图像X分解为一系列特征图像。 Pre-Net将模糊图像Y分解为特征图像并计算各层和之间的均方误差ι。层间特征误差ι计ll算公式如下:
总体损失函数LLOSS包含特征损失和正则化损失两部分,计算公式如下:
其中,α、β分别表示特征损失和正则化损失两部分损失因子系数,γl取值与层数有关,本文取γl=l/8。
其中,η表示学习速率,本文取η=0.01,适当次数的迭代后,η←η/2,k为迭代次数。
训练时本文首先将全部训练样本取值归一化到[0,1]范围,并将其顺序打乱后按10:1比例随机分为训练集和验证集;mini-batch大小为50。
4 图像复原过程
测试阶段正好与训练阶段相反。此阶段Pre-Net权值保持固定不变,其主要作用是通过公式(2)将输入模糊图像y分解为具有模糊不敏感特性的特征图于此同时,随机初始化迭代图像Iter-Net计算x0特征图像。和之间的差异由公式(3)计算得出。
本文采用梯度下降的方法最小化损失函数,当取得最小化损失时,X*即为从而从特征图中恢复的清晰原图。层间特征误差对特征图的反向求导方式如公式(7)所示:
运算°表示矩阵对应位置上的元素相乘,sign表示符号函数。为了提高复原效果,输入模糊图像通常需要先经过预处理。
5 部分复原结果
根据提出的方法,本文利用MATLAB系统对部分模糊图像进行了复原实验。图5展示Li Xu[7]方法和本文方法复原边缘信息丰富的模糊图像的整图结果和局部结果对比。结果表明,本文提出的方法在复原边缘信息丰富的模糊图像上具有良好的表现。图6(a)图片为出游拍摄的模糊图片。图6展示对比Li Xu[7]方法和本文方法在未知模糊种类的图像上的复原结果。结果表明,本文提出的方法在边缘信息不丰富的模糊图像复原上具有优于传统盲复原方法的效果。
图6 缺少边缘信息图像的复原效果对比
图5 边缘信息丰富的模糊图像的复原效果对比
6 实验结论
传统图像盲复原方法依赖于图像边缘信息,在具有较多边缘信息的图像中表现良好。对于缺少边缘信息和具有非单一模糊特性的图像,传统盲复原方法的表现差强人意,并且,图像的大小会直接影响传统盲复原方法的效果。本文提出的图像复原方法基于图像内容信息,在一定程度上克服了传统盲复原方法过分依赖于图像边缘信息和图像大小的缺点,能有效去除图像模糊。将本文提出的方法和传统盲复原方法相结合,能够在缺少边缘信息的图像上取得良好的复原效果。
[1]Li Xu,Jimmy SJ.Ren,Ce Liu,Jiaya Jia.Deep Convolutional Neural Network for Image Deconvolution.NIPS,2014.
[2]Christian J.Schuler,Michael Hirsch,Stefan Harmeling.Bernhard Schölkopf.Learning to Deblur.arXiv:1406.7444.
[3]B.Cai,X.Xu,K.Jia,C.Qing,D.Tao.Dehazenet:An End-to-End System for Single Image Haze Removal.arXiv Preprint arXiv: 1601.07661,2016.
[4]Leon A.Gatys,Alexander S.Ecker,Matthias Bethge.A Neural Algorithm of Artistic Style.arXiv:1508.06576[cs.CV].
[5]Simonyan,K.&Zisserman.A.Very Deep Convolutional Networks for Large-Scale Image Recognition.arXiv:1409.1556,2015.
[6]Xavier Glorot,Antoine Bordes,Yoshua Bengio.Deep Sparse Rectifier Neural Networks.JMLR W&CP 15:315-323,2011.
[7]Li Xu,Jiaya Jia.Two-Phase Kernel Estimation for Robust Motion Deblurring.In:ECCV,pp.157-170,2010.
A New Image Deblur Algorithm Based on Convolutional Neural Network
GONG Xue-you,TAO Qing-chuan
(College of Electronic Information,Sichuan University,Chengdu 610065)
Proposes a new method named Match-Map for image deblur which trains a network named Pre-Net and keeping another network named Iter-Net still whose structure is the same with the Pre-Net.Respectively,decomposes the blurred image into feature maps and then reconstruct it to clean image depending on the feature maps.The proposed deblur method can skip the traditional step of estimate the point spread function (PSF)of blurred images and deblur the images directly.Experiments show that this method has a good blind image restoration effect.
Image Deblur;CNN;Blind Deblur
1007-1423(2017)09-0111-05
10.3969/j.issn.1007-1423.2017.09.025
龚雪友(1991-),女,四川泸州人,硕士研究生,专业方向为电子与通信工程
2017-01-16
2017-03-10
陶青川(1972-),男,四川南充人,副教授,研究方向为模式识别与智能系统、计算机应用与图像识别