APP下载

基于卷积对抗网络的多通道图像修复方法

2020-07-13范宝杰江燕琳

计算机应用与软件 2020年7期
关键词:单通道梯度卷积

范宝杰 原 玲 江燕琳

(广东工业大学信息工程学院 广东 广州 510006)

0 引 言

图像修复作为计算机视觉领域重点研究方向之一,目的是以合理的内容补全图像中缺失或被遮挡区域,使得重建内容能够表达原内容一样的语义信息。重建后的图像中,原缺失部分的上下文语义能够保持连贯,且在视觉层面上看上去是自然的。单通道灰度图像的修复技术发展较为久远,且相关研究不胜枚举,所以本文所指的图像修复均为三通道的彩色图像修复。

早期的图像修复算法多以搜索图像剩余信息来进行可能合理的填充[1],后来逐渐有了搜索来自同类型图像的已知区域,以匹配缺失区域的相关算法。深度学习相关的研究越来越多,基于卷积神经网络的图像修复方法开始成为主流。卷积神经网络(CNN)能够大幅降低网络参数,且能传递图像的高阶语义信息,这是其他普通方法所不能比拟的优势。CNN在纹理级别合成缺失信息,上下文信息更加连贯,结合了生成对抗思想的卷积神经网络更是取得了非凡的成绩。不过传统的卷积方法是对图像所有通道进行卷积,根据空间局部特征点来生成信息,所生成的信息不能兼顾所有位置的特征,深层网络计算复杂度也比较高。虽然可以通过增加网络深度以及卷积核大小来适当地增强网络表示能力,但随之而来的优化问题以及超高的计算复杂度有非常大的限制。

本文提出了图像通道分离,对每个通道添加浅层表示信息以及不同特征图余项,分别执行空间卷积编码操作,而后通过生成网络并生成缺失区域。在某种程度上,可以假设输入图像的空间位置高度相关,但不同通道之间相互独立[2],即将特征空间学习与通道学习分隔开。对于单通道,它所需要的参数相对会少很多,计算量层面上会有非常大的优化,相对应的网络深度也可以有进一步的改进。分离通道卷积是卷积的一种高效方法,通常能够以更少的数据学习到更好的表示,而生成对抗网络[3]是现阶段最出色的生成模型。因此,我们基于多通道卷积网络与生成对抗思想,提出了一种新的框架用于重建图像缺失区域。经过实验证明,该方法在图像修复上有非常好的效果。

1 相关工作

1.1 生成对抗网络

生成对抗网络(GAN)是Goodfellow等[3]基于博弈论学习所设计的生成模型算法,结构如图1所示。它可以替代VAE[4]来学习图像的潜在空间,使生成数据分布尽可能地拟合原始数据分布。GAN的输入是潜在空间的随机向量,通过生成网络的一系列解码操作恢复成图像,然后与原图像数据一起送入鉴别网络,由鉴别网络判断接收的图像是真实的还是生成的,反馈梯度信息给生成网络,由此来优化生成网络的参数以及鉴别网络自身的参数。随着生成网络与鉴别网络的不断优化,最终达到纳什均衡,生成网络能够生成让鉴别网络无法判断真假的图像。

图1 生成对抗网络流程图

自GAN问世以来,相关的研究应用飞速发展,逐渐成为深度学习领域最受青睐的生成模型,在图像处理、语音处理等领域大放异彩。目前已有很多基于GAN的图像修复架构,大多是以对称结构的自动编码器为基础,生成完整图像。本文所采用的生成对抗框架区别于常规的GAN框架,编码阶段拆分通道分开卷积,最后通过1×1卷积连接,得到高阶的特征向量再送入译码器。

1.2 分离通道卷积

图像分离通道卷积如图2所示。对图像随机加噪后,将图像通道分离,对每个通道单独进行卷积编码操作,获得高阶特征后,再连接通过1×1卷积将通道混合。单通道卷积对比于多通道卷积,需要优化的参数会少很多,减小了计算量相当于变相加快了模型训练。在能够收敛的前提下还可以适当地增加网络的深度,学习到更高层次的数据表示。本文通过分离卷积的形式减小了计算量,且类似残差结构[5]融入了浅层的信息,可以很好地规避深层网络的高计算复杂度问题和梯度消失问题。

图2 图像通道分离流程图

2 图像修复框架

2.1 引入多层次信息

传统GAN中有着很明显的弊端,采用小卷积核很难发现图像中的依赖关系,尤其是空间相隔较远的特征几乎无法产生联系,而采用大卷积核却又丧失了卷积网络参数与计算的效率。因此,本文在图像分通道编码操作中融入了浅层表示的信息,其流程如图3所示。单通道通过引入原输入端1×1卷积的形式,融入图像的浅层表示信息。通过浅层信息的引入,不仅为深层特征带来了不同层面的特征信息,而且在某种程度上弥补了卷积过程中的信息遗漏,因为卷积核大小的限制,卷积时只是针对局部信息生成特征。

图3 引入浅层信息流程图

此外,为网络添加了不同特征图的信息余项,如图3中两个5×5卷积层过滤所得到的特征图。不同的卷积核大小可以得到不同的感受野,本文的设想是为了尽可能地捕获多层次的信息。预设超参数r初始值较小(实验中预设为0.1),可随网络训练而不断优化。

图像架构中的带步长卷积选择4×4卷积步幅为2,是为了进行下采样操作时尽可能地减少生成图像伪影,reshape操作是为匹配特征图层大小。通过以上操作,可以得到待修复图像的高阶特征表示,为后续的译码操作提供尽可能多的信息。

图2与图3的流程综合,虽然卷积操作较多,但卷积核和通道深度都相对较小,所需要优化的参数相比于普通的多通道卷积减少了很多,在减小参数量与提高卷积感受野之间有一个更好的平衡。另外需要说明的是,虽然上述流程中很多操作可以用池化来替代,但由于池化可能会导致梯度稀疏(稀疏的梯度对于生成对抗网络的训练并不友好),所以应尽可能避免使用池化操作。

2.2 图像修复流程

本文提出的生成对抗网络如图4所示。将图2流程中获得的高阶特征表示输入到由译码器构成的生成网络中,通过卷积与反卷积操作重建完整图像,鉴别网络则提供梯度反馈。对于GAN而言,它优化的最小值是不固定的,梯度下降只是寻找山坡的最低点,而GAN的梯度每下降一步都会改变整个山的地形,最优化过程不是寻找绝对的最低点,而是两股势力之间的平衡。所以,我们在训练过程中要非常注意GAN的收敛,幸运的是已经有很多方法可以帮助收敛网络[6]。

图4 图像修复算法流程图

本文所提出的框架中,编码向量在输入生成网络前,先通过一个全连接层调整为合适的特征图格式。生成网络与鉴别网络的结构,已有比较好的选择[7]。由多个卷积层组合而成,使用步幅卷积(使用步幅卷积时,尽量使卷积内核的大小能被步幅大小整除,避免像素伪影)代替池化层,因为池化层可能会导致梯度稀疏,会妨碍GAN的训练。同理,为了避免稀疏梯度,使用LeakyReLU层激活代替ReLU激活。训练过程还需要使用mini-batch规范化处理,避免梯度偏差过大导致生成器和鉴别器崩溃,可以采用Adam优化器优化网络。此外,还有一些有助于网络优化的方法,如标签平滑、正则化等。

2.3 损失函数分析

基于图像信息差的度量,我们提出了通道信息损失Lbgr、图像的重建信息损失Lr,以及基于生成对抗网络的损失Lg和Ld。其中:单通道信息损失是原图像单通道信息Lb与译码器端输出图像单通道信息Lb′的l1范数,基于不同通道信息差的角度规范生成图像;图像重建损失Lr是网络输出的生成图像P′与原始图像P之间的l2范数,在图像层面上规范生成信息;生成对抗网络的生成器损失Lg和判别器损失Ld参考LSGAN[8]的损失函数设置,能够很好地规避训练崩溃及收敛速度慢等问题。定义如下:

(1)

(2)

(3)

(4)

L=εLbgr+Lr+η(Lg+Ld)

(5)

式中:pz(z)表示编码器输出的数据集合;pdata(x)表示原始数据集合;ε与η是根据经验预设的可调超参数(ε从很小值开始递增,且最大值不超过0.3,规避通道中一些不确定因素的影响),用于平衡不同损失的影响。

关于生成对抗网络的损失,我们也可以有更好的考量,正如零梯度是标准网络优化的停止条件,GAN的优化停止条件是均衡。但训练的均衡点是很难达到的,随着网络结构的复杂化,这个难度是呈指数上升的。Miyato等[9]证明可以对鉴别网络应用谱归一化来稳定GAN的训练,这种方法通过限制每层的谱范数来约束鉴别器的Lipschitz常数,操作中是将每层的参数矩阵除以自身的最大奇异值,也就是一个逐层SVD的过程。后续在SAGAN[10]中表明生成网络也可以受益于谱归一化,以防止梯度异常。所以本文方法中也可以引入谱归一化来稳定GAN的训练,损失函数可以根据Wasserstein距离[11]的优势来重新定义。此时不适宜选择带动量的优化器(如Adam优化器),可以选择RMSprop优化器替代。

Ld=Ez~pz[1+D(G(z))]-Ex~pdata[D(x)-1]

(6)

Lg=-Ez~pzD(G(z))

(7)

3 实验与分析

本文在Windows 10操作系统的PC机上进行实验。采用GPU加速,硬件配置是NVIDIA GeForce GTX1050,实验平台是PyCharm。基于Keras深度学习框架,图像处理库OpenCV 3.0,使用Python编程实现。

3.1 图像修复结果

在ImageNet数据集上进行实验以测试我们的方法,测试结果如图5所示。多次实验结果表明,视觉上本文方法在边缘衔接处以及上下文信息一致性上有明显的优势。虽然该方法对人脸的修复也有较好的效果,但并没有进行实验分析。因为人脸属于比较特殊的图像,具有近似轴对称的性质以及脸部的主要特征,可以有很多针对性的修复方法[12],而本文方法是针对普通图像而言,与特定算法相比可能优势不大。

(a) 原图像

(b) 随机加噪图像

(c) 修复后图像图5 图像修复结果

图6给出多种算法的修复结果用于比较。结果显示在处理复杂图像时,本文方法可以得到细节处理更自然的图像。这也说明了本文方法的优越性,至少在视觉层面上得到的结果是令人满意的。

(a) 原图 (b)本文方法 (c) 文献[13] (d) 文献[14]图6 算法对比结果

3.2 实验结论

为了量化图像修复结果,本文给定评价指标峰值信噪比(PSNR)和结构相似性(SSIM)。与其他的优秀修复框架[13-14]相比,本文算法的PSNR、SSIM值都高于其他的修复算法,如表1所示。这证明本文方法能带来更高的信息可信度,以及视觉上的逼真效果。本文方法还可以与其他的优秀技术相结合,比如近期的图像超分辨率技术[15]以及图像风格迁移技术[16],可以在原框架的基础上融入分通道编码方法,一定程度上减少了计算量且增添了多层次的特征信息,相信对生成结果会有所改善。

表1 图像评价指标

需要说明的是,本文方法对于色彩比较简单的图像修复效果会很好,但对于色彩杂乱的或有较多区域颜色混合的图像,修复效果会显得不是很可观,如图7所示。在这种情况下采用其他修复方法可能效果更好一些,后续会继续寻找相对应的解决办法。

(a) 原图 (b) 加噪图像 (c) 修复结果图7 复杂色彩图像修复结果

4 结 语

本文针对图像修复问题,提出一个结合图像多通道卷积与生成对抗思想的修复算法。利用多通道卷积编码且加入了浅层信息,使用全卷积构建生成对抗网络,从损失函数等多个角度帮助网络收敛。实验结果表明,增加了多层次信息的分通道卷积方法能够生成可信度更高的信息。相比于现阶段的修复算法,从视觉层面来看,本文方法可以恢复出细节纹理更清晰的图像;从评价指标上看,较高的峰值信噪比与结构相似性指标,表明本文算法的修复区域有更高的信息可信度。本文算法目前的缺点在于无法很好地处理色彩杂乱的图像,后续会找寻相应的解决办法。

猜你喜欢

单通道梯度卷积
基于全卷积神经网络的猪背膘厚快速准确测定
基于应变梯度的微尺度金属塑性行为研究
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
一个具梯度项的p-Laplace 方程弱解的存在性
内容、形式与表达——有梯度的语言教学策略研究
航磁梯度数据实测与计算对比研究
一种基于单通道触发源的多终端自适应解析算法的实现
模拟电视发射机数字化改造方法的探讨