Non-local注意力机制生成对抗网络的油画修复研究

2022-11-16何妍,何嘉

成都信息工程大学学报 2022年1期

何妍, 何嘉

(成都信息工程大学计算机学院,四川成都 610225)

0 引言

油画材料的特殊性、存储方式不当等原因可能导致图像画质出现破损。例如存放环境的温度、湿度的变化可能导致油画掉色,出现破损区域,就会降低油画的价值。通过对油画图像的修复,可以修复其艺术性。然而,油画修复是一个非常耗时的精细工作,随着深度学习图像修复技术[1]的出现,可以高效地对油画艺术品进行图像修复。

图像修复(image inpainting)最早由Bertalmio等[2]在2000年提出,是一种基于偏微分方程的图像修复方法。主要思想是将待修复破损区域的周围信息沿着等照度线方向由外向内传播,此方法利用了物理学中热扩散方程的方法。虽然,之前的图像修复方法[3-5]在整体结构上能够修复完整的画面,但对图像的修复效果处理不太令人满意。

因此,提出一种基于Non-local注意力机制生成对抗网络修复方法,修复破损的油画图像。该方法主要在3方面进行了改进:(1)使用门控卷积替换生成网络的普通卷积层,该结构有助于网络进行特征筛选;(2)网络生成器分为第一、第二阶段,通过双阶段设计提升图像细节的修复效果。在第一阶段,使用扩张卷积,以增大图像的感受野,有助于捕捉到更多的图像特征信息;在第二阶段,引入Non-local注意力机制,该机制使用的是全局特征信息,让网络感受野的范围进一步扩大,修复图像的效果更好;(3)判别模型采用光谱归一化马尔可夫判别器,用来解决图像边缘不和谐的问题。在损失函数上,采用感知损失、GAN损失和L1重建损失的结合,使训练更加稳定、生成的图像效果也更好。实验证明,文中提出的对不规则的破损油画图像进行修复的方法,与其他修复方法[6-8]相比,具有更好的修复效果。

1 相关工作

近年来随着深度学习技术[9]的快速发展,图像修复成了计算机视觉的热门领域。Satoshi等[6]提出了基于双判别器的图像修复方法Global&Local,通过双判别器来提升网络对全局信息和局部信息的融合利用,使网络在完整区域中寻找最相似纹理块,进行图像复原。Guilin等[7]在ECCV上首次利用部分卷积网络PartialConvGAN来实现图像修复。网络主体由生成器和判别器组成,生成器用来修复破损图像,判别器用来判断输入的图片是原始图片还是生成器生成的图片,并将结果反馈给生成器让其进行不断的优化,形成一种博弈状态,使图像修复的效果更真实。最近,Yu等[8]提出DeepFillv2网络,它们采用双阶段生成网络结构。首先,在生成器第一阶段,提取图像中的语义信息;其次,在生成器第二阶段将粗生成网络的结果作为输入,使得生成纹理结构更合理。

2 网络结构

文中提出的油画图像修复算法的网络结构如图1所示,该算法以生成对抗网络为基本的模型架构,由生成器和判别器组成。卷积单元下面数字48、96、192代表卷积后输出通道数的大小,4和3分别是输入和输出通道数大小。

图1 网络结构

2.1 生成器

生成器输入是RGB破损图和掩膜灰度图组成的四通道图像,输出为修复图像。生成器是由两个编码器-解码器组成,分为第一和第二阶段,先得到粗略的修复结果,然后再进行精细化修复,两者组成完整修复流程。

门控卷积是一种具有特征筛选卷积层,因此,使用门控卷积替换普通卷积。在生成器的第一阶段,引入扩张卷积层[10],在空间维度上增大感受野,让网络获得更多的特征信息,帮助图像修复。在生成器的第二阶段,引入Non-local[11]注意力机制,利用它建立局部特征信息和全局特征信息的联系,让网络的修复可以依赖于图像的整体结构,提升图像的修复效果。

2.1.1 Gated Convolution门控卷积

门控卷积[12]最早出现在NLP的任务中,取得了良好的结果,Yu等[8]将其引入图像修复任务。门控卷积的计算分3个步骤:首先,将特征图分别输入独立的卷积层,获得经过处理的特征图和通道权重图;然后,使用Sigmoid函数激活通道权重图,将值调整到0～1;再将处理过的特征图和通道权重图进行点乘操作;最后使用ELU激活函数进行特征激活,得到最终输出结果。

2.1.2 Dilated Convolution扩张卷积

Dilated convolution扩张卷积,由Google团队[13]在2014年提出,其思路是在普通卷积核中通过0填充的方式,在不增加参数的同时,增大图像的感受野,从而获取更多的特征信息。普通的卷积操作,相当于扩张率为1的扩张卷积。

图2是扩张率为2,卷积核大小为3×3的扩张卷积[12],它通过0填充的方式,使卷积核的感受野大小变成5×5。相比标准的卷积操作,扩张卷积多了一个参数扩张率,代表扩张的大小。

图2 扩张卷积结构

将扩张卷积应用到图像修复中,在生成器第一阶段结构的中间部分加入4层扩张卷积,随着层数的加深,扩张卷积层的扩张率不断变大,四层扩张率分别为2、4、8和16。通过叠加扩张率不断变大的扩张卷积层,来实现不断增大图像感受野,增强网络对图像整体特征信息的提取能力和使用能力。

2.1.3 Non-local Attention注意力机制

Non-local[11]注意力机制通过计算特征图任意两个位置之间的交互信息,建立特征值远距离依赖,不同于传统卷积只能局限于相邻特征点,它相当于构造一个和特征图尺寸一样大的卷积核,获得更多特征信息。Non-local注意力机制通过引入全局特征信息,增大图像的感受野,为图像的补全获取更多丰富的特征信息。该机制在深度学习领域得到广泛应用[11]:语义分割、目标检测、图像超分辨率、图像去噪和文本检测。因此,文中引入Non-local注意力机制,以提升网络的图像修复效果。

Non-local[11]如式(1)所示

式中x、y为输入和输出,i代表特征值当前位置的响应,j代表的是全局位置的响应。g(xj)=Wgxj,Wg为权重,f(xi,xj)如式(2)所示,C(x)如式(3)所示。

式中f(xi,xj)是 Non-local的核心计算所在。其中,θ(xi)=Wθxi,φ(xj)=Wφxj,Wθ和 Wφ是权重。 θ(xi)和φ(xj)的计算细节如表1所示。T是对矩阵进行转置,xi和xj分别是当前位置特征值和全局位置的特征值。f(xi,xj)通过矩阵相乘的计算方式,来建立局部特征信息和全局特征信息的联系。

表1 θ(xi)和 φ(xj)结构表

式中的C(x)是归一化因子,以实现特征的softmax归一化,它使特征值分布趋于中心化,避免极值的出现(极值会导致全黑或全白的修复结果)。

Non-local的结构如图3所示,它涉及四次卷积、两次矩阵相乘和一次矩阵拼接计算。其中,B(Batch Size)代表批处理大小,H(height)和W(width)代表特征图的长和宽,192和96是特征图的通道数量,1×1×1代表卷积核的大小以及卷积步长。⊗表示矩阵相乘,8表示把两个特征图的特征通道拼接到一起。

图3 Non-local attention结构

表1和表 2是对图 3中 θ(xi)、φ(xj)、g(xi)、Conv.1×1×1结构的解释。其中,第一行是函数的名称;第二行Input Size和第四行Conv.Output Size分别是特征图的输入和输出尺寸,4个值分别为批大小、高度、宽度和通道数;第三行Conv.Kernel Size是卷积核尺寸,4个值分别为输入通道数、卷积核大小、卷积步长和输出通道数;第四行Reshape Output Size是对卷积输出变形后的特征图大小,2个值分别为批大小乘以高度乘以宽度、通道数。

表2 g(xi)和 Conv.1×1×1结构表

2.2 SN Discriminator判别器

采用光谱归一化马尔可夫判别器(SN-Discriminator)作为模型判别器,网络通过判别器来进行对抗训练,进而提升生成器的生成效果。判别器结构如图4所示,图中的H、W代表图像的高度和宽度。

图4 判别器结构

判别器的输入是修复图片和掩膜灰度图组成的4通道图片,输出是判别结果。判别器的第一层采用的卷积核为7×7,大卷积核具有大的感受野,能获取更多的特征信息;后五层采用卷积核大小4×4。表3是对SN-Discriminator判别器结构的详细解释。表中第一列是卷积层的名字;第二列和第四列是输入和输出特征图的大小,4个参数分别为批大小、高度、宽度、通道数;第三列是卷积核的大小,4个参数分别为输入通道数、卷积核大小、卷积步长、输出通道数。

表3 SN-Discriminator判别器结构表

3 损失函数和优化器

3.1 损失函数

选取L1作为重建损失函数,如式(5)所示H代表图像的高度,W代表图像的宽度,I代表原图,II代表破损的油画图像。

感知损失为

i和j是像素的坐标值,I是无损原图,II是破损图,G(II)代表的是经过修复后的油画图片。

GAN损失计算的是均值误差为

式中n是样本总数,i是样本序号。

3.2 Adam亚当优化器

本文算法使用的是Adam优化器[14],通过一阶求导推导出偏差,得到目标函数的梯度,然后使用梯度值优化模型的参数。Adam优化器参数如下:学习率为0.0001,动量参数belta1和belta2的大小为0.5和0.999。

4 实验数据集

4.1 数据收集

使用开源Gallerix油画数据集,从中选取完整的油画图片来验证网络模型的性能,部分数据集如图5所示。使用3000张印象主义风格的油画图像作为本文实验数据集,图像分辨率为256像素,饱和度为100%,使用其中2700张作为训练集,300张作为测试数据集。

图5 部分数据集展示

4.2 破损图像的生成

在模型训练时,本文算法通过随机生成破损区域的方式进行数据增强,使用随机角度、长度和宽度的线条去模拟破损区域,生成的破损掩码区域为占总面积的10%～25%。每次生成的破损区域不相同,这丰富了训练数据,使训练出的网络模型能够适应多种破损形态的油画。通过随机生成破损区域的方式,进行数据增强,避免模型的数据过拟合问题,增强模型的泛化性能。

5 实验及结果

5.1 实验环境

实验在一台深度学习服务器上完成,本文算法通过Python语言编程实现,使用PyTorch深度学习框架。服务器的具体配置如下:CPU型号为英特尔I7-7700,操作系统是Ubantu 18.04 LTS,系统的内存大小是128 GB,计算显卡使用的是2条11GB显存的英伟达GTX 2080Ti深度学习图形显卡。

5.2 实验参数及过程细节

本文算法模型训练200个迭代周期,每个迭代周期的步长为10000步,BatchSize批处理的大小为8。训练时,使用的掩模都是非连续随机生成,占图像面积的10% ～25%。在此范围内,图像修复效果比较理想,能较好地完成油画修复的任务。模型训练的前100个周期,损失函数值从15.01,逐渐下降到了6.50。在100～200的周期内,损失函数值徘徊在6.0附近,并逐渐趋于稳定。损失由最初的15.01,下降到最后的5.62。

5.3 评价指标

使用两个图像质量评价指标来定量评估网络的性能,分别是峰值信噪比(PSNR)和结构相似性(SSIM),数值越大,表示失真越小。

式中的MSE是均方误差,n代表的是每个采样值的比特数。

式中μx和μy分别代表x、y的平均值,σx和σy分别代表x和 y的标准差,σxy代表 x和 y的协方差,而 C1、C2、C3为常数,避免分母为零导致的计算错误。

5.4 实验结果

为验证本文算法图像修复的有效性,使用300张测试图片,在开源Gallerix油画数据集上进行测试。与3种经典的图像生成对抗网络进行比较,3种网络分别是:使用双判别器的图像修复网络Global&Local[3],使用基于部分卷积的 PartialConv-GAN[4]网络,以及专门针对自由形式掩码修复的Deepfillv2GAN[7]网络,量化指标如表4所示。表4的各列依次是模型名称、量化指标以及处理一张图片的平均耗时(ms)。图6是实验的效果图。

图6 实验效果图

表4 实验结果量化表

实验对比模型一:Global&Local网络。它是一种使用双判别器的生成对抗网络。虽然它是几种网络中效果较差的,但不可否认它是一种结构简单、性能强大的网络模型,在图像修复领域有着重要的影响。

实验对比模型二:PartialConvGAN网络。它的诞生就是用于图像修复,针对图像中非矩形的破损区域进行修复,通过部件卷积实现对图像中有效元素和缺失元素的区别对待。模型训练时,卷积层仅仅对满足有效像素条件的元素进行卷积和归一化操作,然后根据区域权重更新规则实现对权重的更新操作。它的修复效果好于Global&Local网络。

实验对比模型三:Deepfillv2网络。它被用于对人脸图像不规则破损区域进行修复的生成对抗网络,和本文一样采用双编码器和双解码器的生成结构。通过注意力机制来实现对破损区域特征信息的修复,这说明了注意力机制在图像修复中的重要性,在实验效果上,优于Global&Local和PartialConvGAN网络模型。

本文网络在两项图像修复效果量化指标峰值信噪比和结构相似度均超过其余3种网络。同时,通过观察图6的实验效果,可以发现本文算法修复的图像纹理更加清晰、边缘细节上处理很好,明显优于其余3种网络。在表4的图像处理速度比较中,本文算法处理一张图像需要花39 ms,与另外3种网络相比无明显差异,这也体现了深度学习方法在图像修复中处理速度上的优势。

6 结束语

得益于深度学习图像修复技术的发展,提出一种基于Non-local[11]的非局部注意力机制生成对抗网络的油画修复方法,尽可能地恢复油画图像的价值。该网络受双编码器-解码器生成结构、Non-local非局部注意力机制和门控卷积扩张卷积结构的启发,在提升破损区域修复效果和色彩的同时,也能对油画破损边缘区域进行修复,较好地提升了油画修复的效果。实验结果表明:本文方法具有对不规则的油画破损区域进行有效修复的能力。

本文网络的损失函数仍有优化的空间,在对特征的使用上仍然具有改进的潜力,在下一步研究中将考虑加入超图卷积等结构来优化和提升网络。