APP下载

基于上下文门卷积的盲图像修复

2022-03-21丁友东

图学学报 2022年1期
关键词:残差语义卷积

温 静,丁友东,于 冰

基于上下文门卷积的盲图像修复

温 静1,2,丁友东1,2,于 冰1,2

(1. 上海大学上海电影学院,上海 200072;2. 上海电影特效工程技术研究中心,上海 200072)

目前基于深度学习的图像修复方法已经取得较大地进展,其方法均是基于输入的掩模对图像的退化区域进行修复。基于此,提出了由掩模预测网络和图像修复网络组成的2阶段盲图像修复网络。整个修复过程无需输入掩模,掩模预测网络可以根据输入图像自动检测图像退化区域并生成掩模,图像修复网络根据预测掩模对输入图像的缺失部分进行修复。为了更好地利用全局上下文信息,基于上下文门卷积设计了一个上下文门残差块(CGRB)模块来提取特征信息。另外,还提出了空间注意力残差块(SARB)对远距离图像像素的关系进行建模,过滤了一些无关的细节信息。在CelebA-HQ,FFHQ和PairsStreet数据集上的大量实验结果表明,该改进算法优于其他对比方法,且能生成令人信服的图像。

图像修复;盲图像修复;上下文门卷积;上下文门残差块;空间注意力残差块

图像修复是在给定相应掩模的情况下修复受损图像缺失区域的技术。该任务引起了计算机视觉和计算机图形学的极大关注,并广泛应用于如老照片的复原、删除不需要的对象、照片编辑等方面。尽管已有许多用于图像修复的方法,但仍是一个具有挑战性的问题,因通常需要输入指示缺失区域的掩膜。本文针对无法获得掩模且难以实现图像修复的情况,提出了一种基于图像语义信息的盲图像修复方法。

传统的图像修复方法[1-10]缺乏对语义信息的获取,生成的结果受到限制。近年来,深度学习在图像修复中的应用取得了显著的进展,可以有效地解决上述问题。这些方法利用卷积神经网络(convolutional neural networks,CNN)提取图像的特征信息,并与鉴别网络联合训练,生成视觉上与真实图像无法区分的图像。基于深度学习的非盲图像修复方法[11-23],需要输入掩模来指示图像受损区域。而有一些图像的修复不需要输入掩模,只需使用成对的受损图像和真实图像进行训练,该方法被称为盲图像修复[24-26]。本文结合了非盲图像和盲图像2种修复方法的优点,提出了一种基于图像语义的2阶段网络,能够自动检测图像的受损区域,并生成视觉逼真的结果。

本文工作是在VCNet[27]的基础上开展的,其包括掩模预测和图像修复2个阶段。首先将受损图像输入网络,根据图像的语义预测图像中的受损区域,并生成掩膜。在修复阶段,将编码器-解码器和鉴别器一起训练,以鼓励生成视觉上与原始图像尽可能相似的图像。但VCNet方法生成的掩膜存在一些边界效应,如包含噪声图像且不能生成基于语义对称的内容如眼睛。本文方法解决了这些问题,并进一步改善了视觉效果。

本文用上下文门卷积(context gated convolution,CGC)[28]代替残差块中的普通卷积,提出了上下文门残差块(context gated residual block,CGRB)来获得更丰富的图像特征,从而提高掩模预测的准确率。此外,本文还在残差块中加入了一个空间注意力模块,并从空间注意力残差块(spatial attention residual block,SARB)中提取人眼最感兴趣的区域,使得整个网络结构可以修复一些对称内容的细节信息。本文的体系结构由掩膜预测和图像修复2个网络组成。掩膜预测网络使用级联的CGRB提取具有更大感受野的全局语义特征,与VCNet相比,本文还增加了孔洞损失来消除一些边界效应。图像修复网络通过残差块、空间注意力和跳跃连接来提取具有更多细节的多尺度特征。鉴别器和图像修复网络联合训练用于确定生成图像和真实图像的真假。在多个数据集上的实验结果表明,该方法优于其他方法,能够生成更逼真的修复效果。

1 相关方法

图像修复方法可分为传统的修复方法和基于深度学习的修复方法。传统的修复方法主要分为基于扩散的方法和基于补丁的方法。根据是否需要输入掩模到网络模型中,基于深度学习的方法又可分为盲图像修复和非盲图像修复方法。

1.1 传统的图像修复方法

(1) 扩散的方法。利用待修复区域的边缘信息,确定扩散方向后,将已知信息扩散到边缘。文献[1]提出了基于偏微分方程的图像修复,首次将修复应用于数字领域;文献[2]提出了基于整体变分和基于曲率[3]的方法,将图像修复转变为一个函数求解问题;文献[4]利用图像梯度和变分来实现图像修复;文献[5]根据局部特征的直方图建立其分布,并根据分布来修复图像的缺失区域。基于扩散的修复方法在破损区域较小时效果较好,若缺失区域较大或纹理复杂时,该算法的结果是模糊的。此外,其不能对纹理进行推理,使得修复后结构和纹理不一致,内容也不合理。

(2) 补丁的方法。其考虑了纹理一致的问题,首先将图像划分成一个集合,设计匹配原则,找到相似度最高的面片来填充缺失区域。文献[6]将补丁的图像修复方法用于纹理迁移,从源图像中采样得到纹理补丁,然后粘贴到目标图像;文献[7]和文献[8]分别利用马尔科夫随机场的相似性度量和双向相似性度量,来测量给定样本和合成图像的相似性;文献[9]提出了一种相似补丁搜索算法,可以快速找到图像块之间的近似最近领域匹配;文献[10]将图像梯度集成到块表示,进一步改善了图像修复。基于补丁的修复方法在背景修复任务中表现出良好的性能,但当缺失区域是前景且纹理和结构复杂时,很难找到合适的补丁来填充缺失区域。传统的图像修复方法一般使用图像剩余部分的统计信息来填充缺失区域,但受限于可用的图像统计信息,无法捕捉高级语义,修复效果不自然。

1.2 基于深度学习的图像修复方法

基于深度学习的修复方法通常利用CNN和生成对抗网络从大规模数据集学习语义,并在图像的缺失部分生成像素。根据网络是否需要输入掩模,将深度学习的图像修复方法又分为非盲图像修复和盲图像修复。

1.2.1 非盲图像修复方法

目前主流的图像修复仍采用非盲图像修复方法,在已知掩模的情况下,将图像修复问题转换为条件图像生成问题。文献[11]提出了上下文编码器,首次将编码器和对抗训练相结合,取得了较好的图像修复效果;文献[12]在上下文编码器中加入全局和局部鉴别器来生成更具有细节的图像;文献[13]以U-net为基础,提出了一种能够学习编码器特征位移矢量的位移连接层;2018年,文献[14]利用由3个并行编码器和1个公共解码器组成的网络来捕获不同层次的信息;文献[15]利用部分卷积,即只对图像中的有效像素进行卷积,在网络训练过程中不断更新掩码;文献[16]提出了一种基于边缘信息的图像修复方法;文献[17]设计了一个循环特征推理模块和知识一致性关注模块,以合成更高质量的特征;文献[18]将实例图像采样和修复的图像从数据集映射到公共空间,然后学习其映射关系。

随着基于深度学习的图像修复研究越来越多,一些由粗到细的网络结构慢慢出现。图像修复分为2步,先得到一个粗略的修复结果,然后进行细化。文献[19]首先推断缺失部分的内容生成图像,然后增强生成图像的纹理;在文献[20]的工作中,粗网络是一个简单的扩张卷积网络,而细网络又增加了一个具有上下文关注的分支;文献[21]提出的由粗到细的网络是基于U-Net结构,在精细修复网络的编码阶段嵌入了连贯语义注意层;文献[22]提出了门卷积,通过在所有层的空间位置为每个通道提供可学习的动态特征选择机制来扩展部分卷积;文献[23]利用上下文残差聚合(contextual residual aggregation,CRA)机制,提取图像的上下文特征和残差信息,实现高分辨率图像修复。

1.2.2 盲图像修复方法

对于盲图像修复,其针对的是简单的文本或网格损坏模式。文献[24]介绍了一种基于残差学习的编解码结构来解决图像中的文字遮挡问题;文献[25]使用成对的受损和真实图像数据集训练全卷积网络,以修复图像中的网格和文本;文献[26]在全卷积网络上实施像素级相似性约束,解决网格人脸的盲修复问题。与上述方法不同,文献[27]在不知道损坏区域的情况下,实现了高质量的图像修复。并设计了一个联合掩码预测和图像修复的模型,提出通过概率上下文归一化来传递信息。

2 退化图像的形成

本文将退化图像建模为原始图像和噪声图像的组合

其中,为RGB输入图像;为二进制掩码;为原始图像;为噪声图像;运算符⊙为元素乘法。在掩模中,()=1表示像素是噪声图像的一部分,()=0表示像素是真实图像的一部分。基于式(1),本文的目标是从给定的输入中重建预测掩模ʹ和修复图像。

以前的图像修复工作使用任意矩形或不规则形状的二进制掩模。本文若使用矩形遮罩,模型可以根据遮罩的形状轻松定位图像的损坏区域。不规则形状的掩模形状是随机的,模型更难使用形状信息来推断受损区域,因此适用于本文的模型。还有些修复方法在图像的缺失区域通常用常数值填充。根据这一规则,网络结构可以很容易地区分受损区域与剩余区域。本文将真实图像作为噪声源,使噪声图像的局部块和退化图像中的原始图像尽可能难以区分,从而提高掩模预测模块的能力。如果将原始图像和噪声图像按式(1)直接混合,会产生明显的边缘。为了解决该问题,在融合之前,采用高斯平滑对掩膜进行处理,以模糊边界。以上操作是为了让噪声图像和真实图像尽可能的不可分,只能从语义方面来区分。

3 本文方法

本文结合了非盲修复和盲修复2种方法的优点,在不指定图像的损坏区域时,基于深度CNN训练实现图像修复。如图1所示,本文网络结构包括:掩模预测网络和图像修复网络2部分。给定退化的输入图像,掩模预测网络试图基于语义信息生成掩模来定位图像中的受损区域。之后,将输入图像和预测掩模均输入到图像修复网络中,以产生尽可能真实且没有噪声的图像。鉴别器网络接收修复图像或真实图像作为输入,并确定其输入是真还是假。

图1 本文网络结构流程图

3.1 掩模预测网络

掩模预测网络被应用于定位图像中语义不一致的区域,以捕捉该区域的特征。为了有效地修复图像,掩模预测网络的结果必须精确。如果直接从图像中提取特征,其可能是无效特征。为了克服上述限制,本文使用级联CGRB来提取更详细的特征,如图2(a)所示。

在神经网络的特征提取和传递过程中会出现信息丢失,残差块通过跳跃连接实现恒等变换,可以起到信息补充的作用,从而解决反向传播中的梯度消失和梯度爆炸问题。CGC基于全局上下文信息调整卷积核来提取更具代表性的判别特征,解决了传统卷积缺乏对全局上下文信息建模的问题。本文在残差块中引入CGC,提出基于上下文信息和跳跃连接的CGRB。整个模块可以输出更有效的多尺度特征信息,提高掩模预测的精度。此外,受到膨胀因子的启发,为了获取更广泛的上下文信息,部分CGRB中的CGC使用膨胀因子,形成了膨胀的上下文门残差块(dilated CGRB),以增大整个模块的感受野。

图2 结构图((a)上下文门残差块;(b)空间注意力残差块)

图3 上下文门卷积

3.2 图像修复网络

在修复阶段,将图像修复网络和鉴别网络一起训练,可使生成的图像更加逼真。本文提出的图像修复网络的思想类似于非盲图像的修复方法,即根据输入掩码所指的图像未受损区域来修复图像的受损区域。图像修复网络使用提出的CGRB和SARB来提取更多的代表性特征,这些特征在更小的感受野内具有更多的细节。全局鉴别器鉴别生成的修复图像是真是假,局部鉴别器鉴别生成的图像局部缺失区域的真假。全局和局部鉴别网络均包含5个以5×5为核的卷积层和一个全连接层。

SARB如图2(b)所示,是在CGRB中添加了空间注意力机制(spatial attention,SA)[29]。将SA添加到CGRB的末端,迫使特征更加集中在感兴趣的区域,便可获得更具代表性的特征。

如图4所示,SA首先使用1×1卷积层来减少信道维度,以降低计算量;然后为了扩大感受野,先用一个步长为2的卷积,再用最大池化层获取上下文信息;之后的上采样层用于恢复空间维度,1×1卷积层用于恢复信道维度;最后,通过sigmoid层生成关注度得分。另外,SA还使用跳跃连接将空间降维前的高分辨率特征直接添加到块的末尾,以减少细节信息的损失。

图4 空间注意力机制

图像修复网络交叉使用CGRB、膨胀的CGRB、传统卷积和SARB,输入第一阶段预测的掩模和退化图像,网络会输出一个修复图像。修复图像和真实图像经过鉴别器鉴别真假,从而提高修复效果的真实性。

3.3 损失函数

由于破损图像中破损的区域比未破损的区域小,因此BCE损失不适用于掩模预测网络。自适应损失L[27]可以平衡正负样本,可用相似性度量生成的掩模和真实掩模像素之间的差异。孔洞损失为

其中,为输入图像;为真实掩模;为预测掩模。通过最小化真实缺失区域和预测缺失区域之间的差异来约束掩模的生成过程。为了更有效地提高预测精度,掩模预测网络采用自适应损失结合孔洞损失作为损失函数,即

为了实现令人信服的修复效果,图像修复网络考虑了像素、语义和纹理的一致性。重建损失[27]考虑了像素之间的差异,即

语义损失[27]考虑了中间层高级语义的差异,即

其中,O19和R19分别为和经过预训练的VGG19网络提取的ReLU3_2层的特征。本文还使用ID-MRF损失[27]作为纹理损失函数L,WGAN-GP损失[30]作为对抗性损失函数L。ID-MRF损失通过最小化生成的图像块和真实的图像块的差异来增强生成的图像细节。图像修复网络的目标函数最终可表示为

全局鉴别器和局部鉴别器具有相同的损失函数,可定义为

在掩膜预测网络和图像修复网络各自收敛之后,需要将2个网络进行联合训练。本文将上述各项损失函数加权取和,得到联合目标函数为

4 实验结果与分析

4.1 实验设置

本文模型在Pytorch v1.0,CUDNN v7.0和CUDA v9.0上实现的,运行硬件为Intel Xeon E5-2620 v4 2.10 GHz CPU和NVIDIA Titan XP GPU。网络结构使用Adam算法[31]优化,学习率设置为1e-4,损失项的系数依次为=1.4,=1-4,=1-3,=1-3,=2。

本文在CelebA-HQ[32],FFHQ[33]和PairsStreet[11]的3个数据集上进行了实验。CelebA-HQ由3万张分辨率为1024×1024的高质量人脸图像组成,其中3 000张图像属于测试集,其余2.7万张图像属于训练集。FFHQ由7万张分辨率为1024×1024的高质量人脸图像组成,其中1万张属于测试集,其余6万张属于训练集。ParisStreet是一个更具挑战性的数据集,包含来自巴黎的多个街道场景图像,其中有14 900个训练图像和100个测试图像。对于CelebA-HQ和FFHQ,图像被下采样到256×256。对于ParisStreet,训练图像是从原始图像中随机裁剪出来的。在FFHQ上训练时,相应的噪声图像取自CelebA的训练集。对于CelebA-HQ的训练,噪声源是FFHQ。Place2是与PairsStreet相对应的噪声图像的来源。本文使用自由形式的笔画[22]作为掩模数据集,以保证噪声图像和真实图像的不可分。

4.2 实验结果分析

本文对VCNet[27],PC[15]和GC[22]方法进行了比较,这些方法均被证明能取得不错的修复效果。需要说明的是,为了公平地进行比较,本文为PC和GC配置了与本文相同的掩膜预测模型。表1~3以均值形式展示了本文与其他方法在不同数据集上的性能指标。本文使用二进制交叉熵(binary cross-entropy,BCE)损失(越低越好)来评估所有方法的掩模预测性能,使用峰值信噪比(peak signal- to-noise ratio,PSNR)[34]和结构相似度(structural similarity image measurement,SSIM)[35](越高越好)来评估所有方法的图像恢复性能。表中结果表明,本文方法在BCE损失、PSNR和SSIM方面均优于其他方法。其次,本文还用模型参数数量(Params)和浮点运算次数(floating-point operations per second,FLOPs)衡量整个模型的空间复杂度和时间复杂度。从表4可以看出,本文的参数数量和浮点运算次数(越低越好)都优于其他模型。

表1 ParisStreet测试集上结果对比

表2 Celeb-HQ测试集上结果对比

表3 FFHQ测试集上结果对比

表4 不同模型复杂度比较

图5~7中为各种方法在PariStreet,Celeb-HQ和FFHQ测试集上对随机掩膜破损图像的预测掩膜和修复结果。PC方法通过提出的部分卷积,在修复的过程中同时更新掩膜,实现逐步修复。该方法预测的掩膜结果较差,受其影响无法重建合适的语义信息,及进行有效地修复。GC方法提出了门卷积,通过所有层每个空间的位置,为每个通道提供可学习的动态特征选择机制来推广部分卷积。该方法较之PC方法可以实现有效地修复,但是孔周围还存在明显的边缘响应和颜色差异。VCNet方法通过提出的盲修复网络可以实现良好的修复效果,但仍缺失一些细节,存在视觉伪影。本文方法在VCNet方法的基础上不仅能保留对象(眼睛、头发、眉毛)的细节特征,而且能有效地去除伪影。

图5 不同方法在ParisStreet测试集上的修复结果

图6 不同方法在Celeb-HQ测试集上的修复结果

图7 不同方法在FFHQ测试集上的修复结果

4.3 消融实验

本文方法较之VCNet方法进行了多方面的改进,为了讨论不同因素对于不同模块的影响,分别进行了2组对比实验。首先在FFHQ数据集上对掩模预测网络进行比较实验,M是指与VCNet方法拥有同样结构的掩模预测网络;M+CG是指在掩模预测网络中加入CGC;M+LOSS是指在掩模预测网络中加入孔洞损失;M+CG+LOSS是指在掩模预测网络中加入CGC和孔洞损失即本文方法的掩模预测网络。如图8所示,CGC和孔洞损失可以有效地提高掩模预测精度,且去掉了一些边缘响应。表5的数据也说明本文的掩模预测网络具有较好的性能。CGC基于全局信息提取更具代表特征,所以能提高网络性能。损失函数通过最小化生成的掩模和真实掩模之间的差异,进一步优化了网络,所以本文将两者结合以取得最优结果。

图8 不同模块对掩模预测的影响

((a) M; (b) M+CG; (c) M+LOSS; (b) M+CG+LOSS; (e) GT)

除此之外,还在FFHQ数据集上对图像修复网络进行了消融实验。I表示与VCNet方法拥有同样结构的图像修复网络;I+CG是指在图像修复网络中加入CGC;I+CG+SA是指在图像修复网络中加入CGC和SA。从表6可以看出加入CGC和SA可以实现更高指标的图像修复效果。CGC具有对全局信息的建模能力,SA具有对远距离的像素建模能力。本文将两者结合起来,可以得到更具代表性的特征,从而实现对图像细节的修复。

NVIDIA Irregular Mask Dataset有6类不同孔和图像比率的掩模:(0.01,0.1],(0.1,0.2],(0.2,0.3],(0.3,0.4],(0.4,0.5],(0.5,0.6]。每个类别有2 000个掩模。本文用该数据集在FFHQ上进行了掩模的消融实验,还加入了掩模比率为0的情况。从表7可以看出,随着掩模孔的比率增大,图像修复的性能会逐渐下降。这是因为,掩模中孔的比率越大,图像缺失的区域越多,缺失的细节信息也就越多。

表5 掩模预测网络的消融实验

表6 图像修复网络的消融实验

表7 掩模的消融实验

5 结束语

本文提出了一种能自动检测和修复破损图像语义不一致区域的盲图像修复方法。首先输入破损图像,然后根据图像特征信息生成预测的掩模,最后再通过对抗训练的方式得到修复结果。本文的网络模型包括2个模块:掩模预测模块和图像修复模块。掩模预测网络通过级联的CGRB和孔洞损失,优化了生成掩模的精度。图像修复网络通过CGRB和SARB以及与鉴别器的联合训练,实现视觉可信的修复效果。大量实验证明,存在未知图像破损区域时,本文方法能够生成保持图像细节信息的图像修复效果。与其他修复方法一样,本文方法依然存在局限性。对于未对齐的人脸图像即(非正脸图像)难以重建人脸的五官特征。对于这个问题,可以收集一些侧脸图像构成数据集,然后学习人脸的语义信息,进一步提高修复效果。

[1] BERTALMIO M, SAPIRO G, CASELLES V, et al. Image inpainting[C]//The 27th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 2000: 417-424.

[2] CHAN T, SHEN J. Mathematical models for local deterministic inpainting[J]. Siam Journal on Applied Mathematics, 2002, 62(3): 1019-1043.

[3] CHAN T F, SHEN J H. Nontexture inpainting by curvature- driven diffusions[J]. Journal of Visual Communication and Image Representation, 2001, 12(4): 436-449.

[4] BALLESTER C, BERTALMIO M, CASELLES V, et al. Filling-in by joint interpolation of vector fields and gray levels[J]. IEEE Transactions on Image Processing, 2001, 10(8): 1200-1211.

[5] LEVIN A, ZOMET A, WEISS Y. Learning how to inpaint from global image statistics[C]//The 9th IEEE International Conference on Computer Vision. New York: IEEE Press, 2003: 305-312.

[6] EFROS A A, FREEMAN W T. Image quilting for texture synthesis and transfer[C]//The 28th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 2001: 341-346.

[7] KWATRA V, ESSA I, BOBICK A, et al. Texture optimization for example-based synthesis[J]. ACM Transactions on Graphics, 2005, 24(3): 795-802.

[8] SIMAKOV D, CASPI Y, SHECHTMAN E, et al. Summarizing visual data using bidirectional similarity[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2008: 1-8.

[9] BARNES C, SHECHTMAN E, FINKELSTEIN A, et al. PatchMatch: a randomized correspondence algorithm for structural image editing[J]. ACM Transactions on Graphics, 2009, 28(3): 1-11.

[10] DARABI S, SHECHTMAN E, BARNES C, et al. Image melding: combining inconsistent images using patch-based synthesis[J]. ACM Transactions on Graphics, 2012, 31(4): 1-10.

[11] PATHAK D, KRÄHENBÜHL P, DONAHUE J, et al. Context encoders: feature learning by inpainting[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 2536-2544.

[12] IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics, 2017, 36(4): 1-14.

[13] YAN Z Y, LI X M, LI M, et al. Shift-net: image inpainting via deep feature rearrangement[C]//European Conference on Computer Vision. Cham: Springer International Publishing, 2018: 3-19.

[14] WANG Y, TAO X, QI X, et al. Image inpainting via generative multi-column convolutional neural networks[C]//The 32nd International Conference on Neural Information Processing Systems. California: Neural Information Processing Systems, 2018: 331-340.

[15] LIU G L, REDA F A, SHIH K J, et al. Image inpainting for irregular holes using partial convolutions[C]//European Conference on Computer Vision. Cham: Springer International Publishing, 2018: 89-105.

[16] NAZERI K, NG E, JOSEPH T, et al. EdgeConnect: generative image inpainting with adversarial edge learning[EB/OL]. (2019-07-01) [2021-04-17]. https://arxiv.org/abs/1901.00212.

[17] LI J Y, WANG N, ZHANG L F, et al. Recurrent feature reasoning for image inpainting[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 7757-7765.

[18] ZHAO L, MO Q H, LIN S H, et al. UCTGAN: diverse image inpainting based on unsupervised cross-space translation[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 5740-5749.

[19] YANG C, LU X, LIN Z, et al. High-resolution image inpainting using multi-scale neural patch synthesis[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 4076-4084.

[20] YU J H, LIN Z, YANG J M, et al. Generative image inpainting with contextual attention[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 5505-5514.

[21] LIU H Y, JIANG B, XIAO Y, et al. Coherent semantic attention for image inpainting[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 4169-4178.

[22] YU J H, LIN Z, YANG J M, et al. Free-form image inpainting with gated convolution[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 4470-4479.

[23] YI Z L, TANG Q, AZIZI S, et al. Contextual residual aggregation for ultra high-resolution image inpainting[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 7505-7514.

[24] LIU Y, PAN J S, SU Z X. Deep blind image inpainting[C]// Intelligence Science and Big Data Engineering. Cham: Springer International Publishing, 2019: 128-141.

[25] CAI N, SU Z H, LIN Z N, et al. Blind inpainting using the fully convolutional neural network[J]. The Visual Computer, 2017, 33(2): 249-261.

[26] ZHANG S, HE R, SUN Z N, et al. DeMeshNet: blind face inpainting for deep MeshFace verification[J]. IEEE Transactions on Information Forensics and Security, 2018, 13(3): 637-647.

[27] WANG Y, CHEN Y C, TAO X, et al. VCNet: A robust approach to blind image inpainting[C]//European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 752-768.

[28] LIN X D, MA L, LIU W, et al. Context-gated convolution[C]// European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 701-718.

[29] LIU J, ZHANG W J, TANG Y T, et al. Residual feature aggregation network for image super-resolution[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 2356-2365.

[30] GULRAJANII I, AHMED F, ARJOVSKY M, et al. Improved training of wasserstein gans[C]//The 31st International Conference on Neural Information Processing Systems. New York: Curran Associates Inc, 2017: 5769-5779.

[31] HAN Z D. Dyna: a method of momentum for stochastic optimization[EB/OL]. (2018-04-24) [2021-04-17]. https://arxiv. org/abs/1805.04933.

[32] KARRAS T, LAINE S, AILA T M. A style-based generator architecture for generative adversarial networks[C]/2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 4401-4410.

[33] KARRAS T, AILA T M, LAINE S, et al. Progressive growing of GANs for improved quality, stability, and variation[EB/OL]. (2018-04-24) [2021-03-25]. https://arxiv.org/abs/1710.10196.

[34] HORÉ A, ZIOU D. Image quality metrics: PSNR vs. SSIM[C]// 2010 20th International Conference on Pattern Recognition. New York: IEEE Press, 2010: 2366-2369.

[35] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.

Blind image inpainting based on context gated convolution

WEN Jing1,2, DING You-dong1,2, YU Bing1,2

(1. Shanghai Film Academy, Shanghai University, Shanghai 200072, China; 2. Shanghai Engineering Research Center of Motion Picture Special Effects, Shanghai 200072, China)

Image inpainting methods based on deep learning have achieved great progress. At present, most of the image inpainting methods use the input mask to reconstruct the degraded areas of the image. Based on this observation, a two-stage blind image inpainting network was proposed, comprising a mask prediction network and an image inpainting network. The input of a mask was not required in the whole inpainting process. The mask prediction network could automatically detect the degraded area of the image and generate a mask according to the input image, and the image inpainting network could restore the missing part of the input image based on the prediction mask. In order to make better use of global context information, a context-gated residual block (CGRB) module was designed based on context-gated convolution to extract feature information. In addition, the spatial attention residual block (SARB) was proposed to model the relationship between pixels in the long-distance image, filtering some irrelevant details. A large number of experimental results on the CelebA-HQ, FFHQ, and PairsStreet datasets show that the improved algorithm is superior to other comparison methods and can generate convincing images.

image inpainting; blind image inpainting; context-gated convolution; context-gated residual block; spatial attention residual block

23 June,2021;

TP 391

10.11996/JG.j.2095-302X.2022010070

A

2095-302X(2022)01-0070-09

2021-06-23;

2021-08-07

7 August,2021

国家自然科学基金项目(61303093,61402278)

National Natural Science Foundation of China (61303093, 61402278)

温 静(1996–),女,硕士研究生。主要研究方向为数字图像修复。E-mail:winjing@shu.edu.cn

WEN Jing (1996–), master student. Her main research interest covers digital image inpainting. E-mail:winjing@shu.edu.cn

丁友东(1967–),男,教授,博士。主要研究方向为计算机图形学与图像处理。E-mail:ydding@shu.edu.cn

DING You-dong (1967–), professor, Ph.D. His main research interests cover computer graphics and image processing. E-mail:ydding@shu.edu.cn

猜你喜欢

残差语义卷积
真实场景水下语义分割方法及数据集
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于残差学习的自适应无人机目标跟踪算法
语言与语义
卷积神经网络的分析与设计
基于深度卷积的残差三生网络研究与应用
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法