APP下载

基于改进注意力机制的生成对抗网络图像修复研究

2022-06-23张剑飞夏万贵

智能计算机与应用 2022年6期
关键词:卷积纹理语义

张剑飞,张 洒,夏万贵

(黑龙江科技大学 计算机与信息工程学院,哈尔滨 150022)

0 引言

图像修复是利用破损图像和训练图像,获取数据中的结构纹理信息,将破损图像进行填充。近年来被广泛地应用于诸多专业技术领域,目前已成为智能图像处理、神经网络和计算机视觉等方面的研究热点。传统图像修复方法主要有基于纹理和基于样本块,经典模型有基于偏微分方程的BSCB模型、填充的Criminisi算法模型等。但这些方法大多存在缺少高级语义信息且与原图结构相似度不高等问题。近年来,深度学习的图像修复方法取得了许多突破性进展,Goodfollow 的上下文自动编码器(Content Encoder,CE),首次将生成对抗网络(Generative Adversarial Networks,GAN)应用于图像修复,对图像上下文语义信息做出预测,但修复的图像存在明显伪影。为了更好地获取高级语义信息,在全卷积神经网络(Fully Convolutional Network,FCN)式的特征值逐点相加的基础上,出现了使用U-Net网络,Yan 等人在U-Net 的解码器中添加了一个转移连接层、即网络为Shift-Net,有效地结合图像中相隔较远的特征进行图像修复,但当破损孔洞过大时,存在细节纹理不清晰的问题。Hu 等人提出了挤压和激励网络(Squeeze-and-Excitation Network,SENet),扩大感受野,将重要的特征进行强化来提高准确率权重。

针对目前图像修复中存在语义不连贯、纹理不清晰的现象,本文构建了一个以U-Net 为基础模型添加转移连接层和改进的通道注意进行精细修复的图像修复方法,旨在获得具有高级语义和清晰纹理的修复图像。

1 基于改进注意力机制的生成对抗网络图像修复

注意力机制分为空间注意力(Spatial attention,SA)和通道注意力(Channel attention,CA),2 种注意力机制对于资源分配的级别不一样。SA 定位感兴趣区域进行变换获取权重,而CA 则是在于分配各个卷积通道之间的资源,两者对于不同部分均有侧重,为了结合两者优点,本文使用了空间注意力与通道注意力结合的注意力机制,空间上采用转移连接层,改变了原本修复只能从破损图片周围点像素进行补全,跨越空间限制,寻找与之最相似的点。通道上采用改进的SE block,首先通过对资源分配不同比重,然后专注于图像的待修复区域,借助于通道和空间注意力的结合,更好获取图像全局和局部特征。

1.1 模型框架

为了使图像修复结果具有更好的语义表达和更精细的结构纹理,本文提出了基于改进注意力机制的生成对抗网络两阶段图像修复方法。网络整体采用2 阶段修复,生成器以U-Net 网络架构为基础,编码器、解码器都采用步长为2、4×4 的卷积。为充分学习图像特征,提高编码器中特征的利用率,在编码阶段引入多尺度卷积与通道注意力结合,进行通道特征权重的重新标定,同时为了克服长距离对于信息的依赖,将第层和第层之间通过跳跃连接后再传递给下一层,对图像进行空间特征的重排,保持图像信息的连贯性。至此得到修复粗糙图像,同时计算重建损失函数和指导损失函数。将粗糙网络修复的图像和真实图片输入VGG16 网络中进行特征提取分析,然后通过鉴别器DCGAN 鉴定图像的真假,若为假,给生成器反馈重新进行图像修复,通过设置学习率、迭代次数和损失函数来约束生成器不断重复进行图像学习,直至鉴别器无法确认生成器输入图像的真假,即完成了图像修复过程。本文的网络模型框架如图1 所示。

图1 本文的网络模型框架Fig.1 The network model framework of this paper

1.2 改进SE block 模型

为了增加在不同尺度卷积得到的特征,同时不增加参数数量,减少计算时间,所以在原来SE block的基础上同时进行卷积和扩张卷积,用大小为3、5、7 的卷积核,但使用2 个3×3 的卷积核来模拟5×5的卷积核,用3 个3×3 的卷积核来模拟7×7 的卷积核。为了扩大感受野,增加特征图的均衡性,采用膨胀卷积,卷积采用膨胀系数为2、步长为2、同样用2个3×3 的膨胀卷积来模拟5×5 的膨胀卷积,2 个3×3 的膨胀卷积来模拟7×7 的膨胀卷积,对于不同尺度卷积结果级连。同时为了增加特征的全局和局部一致性,对图像进行3×3、5×5、7×7 的卷积,这里的3×3、5×5、7×7 的膨胀卷积,通过函数分别得到不同局部之间的关系为:,,,,,。与此同时,为了得到图像特征之间更加均衡有效的依赖关系,通过左侧基础SE block 进行通道注意力操作,并从全局池化Global Average Pooling 中得到通道特征Z,过程可以表示为:

通过上述过程得到新特征图F,则此过程可以表示为:

其中,(·)指激活函数,σ(·)指激活函数。与右侧多尺度卷积结合得到关系,此过程可以表示为:

其中,“⊗”是张量积,(·)为合并连接。融合的特征图进行运算,特征权重进行重新标定,最终完成了通道资源的分配,通过跳跃连接将原始图和进行连接,则图像可以表示为:

其中,是图像的比例缩放运算、即,“⊕”是通道连接。至此,通过对通道上像素点的权重重新标定和不同尺度得到特征结合,完成这一阶段图像修复得到。原始的SE block 使用作为激活函数,但是当输入值为负值时,会导致神经元不再学习,且训练速度较慢,因此,在改进的结构中使用作为激活函数。改进SE block 的模型图,如图2 所示。

图2 改进的SE block 模型图Fig.2 Improved SE block model

1.3 改进损失函数

为了使修复后图像与原图像在风格上统一,纹理细节更清晰,在原本损失函数的基础上加入指导损失函数和风格损失函数。图像修复的基本损失函数有重建损失函数和对抗损失函数。这里的重建损失函数表示为:

其中,是特征向量;是网络的第层;是需要学习的模型参数;I是真实图像。

对抗损失函数表示为:

其中,是生成器;是鉴别器; I指真实图像;是特征向量;是网络的第层;是需要学习的模型参数;pI)是真实图像的分布; pI)是破损图像的分布。由于引入了转移连接层,则加入指导损失函数,指导损失函数表示为:

其中,是缺失区域;是图像全部区域;Φ是层特征图;Φ是层特征图;是破损图片;I是真实图像。进行图像训练时需要寻找某类图片的风格,便于图像修复。

进一步地,研究推得的风格损失函可写为:

最终将多种损失函数结合起来作为整体损失函数,定义为:

其中,1 为重构损失;L为对抗损失;L为指导损失;L为风格损失; λλλλ分别为各损失函数的参数;参数初始化时, λ=1,λ=0002,λ=001, λ=10。

2 实验结果与分析

2.1 数据集及环境配置

本文采用了2 种国际标准数据集,即Celeb A人脸数据集和Places2 场景数据集。其中,Celeb A的每张人脸数据都进行了特征标注,Places2 数据集中含有400 多个场景,可以满足对于数据多样性的需求。本文的运行设备为:中央处理器是Intel 10th i7,显卡是GPU GeForce GTX 1650Ti。文中的运行环境使用Pytorch+Tensflow1.4 框架,搭配Python 的多个库进行实验验证与分析。

数据的预处理过程:任意尺寸的图像输入,经过预处理,将图像裁剪成分辨率为256×256 的统一图像大小。将输入图像分别与掩码和随机掩码进行结合,模拟破损图像。

2.2 评价指标

图像修复处理的过程中,评价图像修复质量有2 个指标:峰值信噪比(Peak Signal to Noise Ratio,)和结构相似性(Structural Similarity,)。其中,通常用于描述各种形式的信号的质量属性,值越大,说明图像信号质量越高。可由如下公式计算求得:

其中,指图像点颜色的最大值,为均方差。设有2 幅的单色图像、,这里对的数学定义可以表示为:

其中,(,) 是真实图像的像素点,(,)是通过修复得到图像的像素点。

结构相似性()是一种衡量2 幅图像相似度的指标,主要通过亮度、对比度和结构三方面来度量图像之间的相似性。结构相似性的范围为[0,1],当2 幅图像一模一样时,的值为1,即当值越大,图像相似性越高。研究推得的数学计算公式为:

2.3 实验结果

采用2 种不同的数据集与中心掩码模拟受损图像,通过对原始图像GT、破损图像、CE 修复图像、Shift-Net 修复图像和本文提出方法的修复图像的有效性进行对比,挑选有代表性的实验结果加以对比说明,实验结果如图3 所示。

图3 实验结果图Fig.3 Experimental results

图3(c)中CE 使用上下文自动编码器的生成对抗网络,对于大面积缺失图像,修复结果容易出现伪影,不能产生复杂的纹理结构,对于图像在有些地方有严重失真现象,如图3(b)所示的第一幅图像,左、右2 只眼睛瞳孔颜色不一致。观察图3(c)第一幅图像发现,出现了明显的伪影、以及鼻子的失真。观察图3(b)的第四幅图像可知,有明显的伪影以及缺少细节纹理。图3(d)中,Shift-Net 采用了转移连接层,通过跳跃连接,使特征图具有良好的全局性,修复图片看起来更加真实,但是缺少对于细节处理、过于简单,局部有小范围的伪影,如图3(d)所示的第一幅图像,鼻子处有小部分伪影。另见图3(c)的第四幅图像可知,整体颜色一致,但是缺少一些内容语义,处理简单,修复部分缺少与右侧对称的窗户。本文添加了转移连接层和改进的通道注意力,对于特征权重重新分配,得到图像在语义和纹理细节上优于其他2 种方法。表1 则为在2 种不同数据集中,采用中心掩码的图像修复,利用评价指标对结果进行定量分析。由表1 可知,本文在像素与结构上优于其他方法。

表1 采用中心掩码不同算法的比较Tab.1 Comparison of different algorithms using center mask

3 结束语

本文以生成对抗网络为基础框架,对模型进行改进,生成器采用具有对称性的U-Net,在此基础上对于目前图像修复中存在语义不连贯、纹理不清晰的问题,引入改进的通道注意力,采用了多尺度和更大感受野与SE-block 结合的方法,进行通道特征的调整,重定特征权重;其次添加转移连接层,借助于U-Net 的跳跃连接确定破损区域的最相似点进行修复;最后在损失函数上增加了指导损失函数和风格损失函数,加强已知区域与破损区域之间的约束关系。通过实验结果可知,对于语义不连贯、纹理不清晰的破损图像,修复取得了较好的效果。

猜你喜欢

卷积纹理语义
基于全卷积神经网络的猪背膘厚快速准确测定
韩国语“容入-离析”关系表达及认知语义解释
基于图像处理与卷积神经网络的零件识别
基于深度卷积网络与空洞卷积融合的人群计数
肺纹理增多是病吗?
童梦
TEXTURE ON TEXTURE质地上的纹理
卷积神经网络概述
消除凹凸纹理有妙招!