APP下载

基于自注意力机制的图像增强方法研究

2021-09-11王毛毛

科学技术创新 2021年25期
关键词:卷积注意力机制

王毛毛

(西安邮电大学,陕西 西安 710121)

引言

图像生成技术一直以来都是计算机视觉领域研究的热点问题。近些年,生成式对抗网络[1]Generative Adversarial Network,GAN)的出现使得图像生成技术取得了突破性进展。GAN 图像生成模型借鉴博弈论中零和博弈的思想,由生成器和判别器两部分构成,生成器生成拟合真实数据分布的样本图像,判别器鉴别生成图像和真实图像,二者交替训练,相互对抗学习,最终达到纳审平衡[2]即生成的样本数据与真实的数据分布高度一致性。目前GAN 图像生成模型已经成功应用到多个领域,图像翻译[3],图像风格迁移[4-5],图像超分辨率重建[6]图像修复[7],视频预测[8]等。GAN 有着强大的建模能力,但仍然存在许多问题,训练过程不稳定,容易发生梯度消失,梯度爆炸;生成图像分辨率低,精细度不足;生成图像不具备可控性等。

本文针对于LSGAN 生成的图像几何特征不明显,局部区域细节信息不丰富的问题,受自我注意力生成对抗网络(Self-Attention GAN,SAGAN)思想的启发,提出了结合自注意力机制的最小二乘生成式对抗网络的图像生成方法。创新之处在于将注意力图同时应用于生成器和判别器中,加强生成图像的整体几何特征,加强邻域特征与远距离特征的之间的关联度,提升生成图像的逼真度和精细度。

1 相关理论

1.1 最小二乘生成对抗网络

为了解决GAN 生成模型中训练不稳定,存在梯度消失的问题,Xudong Mao 等人将GAN 模型中交叉熵损失函数替换成最小二乘损失函数,并在判别器中使用最小平方损失函数,提高了模型的收敛性和稳定性。目标函数如下:

公式(1),(2)中a,b 和c 是生成器为了判断生成的数据是真实分布数据而定的值,一般情况下,a=-1,b=1,c=0。

1.2 自注意力机制

注意力机制其原理是直接计算图像中任意两点之间的距离,从而获得到图像的全局几何特征,这样做可以较好的解决GAN 训练数据集种类较多时,难以捕捉图像几何特征的问题。

2 结合注意力机制的最小二乘生成式对抗网络

对于LSGAN 网络模型生成的图像精细度,逼真度不高,图像的局部细节不明显的问题。本文提出了一种基于结合注意力机制的最小二乘生成式对抗网络模型(SA-GAN)。在LSGAN 的生成器和判别器中嵌入自注意力模块。使得网络在训练过程中能够迅速定位图像的重点生成区域,抑制噪声对模型训练的干扰,提升网络模型的训练效率,增强网络模型的性能,提升图像的精细度以及逼真度。

2.1 判别器

基于注意力机制的最小二乘生成式对抗网络的判别器由四个卷积层,两个自注意力模块组成,卷积层的通道数从左到右依次增大,大小为4*4,步长为2。输入图像为(64*64*3),其中64*64 表示二维图像,3 表示初始维度,图片的数量是1,两者组成一个四维张量(1,64,64,3),经过第一次卷积运算后,提取图像中的特征,将其送入自注意力模块中,加强图像的整体几何特征提取,经过两次卷积运算后,输出变成了(1,16,16,128),(1,8,8,256)。再次将提取的特征送入注意力模块中加强图像特征与特征之间的关系,进行第四次卷积运算后,将所得到的特征图拉长为8192 维向量。

2.2 生成器

基于注意力机制的最小二乘生成式对抗网络的生成器一共有6 个卷积层,两个自注意力模块,每一层卷积核为3*3,其中第一三四五卷积层的卷积核步长为2,第二六层卷积层步长为1。从左到右卷积层的通道数逐步减少分别是256,256,128,64,32,3。初始时,随机噪声100 映射到判别器传递的8192 维特征向量当中,通过reshape 函数处理后作为转置卷积的输入即 (4*4*512) 通过第两次卷积运算后,输出为(8*8*256),将特征向量送入注意力网络当中得到注意力特征图,加强提取图像的特征,在将输出做3 次卷积运算得到(32*32*64),将其送入到注意力模块中再次加强远距离特征之间联系,把握图像整体的几何结构,最后在经过3 通道卷积最终得到一个64*64*3 的图像。

3 实验与分析

本文实验在Cartoon 动漫人物头像数据集上进行,实验在Intel(R) Xeon(R) CPU E5-262 v4@ 2.10GHz 处理器,输入模型的图像像素是64×64,生成器与判别器的初始学习率都为0.0002,图像批量大小为64。

如图1 所示,SA-LSGAN 模型训练后生成的卡通图像相比较于GAN,WGAN,LSGAN 网络模型生成的图像,眼睛、鼻子、嘴巴、头发等特征的纹理信息更加丰富,五官的空间位置整体分布,更加合理。证实了将注意力机制嵌入最小二乘生成式对抗网络模型当中确实能够加强网络模型对于图像几何特征捕捉能力,增强图像局部细节信息。

图1 多种模型生成样本数据对比图

本实验采用FID 图像质量评价指标对图像质量进行评估。它是通过计算真实图像与生成图像特征向量之间的距离的远近来衡量图像质量的高低。

如表1 所示, 本文提出的SA-LSGAN 网络模型相比较于LSGAN 网络模型FID 值在Carton 数据集上提升了0.7。上述数据表明,本论文提出的方法确实能够增强图像的整体几何特征,加强图像局部区域细节信息从整体上提升生成图像的质量。

4 结论

本文提出的结合自注意力机制的最小二乘生成对抗网络(SA-EGAN)模型,能够在一定程度上增强图像的质量,但是本文只是在和carton 数据集上做出验证,并不能说明模型的鲁棒性。

猜你喜欢

卷积注意力机制
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
如何培养一年级学生的注意力
卷积神经网络的分析与设计
从滤波器理解卷积
创新完善机制 做实做优考核
自制力是一种很好的筛选机制
基于傅里叶域卷积表示的目标跟踪算法
A Beautiful Way Of Looking At Things
皮革机制