多通道特征增强风格迁移算法
2021-11-15陈梦伟杨大伟
陈梦伟,毛 琳,杨大伟
(大连民族大学 机电工程学院,辽宁 大连 116605)
在图像处理领域,图像风格迁移是现阶段的研究热点之一。现有图像风格迁移技术,对图像整体风格映射迁移效果较为优越,但图像特征在迁移映射过程中出现偏差,导致生成图像内容失真,图像还原质量有待进一步提高。
目前,风格迁移算法主要基于生成对抗网络(Generative Adversarial Networks, GAN)[1]。由GAN衍生的网络框架大致可分为单个生成对抗网络和多个生成对抗网络。
单个生成对抗网络结构以原始生成对抗网络GAN为基础,是Goodfellow等人在2014年提出的一种新的生成式模型。GAN包括两个网络,分别是生成网络和判别网络,生成网络使真实样本迁移为虚假样本,判别网络用于判断样本真假,并引入对抗损失,通过对抗训练使生成器能够迁移高质量样本图像。但原始GAN并不成熟,存在着诸多问题,如梯度消失、模式崩溃(Collapse Mode)和降低生成图像多样性,严重限制GAN完成高质量风格迁移工作。随后出现的CGAN(Conditional GAN)[2]在原始GAN基础上增加约束条件,控制GAN生成器过于自由的问题,但其模型训练不稳定,图像特征不能保证被完整迁移,生成图像还原度不高。Pix2pix[3]在CGAN的基础上提出,用于有监督图像到图像翻译任务,其生成器使用U-net网络提取细节,判别器使用PatchGAN处理图像高频信息,增强两个域之间图像映射关系,生成清晰图像。但Pix2pix必须使用成对数据集,这种一对一映射应用范围十分有限,当输入数据与训练数据差距较大时,难以实现图像内容一致的风格迁移。DCGAN(Deep Conditional GAN)[4]将卷积神经网络和GAN结合起来,利用卷积网络强大的特征提取能力提高GAN的学习效果,但DCGAN生成器随着卷积加深,特征信息在传递过程中会产生部分丢失,生成图像在内容上无法保持一致,生成图像质量不高。BigGAN[5]通过将模型扩大得到性能提升,它在训练中使用很大的批次,并且在卷积层设计上使用更大的通道数,使模型性能得到提升,但BigGAN的缺点也较为明显,它的模型很大、参数多、训练成本高,保持图像完整内容特征的信息迁移需要以极高的性能成本为代价,可实施性和应用性不强。
多个生成对抗网络结构以CycleGAN[6]最为经典,实现不同域之间图像转换,使用生成器和判别器完成图像不同域之间的转换,学习不同域之间隐含的映射关系,再添加循环一致项,提高不同域之间的转换效果。但由于图像在映射过程中特征提取能力不强,导致生成图像在内容上部分信息映射出错,图像失真,风格迁移质量不高。几乎同一时期提出的DiscoGAN[7]和DualGAN[8]同样是基于多个生成对抗网络,DiscoGAN强调不同域之间一对一的双向映射关系,生成器采用常规卷积和反卷积结构,虽然在迁移过程中能够保留关键属性,但对于图像细节的特征向量没有很好地映射到生成图像中,无法实现图像内容高质量迁移。DualGAN生成器采用U-net对称结构的编解码形式,在编码过程中能获取更多特征信息,但特征以单通道形式进行传递,随着网络加深,局部信息无法完整传递,生成图像无法保证内容风格迁移的一致性。
单个生成对抗网络算法大多实现图像的单向映射,在映射过程中图像内容信息捕捉能力不足,使生成图像内容不完整,生成质量不高。随后出现的多个生成对抗网络算法对不同图像域之间形成双向映射,使图像在迁移过程中更好地保留特征信息,但多数算法是以单通道或少通道形式对特征信息进行提取传递,网络在信息传递过程中存在风格内容特征映射出错或丢失情况,且随着网络加深,特征误差不断累积,降低算法整体性能,使生成图像内容特征多样性较弱,风格迁移质量不高。
为使图像在完成既定风格的迁移条件下,保证图像特征信息映射的一致性,本文提出多通道特征增强风格迁移算法(Multi-channel Feature Enhancement Style Transfer Algorithm Based on CycleGAN, MCGAN),在CycleGAN网络基础上,借用深度可分离卷积网络思想,引入多通道特征提取机制,增强每个通道对图像特征的非线性表达能力,获取图像更丰富的特征信息,使图像内容特征得到有效提取,实现高质量迁移任务,能更好地应用于自动驾驶、工厂车间和天眼监控等领域,特别是环境昏暗场景。
1 MCGAN算法
基于CycleGAN图像风格迁移算法,生成器由多层卷积构成,卷积以单通道形式对特征进行传递,特征在映射过程中出现偏差,图像风格没有被完整迁移,内容丢失,图像还原质量不高。CycleGAN网络生成图像和MCGAN网络生成图像对比如图1。
图1 CycleGAN和MCGAN风格迁移对比图
图1a为原始冬天图像,图1b、图1c分别为经过CycleGAN和MCGAN算法迁移生成的夏天图像,与CycleGAN相比,MCGAN算法对目标边缘特征更为敏感,可以明显看出图中山顶与天空交界处边缘较为清晰,内容特征映射一致,生成图像质量更高。
1.1 多通道特征增强模块
多通道特征增强风格迁移算法借用深度可分离卷积网络思想,引入多通道特征增强机制,增强网络对图像内容信息的提取能力。本方法将常规卷积分为两个部分:多通道卷积和空间融合。将卷积层间相关性和空间相关性进行分开映射,获取图像更多特征,增强图像特征信息。多通道卷积对图像每个通道独立执行卷积操作,在保持通道独立性的同时,增强每个通道对图像特征的非线性表达能力,让网络在每一次卷积中获取更加丰富的特征。保证图像内容特征在映射过程中的完整性。通过空间融合将上一层输出的不同通道特征图进行线性组合,保证通道前后特征维度输出的一致性,整合多个通道特征图信息,有效利用不同通道特征在相同空间位置上的特征信息,实现对不同通道的特征融合,提高风格迁移质量。多通道特征增强模块如图2。
图2 多通道特征增强模块
多通道特征增强算法中,多通道卷积公式:
(1)
式中,K代表多通道卷积的卷积核,大小为i×j,通道数为M。将K中第m个滤波器应用于大小为h×w特征图F中的第m个通道,卷积后输出在大小为k×l特征图G的第m个通道。
空间融合公式:
(2)
式中,P为空间融合函数,将上一层通道数为M的每个通道输出特征图G使用空间融合方法,得到输出尺寸不变特征图Y,大小为k×l,通道数为N。图像特征经过多通道独立卷积,再进行相同空间位置信息融合,提取更加丰富的深层特征,保证图像特征的多样性,增强对图像特征的表达能力,提高通道间特征非线性程度。
1.2 多通道特征增强可视化
为说明多通道特征增强效果,本文将CycleGAN网络与MCGAN网络特征热力图进行可视化对比,如图3。其中,图3a为原始图像;图3b为CycleGAN网络算法经卷积输出的特征热力图;图3c为MCGAN网络算法经多通道特征增强模块输出的特征热力图。
由图3行(1)可见,在简单风景图像中,MCGAN网络算法对不同类别的边缘及区域特征信息划分更为精准,利于迁移成与原图相似度更高的图像,在行(2)中,当图像中树木色彩及轮廓较为接近时,MCGAN网络算法比CycleGAN网络算法能更好区分相似树木边缘信息,使图像在迁移过程中更好地增强目标多样性特征。在行(3)中,MCGAN网络算法比CycleGAN网络算法能更好地处理山峰纹理和树木边缘轮廓信息,获取图像边缘特征信息更加丰富,在迁移中有效还原图像中目标细节纹理特征,提升风格迁移生成图像质量。
1.3 网络结构
MCGAN网络生成器结构如图4。主要由编码器、转换器和解码器三部分组成。由于编码器负责图像特征提取,因此主要对编码器部分进行改进,以增强网络对图像特征的提取能力,丰富图像特征信息,提高图像迁移质量。改进后的编码器在原始网络基础上加入多通道特征增强模块,提高网络对图像特征映射的准确性,增强特征非线性表达能力。转换器用来组合提取到的不同特征,并利用这些特征信息,确定如何将图像的特征向量从原域(输入图像)转换为目标域(生成图像)的特征向量。解码器由两层反卷积和一层卷积组成,采用反卷积逐级将高维特征向量重新复原成图像低级特征,最后将获取的特征送入一层卷积得到风格迁移后的生成图像。
图4 MCGAN网络生成器结构
算法实施步骤如下:
步骤1:特征提取。将尺寸为256×256×3的原始图像输入网络中,首先经过一个7×7卷积模块,将3通道图像变为64通道。其次通过多通道特征增强模块,使用3×3多通道卷积对每个通道进行独立卷积,输出每个通道对应特征图,再经过空间融合方式,对不同通道输出特征图进行融合,输出特征维度为256×256×64。对通道维度和空间维度分开映射,获取图像更丰富的特征,为后续特征映射重构图像提供更多的内容信息。然后通过两个卷积模块,进一步全面获取图像特征信息,第一个3×3卷积模块输出特征维度为128×128×128,第二个3×3卷积模块输出特征维度为64×64×256。
步骤2:图像转换。采用6层残差块使图像特征向量从原域转换到目标域,通过这种残差块的结构,将输入特征信息传递输出,较大程度上保护特征信息再传递过程的完整性和一致性。经过残差网络后输出特征维度为64×64×256。
步骤3:特征还原。采用两层反卷积将输入的高维特征向量重构为图像的浅层特征,重建图像目标属性和色彩纹理等特征信息。第一层反卷积输出特征维度为128×128×128,第二层反卷积输出特征维度为256×256×64。
步骤4:生成图像。最后一层卷积对步骤3输出的特征维度调整,得到最终尺寸为256×256×3的生成图像。
2 仿真分析
2.1 仿真设计
本算法使用NVIDIA GeForce 1080Ti显卡,在Ubuntu16.04环境中配置Pytorch0.4.1深度学习框架,训练和测试风格迁移网络模型。使用CycleGAN网络算法中提供的1 231对冬-夏季图片和995对苹果-橘子图片,图像大小256×256。对网络进行训练,训练网络模型时,批尺寸设定为1,学习率设定为0.000 1,迭代次数为200次,在前100次迭代中保持相同学习率,从100次起学习率线性下降。
为评估生成图像的清晰度和多样性,体现风格迁移生成图像的效果,采用Inception得分(Inception Score, IS)作为评价生成图像清晰度和多样性的指标,这里的清晰度并不是指图像分辨率的高低或图像边缘是否清晰,而是指图像中目标物体的归类是否清晰,代表生成图像中目标分类的准确性。生成图像的多样性也很重要,传统GAN易发生模式坍塌,即生成器在与判别器的对抗过程中找到一种能较为容易地骗过判别器的模式,从而生成这种模式图像的概率会越来越大,导致生成图像趋于一致而多样性降低。具体计算公式:
(3)
IS评价指标只考虑生成图像的质量,无法反映生成图像与原始图像之间的特征空间距离分布,因此采用Fréchet Inception距离(Fréchet Inception Distance, FID)作为评估生成图像与原始图像之间的特征距离映射关系。具体计算公式如下:
(4)
式中:μr表示原始图像的特征均值;μg表示生成图像的特征均值;∑r表示原始图像的特征协方差矩阵;∑g表示生成图像的特征协方差矩阵;Tr表示矩阵对角线上元素的总和。当均值之差的平方越小,协方差也越小,它们相加之和FID越小时,说明生成图片和真实图片特征越相近,即图像质量越高。
2.2 仿真结果
本文在1 231对冬-夏季节场景数据集上进行实验仿真测试,记录和统计在冬-夏季节场景数据集上MUNIT[9]风格迁移算法、CycleGAN算法和MCGAN算法的实验结果,结果对比见表1。
表1 冬-夏季节场景数据集仿真结果
从表1仿真结果可以看出,对比现有风格迁移算法,本文提出的MCGAN算法实验结果在IS和FID评价指标上均有所提高。其中IS评价指标在冬-夏季数据集上,MCGAN算法相较于MUNIT提高15.9%,相较于CycleGAN提高6.2%;在FID评价指标上,MCGAN算法相较于MUNIT提高31.9%,相较于CycleGAN提高25.7%。MCGAN算法在完成所需风格迁移的条件下,在一定程度上提高了生成图像内容特征的完整性,图像内容映射过程特征保持不变。CycleGAN网络和MCGAN网络在冬-夏的风格迁移结果对比如图5。
在图5中,如行(1)可见,CycleGAN网络生成夏天图像,图中右侧树木并没有迁移为夏天绿色树木,风格迁移不完整,而MCGAN网络不仅风格迁移较为完整,细节部分的天空山顶边缘处特征映射一致。如行(2)可见,CycleGAN网络生成夏天图像,左边雪地以及树木仍旧保持迁移前风格,风格迁移质量不高。而MCGAN网络迁移的夏天风格较为真实,色彩还原度较高,细节处的雪地和树木迁移效果也十分优越。如行(3)可见,CycleGAN网络生成夏天图像,图中右侧雪地迁移效果不佳,图像还原度不高,而MCGAN网络生成夏天图像更加逼真,雪地迁移为绿地,风格特征迁移较为一致,图像色彩更加真实,迁移质量较高。
图5 CycleGAN和MCGAN风格迁移对比图
在995对苹果-橘子静物数据集上进行实验仿真测试,记录和统计在苹果-橘子静物数据集上MUNIT风格迁移算法、CycleGAN算法和MCGAN算法的实验结果,结果对比见表2。
表2 苹果-橘子静物数据集仿真结果
从表2仿真结果可以看出,对比现有风格迁移算法,本文提出的MCGAN算法实验结果在IS和FID评价指标上均有显著提高。其中IS评价指标在苹果-橘子数据集上,MCGAN算法相较于MUNIT提高5.5%,相较于CycleGAN提高9.3%;在FID评价指标上,MCGAN算法相较于MUNIT提高34.4%,相较于CycleGAN提高24.4%。MCGAN算法在完成既定风格的迁移条件下,保证生成图像内容特征的一致性。CycleGAN网络和MCGAN网络对苹果-橘子的风格迁移结果对比如图6。
在图6中,如行(1)可见,当图像中包含大量苹果目标时,CycleGAN对苹果纹理和边缘风格迁移效果较弱,内容特征映射出现偏差导致迁移效果不佳,图像还原度不高。而MCGAN能更好地对多目标图像进行风格迁移,迁移生成的橘子在色彩及纹理等方面更加真实。如行(2)可见,当图像背景单一且包含少量目标时,CycleGAN网络迁移的橘子,由于特征映射出错导致橘子失真,迁移质量不高,而MCGAN在保证背景迁移一致条件下,迁移生成的橘子更具真实性。如行(3)可见,当图像前景和背景色彩相差较大时,CycleGAN不能保证对图像前景和背景迁移效果的一致性,而MCGAN迁移后的图像,不仅橘子迁移效果较为优越,而且对图像背景的草地同样实现较为成功的迁移。
图6 CycleGAN和MCGAN风格迁移对比图
3 结 语
为保证风格迁移前后图像特征信息的一致,确保图像内容特征一一映射,提高图像还原度,本文提出MCGAN风格迁移算法,引入多通道特征增强机制,采用多通道独立并行卷积,最后空间融合方式,提高通道间特征非线性表达能力,增强网络对图像内容信息的提取能力,丰富图像特征,保证图像特征信息一致,提升风格迁移算法性能,使之更好地应用于自动驾驶、天眼监控和工厂车间等领域,尤其是环境昏暗和天气恶劣等场景中。后续工作中,将进一步提升风格迁移生成图像的像素分辨率,提高图像清晰度。