融合频率分离通道注意力机制的真实图像风格迁移算法
2023-11-22刘惠临王燕思
刘惠临,王燕思
(安徽理工大学 计算机科学与工程学院,安徽 淮南 232001)
艺术图像风格迁移算法最早应用于视觉艺术领域,可以利用一幅图像的内容信息和艺术画作的风格信息,得到一张融合原始图像内容和艺术绘画风格的生成图像.艺术图像风格迁移算法在计算机图形学领域被称为非真实性渲染算法(Non Photorealistic Rendering,NPR)[1],通过对特殊笔触纹理的模拟,实现笔触信息的迁移.之后,学者们对NPR 算法进行创新,提出纹理迁移算法(Texture Transfer)[2],该算法不再拘泥于图像的笔触信息,而是抽取图像浅层次的纹理信息.虽然这种非参数化的方法可以实现艺术图像风格迁移,但是并没有过多考虑深层次的语义信息,因此风格迁移效果并不理想.随着深度学习的飞速发展,基于神经网络的图像风格迁移算法有了巨大进步.2015年,GATYS等[3]最早提出神经网络风格迁移算法.他发现神经网络提取特征之间的相关性具有显著捕捉视觉风格的能力,通过Gram 矩阵可以有效衡量特征图的风格相似性.JOHNSON等[4]在文献[3]的基础上训练了一个前向传播的神经网络,实现了实时艺术图像风格迁移,极大地提升了艺术图像风格迁移速度.但该算法每次训练都只能实现一种风格的迁移,为此LI等[5]引入白化和着色变换嵌入到图像重建网络当中,通过自动编码器架构实现任意风格的变换.此外,基于前人的算法基础,还出现了一些改进算法[6-8],这些算法都在艺术图像风格迁移任务中取得了不错的效果.
真实图像风格迁移算法的目标是将摄影图片的风格信息转移到内容图像上,通过选择适当的风格图像,可以使生成图像看起来像是在不同光照、时间或天气下拍摄的真实照片.艺术图像风格迁移算法由于它强大的抽象能力,在处理摄影图片时可能会出现绘画风格的扭曲感,因此并不直接适用于真实图像风格迁移任务.2017年,LUAN等[9]提出深度图像风格迁移算法,通过增加额外的图像真实性正则化项和语义分割掩模,成功开创了真实图像风格迁移算法的先河.LI等[10]提出的PhotoWCT 算法以牺牲4个自动编码器的参数重架构为代价,实现了较强的风格化强度.然而,解决优化问题需要大量的计算成本,这限制了它们在实践中的应用.YOO等[11]提出的WCT2算法和AN等[12]提出的PhotoNAS算法使用单一的自动编码器架构处理运算速度相对缓慢的问题.张颖涛等[13]提出一种全局引导的真实图像风格迁移算法,通过引入分区自适应实例归一化项和跨通道分区注意力模块引导网络实现更好的整体迁移效果.CHIU等[14]在WCT2算法基础上又提出PhotoWCT2算法,结合PhotoWCT 和WCT2算法优点,通过引入块式训练,使单个自动编码器的风格化强度更加优化,同时改进WCT2算法中小波池化的连接方式,在降低计算成本的同时也取得了较好的风格迁移效果.
虽然目前的真实图像风格迁移算法[9-14]已经取得了较好的迁移效果,但在某些方面仍然存在局限.例如为了实现更高的风格化强度而降低图像真实感,无法在保持图像真实感的同时增强算法的风格化强度.针对上述问题,在PhotoWCT2算法基础上设计一种改进的通道注意力机制——频率分离通道注意力机制(Frequency Separation Attention Mechanism,FSCAM),将离散余弦变换(Discrete Cosine Transform,DCT)嵌入通道注意力机制当中,使用离散余弦变换进行特征分解,将分解得到的不同频率分量(包括最低频率分量)并行输入共享感知机内部,将频率分离通道注意力机制引入每个编码器块的相应卷积层后,对通道域中不同尺度的特征进行自适应筛选,筛选出高价值的纹理和颜色特征,在保证图像细节信息不丢失的同时,增强算法的风格化强度.
1 融合频率分离通道注意力机制的真实图像风格迁移算法
1.1 PhotoWCT2算法
PhotoWCT2算法与过往的真实图像风格迁移算法相比,其风格迁移效果相对较好.该算法将真实图像风格迁移任务看作是图像风格转换和图像重建两个部分.在图像风格转换方面,PhotoWCT2算法采用基于白化着色变化(Whitening and coloring transforms,WCT).该模块通过白化着色变换以调整风格图像的内容信息,使其与风格特征图的协方差矩阵相匹配.该模块包括白化变换和着色变换两个步骤,计算公式如下:
其中,fC为内容图像特征图,为白化变换结果为着色变换结果,DC和DS分别为内容和风格图像特征值的对角矩阵,EC和ES分别为内容和风格图像特征向量的正交矩阵.
PhotoWCT2算法中的图像重建部分则采用单一的自动编码器架构实现粗粒度到细粒度的特征转换.通过PhotoWCT2算法的实验表明,块式训练比端到端的训练方式可以使解码器更好地学习编码器的逆函数,实现函数反演.为了实现更高的风格化强度,PhotoWCT2算法在自动编码器的瓶颈位置以及Decblk4、Decblk3和Decblk2 块的输出位置都嵌入WCT 风格迁移模块.此外,WCT2算法使用小波池化[9]技术,可以减少由池化层带来的信息损耗,其中小波卷积核由一个低频分量kLL和3个高频分量kLH、kHL和kHH组成,如下式所示:
由于小波池化技术有4个输出通道,其中低通滤波器kLL捕获平滑的纹理特征和颜色特征,高通滤波器kLH、kHL、kHH提取垂直、水平和对角线的类边特征,需要通过4次卷积操作才能得到高频特征与低频特征.为了简化这个过程,PhotoWCT2算法引入高频残差跳跃连接技术.具体而言,它使用上采样与平均池化操作代替小波池化的低频分量部分,从而将池化次数降低到原来的1/4.在减少网络参数的前提下,实现更好的图像重建效果.PhotoWCT2算法整体网络结构图如图1所示.
图1 PhotoWCT2算法结构图
1.2 改进的通道注意力机制
1.2.1 通道注意力机制
通道注意力机制[15-16]是一种用于改善卷积神经网络性能的方法,其核心思想是通过获取特征图中每个通道的重要性差异以合理分配计算资源.该方法首先对输入的特征图进行全局平均池化(Global Average Pooling,GAP)操作,将其压缩为一个1×1×C的特征图,其中C表示通道数.然后将压缩后的特征图输入一个两层感知机(Multi-Layer Perceptron,MLP)中.MLP的第一层全连接层具有C/4个神经元,激活函数为Relu,第二层全连接层具有C个神经元,用于学习通道维度的特征和各个通道的重要性.最后对第二层全连接层的输出进行Sigmoid函数的映射处理,得到最终的通道注意力特征.通过计算通道注意力特征可以获得每个通道的权重,进而调整特征图的表示.这种机制可以用公式(4)表示
其中Favg为特征图经过全局平均池化的结果.整个通道注意力机制结构如图2所示.
图2 通道注意力机制
1.2.2 DCT 与GAP关系
离散余弦变换[17]能够将空域信息转换为频域信息,通过一组不同频率和幅值的余弦函数和近似表示一幅图像,一维离散余弦变换公式如下
其中,fk∈RL为DCT 频率光谱,x∈RL为输入,L为输入长度,二维离散余弦变换公式如下
其中,f2d∈RH×W为DCT获得的二维频率光谱,x2d∈RH×W为特征图输入,H和W分别表示特征图的高和宽.对应的二维离散余弦变换的逆变换为
假设公式(6)中的h、w为0,则存在
1.2.3 频率分离通道注意力机制(FSCAM)
从频率角度分析,一张特征图可以被看作不同频率分量的组合.通道注意力机制中的GAP只是二维离散余弦变换的其中一个分量.如果仅使用通道注意力机制,意味着只有最低频率信息会输入感知机中进行筛选,其余频率分量的所有信息被忽视.在真实图像风格迁移任务中,风格信息的迁移过程可以被看作一种纹理迁移和色调迁移.实验表明,如果在真实图像风格迁移算法中仅使用通道注意力机制,由于其余频率分量无法进行自适应筛选,风格迁移效果相较于PhotoWCT2算法并没有显著提升.为此,所提算法将二维离散余弦变换嵌入原有的通道注意力机制内部.首先,将卷积后的特征图进行特征分解,利用神经架构搜索技术(Neural Architecture Search,NAS)自动获取最佳频率分量.其次,筛选出前15个最佳频率分量(包括最低频分量),并将其并行输入到共享感知机模块内部.这样做可以确保纹理信息和色调信息都能得到适当的保留,避免过度丢失.再次,对这15个输出结果进行逐元素相加,通过Sigmoid激活函数生成频率分离通道注意力机制的输出结果.最后,将该结果与原有特征图相乘,使其恢复为原始的C×H×W大小.添加FSCAM 的真实图像风格迁移算法能够筛选出高价值的纹理信息和色调信息,从而增强算法的风格化迁移强度.FSCAM 的具体结构如图3所示.
图3 频率分离通道注意力机制
二维离散余弦变换不同频率分量结果可表示为
其中,Freqi为二维离散余弦变量不同结果,2DDCT 为二维离散余弦变换.
1.3 所提算法整体结构
自动编码器[18-20]作为一种无监督的神经网络模型,广泛应用于真实图像风格迁移算法中,所提算法同样基于自动编码器网络架构构建了如图4所示的真实图像风格迁移模型.
图4 所提算法结构图
所提算法在PhotoWCT2算法基础上加以改进.为了实现粗粒度到细粒度的特征转换,将编码器拆分为Encblk1、Encblk2、Encblk3和Encblk4 4个系列块,输出层是VGG19中的ReluN_1层,编码器是预先训练好的网络.解码器与编码器结构对称,也拆分为Decblk1、Decblk2、Decblk3和Decblk4 4个系列块,目的是学习编码器的逆函数,将ReluN_1特征转换为Relu(N-1)_1特征.因此,在网络训练完成后,获取Relu4_1特征的解码器能够依次重现Relu3_1、Relu2_1和Relu1_1特征和输入图像.为了实现更好的风格迁移效果,沿用PhotoWCT2算法中的WCT 风格转移模块和高频残差跳跃连接(Skip Connection)方式.此外,所提算法在每个编码器块的相应卷积层后都嵌入一个FSCAM,使用离散余弦变换将卷积后的特征先进行特征分解,分别计算出通道注意力机制中每个频率分量结果,通过神经架构搜索技术筛选出前15个性能最佳的频率分量并行输入共享感知机模块内部进行自适应筛选,筛选出高价值的纹理和颜色特征,在保证图像细节信息不丢失的同时,增强了算法的风格化强度.
2 实验结果与分析
2.1 实验数据集与实验配置
本文实验使用Microsoft COCO(2014)作为训练数据集,使用DPST 数据集[9]作为测试数据集.其中训练数据集约有80000 张图片,将每张图片尺寸缩放到512×512,保持横纵比,然后随机裁剪为256×256.测试数据集包含60组摄影图片,每组图像由两张成对的内容图像和风格图像组成.实验环境为CUDA11.2,cuDNN8.0,ubuntu18.04系统,Tensorflow2.5.0深度学习框架,python3.8程序语言,NVIDIA Ge Force GTX 1080 GPU,11GB 显存.数据批尺寸(Batch Size)设置为8.本文训练时使用Adam优化器,网络学习率设置为0.0001.
2.2 评价依据
真实图像风格迁移算法主要以生成图像质量作为评价依据,设计相关对比实验以验证算法性能.其中生成图像质量的评价标准分为定性视觉效果和定量评价指标两个部分.定性评价标准为生成图像内容结构的清晰度和风格间的色调和纹理一致性;定量评价指标包括结构相似性(Structural Similarity,SSIM)、峰值信噪比(Peak Signal to Noise Ratio,PSNR)、内容损 失(Content loss)和风格损失(Style loss).在真实图像风格迁移领域生成图像质量评价指标中结构相似性用来衡量内容图像和生成图像之间亮度、对比度和结构上的相似性,数值越大则相似性越高.峰值信噪比用来衡量生成图像相较于风格图像像素点之间的误差大小,数值越大则失真越小.内容损失通过将内容图像和生成图像送入VGG19模型Conv4_1层比较2张图像特征图的差异性,数值越大则特征图差异越大.风格损失则是将风格图像和生成图像送入VGG19模型,提取前4层中每一层的特征图,计算2张图像不同尺度特征图的Gram 矩阵,通过比较特征图之间的共现相关性来表现图像之间的风格差异.结构相似性和内容损失通过计算内容图像与生成图像的结构相似性和内容损失,反映生成图像内容部分迁移的效果.峰值信噪比和风格损失通过计算风格图像与生成图像的峰值信噪比和风格损失,反映生成图像风格部分迁移的效果.内容损失和风格损失计算公式如下
其中,Lcontent为内容损失,Lstyle为风格损失,O表示生成图像,C表示内容图像,N和M分别代表特征图的宽和高,Gij和Aij分别表示生成图像和风格图像的Gram 矩阵,每一层的权重参数设置为相同值.
2.3 实验结果分析
2.3.1 定性视觉效果
为验证所提算法的有效性,选用真实图像风格迁移算法中性能相对较好的DPST、WCT2、PhotoNAS、PhotoWCT2算法与所提算法进行定性视觉效果对比.为了更好地观察各个算法生成图像的纹理、色调和结构差异,右图使用生成图像的局部放大图进行实验结果对比,并尽可能保持一致的放大倍数.不同算法生成图像的细节对比效果如图5所示,方框圈出的是生成图像的局部放大图.DPST 算法作为真实图像风格迁移领域的开创者,生成图像依然保有艺术图像风格迁移算法特性,看上去更像一幅油画制品.WCT2和PhotoNAS算法的生成图像写实感较弱,风格化效果不够明显.例如蓝框中的石块,整体色调太过暗沉,风格迁移效果并不协调.此外,这2种算法在风格迁移过程中丢失了内容信息,导致内容边缘模糊,黄框中的石柱失真明显,生成图片的质量较差.尤其是WCT2算法,内容物边界都包裹了一圈白色的实线,人工合成迹象明显.PhotoWCT2算法生成图像质量虽然有所改善,但整体图像风格迁移效果较差,例如蓝框中的云朵整体色调和纹理不够均匀自然.相比之下,本文算法生成图像整体质量和风格迁移效果较优,风格忠于原图像,纹理表达均匀,色调较协调.
图5 不同算法生成图像细节对比
在互联网中随机选取两张高分辨率(1024×1024)图像作为内容图像和风格图像,通过下采样方式将得到的高分辨率图像分别转换为低分辨率图像(256×256)和中分辨率图像(512×512),并输入到不同算法中做定性对比实验.图6是所提算法与DPST、WCT2、PhotoNAS和PhotoWCT2这4种算法在不同分辨率下的比较结果.从图中可以看出,无论在哪种分辨率下DPST 算法的生成图像都产生了较明显的伪影,无法实现语义信息的表达.而WCT2和PhotoNAS算法分别在生成图像的内容和背景边界处产生了一条灰绿色和橙黄色的渐变伪影带,特别是WCT2算法在内容物边界处还出现了一条细小的白色分界线,致使图像质量大打折扣.不同分辨率下PhotoWCT2算法的生成图像质量较好,与所提算法在内容质量上没有明显的差别,但所提算法对色调和光线的迁移效果相对更好一些,特别是高分辨率的生成图像,效果更加明显.
图6 不同分辨率下不同算法生成图像对比
图7给出了更多生成图像对比结果,本文在DPST 数据集中随机选取5张风格图像和5张内容图像,将这10张摄影图片同时输入DPST、WCT2、PhotoNAS、PhotoWCT2和所提算法当中,得到生成图像中,左一上方为内容图像,下方为风格图像,内容图像涉及人物、建筑物、景物等不同内容结构,包括复杂构图、单一构图、复杂背景和单一背景的情况.从生成图像对比结果可知,DPST 算法产生了不切实际的色彩转移和卡通伪影,严重影响了图像的真实感.WCT2算法纹理比较粗糙,细节信息处理较差,特别是第1行生成图像人物的嘴巴、面容等细节处内容信息模糊,甚至出现块状的棋盘效应.PhotoNAS算法存在纹理,细节信息丢失,在第3行和第4行的图像中结构细节不清晰,内容信息不平滑.PhotoWCT2算法生成图像效果则相对较好,但对于整体色调和纹理信息的迁移还有提升的空间.相比之下,所提算法生成图像具有更好的风格迁移效果,生成图像更接近于摄影图片.
图7 不同算法生成图像对比
从某种意义上说,真实图像风格迁移是一项高度主观的任务.为了评估算法的有效性,进行了一项用户调研.安排60位测试人员,分别对DPST、WCT2、PhotoNAS、PhotoWCT2和所提算法进行对比实验分析.从DPST 数据集中随机选取5组摄影图片,并将它们输入每种算法当中,共得到了25张生成图像.随后,将这25张生成图像分发给每位测试人员进行评估.测试人员需要选出他们认为风格迁移效果最好以及最喜爱的生成图像.共收集了120张投票,并将其转换为平均百分比结果.根据表1,所提算法在风格迁移效果和喜爱度方面都获得了最多的投票数.因此,可以得出结论,相对而言,所提算法是最受认可的真实图像风格迁移算法.这表明在用户主观评价中,所提算法在风格迁移效果和喜爱度方面表现出色.这进一步验证了所提算法的有效性和优越性.
表1 偏好分数百分比
2.3.2 定量评价指标
本文使用结构相似性(SSIM)、峰值信噪比(PSNR)、内容损失(Content loss)和风格损失(Style loss)这4个评价指标进行算法的定量对比实验,可以在一定程度上评价各个算法生成结果的质量优劣.前2个指标高者为优,后2个指标低者为优.分别进行了2项定量对比实验.首先,在DPST 测试集上对DPST、WCT2、PhotoNAS、PhotoWCT2和所提算法进行实验分析.通过计算生成图像与内容图像之间的SSIM 和Content loss值,以及与风格图像之间的PSNR和Style loss值,取平均值得到实验结果,如表2所示.其次,从互联网中随机选取100张高分辨率(1024×1024)图像,其中50张图像用作内容图像,50张图像用作风格图像.将这些图像输入上述几种真实图像风格迁移算法中进行对比实验,并计算生成图像在4个评价指标上的结果.取平均值,得到不同分辨率下的定量指标对比结果,如表3所示.实验结果显示,所提算法在这2个表格中的4个评价指标上都取得了较优的结果.这表明,所提算法在这2种实验数据评估中,在保证图像细节信息不丢失的同时,风格迁移效果都达到了较优的水平,实现了更好的算法性能.
表2 不同算法定量指标对比
表3 不同分辨率下不同算法定量指标对比
2.3.3 消融性实验
本文在DPST 数据集上进行消融性实验,将PhotoWCT2算法作为所提算法的改进基础,为测试通道注意力机制与频率分离通道注意力机制在算法中的作用,在PhotoWCT2算法的每一个编码器块的相应卷积层后加载其中一个模块进行实验对比,实验结果如表4所示.首先在PhotoWCT2算法上添加通道注意力机制,与PhotoWCT2算法相比,4个指标的数值差异都相对较小.由此表明,该算法在风格迁移效果和图像质量上并没有明显提升.根本原因是通道注意力机制中只嵌入了GAP一个频率分量,其余频率分量的所有信息都被忽视了,从而影响了算法性能.而所提算法由于添加了频率分离通道注意力机制,大部分纹理和色调信息经过筛选都得到了有效提升,相较于其余2种算法在4个定量评价指标上都取得了较好的结果,由此验证了所提算法的有效性.
表4 消融性实验定量指标对比
为进一步分析各模块在真实图像风格迁移任务中的作用,图8展示了PhotoWCT2算法加载不同模块得到的生成图像对比结果.其中,左一为内容图像,其右上角为风格图像,方框圈出的是生成图像的放大图.当使用PhotoWCT2算法时,生成图像难以实现较好的图像风格迁移效果,屋顶的颜色不够自然协调,纹理信息不够清晰平滑.添加了通道注意力机制的生成图像在图像质量和风格迁移效果上相较于PhotoWCT2算法并没有明显差异,无法实现较好的算法性能.而添加了频率分离通道注意力机制的生成图像在保证图像细节信息不丢失的前提下,明显增强了算法的风格化强度,纹理清晰,色调和谐,从而证明了所提算法的有效性.
图8 消融性实验生成图像
3 结语
在目前的真实图像风格迁移算法中,生成图像的风格迁移效果并不突出,无法在保持图像真实感的同时增强算法的风格化强度.本文提出的融合频率分离通道注意力机制的真实图像风格迁移算法,通过在每个编码器块的相应卷积层后引入一个频率分离通道注意力机制,将分解得到的不同频率分量并行输入共享感知机模块内部进行自适应筛选,筛选出高价值的纹理和颜色特征,在提高风格化强度的同时,保证了图像的真实感.定性和定量实验结果表明,所提算法能够在保证图像细节信息不丢失的前提下,提高算法的风格化强度,得到优于其他主流算法的整体效果.