结合细粒度自注意力的实例图像着色

2024-06-01刘航普园媛王成超赵征鹏朱朋杰徐丹

计算机应用研究 2024年5期

刘航普园媛王成超赵征鹏朱朋杰徐丹

摘要：尽管基于深度学习的图像着色方法已取得显著效果，但仍存在冗余色斑、着色暗淡和颜色偏差三个问题。为此，提出了一种结合细粒度自注意力（fine-grain self-attention，FGSA）的实例图像着色方法。具体地，首先将提取的特征图分为颜色和空间位置，并结合两者拟合提高颜色和图像空间位置的对应关系，以缓解冗余色斑；其次，受光学摄影HDR原理的启发，利用感受野小的卷积核增强或抑制图像的颜色特征，并结合softmax对特征进行动态映射，从而提高对比度，缓解着色暗淡的问题；最后，组合不同的非线性基函数，增加网络对非线性颜色的表达，拟合出最接近真实图像的颜色分布，以解决颜色偏差。大量的实验结果表明，该方法在实例图像着色中取得了良好的效果。特别地，与当前较优的着色方法相比，该方法在特征感知评价指标LPIPS和FID上分别降低了4.1%和7.9%。

关键词：图像着色；细粒度注意力机制；冗余色斑；着色暗淡；颜色偏差

中图分类号：TP391 文献标志码：A 文章编号：1001-3695（2024）05-041-1569-09

doi：10.19734/j.issn.1001-3695.2023.08.0393

Instance image coloring combined with fine-grained self attention

Abstract：Although deep learning-based image coloring methods have achieved significant results， but there are still suffer from three problems： redundant stain， color dimming， and color deviation. To this end， this paper proposed an instance image coloring method combined with fine-grained attention（fine-grain self-attention，FGSA）. Specifically， it firstly divided the extracted feature maps into color and spatial location， and combined the two parts of the fittingto improve the correspondence between the color and the spatial location of the image to mitigate the redundant color patches. Secondly， inspired by the principle of HDR for optical photography， it utilized convolutional kernels with small sensory fields to enhance or suppress the color features of the image， and combined them with softmax to dynamically map the features， thus improving contrast and alleviating the darkness of the coloring. Finally， combining different nonlinear basis functions increased the networks representation of nonlinear colors and fitted a color distribution that was closest to the real image to address color bias. Extensive experimental results show that the proposed method achieves satisfactory results in instance image coloring. In particular， compared with the state-of-the-art methods， the proposed method improves 4.1% and 7.9% in feature perception evaluation indexes LPIPS and FID， respectively.

Key words：image coloring; fine-grain self-attention; color stain; color dimming; color deviation

0 引言

圖像着色指为输入单色图像中的每个像素分配颜色和感知颜色的过程。图像着色不仅可以赋予黑白照片或影视作品新的意义，也可以作为一种技术手段辅助平面设计师完成作品着色。现有的图像着色方法主要分为交互式着色和非交互式着色两类。交互式着色主要基于用户指导，将用户选择的颜色传播到图像其他像素，或选择一张语义相似的彩色图像，根据相邻像素具有相似颜色的原理，将彩色图像与单色图像语义对应，完成颜色迁移，从而实现着色。然而，交互式着色存在效率低、过度依赖参考图像、着色质量差且不适于批量着色等问题。为解决此问题，大量基于非交互式的着色方法被提出。非交互式着色使用大量的数据集训练网络，学习真实图像的颜色分布，直接映射出灰度图像缺失的彩色像素，从而完成着色。例如，Zhang等人［1］将图像着色建模为一个自监督学习任务，提出了一种新型着色网络框架，且使用加权平滑像素损失方式学习正确的图像颜色。DeepAPI［2］将训练好的着色网络封装为API供测试。Zhang等人［3］提出一种结合先验知识和全局提示的非交互式着色方法，通过局部先验知识使着色网络能任意选择目标颜色，全局信息保证着色网络预测的准确性。Su等人［4］提出了一种非交互着色方法，将着色分解为全局和局部着色，再将局部着色结果融合到全局图像中。然而，当前的非交互式着色方法有三个主要缺陷：a）冗余色斑，非交互式着色在颜色预测阶段未能正确学习到图像的颜色和位置信息，导致颜色和目标对应错误，如图1（a）中第三行矩形框所示；b）着色暗淡，基于深度卷积神经网络（convolutional neural network，CNN）非交互式着色，随着网络的加深，卷积层提取特征的不充分造成中间层的颜色、细节等信息丢失，如图1（b）中第三行矩形框所示；c）颜色偏差，非交互式着色网络中的拟合函数单一，不能准确从颜色分布中拟合出最接近真实图像颜色分布的函数，从而出现色差，如图1（c）中第三行矩形框所示。

针对上述问题，本文提出一种结合细粒度自注意力（fine-grain self-attention，FGSA）的着色网络。本工作主要有以下三个方面的贡献：

a）一种新颖的着色网络。该网络结合细粒度注意力的实例图像着色，包括全局颜色预测网络、实例颜色预测网络、细粒度注意力机制、实例分割网络和融合网络五个部分实现非交互着色。

b）细粒度注意力（FGSA）。本文设计了一个新的注意力机制，该注意力机制将图像特征分为颜色通道和空间位置两部分，两者的结合使网络着重学习图像颜色与位置间的非线性关系，缩小冗余色斑的范围。此外，FGSA扩大颜色的动态映射范围，增强图像颜色特征，缓解结果中的着色暗淡。

c）一个新的融合模块。该模块通过卷积层分别预测全局特征和实例特征的权重图后进行融合，减少颜色偏差。

1 相关工作

1.1 非交互式着色

非交互式着色通过学习网络映射，模拟真实图像的分布，从而完成着色。近年来，深度学习成功应用于计算机视觉诸多领域，如风格迁移［5，6］、字体风格迁移［7］等。一些研究者为了更好地捕获颜色分布，提出了许多基于深度学习的图像着色方法。例如，Cheng等人［8］提出一种基于深度神经网络的全自动着色方法，从不同图像中提取特征，再利用联合双边滤波进一步细化输出的色度值，从而确保无伪影的图像着色。Larsson等人［9］提出一种全自动端到端的CNN着色系统，预测每个像素的颜色直方图，从而使着色效果更加生动。此外，该系统使用语义特征描述符从不同卷积层中提取特征图级联之后作为分类层的输入，使网络更加有效地学习不同尺度的特征，从而提升图像着色细节。Zhang等人［1］提出一种自动着色的网络，作者基于每个像素的颜色分布，使用多项式交叉熵损失进行训练和平衡稀有类，进而增加图像颜色的多样性，但着色结果中存在冗余色斑等问题。Zhao等人［10］使用像素化语义嵌入和像素化语义生成器，使网络正确将语义和颜色对应，从而减少冗余色斑。Treneska等人［11］首次利用生成对抗网络（generative adversarial network，GAN），通过图像着色，实现自监督视觉特征学习。Wu等人［12］将参考图像上色的优势融入到自动上色模型中，利用封装在预训练BigGAN生成网络中丰富多彩的颜色先验来指导图像上色，缓解自动上色中存在的颜色暗淡问题。此外，也有一些研究人员尝试使用新方法来实现自动图像上色。如Wang等人［13］提出了一种新的基于GAN的着色方法PalGAN，它结合了调色板估计和颜色注意。首先从输入的灰度图像中估计一个概率调色板，然后通过生成模型，在调色板的条件下进行颜色分配，并通过颜色注意来处理颜色溢出问题。Ozbulak［14］修改原始胶囊网络的架构，将胶囊网络成功应用到图像上色的任务中。近年来， Transformer在计算机视觉任务中取得了巨大成功，许多基于Transformer的图像着色方法被提出。Kumar等人［15］首次将Transformer应用到上色任务中，实现了高保真质量的图像上色。ColorFormer［16］提出了一种基于颜色记忆辅助混合注意Transformer的图像自动着色方法。最近，Unicolor［17］基于Transformer提出了一种统一的着色框架。在其理论中，通过一个两阶段的着色框架，将各种条件合并到一个模型中。一阶段将多模态条件转换为提示点的公共表示，阶段基于Transformer生成多样化和高质量的着色结果。然而，上述非交互式着色方法有两个问题：a）忽略了着色的细粒度，导致着色位置不精确；b）随着网络的加深，中间层的有用信息可能会丢失。

1.2 注意力机制

近年来，注意力机制在计算机视觉领域取得了巨大的成功。郭璠等人［18］引入通道注意力机制和语义分割引导的空间注意力改善网络对目标的关注程度，使网络聚焦和增强有效特征，提高了对小目标和遮挡变形目标的检测性能。Zhao等人［19］提出配对自注意力和补丁自注意力，配对自注意力对局部近邻特征采用核参数加权得到输出特征，而补丁自注意力的性能比CNN更佳，能够精准地输出非线性映射，两个自注意力的结合很好地实现了特征聚合和特征变换，从而准确地识别图像。Zhang等人［20］在GAN［21］中结合原始自注意力机制，解决了卷积层中感受野所带来的限制，让网络在生成图片的过程中能够自己学习应该关注的不同区域，使得网络不仅能够区分前景和背景，甚至对一些物体的不同结构也能准确地进行划分，生成图片的时候也会更合理。Su等人［22］在视觉和语言模型中引入Transformer注意力模块，通过堆叠多层多模态Transformer，输出具有丰富视觉-语言融合与对齐的特征，从而提高了视觉和语言内容之间细节的一致性。

上述方法的主要目的是通过注意力机制引导网络关注更加感兴趣的区域。然而，忽略了注意力机制在颜色通道和空间位置对图像着色结果的影响。本文重点关注特征图颜色通道和目标位置之间的非线性关系，提高网络对着色图像颜色和位置的对齐能力。

2 本文方法

2.1 问题分析

给定一个灰度图像，本文模型的目标是估计灰度图像的RGB颜色，从而实现着色。从图1的着色结果中可以看到，非交互着色方法结果中主要面临着冗余色斑、着色暗淡和颜色偏差问题。本文试图去分析产生这些问题的原因：a）在颜色预测阶段，模型不能正确学习到图像的颜色和位置信息，这会造成颜色和目标对应错误，从而出现冗余色斑；b）随着网络的加深，卷积层提取的特征利用不充分造成中间层的颜色、细节等信息丢失，从而导致着色暗淡；c）非交互式著色网络中的拟合函数单一，不能准确地从颜色分布中拟合出最接近真实图像颜色分布的函数，导致颜色偏差。

基于上述分析，本文设计了一个新的非交互式着色模型。具体来说，针对冗余色斑问题，本文首先利用目标检测网络提取图像中存在的显著实例，分为全局和实例图像颜色预测。进一步地，在实例和全局颜色预测网络中结合细粒度注意力。该注意力将图像特征分为颜色通道特征和空间位置特征，颜色通道部分学习图像颜色信息，空间位置部分学习图像语义位置信息，颜色通道和空间位置的结合学习图像颜色与空间位置间的非线性关系，使图像颜色与空间位置精确对齐，从而提升着色区域的准确性，约束实例和背景间的冗余色斑。此外，为消除全局和实例图像融合中，融合比重不同导致的颜色伪影，实例图像颜色预测网络和全局图像预测网络使用相同的网络结构，并结合可学习的网络权重参数，让网络根据损失函数不断更新权重比例，直至找到网络的最优解，从而消除融合阶段存在的颜色伪影。针对着色暗淡问题，本文借鉴HDR原理和激活函数的动态映射。使用小感受野的卷积核从不同方向增强或抑制提取到的图像颜色特征，再使用softmax增加颜色范围，提升颜色对比度，从而减少着色暗淡。针对颜色偏差问题，本文基于U-Net颜色预测网络，并结合不同的非线性函数，包括sigmoid和softmax。其中，sigmoid增强网络的非线性表达能力，而softmax拟合最接近真实图像的颜色分布，从而缩小颜色偏差。接下来，本文将详细阐述模型的细节。

2.2 网络框架

2.3 实例分割网络（instance segmentation）

为降低背景对前景实例颜色预测的影响，本文使用目标检测网络Mask R-CNN［23］进行实例检测和定位分割，如图2中part1实例分割所示。实例分割网络从输入灰度图像X中获取N个实例边界框{Bk}Nk=1，并剪裁出对应的N个实例图像{Xk}Nk=1，从而辅助实例颜色预测。也就是说，实例分割能同时生成对应实例的box和mask，box在实例和全局特征融合中提供位置信息，减少颜色伪影或冗余色斑；mask则用于图像颜色预测区域的选择，控制实例着色区域，增加着色精确度。

2.4 颜色预测网络

颜色预测网络分为全局和实例颜色预测两部分，受 Zhang等人［3］方法的启发，本文提出的颜色网络框架如图2中part2和part3所示。本文使用U-Net作为颜色预测的基线，将灰度图像X和{Xk}Nk=1映射为对应的彩色图像Xg和{Xi}Ni=1。具体来说，全局灰度图像X送入全局颜色预测网络中，预测X缺失的a*b*通道图像Xg，并同灰度图像叠加成XG，从而为实例颜色预测阶段和融合阶段训练提供模型参数。相似地，将检测分割出的实例图像{Xk}Nk=1送入同样结构的颜色预测网络中，预测缺失的a*b*通道图像{Xi}Ni=1，并同灰度图像叠加成{XI}NI=1，从而为融合阶段提供初始化实例颜色预测训练的模型参数。为进一步提升颜色和图像目标区域匹配度、增强颜色鲜艳度和缩小预测颜色值和真实颜色值之间的距离，本文分别在全局、实例颜色预测网络中插入细粒度注意力机制。

2.5 细粒度注意力机制（FGSA=PPM+SPM+CM）

为提高网络对颜色预测、着色位置捕获成功率，改善特征表示，拟合真实图像颜色分布，本文提出细粒度注意力机制FGSA，如图3所示。

FGSA由并行极化模块（parallel polarized module，PPM）、顺序极化模块（sequential polarized module，SPM）和联合模块（combination module，CM）组成。PPM模块将图像分为颜色通道特征和空间位置特征，学习颜色与图像位置间的非线性关系，从而解决模型因不能正确学习到图像的颜色和位置信息，造成颜色和目标对应错误导致的冗余色斑问题。SPM模块使用小感受野卷积核增强图像的颜色信息，再结合动态机制提高图像颜色映射范围，以此提高对比度，从而使着色鲜艳明亮，缓解着色暗淡问题。CM模块结合不同的非线性基函数，学习真实数据集中的颜色分布，最终成功约束图像中的冗余色斑，减少着色暗淡和缩小颜色偏差，FGSA映射函数如式（1）所示。

其中：SPM表示串行极化操作；PPM表示并行极化操作；X1T表示输入图像特征;X2T表示PPM输出特征，T表示特征张量tensor；SSM表示softmax操作。

总的来说， FGSA考虑图像着色的根本问题，从提高着色目标位置精度、强化图像颜色特征和拟合真实颜色分布三个角度来提升着色细粒度，进而提升着色质量。具体地，FGSA用于全局和实例颜色预测网络，实现图像颜色特征和位置对齐，增加颜色特征动态范围和拟合真实图像的非线性映射，从而使全局和实例颜色预测网络输出无冗余色斑、着色暗淡和颜色偏差的图像。

2.5.1 PPM提高着色目标位置精度

为缓解图像着色中由于颜色和空间位置不对齐带来的冗余色斑问题，根据卷积块注意力模块（convolutional block attention module，CBAM）［24］、瓶颈注意力模型（bottleneck attention module，BAM）［25］中通道和空间的划分，本文将图像特征分为颜色通道特征和空间位置特征，从而提高着色目标位置精度，分别对应图3 PPM中的channel self-attention和spatial self-attention。PPM由学习着色“什么”的channel self-attention和学习着色“哪里”的spatial self-attention两部分组成，两者的结合增强了网络对图像颜色特征和语义位置的非线性捕捉能力，使图像颜色和位置精确对齐，从而减少着色中的冗余色斑。

PPM映射函数如式（2）所示。

在spatial self-attention中，为了让网络能够学习图像对象中的位置权重，本文将图像特征分别送入两个1×1的conv中，输出不同方向的图像特征。本文将其中一个方向的图像特征进行全局平均池化操作以降低网络的参数量。然后将对应的图像特征张量分别进行不同的reshape操作。之后两条支路中的张量相乘输出图像位置特征，位置特征张量维度为1×HW。为了匹配图像位置特征和避免过拟合，1×HW的图像位置特征进行了reshape和sigmoid操作，从而输出网络对图像位置特征的学习权重1×H×W。channel self-attention对图像颜色通道的学习过程与spatial self-attention的學习过程类似，在此不作过多细述。

2.5.2 SPM强化图像颜色特征

为改善着色结果存在的颜色暗淡问题，本文借鉴光学摄影中的高动态范围成像技术强化图像颜色特征，PPM模块的输出送入SPM模块，结构如图3中的SPM所示。SPM映射函数如式（3）所示。

在颜色通道分离的基础上，使用softmax的动态映射SPM实现图像颜色的高动态对比，从而提升图像色彩，解决着色暗淡问题，如图3中channel self-attention操作前所示，其映射关系如式（4）所示。

HDRch（X2T）=σ1（M1（X2T））×SSM（σ2（M2（X2T）））（4）

其中：HDRch（·）表示图像动态映射增强操作；σ１、σ２表示不同的reshape操作；M1、M2表示不同的conv操作。根据从摄影中不同方向所得同一物体的成像在视觉明暗度和清晰度方面具有层次差异性，本文首先在输入图像特征中分别进行1×1的conv操作，从而输出不同方向的颜色特征，使图像颜色变得分明。再分别将不同方向的颜色特征进行reshape操作。之后，选取颜色信息最多的一个方向进行softmax操作，从而形成一个高度动态范围的颜色特征。softmax如式（5）所示。

其中：XT表示输入特征；xj表示输入特征XT第j个位置的特征；N表示XT的特征数量。最后为了使增强后的颜色特征成功输出，本文根据HDR中的全局映射机制，在SPM channel self-attention操作最后使用sigmoid，使增强后的颜色特征映射到0～1，最终形成高对比度的图像颜色特征。

全局映射为HDR色调映射的一种方式，色调映射是为了使高动态范围的颜色图像能成功限制在一定区间内，然后显示输出。sigmoid作为全局映射的核心，是为了避免使用直方图校准算法只利用很少区域内的色度压缩再拓展，导致的对比度失真，和为了避免线性变换造成的颜色信息丢失。sigmoid如式（6）所示。

其中：Ssig表示sigmoid操作；XT表示输入特征；xj表示输入特征XT第j个位置的特征。

2.5.3 CM擬合真实图像颜色分布

在提高图像目标精度和强化图像颜色特征的基础上，为了拟合真实图像的颜色分布，减小颜色偏差，本文根据不同非线性基函数的作用，提出CM模块，如图3中FGSA的CM部分所示，其映射函数如式（7）所示。

其中：X1T、X2T和X3T表示不同阶段的图像特征。CM在网络本身具有拟合非线性函数的基础上，联合sigmoid和softmax拟合出真实图像的颜色分布，从而缩小颜色偏差。sigmoid使网络的非线性拟合能力增加，而softmax在所有分布中能输出概率最大的一个。联合使用sigmoid和softmax的原因是，单独使用sigmoid激活函数时，网络仅能将网络的非线性表达限定在0～1，并不会得到最接近真实图像颜色的分布函数；单独使用softmax作为激活函数时，网络虽然能选择最接近真实图像的颜色分布，但缺少sigmoid的映射作用和平滑易求导优势，网络难以拟合出接近真实图像的颜色分布。所以本文在整个网络使用ReLU的基础上，结合sigmoid和softmax。sigmoid将颜色映射到0～1，softmax使其中的拟合分布输出概率最大，即最符合真实图像颜色的映射，从而缩小颜色偏差。

2.6 融合模块（fusion module）

2.7 损失函数

图像着色任务中通常使用像素回归损失函数L1或L2训练网络，如Zhang等人［1］使用L2损失函数去优化网络。然而，L2在多模态性质的着色中存在两个缺陷：首先，L2对离群点着色敏感且容易发生梯度爆炸；其次，L2求解速度慢。为避免这两个问题，本文使用L1损失函数优化整个网络，如式（9）所示。

3 实验结果与分析

3.1 数据集

本文方法基于COCO-Stuff［26］训练整个网络，COCO-Stuff有164 000张图片，172个类别，包括80个thing classes，91个stuff classes和1个unlabeled class。为定性测试算法的有效性，本文选择常用于图像着色测试的数据集Pascal VOC［27］作为验证集，该数据集包含20个类别，9 963张标注过的图片，共标注24 640个物体。本文从中随机选取231张测试图像，包含了人、动物、食物、植物、风景、建筑等，并对其裁剪为256×256的大小，进行灰值化处理后送入网络生成彩色图像。

3.2 实验参数

为了适应图像着色任务，本文采用Xavier［28］来初始化网络，采用自定义学习策略，该学习率来自于Cycle-GAN［29］中训练的Demo，本文在此基础上进行调整来适应网络着色训练；优化器为Adam Optimizer［30］，动量设置为0.9。根据第一阶段提取的实例图像，本文在第二、三阶段训练迭代为150个epoch，batchsize为16；第四阶段训练融合网络，epoch为30，batchsize为1。本文方法使用PyTorch 1.6.0和Detectron实现整个网络，并在3块NVIDIA Tesla V100S 的服务器上进行训练，整个网络的训练过程大约需要4天。

3.3 评价指标

现有图像着色的评价标准主要包括主观评价和客观评价。主观评价即人眼观测图像输出图像，评定图像着色质量。目前普遍的客观量化方法包括PSNR［31］、SSIM［32］和LPIPS［32］，为了更有力评估算法的有效性，本文还使用了Fréchet inception distance（FID）［33］、CCI和CNI［34］三个评价指标。PSNR用来度量生成图像的质量和保真度；SSIM用来度量生成图像和真实图像之间在亮度、结构和对比度之间的相似度；LPIPS从图像特征层面来度量它们之间的感知相似性，LPIPS指标为［0，1］，LPIPS越接近0，表示着色结果越接近真实图像；FID用来评估图像质量（清晰度）、生成多样性。FID指标越接近0，表示着色结果质量越好，越接近真实图像；颜色丰富性指数CCI和颜色自然性指数CNI用来评估图像颜色的色彩和自然度， CCI指标通常在［15，30］，图像色彩比较符合人类视觉。CNI指标在［0，1］，越接近1说明图像颜色越和谐自然。

3.4 最新着色方法对比

本文方法对比了五种先进的图像着色方法，包括DeepAPI［2］、EAMSPC［35］、UGIC［3］、ChromaGAN［36］和IAIC［4］。对比方法的着色结果均由作者开源的代码生成。

图像着色定性结果：图5为本文方法对比五种着色算法的测试结果，为了观察分析不同实例数量下图像的着色结果，将对比实验图的测试结果分为单实例着色（图5（a））和多实例着色（图5（b））。从这些结果图中来看，本文方法取得了最优的视觉结果，不存在其他方法中遭遇的冗余色斑、着色暗淡和颜色偏差问题。而次优的结果ChromaGAN存在冗余色斑问题（可以从雪人中看到）。

具体来说，DeepAPI以生成质量较好的GAN作为基线，但其面向对象主要为过去的黑白照片，所以其着色结果主要呈现出着色暗淡和颜色偏差问题，而无明显的冗余色斑，如图5（a）（b）的第二列所示。特别地，图5（a）中的女士头部、烟囱和船等均出现了着色暗淡的情况，图5（b）中的衬衫、草地等都出现了着色偏差。EAMSPC使用了多尺度上色的方法来改善上色结果，但其上色结果偏暗淡，特别是图5（a）第一行的矩形框所示。UGIC通过U-Net来直接预测图像缺失的a*b*通道图像，但其网络缺少能精确拟合图像颜色和位置间非线性关系的部分，其着色结果依然出现一定的冗余色斑，如图5（a）（b）的第四列所示。ChromaGAN结合的语义类分布反馈机制依赖于前期提取特征，而该网络提取特征仅用简单卷积层堆叠，势必会遭遇图像信息的丢失，导致语义类识别降低，从而出现冗余色斑，也就出现图5（a）第五列雪人着色错误。IAIC着色方法对真实彩色图像的颜色、语义位置特征映射提取不准确，出现语义与颜色不对齐，导致出现冗余色斑，且随着颜色特征提取网络不断加深而造成颜色信息的丢失，导致着色暗淡，着色结果如图5（a）（b）的第六列所示。

相比以上五种着色方法，本文方法对应的图5（a）（b）解决了着色中存在的冗余色斑、着色暗淡和颜色偏差问题。此外，当网络生成的结果偏离真实结果时，考虑不同的非线性函数组合能让分布更接近真实的输出。五种着色方法对单实例图像和多实例图像都表现出相同的问题，这说明网络对于存在一定数量实例的图像着色不存在显著差异，也说明网络鲁棒性较好。总之，本文的实验结果进一步表明本文方法在着色位置和对象上对颜色通道和空间位置进行分离的准确性和必要性。

图像着色定量结果：表1列出了不同着色方法如在七项评价指标上的定量比较结果。最优和次优的结果分别用加粗和下画线标出。向上的箭头表示数值越高越好，反之亦然。可以看出，本文方法在所有指标上均取得到了最优或次优的结果。其中，SSIM达到最优，但SSIM提升不大，原因是SSIM不止衡量图像之间的相似程度，也同样衡量生成图像的失真程度。虽然对比方法存在冗余色斑、着色暗淡和颜色偏差问题，但测试结果并未出现明显图像失真，如图像模糊或大范围的冗余色斑，且SSIM基于图像像素的均值和标准差来进行计算，图像中局部冗余色斑、着色暗淡和颜色偏差的像素值中和导致SSIM差距微小。特别地，本文方法的LPIPS和FID指标明显优于其他比较方法，分别比次优方法提升了4.1%和7.9%，提升最大。原因是LPIPS利用Inception网络来提取特征，最后根据高斯模型计算其均值和方差，从而得到特征距离值。FID指标利用卷积层提取特征，再分别计算其对应的特征距离。从本文方法的测试结果可看出不存在明显的冗余色斑、着色暗淡和颜色偏差，但在特征级别这个问题上将被放大，因此LPIPS和FID两个评价指标的提升最大。

为了更清晰地表明提出方法的优越性，本文根据测试集中每张图的LPIPS、CCI绘制了对应的箱线图，如图6所示。在LPIPS箱线图中，五种着色方法在数据分布上的异常值差距较小，相比之下，本文方法的LPIPS值更集中且更接近0。在CCI箱线图中，本文方法的CCI值集中在中位数及均值附近，说明着色结果颜色丰富，但存在部分高异常值，经查验测试结果发现，异常值高的颜色最接近真实图像，且图像中颜色较鲜艳单一，如夕阳和海水等。

3.5 消融实验

为验证所提着色算法中各组成部分的有效性，本文对框架的每个重要部分进行了如下分析：

baseline：初始训练网络。以Mask R-CNN作为实例分割工具，U-Net作为颜色预测主干网络，融合网络作为实例特征和全局特征结合模块。

+FGSA：在初始训练网络的第一、二阶段颜色预测网络中加入细粒度注意力机制（FGSA）。

+FGSA+PPM：在初始训练网络的第一、二阶段颜色预测网络中加入细粒度注意力机制，在第三阶段的生成器中加入极化注意力模块（PPM）。

本文方法：在初始训练网络的第一、二阶段颜色预测网络中添加FGSA，在第三阶段的生成器中加入PPM，在整个网络中使用L1损失函数进行优化。

不同组成部分的定性结果和对应的LPIPS映射图、指标值如图7所示。映射图为评价指标LPIPS值的可视化结果，图中颜色越接近深紫色表示着色图像和真实图像越接近，对应的LPIPS分数值越低；图中颜色越接近黄色表示着色图像越远离真实图像，LPIPS分数值越高。

从图7中可以看出，结合细粒度注意力机制后的着色结果在颜色协调性和接近真实图像上均有显著提升，解决了冗余色斑问题。特别地，结合细粒度注意力机制对网络性能的提升最大。因为FGSA中组合sigmoid和softmax非线性激活函数。sigmoid使网络拟合出多个满足真实图像的分布；softmax从多个分布中选择一个输出概率最大的分布，即最接近真实图像的颜色分布；FGSA中结合卷积核的滤波机制，将颜色特征分为不同的方向，形成不一样的颜色层次，然后通过不同方向特征分离选择性增强或削弱颜色特征，并用softmax进行颜色范围扩大，从而提升颜色色深也就是对比度，使着色结果鲜明；FGSA将图像特征分为颜色通道特征和空间位置特征，颜色通道和空间位置的结合能学习图像中颜色与位置间的非线性关系，使网络训练真实图像怎样让颜色和目标精准对齐，提高着色准确率，减少冗余色斑产生。从图7可以看到，与基线模型相比，当加入FGSA模块后，模型的着色效果有着明显的提升（第一行的天空。图7（b1）（c1）（d1）背景部分的上色结果更接近标签；图7（f1）基线模型前景目标与标签的差异巨大，相比之下，FGSA模型的着色结果与标签更为接近）。与+FGSA相比，+FGSA+PPM的大多数结果在LPIPS映射图、分数值上并没有提高反而降低，是因为FGSA只在全局颜色预测和实例颜色预测网络中加入，未在融合生成器中结合，全局颜色预测模型参数和实例颜色预测模型参数发生改变，实例颜色预测结果和全局图像对应实例的颜色预测位置出现偏差，从而产生冗余特征，但+FGSA+PPM的着色结果比+FGSA更接近真实图像。特别是图7（a1）中的大海，FGSA存在着色错误，而加入PPM之后与标签更为接近。当添加了所有模块后（本文方法），输出着色更真实、无冗余色块的图像，因为冗余色块的产生可以视作异常值，异常值在L2中会被放大，不宜收敛，而L1损失函数对异常值不敏感，且能找到多個解，网络只需通过L1不断学习训练，找到全局最优解，从而输出无冗余色块的图像。

表2總结了不同组成部分的定量结果。从表中可以看出，与baseline相比，各模块的FID、SSIM、LPIPS、CCI和CNI指标均有显著提升。表中加粗为最优结果，下画线为次优结果。

总的来说，每加入一个组件后，模型的上色结果均得到了性能提升，表明这些模块相辅相成，共同改进了着色结果。

3.6 注意力机制对比实验

相关对比实验进一步验证了所提注意力机制的有效性。将所提细粒度注意力机制FGSA与单个的PPM和SPM两个模块进行实验，以此说明双重注意力机制比单个注意力机制着色效果好。此外，本文也对比了两种注意力机制方法，包括经典的和通道与空间结合的注意力机制CBAM［24］和SA［37］，实验测试结果如图8所示。

PPM中虽然包含颜色通道和空间位置，但颜色通道最后输出缺少softmax的动态映射，使得颜色特征范围没有明显扩大，结果出现一定的着色暗淡，但相比其他五种方法，整体着色效果有一定优势，对应的定量指标也处于次优。SPM中虽然包含颜色通道和空间位置注意力，但其颜色通道和空间位置的串行没有并行方式的颜色与空间位置对齐能力强，因为串行方式是先提取颜色特征，然后学习图像位置信息，颜色与空间位置的非线性拟合没那么强，从而在着色结果中出现冗余色斑，但其着色效果和定量指标仅次于PPM。CBAM为初始时期经典的通道与空间位置注意力的组合，但在其结构中，颜色特征与本文方法相比，通道数出现折叠导致颜色信息丢失，同时空间位置上的位置信息也出现相应的折叠，使得两部分的颜色特征和空间位置信息不能够充分学习其对齐能力，等同于该机制对冗余色斑的约束并未达到期望的着色效果，其实验结果也可以看出存在一定的冗余色斑。SA中将特征分为通道和空间位置两个分支，两者结合学习图像颜色与位置间的非线性表达，从而约束一定的冗余色斑，同时结合了组卷积和channel shuffle来减少计算量，但注意力进行分支的同时，颜色通道信息遭遇到一定损失，且没有得到后续补充，导致图像出现着色暗淡，如定性测试结果所示，着色结果暗淡且CCI、CNI指标处于较低水平。与上述注意力机制相比，本文所提注意力机制消除了冗余色斑，增强了色彩并更接近真实图像，并且本文方法提出的细粒度注意力机制在大多数指标上能达到最优。

3.7 损失函数对比实验

为验证本文方法中使用损失函数的有效性，选择了三种最常用于图像着色的像素回归损失函数及其三个组合进行对比，如表3所示。其中加粗为最优结果，下画线为次优结果。

第一个版本Huber loss与L1 loss的组合（HL1），第二版本Huber loss与L2 loss的组合（HL2），第三个版本L1 loss与L2 loss组合（L1L2），第四个版本仅使用L2 loss（L2），第五个版本仅使用Huber loss（H）和最后一个版本仅使用L1 loss（L1）。因为三种像素回归损失函数的组合仍然是像素损失函数，所以其着色结果整体对比先前各种对比实验效果均有一定优势，其对应的大部分定量指标也说明图像着色的整体质量。L2因为其不稳定和解单一等特性，整体着色结果相较其他几种损失函较差。H和L1L2在组成上较为接近，均由L1和L2组成。其损失相较于L2函数，曲线更加平滑和易于求导。相较于L1，收敛更快。但L1具有多个解的优势，这也说明为什么H和L1L2对应的着色结果中存在微弱的着色暗淡和色差等冗余色块，而L1没有，且三者对应的定量指标占据绝大部分的最优和次优结果。本文方法对应最终着色结果得到了一定优化完善。

4 结束语

本文提出一种细粒度注意力机制和融合模块，并应用于非交互式着色网络，能有效解决非交互式着色中出现的冗余色斑、着色暗淡和颜色偏离真实图像等问题。本文提出的注意力机制FGSA将图像特征分为颜色通道和空间位置，以关注在图像上着“什么”颜色和在“哪里”着色，加上滤波与动态映射机制增强或抑制部分特征，消除图像中的冗余色斑和减少着色暗淡。融合模块中的非线性基函数拟合真实图像的颜色分布，以此拉近生成图像和真实图像间的颜色差距，最终完成图像着色中的细粒度任务。同时本文设计一系列对比实验、消融实验、注意力机制对比实验和损失函数对比实验来验证本文算法的有效性。大量实验结果表明，本文提出的细粒度注意力机制与现有的五种先进着色方法相比，取得了较好结果。在未来的工作中，笔者将致力于探索基于扩散模型的着色任务。此外，还将探讨如何将框架作为修复老照片的辅助工具。

参考文献：

［1］Zhang R， Isola P， Efros A A. Colorful image colorization［C］//Proc of the 14th European Conference Computer Vision. Netherlands： Springer， 2016： 649-666.

［2］Antic J. DeOldify image colorization on DeepAPI［EB/OL］. （2019-12-24）［2021-12-01］. https：//deepai. org/machine-learning-model/colorizer.

［3］Zhang R， Zhu Junyan， Isola P， et al. Real-time user-guided image colorization with learned deep priors［J］. ACM Trans on Graphics， 2017，36（4）： 1-11.

［4］Su J， Chu H K， Huang Jiabin. Instance-aware image colorization［C］//Proc of the 23rd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington： DC： IEEE Computer Society， 2020： 7968-7977.

［5］李鑫，普園媛，赵征鹏，等. 内容语义和风格特征匹配一致的艺术风格迁移［J］. 图学学报， 2023，44（4）： 699-709. （Li Xin， Pu Yuanyuan， Zhao Zhengpeng， et al. Conten semantics and style features match consistent artistic style transfer［J］. Journal of Gra-phics， 2023，44（4）： 699-709.）

［6］Kong Fanmin， Pu Yuanyuan， Lee I， et al. Unpaired artistic portrait style transfer via asymmetric double-stream GAN［J］. IEEE Trans on Neural Networks and Learning Systems， 2023，34（9）： 5427-5439.

［7］姚伟健，赵征鹏，普园媛，等. 稠密自适应生成对抗网络的爨体字风格迁移模型［J］. 计算机辅助设计与图形学学报， 2023， 35（6）： 915-924. （Yao Weijian， Zhao Zhengpeng， Pu Yuanyuan， et al. Cuan font generation model of dense adaptive generation adversa-rial network［J］. Journal of Computer-Aided Design & Computer Graphics， 2023，35（6）： 915-924.）

［8］Cheng Zezhou， Yang Qingxiong， Sheng Bin. Deep colorization［C］//Proc of the 15th IEEE International Conference on Computer Vision. Washington DC： IEEE Computer Society， 2015： 415-423.

［9］Larsson G， Maire M， Shakhnarovich G. Learning representations for automatic colorization［C］//Proc of the 14th European Conference on Computer Vision. Cham： Springer， 2016： 577-593.

［10］Zhao Jiaojiao， Han Jungong， Shao Ling， et al. Pixelated semantic colorization［J］. International Journal of Computer Vision， 2020， 128（4）： 818-834.

［11］Treneska S， Zdravevski E， Pires I M， et al. GAN-based image colo-rization for self-supervised visual feature learning［J］. Sensors， 2022，22（4）： 1599.

［12］Wu Yanze， Wang Xintao， Li Yu， et al. Towards vivid and diverse image colorization with generative color prior［C］//Proc of the 18th IEEE/CVF International Conference on Computer Vision. Washington DC： IEEE Computer Society， 2021： 14377-14386.

［13］Wang Yi， Xia Menghan， Qi Lu， et al. PalGAN： image colorization with palette generative adversarial networks［C］//Proc of the 17th European Conference on Computer Vision. Cham： Springer， 2022： 271-288.

［14］Ozbulak G. Image colorization by capsule networks［C］//Proc of the 22nd IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Washington DC： IEEE Computer Society， 2019： 2150-2158.

［15］Kumar M， Weissenborn D， Kalchbrenner N. Colorization transformer［C］//Proc of the 8th International Conference on Learning Representations. 2020： 3388-3411.

［16］Ji Xiaozhong， Jiang Boyuan， Luo Donghao， et al. ColorFormer： image colorization via color memory assisted hybrid-attention transformer［C］//Proc of the 17th European Conference on Computer Vision. Cham： Springer， 2022： 20-36.

［17］Huang Zhitong， Zhao Nanxuan， Liao Jing. Unicolor： a unified framework for multi-modal colorization with transformer［J］.ACM Trans on Graphics， 2022， 41（6）： 1-16.

［18］郭璠，張泳祥，唐琎，等. YOLOv3-A：基于注意力机制的交通标志检测网络［J］. 通信学报， 2021， 42（1）： 87-99. （Guo Fan， Zhang Yongxiang， Tang Jin， et al. YOLOv3-A： traffic sign detection network based on attention mechanism［J］. Journal on Communications， 2021，42（1）： 87-99.）

［19］Zhao Hengshuang， Jia Jiaya， Koltun V. Exploring self-attention for image recognition［C］//Proc of the 23rd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington DC： IEEE Computer Society， 2020： 10076-10085.

［20］Zhang Han， Goodfellow I， Metaxas D， et al. Self-attention generative adversarial networks［C］//Proc of the 7th International Conference on Machine Learning. 2019： 7354-7363.

［21］Goodfellow I， Pouget A J， Mirza M， et al. Generative adversarial nets［C］//Proc of the 28th Conference and Workshop on Neural Information Processing Systems. Cambridge， MA： MIT Press， 2014： 2661-2669.

［22］Su Weijie， Zhu Xizhou， Cao Yue， et al. VL-BERT： pre-training of generic visual-linguistic representations.［C］//Proc of the 22nd IEEE International Conference on Computer Vision. Washington DC： IEEE Computer Society， 2019： 8530-8544.

［23］He Kaiming， Gkioxari G， Dollar P， et al. Mask R-CNN［C］//Proc of the 16th IEEE International Conference on Computer Vision. Washington DC： IEEE Computer Society， 2017： 2961-2969.

［24］Woo S， Park J， Lee J Y， et al. CBAM： convolutional block attention module［C］//Proc of the 15th European Conference on Computer Vision. Berlin： Springer， 2018： 3-19.

［25］Park J， Woo S， Lee J Y， et al. BAM： bottleneck attention module［C］//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Washington DC： IEEE Computer Society， 2018： 6514-6527.

［26］Caesar H， Uijlings J， Ferrari V. COCO-Stuff： thing and stuff classes in context［C］//Proc of the 21st IEEE Conference on Computer Vision and Pattern Recognition. Washington DC： IEEE Computer Society， 2018： 1209-1218.

［27］Everingham M， Ali Eslami S M， Van Gool L， et al. The Pascal visual object classes challenge： a retrospective［J］. International Journal of Computer Vision， 2015，111（1）： 98-136.

［28］Glorot X， Bengio Y. Understanding the difficulty of training deep feedforward neural networks［C］//Proc of the 13th International Conference on Artificial Intelligence and Statistics. 2010： 249-256.

［29］Zhu Junyan， Park T， Isola P， et al. Unpaired image-to-image translation using cycle-consistent adversarial networks［C］//Proc of the 20th IEEE Conference on Computer Vision and Pattern Recognition. Wa-shington DC： IEEE Computer Society， 2017： 2223-2232.

［30］Kingma D P ， Ba J. Adam： a method for stochastic optimization［C］//Proc of the 3rd International Conference on Learning Representations. 2015： 6980-6994.

［31］Horé A， Ziou D. Image quality metrics： PSNR vs. SSIM［C］//Proc of the 20th International Conference on Pattern Recognition. Pisca-taway，NJ： IEEE Press， 2010： 2366-2369.

［32］Zhang R， Isola P， Efros A A， et al. The unreasonable effectiveness of deep features as a perceptual metric［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC： IEEE Computer Society， 2018： 586-595.

［33］Thomas E， Mannila H. Computing discrete Fréchet distance［J］. See Also， 1994，64（3）： 636-637.

［34］Yue Guanghui， Hou Chunping， Zhou Tianwei. Blind quality assessment of tone-mapped images considering colorfulness， naturalness， and structure［J］. IEEE Trans on Industrial Electronics， 2018，66（5）： 3784-3793.

［35］Xia Jun， Tan Guanghua， Xiao Yi， et al. Edge-aware multi-scale progressive colorization［C］//Proc of the 46th IEEE International Confe-rence on Acoustics， Speech and Signal Processing. Piscataway，NJ： IEEE Press， 2021： 1655-1659.

［36］Vitoria P， Raad L， Ballester C. ChromaGAN： adversarial picture co-lorization with semantic class distribution［C］//Proc of the 19th IEEE/CVF Winter Conference on Applications of Computer Vision. Washington DC： IEEE Computer Society， 2020： 2445-2454.

［37］Zhang Qinglong， Yang Yubin. SA-Net： shuffle attention for deep con-volutional neural networks［C］//Proc of the 46th IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway，NJ： IEEE Press， 2021： 2235-2239.

计算机应用研究

2024年5期

结合细粒度自注意力的实例图像着色

杂志排行

计算机应用研究的其它文章