基于双参考优化的壁画图像色彩还原
2024-02-29徐志刚张聪
徐志刚,张聪
(兰州理工大学计算机与通信学院,甘肃 兰州 730050)
0 引言
敦煌文化汇聚中西文化,其中,敦煌壁画可谓敦煌文化代表,是人类宝贵的历史遗存。这些石窟壁画绘制采用各个时代最先进的绘画理念与技法,记录各个历史时期人们的现实生活,又描绘了人们的理想信念,还与人们的审美观念密切相关,在人文、艺术和历史领域中具有重要的研究价值。
受气候环境、人类破坏和窟内干湿度不均等因素影响,留存至今的敦煌石窟壁画普遍遭受了一定程度的破坏,尤其是受颜料氧化变质、图层空鼓脱落、人为烟熏破坏等因素的影响,导致色彩褪变较为严重,这对敦煌石窟壁画的研究和展示工作造成了极大障碍。因此,探索石窟壁画图像的色彩还原研究尤为重要,使用图像色彩还原技术恢复壁画图像原有色彩也成为近年来的研究热点。
本文提出一种基于双参考优化的壁画图像色彩还原方法。该方法以2 幅参考壁画图像作为参考,进行壁画图像的色彩还原;使用图像优化模块抑制退化壁画图像中易影响色彩还原质量的噪声、划痕等多重退化;构造特征融合模块拼接壁画图像多尺度特征并减少冗余特征;使用双参考指导模块融合2 幅参考壁画图像的色彩风格,从而解决选取与退化壁画图像相似的参考图像困难的问题。
1 相关工作
目前,图像色彩还原方法主要分为传统色彩还原方法和基于深度学习的色彩还原方法。
1.1 传统色彩还原方法
这类方法分别提取图像的内容、色彩信息,然后采用基于类比与规则的混合方法以实现色彩还原。魏宝刚等[1]通过类比方式检索参考图像,并结合变色图像提取对应的色彩区域,确定两者转换关系,完成壁画图像的色彩还原。杨筱平等[2]采用GrabCut算法分割壁画图像中的变色和褪色区域,从未变色区域中采取样本块作为源图像,并将其色彩传递至分割图,从而实现色彩还原。REINHARD 等[3]提出一种适用于各色彩分量的色彩迁移公式,使用统计分析方法使目标图像与源图像的均值与标准差基本一致,从而还原图像色彩。WELSH 等[4]在Reinhard色彩迁移算法的基础上,将目标图像的全部色彩信息传递给原图像并保留亮度信息,但该方法对亮度和色彩对应的一致性要求很高。李娜等[5]在WELSH 算法基础上进行改进,通过邻域标准差建立混合色彩距离测度函数来比较确定像素最佳匹配色彩。总体而言,传统色彩还原方法虽然在一些特定的应用中取得了不错的效果,但是由于缺少图像深层语义的约束,且易受噪声、人为破坏等不确定因素的影响,因此还原效果并不理想。
1.2 基于深度学习的色彩还原方法
近年来,这类方法发展较快。HE 等[6]使用最近邻搜索匹配置信度高的图像块作为参考,并结合线性转换进行色彩迁移。GATYS 等[7-8]计算生成图像与目标图像的感知损失和与参考图像Gram 矩阵的欧氏距离,迭代优化图像风格迁移过程。HUANG 等[9]使用自适应实例归一化将内容图像各通道归一化后的均值和方差对齐风格图像,该方法在加快模型训练速度的同时却易忽略图像的局部细节。SU 等[10]分离图像目标前景实例和背景,分别进行色彩迁移。然而,以上方法还原后的图像在细节纹理保持方面效果较差,因此,研究人员探索如何在还原图像色彩的同时更好兼顾图像的细节。PARK 等[11]提出风格注意力模块,该模块匹配内容图像和风格图像之间的相似区域,并根据内容图像的语义空间分布进行特征融合。徐志刚等[12]使用基于风格注意力的色彩迁移模块进行壁画图像的色彩还原,并构建细节保持模块抑制图像噪声、伪影、假色等现象。HUANG 等[13]提出基于注意力的图像风格化方法,该方法不仅可以实现单幅风格图像的风格迁移,还可以实现多幅风格图像融合后的风格迁移。李超等[14]构建多风格损失函数,实现多风格的融合。LIU 等[15]提出自适应注意力归一化模型。LIN 等[16]提出拉普拉斯金字塔网络,该网络使用自适应实例归一化对低分辨率图像风格化,再逐步提高图像分辨率并进行细节上的修正。WANG 等[17]将图像风格化算法应用到超分辨率图像。
上述基于深度学习的方法主要使用单幅图像作为参考图像来指导色彩还原,这些方法虽然取得了不错效果,但仍存在不足,例如未考虑到壁画色彩还原工作的现实问题:参考壁画图像数量的有限性,无法保证可以选取到与退化壁画图像语义结构、信息、颜色分布、色彩特点相似性高的壁画图像作为参考,从而导致还原结果不尽人意。但是基于多幅参考图像的色彩还原方法大多是基于线性的方法,可以通过人为控制特定权重,以达到不同色彩的还原程度[7,14],这类方法主要应用在自然图像上,未考虑到壁画图像与自然图像在艺术风貌、图像重层[18]、色彩构成等方面的不同,从而导致色彩还原质量较差。
基于上述分析,本文受HUANG 等[13]方法的启发,采用基于2 幅参考壁画图像的方法对退化壁画图像进行色彩还原,并使用图像优化模块和特征融合模块优化色彩还原效果。实验结果表明,本文方法能够抑制壁画图像噪声,在保持图像原语义信息的情况下可以较准确地还原退化壁画图像的色彩,并为壁画图像色彩的还原提供新的思路。
2 算法描述
本文提出基于双参考优化的壁画图像色彩还原方法。该网络结构由编码器-解码器组成,主要包括图像优化模块、特征融合模块和双参考指导模块。其基本思路是先将退化壁画图像通过图像优化模块进行处理,以得到输入壁画图像Ic,使用编码器分别提取输入壁画图像Ic和参考壁画图像的多尺度特征,并分别通过特征融合模块合并优化图像特征;然后,通过双参考指导模块中的区域匹配实现退化图像和参考图像语义对应区域的匹配,并使用最大置信度方法完成2 幅参考壁画图像的风格融合,得到最终参考特征,将最终参考特征与退化图像优化特征合并;最后,解码重建图像,实现色彩还原。该网络结构如图1 所示。
图1 双参考优化网络结构Fig.1 Structure of dual reference optimization network
2.1 图像优化
由于壁画图像绘制年代久远,因此普遍存在大量噪声、灰黑色区域及划痕等多重退化,对色彩还原质量产生极大影响。为减少这些不利影响,本文借鉴自然图像复原方法,构造图像优化模块对退化壁画图像进行预处理,以提高退化壁画图像质量。本文使用WAN 等[19]方法将图像复原模拟成三域转换问题,通过变分自动编码器得到图像潜编码,优化潜编码之间分布的差异,再输入映射网络并解码,最终实现图像还原。通过对退化壁画图像进行预处理得到优化后的退化壁画图像,表达式如下:
其中:I表示退化壁画图像;Ic表示优化后的退化壁画图像。
2.2 特征融合
壁画图像浅层特征包含色彩、纹理、边缘信息,深层特征包含丰富的语义信息,这些信息缺一不可,但编码器编码得到的壁画图像多尺度特征中包含大量冗余特征。因此,本文构建特征融合模块将编码器编码提取的壁画图像多尺度特征通过1×1 的卷积调整为相同的大小并拼接在一起,使用通道注意力机制[20]消除冗余特征,重新赋予新的权重以调整特征强度,得到图像的有效特征,并使用卷积进行平滑处理。特征融合模块结构如图2 所示。
图2 特征融合模块结构Fig.2 Structure of feature fusion module
2.3 双参考指导
根据语义信息将退化壁画图像特征分割成一块块的区域,然后通过区域匹配模块并根据注意力机制分别计算2 幅参考壁画图像与退化壁画图像的语义对应置信度,通过风格融合模块为各区域匹配最优色彩风格,得到最终的参考特征。
2.3.1 区域匹配
区域匹配以ReLU4_1 层的退化壁画图像特征Fc、参考壁画图像特征Fr(i)、参考壁画图像优化特征Fr′(i)作为输入,其中i=0,1。首先采用通道归一化将Fc、Fr输入至公共域中,依赖壁画图像结构和语义相似性进行匹配,然后对归一化后的特征进行卷积并使用Unfold 操作来考虑相邻信息,以提高匹配精度,分别得到利用块注意力机制[13]计算对应分数S,并对S进行Softmax 得到语义注意力图M,表达式如下:
其中:特征越相似M中值越大,为突出语义更相似的风格。将S与M相乘得到置信度,用于计算各幅参考壁画图像与退化壁画图像特征之间的语义对应置信度。将卷积后与语义注意力图M结合并进行卷积得到,根据置信度调整进行风格融合得到参考融合特征,表达式如下:
2.3.2 风格融合
风格融合是在不损害每个参考壁画图像色彩风格的情况下,融合不同风格,并且各风格不能混淆,使用上述置信度指标来决定并调整每个参考壁画图像的多个风格分布,使之看起来更合理。因为在图像高维特征空间中的聚类可以有效地区分具有不同语义的对象,所以在退化壁画图像ReLU4_1 层特征使用K 均值算法对特征向量及其欧氏距离中的空间位置进行聚类。分割图像ReLU4_1 层特征并计算区域对应置信度之和,并选取各区域对应最大的置信度作为参考,以实现相似语义区域风格的最佳匹配,表达式如下:
其中:R表 示图像1 个区域;表示风格k在位置i处的置信度;k表示置信度之和最大的风格;IR表示匹配结果。
2.4 损失函数
本文所提网络使用以下损失函数优化训练:
其中:Lc表示退化图像与还原图像之间的内容损失;Lr、Lcr分别表示参考图像和还原图像之间的风格损失 和上下 文损失;λc、λr、λcr分别表 示内容 损失、风格损失和上下文损失的权重参数,参考文献[13],均设置为3,以平衡3 个损失函数的影响,从而强化还原壁画图像的艺术风格。本文网络使用预训练的VGG19 网络作为编码器并计算损失函数。
2.4.1 内容损失
本文使用自适应实例归一化[9]中的内容损失计算退化图像和还原图像ReLU3_1、ReLU4_1、ReLU5_1 层特征的内容差异,表达式如下:
其中:c表示退化图像;g(c)表示还原图像;f(g(c))表示还原图像特征。
2.4.2 风格损失
本文利用自适应实例归一化[9]中的风格损失计算参考图像和还原图像之间的风格损失,以实现全局风格迁移,表达式如下:
其中:r表示参考图像;ϕi表示VGG19 中第i层的特征。
2.4.3 上下文损失
本文利用上下文损失[13]实现图像参考特征和内容特征之间的语义对应匹配,使用余弦距离计算参考图像和还原图像的每对特征向量,优化还原图像特征和语义近似参考特征之间的映射关系,表达式如下:
其中:M为第n层的特征数;An(i,j)表示第n层特征点i和特征点j的相关性;d表示特征点i和特征点j的余弦距离;ω设置为0.1。
2.4.4 重构验证损失
本文使用风格注意力网络[11]中重构验证损失兼顾图像全局统计信息和语义局部映射,在重构图像时,尽可能保留退化图像中的纹理信息,表达式如下:
其中:Icc和Irr分别表示退化壁画图像Ic和参考壁画图像Ir的网络输出图像;λG和λL分别表示全局损失权重和局部损失权重,参考文献[11]分别设置为1 和50,以更好地兼顾退化图像内容特征与参考特征的全局统计信息和语义局部映射之间的关系。
3 实验结果与分析
本文网络训练使用的数据集包含WikiArt 数据集[21]、KaoKore 数据集[22]和800 张壁画图像,其中,壁画图像来源于《中国敦煌壁画全集》[23]书籍图片和网络资源。本文的实验环境采用Linux 系统下的PyTorch 深度学习框架,网络训练使用预训练的VGG19,采用Adam 优化器[24],学习率为1×10-4,训练迭代次数设置为80 000 次。
3.1 网络结构有效性分析
为验证所设计网络的有效性,本文设置1 组对比实验。本文实验首先加入图像优化模块,对退化图像进行色彩还原;其次在加入图像优化模块基础上加入特征融合模块,对退化图像进行色彩还原,还原结果分别如图3 和图4 所示(彩色效果见《计算机工程》官网HTML 版)。
图3 加入不同模块的还原结果1Fig.3 Restoration results 1 by adding different modules
图4 加入不同模块的还原结果2Fig.4 Restoration results 2 by adding different modules
图3(c)和图4(c)所示为加入图像优化模块的还原结果,图3(d)和图4(d)所示为加入特征融合模块的还原结果。在对退化图像进行图像优化之后的还原结果中,较完整地还原图像退化区域色彩,并消除退化图像中部分模糊及灰黑色区域,有效抑制退化图像中模糊及噪声对色彩还原效果的负面影响,并较完整地保持壁画图像边缘结构及纹理,但仍存在假色区域。图3 和图4 中右下方为方框的局部放大图,图3(c)所示的莲花选取区域左下方花瓣出现蓝色,加入特征融合模块后,消除了之前还原图像中的假色区域,进一步优化还原图像局部细节信息,如图3(d)所示的莲花选取区域的左下方花瓣。将图4(c)所示选取区域的菩萨手部边缘及细节纹理勾勒得更加清晰,减少模糊现象的发生,加入特征融合模块,如图4(d)所示的选取区域。因此,在还原过程中加入图像优化模块及特征融合模块,可以更加准确地还原退化壁画图像色彩,并可以较好地保持退化图像边缘结构及纹理信息,使还原效果得到改善。
3.2 临摹退化壁画图像色彩还原分析
为验证该方法的有效性,本文选取临摹退化壁画图像,分别使用本文方法与具有代表性的文献[3,7,9,16]方法进行对比分析。色彩还原结果对比分别如图5 和图6 所示(彩色效果见《计算机工程》官网HTML 版),图5(a)和图6(a)的第1 行和第2 行分别为参考图像1 和参考图像2。其中,图5(c)~图5(f)、图6(c)~图6(f)是分别使用参考壁画图像1 和参考壁画图像2 对退化图像进行色彩还原的结果,图5(g)和图6(g)所示为本文使用2 幅参考壁画图像共同进行色彩还原的结果。
图5 临摹退化壁画图像色彩还原结果对比1Fig.5 Comparison 1 of color restoration results for degraded mural image
图6 临摹退化壁画图像色彩还原结果对比2Fig.6 Comparison 2 of color restoration results for degraded mural images
从图5 和图6 可以看出,文献[3]方法保持了退化图像边缘结构与细节纹理,但色彩还原过于鲜艳,视觉效果不佳,对于图5 中的参考图像2,文献[3]方法还原了退化图像中舞女的裙摆区域。文献[7]方法使还原图像背景产生大面积色彩混叠,对于图6 中的参考图像2,文献[7]方法还原图像中手部区域中指泛红,使得还原图像部分区域出现假色。文献[9]方法利用参考图像调整退化图像特征,仅注重图像全局色彩,无法有效保持图像细节纹理,对于图6 中的参考图像1,文献[9]方法还原图像中手指关节区域纹理模糊。文献[16]方法通过细化图像局部的方式,虽然保持了图像细节,但是由于缺少语义结构的约束,并受噪声的影响,因此还原图像错误迁移色彩、图像边缘纹理不清晰,对于图6 中的参考图像2,图6(f)还原图像中裙摆区域和手部区域。相较而言,本文方法可以对退化区域的色彩进行较准确的还原,同时较好保持退化图像边缘及纹理。
为验证各个方法对退化壁画图像的还原效果,本文考虑到临摹退化壁画图像缺少未退化壁画图像做参考,因此,使用无参考图像质量评估指标BRISQUE[25]对还原图像质量进行客观评价,同时通过全参考图像质量评估指标结构相似性(SSIM)对还原壁画图像与退化壁画图像的纹理结构相似性进行评价,以综合分析本文方法的还原效果。其中,SSIM 评估值越高,表明临摹退化壁画图像还原结果与原图越相似。BRISQUE 使用壁画数据集预训练后再对壁画图像还原结果进行评估,其评估值越低,表明图像还原效果越优,评估结果如表1 所示。从表1 可以看出,文献[3]方法具有较高的SSIM 值,由于该方法直接优化还原壁画图像的均值和标准差,因此减小了与原始退化壁画图像的误差,但是从色彩还原角度可以看出,文献[3]方法色彩还原效果并不理想,如图6(c)中2 幅还原壁画图像的色彩分布差异明显,且与参考壁画图像的整体色彩特征有明显区别。除此之外,本文方法SSIM 值相较于其他方法更高,且BRISQUE 值最低。由此可见,本文方法对临摹退化壁画图像的色彩还原是可行的。
表1 临摹退化壁画图像还原指标对比Table 1 Comparison of restoration indicators of degraded mural image
3.3 真实退化壁画图像色彩还原分析
为进一步验证该方法的有效性,本文选取真实退化壁画图像,分别将本文方法与具有代表性的文献[3,7,9,16]方法进行对比。色彩还原结果对比分别如图7 和图8 所示(彩色效果见《计算机工程》官网HTML 版),图7(a)和图8(a)的第1行和第2行分别为参考图像1 和参考图像2。其中,图7(c)~图7(f)和图8(c)~图8(f)使用参考壁画图像1和参考壁画图像2对退化图像进行色彩还原的结果,图7(g)和图8(g)所示为本文使用2幅参考壁画图像共同进行色彩还原的结果。
图7 真实退化壁画图像色彩还原结果对比1Fig.7 Comparison 1 of color restoration results for real degraded mural images
从实验中可以看出:文献[3]方法仅还原图像全局色彩,对图像局部区域还原效果较差,例如图7(c)中2 组还原图像中佛像的发饰区域;文献[7]方法在迭代过程中易受图像噪声和灰黑色区域影响,使图像背景产生大面积色彩混叠与假色问题,且还原图像整体偏暗,例如图7(d)和图8(d)中2 组还原图像中的侍女及背景区域;文献[9]方法因为缺少对图像语义信息及边缘结构的约束,使得在风格化过程中丢失部分纹理信息,例如图8(e)中2 组还原图像的侍女嘴唇区域,受噪声影响,而产生假色区域,如图8(e)中2 组还原图像的侍女头发区域;文献[16]方法还原的图像中虽然保持了图像全局结构,但是在还原过程中对图像采用降分辨率的处理方式,使得图像丢失部分边缘信息,例如图7(f)对还原参考图像2 中佛像的发饰区域。此外,还原图像中不同语义区域出现了色彩相同的现象,例如图8(f)还原参考图像2 中侍女的头发与衣服区域均偏绿。相较之下,本文方法以2 幅参考图像共同作为参考,较好地还原退化壁画图像色彩且保持退化壁画图像的边缘结构。
为进一步验证各个方法对真实退化壁画图像的还原效果,本文对上述图像的还原结果进行客观评价,使用无参考图像质量评估指标BRISQUE 和全参考图像质量评估指标SSIM 进行评价,以综合分析还原效果。评估结果如表2 所示。从表2 可以看出,文献[3]方法仍拥有较高的SSIM 值,这是由于真实退化壁画图像中普遍存在较严重的噪声等退化信息,这些退化信息容易与壁画图像本身的线条、纹理细节等内容信息相混淆。在色彩还原过程中,文献[3]方法并未有效去除这些干扰信息,反而保留了下来。从图7(c)和图8(c)可以看到,其整体还原效果并不理想。除此之外,本文方法SSIM 值相较于其他方法更高,且BRISQUE 值最低。由此可见,本文方法对真实退化壁画图像的色彩还原是有效的。
表2 真实退化壁画图像还原指标对比Table 2 Comparison of restoration indicators for real degraded mural images
4 结束语
针对难选取与退化壁画图像相似的参考壁画图像的问题,本文使用2 幅参考壁画图像进行壁画图像的色彩还原,提出基于双参考优化的壁画图像色彩还原方法。该方法采用编码器-解码器网络结构,首先使用图像优化模块抑制壁画图像的多重退化,并通过编码器网络分别提取退化壁画图像和2 幅参考壁画图像的多尺度特征,再使用特征融合模块拼接图像多尺度特征并消除冗余特征,之后使用双参考指导模块进行相似区域匹配并融合参考壁画图像色彩风格,最后合并退化壁画图像特征与双参考指导特征,并解码重建图像,实现色彩还原。实验结果表明,本文方法能够有效抑制图像噪声影响,避免产生色彩混叠,在较好保持退化壁画图像原貌的同时,准确完成壁画的色彩还原。下一步将引入图像细节纹理保持、复杂噪声抑制等方法,并继续探究使用2 幅以上的参考壁画图像进行色彩还原的方法,进一步优化色彩还原质量。