基于增强型超分辨率生成对抗网络的文物图像色彩重建
2023-02-18周小力赖松雨骆忠强
周小力,史 方,赖松雨,骆忠强
(四川轻化工大学 自动化与信息工程学院,四川 宜宾 644000)
0 引言
古代书画作品有着很高的文化、社会、艺术和人文价值,但是由于时间的流逝、环境的变化以及创作纸张、绢布和颜料等因素的影响,许多从古代流传至今的书画作品出现了不同程度的损坏和褪色。目前,我国书画文物的保护修复主要依赖于传统的书画装裱技术[1]。对于褪色和色彩被破坏的书画文物主要采取用毛笔等工具手动填色和修复的方式。这个过程对修复人员的专业要求极高,且在人工修复的过程中可能会对文物造成二次破坏,导致最终的修复结果不能令人满意。虽然一些基于现代科技的文物色彩修复技术被提出,例如基于可见光谱[2-3]的文物色彩修复,但其在修复色彩的同时会造成一些图像的局部细节丢失。因此,利用数字图像修复技术对书画文物暗旧、褪色等问题进行研究具有重要的意义[4]。
在颜色修复方面,Reinhard等[5]第一次提出使用数字图像处理技术对图像进行颜色矫正,但其只对颜色单一的图像有良好的效果,对于颜色复杂的图像会产生较多的误差。胡国飞等[6]在此基础上提出了一种基于统计学的自适应图像颜色迁移技术,在还原色彩的同时能够保留局部纹理信息。2005年,张引等[7]提出了利用无监督学习聚类自动采集样本的颜色还原方法,但该方法对图像纹理特征和亮度特征存在较大的差异时效果不理想。Gatys等[8]利用卷积神经网络(Convolutional Neural Network, CNN)的特征表示来约束纹理以及色彩信息的合成,但是对一些含有噪声的图像来说并不能达到理想的效果。2019年由Hashisho等[9]提出的利用具有U-Net架构的去噪自动编码器开发的水下去噪自动编码器(Underwater Denoising Autoencoder, UDAE)模型实现了对水下图像的颜色恢复。随后,Xu等[10]提出了一个基于参考的端到端的学习框架来实现对旧照片的恢复和着色,参考图像中的颜色先验来指导过程。
上述方法在针对自然图像以及特定场景图像的颜色修复中取得了较好的效果,但是并不适用于书画文物图像这样结构复杂、色彩丰富的图像。因此本文旨在研究一种适用于书画文物图像的色彩重建方法。为了在重建文物图像色彩的同时能保证图像的结构及纹理细节不受破坏,本文提出将图像超分辨率重建技术引入到书画文物图像色彩重建工作中。
图像超分辨率(Super-Resolution, SR)是一种重要的图像处理技术,旨在从低分辨率(Low-Resolution, LR)图像中恢复丰富的细节。近年来,许多基于CNN的SR方法被提出。Dong等[11-12]首先提出了一个简单的图像超分辨率神经网络,并在后续提出了改进网络,提升了训练速度。同一年, Shi等[13]提出了亚像素卷积层,可以在LR空间中实现特征提取。Kim等[14-15]引入了残差学习,并使用高学习率来优化其网络。Lim等[16]提出了增强型深度超分辨率(Enhanced Deep Super-Resolution, EDSR)网络,改进了残差网络内部结构,去掉了BN(Batch Norm)层,减少了内存使用量。2018年,Zhang等[17]提出了深度残差通道注意网络(Residual Channel Attention Networks, RCAN)。Ledig等利用生成对抗网络(Generative Adversarial Network, GAN)[18]在超分辨率领域做了创新,提出了超分辨率生成对抗网络(Super-Resolution Generative Adversarial Network, SRGAN)[19]。随后,Wang等[20]提出了增强型超分辨率生成对抗网络(Enhanced Super-Resolution Generative Adversarial Networks, ESRGAN),改进了SR-GAN的残差网络结构、感知损失函数以及判别器的标准,在自然纹理上获得了更好的视觉效果。
本文基于ESRGAN模型,结合自注意力机制以及颜色迁移算法,提出一种基于增强型超分辨率生成对抗网络的文物图像色彩重建(Color Recenstruction of Cultural Relic Images Based on Enhanced Super-Resolution Generative Adversarial Network, CR-ESRGAN),实现书画文物图像的色彩恢复以及改善画面暗旧的问题。
1 基于增强型生成对抗网络的文物图像色彩重建模型
CR-ESRGAN整体框架如图1所示。
图1 CR-ESRGAN整体网络框架Fig.1 Overall network framework of CR-ESRGAN
该模型针对色彩受损(如暗旧、褪色等)的书画文物图像,在ESRGAN的基础上,提出了运用超分辨率重建的方法生成色彩,得到修复的高分辨率书画文物图像的模型。整体分为训练和测试2个阶段。
1.1 退化模型
图2 CR-ESRGAN退化模型Fig.2 CR-ESRGAN degradation model
颜色迁移算法是由Reinhard等在2001年首次提出的一种实现彩色图像之间整体颜色变换的算法,具体实现步骤如下:
① 将源图像和目标图像由RGB空间转换到lαβ空间。
② 根据lαβ空间各颜色分量不相关的特点,提出了一组颜色迁移公式:
(1)
(2)
(3)
③ 将经过迁移合成后的结果图像从lαβ空间转换到RGB空间。
在本文中,选取色彩未受损以及画面整体较完整的文物图像作为源图像,截取色彩受损(如发黄、暗旧等)文物图像纯色(尽量不包含绘画和书法)部分作为目标图像进行颜色迁移计算,从而使未受损图像的颜色逼近受损文物图像的颜色。部分颜色迁移效果如图3所示。
图3 部分颜色迁移效果Fig.3 Part of the color migration effect diagram
1.2 基于自注意力的生成网络
书画文物图像有极高的艺术价值,每一副书法和绘画作品都包含着丰富的历史信息,承载着一代人的文化底蕴。所以,在书画文物图像色彩超分辨重建任务中,对细节和纹理的恢复有极高的要求。为了实现这一点,本文在ESRGAN生成网络结构的基础上融合了自注意力机制[21],设计自注意力机制残差模块。它能够利用图像的全局特征进行图像超分辨率重建,使重建后的图像拥有更丰富的纹理细节。生成器网络结构如图4所示。自注意力机制残差模块如图5所示。
图4 基于自注意力机制的生成器网络结构Fig.4 Generative network structure based on self-attention mechanism
图5 自注意力机制残差模块Fig.5 Residual module of self-attention mechanism
生成器网络共包含3个模块:初始特征提取模块、自注意力机制残差模块以及重建模块。
自注意力层原理如图6所示。其中,自注意力机制残差模块在ESRGAN中的残差密集块(Residual-in-Residual Dense Block, RRDB)的基础上引入了自注意力机制,由图6可以看出,将RRDB最后一层卷积层中提取的特征图x∈C×N转换为2个空间特征f,g用于计算注意力,其中,C表示通道数目,N表示隐藏层中的特征数目,f(x)=Wfx,g(x)=Wgx。对f(x)输出矩阵进行转置再与g(x)输出矩阵相乘,用Softmax进行归一化后获得注意力图βji。
图6 自注意力层原理Fig.6 Schematic diagram of the self-attention layer
(4)
式中,βji表示在合成第j各区域时对第i个位置的关注度。
自注意力层的输出为o=(o1,o2,…,oj,…,oN)∈C×N,其中,
Wh,Wv是学习到的权重矩阵,通过1×1的卷积实现。接着将注意力层的输出与比例参数相乘,并将其添加回输入特征图,最终的输出为:
yi=γoi+xi,
(5)
式中,γ是一个可以学习的标量,被初始化为0。引入可学习的γ可以使网络首先依赖于局部信息,进而为非局部信息提供更多的权重。
1.3 判别网络
本文的判别器网络结构如图7所示,采用ESRGAN的判别网络。由6个卷积块(Conv)组成,然后是2个线性层。每个卷积块都有2个卷积层块,其中第1个卷积层k=3,s=1即卷积核大小为3,步长为1。第2个卷积层k=4,s=2。每一个卷积块上n的数量都是不同的,即通道数目,具体数值如图7所
图7 判别器网络结构示意Fig.7 Schematic diagram of the discriminant network structure
(6)
由此,判别网络的损失函数表示为:
(7)
相应地,生成网络的对抗损失函数可以表示为:
(8)
改进后的判别网络能够指导生成网络恢复更详细的纹理细节。
1.4 损失函数
(9)
式中,L1为评估重建图像与真实高分辨率图像之间的1范式距离的内容损失;λ和η为平衡不同损失项的系数;感知损失Lpercep是由Wang等在ESRGAN模型中提出的,利用VGG[22]激活层之前的特征计算感知损失,克服了激活后的特征更稀疏的缺点,同时使重建后的图像亮度更接近原始高分辨率图像:
(10)
式中,VGG195_4表示19层VGG网络在第5个最大池化层之前的第4个卷积获得的特征。
2 实验与结果分析
2.1 实验数据集
为了更具针对性地训练模型,本文用到的书画文物图像数据集全部来自各大博物馆官方网站馆藏的书画文物数字图像。数据集总共5 260张,包含了山水、花草、动物、人物、书法和宫室等主题,其中书画材料包含了纸本和绢本等。由于每张图片均来自各大博物馆网站,因此数据集的分辨率并不一致,但平均每张分辨率在2K左右。本文按照60%作为训练集、20%作为验证集、20%作为测试集的方式将它们随机划分。
2.2 实验环境
本文实验所用到的硬件设备为Intel®Xeon®Bronze 3204 CPU@ 1.90 GHz,15.5 GB运行内存,NVIDIA GeForceGTX 1080Ti显卡。软件环境为Windows 10系统下使用Pycharm软件,Anaconda3-4.3.14-Windows-x86_64,cuda_10.0.132,Pytorch作为框架,完成书画文物图像色彩重建实验。
2.3 训练细节
在进行训练之前,将每一张高分辨率图片裁剪为128 pixel×128 pixel大小的图像块进行训练。更大的感受野有助于捕获更多的语义信息。批量大小(batch_size)设置为16。
生成网络以及判别网络的参数设置如图4和图7所示,其中k表示卷积核的大小,s表示步长,n表示通道数目。使用Leaky ReLU[23](LReLU)作为激活函数,并将α的大小设为0.2。
训练分2步:第1步,训练一个具有L1损失的PSNR定向模型,学习率初始化为2×10-4,迭代次数为106。每2×105次迭代后学习率衰减2倍。第2步,使用第1步训练好的模型初始化生成器,生成器使用式(10)中的损失函数进行训练,其中λ=5×10-3,η=1×10-2,学习率设置为1×10-4,迭代的次数为4×105,并在迭代到5×104,105,2×105,3×105时学习率会减半。优化器采用Adam[24],β1=0.9,β2=0.99,ε=10-8。
2.4 实验结果
为了验证本文提出算法的有效性,分别与EDSR,SR-GAN,ESRGAN以及其他色彩还原算法做了对比分析。训练好的模型将用真实的褪色和暗旧的文物图像进行测试,与几种超分辨率方法比较的实验结果如图8所示。
图8 实验结果1Fig.8 Experimental result 1
以上分别是一些山水、花草以及书法作品的实验结果,可以看出EDSR以及ESRGAN算法虽然在结构和颜色方面有了基本的恢复但却出现了颜色恢复不均匀、平滑以及边缘区域效果模糊等问题。而ESRGAN网络虽然在轮廓、颜色和细节等方面较EDSR以及SR-GAN有了更好的效果,但是仍然会出现色彩不均的问题,在重建细节的方面出现一些伪影。本文的算法在色彩重建的效果上明显有更好的结果,在细节重建方面也较ESRGAN有一定的改善,在复杂的结构中也未出现明显的伪影。
图9展示了使用其他色彩还原算法的实验效果以及与本文算法实验结果的对比。
图9 实验结果2Fig.9 Experimental result 2
从图9可以看出,虽然文献[21]在样本2,3,6(分别表示第2,3,6行的图片)上的实验结果从肉眼来看在色彩恢复方面达到了比较好的效果,但是在图像细节和纹理方面却存在很大的问题,出现了纹理丢失、结构不完整的现象。文献[2]在样本3上颜色修复的表现不错,但这是经过大量的实验,在大量图片中选出色彩相近的源图像进行色彩迁移才达到的效果,需要花费较多时间,且同样会出现图像质量差的问题。文献[4]的方法在各个样本上的实验结果均表现出整体色调偏暗的效果。而本文算法在色彩修复以及图像质量2个方面表现良好。
图10展示了一部分用CR-ESRGAN网络对真实褪色、暗旧的书画文物图片的测试结果。可以看出,本文算法在修复书画文物图像色彩受损问题上有一定的效果,且在恢复色彩的同时保证了图片的质量。
图10 测试结果Fig.10 Test results
2.5 评价指标
为了客观地评价本文算法对书画文物图像的色彩重建效果,选取了最常用的图像质量评价指标——PSNR及SSIM来评价重建后图像质量的好坏。同时,引入了色彩评价指标CIEDE2000来评价重建后的图像与真实高分辨率图像色彩之间的差异。其中,PSNR通过比较像素点之间的差异来评价图像质量的好坏,PSNR数值越高,失真越小,表示图像质量越高。SSIM分别从亮度、对比度和结构3方面度量图像相似性,SSIM取值为[0,1],数值越大,失真越小,表示图像越好。CIEDE2000是由国际照明委员会于2000年提出的色彩评价公式,被认为是与主观视觉感知相一致的最佳统一色差模型[25]。具体计算如下:
(11)
表1 不同算法下各个样本的PSNR值Tab.1 PSNR values of each sample of different algorithms 单位:dB
表2 不同算法下各个样本的SSIM值Tab.2 SSIM values of each sample of different algorithms
由表1可以看出,本文算法与其他6种方法相比在PSNR上平均提升了1.801 dB。虽然本文模型计算出的PSNR值比其他算法平均提高了,但整体在PSNR上并没有达到最佳,这一点将在最后给出解释。
由表2可以看出,本文算法在SSIM值上比其他几种算法平均提高了0.04,从另外一个方面反映了本文算法的有效性。
由于上述2种评价指标是从图像整体质量上进行评价的,且PSNR的值并不能准确地反映人眼的视觉品质,因此表3给出了各个样本在色彩评价指标CIEDE2000下的实验结果。
表3 不同算法下各个样本的CIEDE2000值Tab.3 CIEDE2000 values of each sample of different algorithms
由表3可以更直观地看出,本文算法在文物图像色彩修复方面明显优于其他6种算法,并且本文算法计算出的CIEDE2000值比其他6种算法平均提高了7.154 6。
虽然本文算法在PSNR上的整体表现并没有比其他几种算法有明显提升,但是在CIEDE2000上整体表现最优,这是由于PSNR只考虑图像像素误差的全局大小来衡量图像质量的好坏,并没有考虑RGB三个通道之间的视觉感知不同。而CIEDE2000却是到目前为止能够表征人类感知颜色差异最好的度量指标。
综上可知,本文方法在客观指标以及人类视觉感知上表现得更好。
3 结束语
本文在基于增强型超分辨生成对抗网络的基础上实现了褪色、暗旧书画文物图像的色彩重建,针对书画文物图像超分辨重建做了专属数据集。为了重建出更丰富的纹理细节,改进了生成网络结构。通过与以往的算法相比,在主观视觉效果和色彩差异方面都有明显的提升。
本文实现了书画文物图像的色彩重建。但是不同的绘画材料,比如绢面和纸张,随着时间的推移,它们褪色和暗旧的效果是不一样的,更细致的色彩重建工作还有待实现。对于出现裂痕的文物图像如何做到更快、更好地修复,以及如何结合其他知识使得色彩恢复更逼真也是后续需要进一步研究的问题。