APP下载

基于语义信息和注意力机制的低光照图像增强

2024-10-31李浩彬华云松

光学仪器 2024年5期

文章编号:1005-5630(2024)05-0065-10 DOI:10.3969/j.issn.1005-5630.202307230106

摘要:针对低光照条件下拍摄的图片存在低对比度、噪声等问题,提出了一种结合语义信息与注意力机制的低光照增强方法。首先,利用一对联合训练的U-Net网络,通过共享特征提取器,分别得到低光照图像的初步增强结果和语义信息分布概率图;然后,通过注意力机制模块把通过U-Net网络得到的低光照增强特征和语义特征进行信息融合,解决低光照下图片边缘信息丢失和曝光不足导致的图像模糊不清的问题。实验表明,该方法在处理低光照对比度不高和曝光不均匀图片时,可有效消除图像伪影以及提高图像饱和度与不同区域块的对比度。

关键词:低光照图像增强;注意力机制;语义信息

中图分类号:TP 311.5文献标志码:A

Low light image enhancement based on semantic information and attention mechanism

LI Haobin,HUA Yunsong

(School of Optical-Electrical and Computer Engineering,University of Shanghai forScience and Technology,Shanghai 200093,China)

Abstract:Aiming at the problems of low contrast and noise in low-light images,this paper proposes a low light enhancement method which combines semantic information and attention mechanism.First,a pair of jointly trained U-Net networks were used to obtain the preliminary enhancement results and the distribution probability of semantic information of low-light images by sharing feature extractors.Then,the low-light enhancement features and semantic features obtained by U-Net networks were fused through the attention mechanism module.The problem of imageeb266364daec1b2df0e0d837ca547eb4 edge information loss under low illumination and image blurring under exposure was addressed.Experiment results show that the proposed method can effectively eliminate artifacts when processing low illumination images with low contrast and uneven exposure,and improve image saturation and contrast of different regions.

Keywords:low light image enhancement;attention mechanism;semantic information

引言

针对不理想照明条件下拍摄的低光照图片,存在能见度和对比度低,伴有大量随机噪声,信息传递不尽人意的问题,提出了低光照图像增强技术,解决低亮度、低对比度、噪声、伪影等问题,满足后续计算机视觉算法对图像信息丰富度的要求。

国内外针对低光图像的增强算法进行了大量的相关研究,早期主要以传统算法为主,如直方图均衡算法[1-3]通过概率分布函数(probability distribution function,PDF)将原本小范围分布的输入灰度级映射到另一分布,使二次排列后的的灰度级分布更近似均匀分布,因此可以拉大图像动态范围。它的原理简单,运行计算量小易于实现,但输出图片细节丢失严重,且亮度分布不符合现实规律。小波变换方法[4],由于小波变换具有能量压缩性,即图像经过小波变换后,出现大量数值相对较小的小波系数,一般对应着图像中的噪声,将这部分数值与阈值进行比较后并通过相关函数进行转换得到新的系数,从而达到图像增强的效果。Retinex算法的思路是将图像统一归结为由亮度层L与反射层R组成,人眼感知到食物的颜色和亮度是由物体表面的反射特性决定的,而与投射到人眼的光谱特性无关。通过求解得到反射层R,而后设置更加符合人眼感官的L亮度分量,达到图像增强的目的。如早期的单尺度Retinex(single-scale retinex,SSR)算法[5],通过高斯滤波滤出低频照射分量,得到图像中的高频分量,很好地保留了原图中的边缘信息。从SSR算法的基础上,又发展得到了多尺度带颜色修复的Retinex(muti-scale retinex with color restoration,MSRCR)[6],其原理是将多个高斯核应用于图片,分配合适的权重,并加入色彩恢复因子来调节由于增强过程中带来的颜色失真问题。总之,传统算法下的低光照增强算法普遍依赖于算法构造与正则项的设计,因此对不同场景下的应用,需要进行参数表达式参数的调整,消耗大量的人力。且由于算法对使用者的数学要求高,也不利于算法本身的推广。

由于传统算法的局限性以及计算机硬件的发展,基于深度学习的低光照增强算法逐渐成为了主流。2017年,Lore等[7]首次提出了基于深度学习的低光照图像增强网络LLNet(Low-Light Network),由于硬件条件限制,只能将一张图片拆分为多个图像块训练,表现效果不佳;2018年,Jiang等[8]提出了基于Retinex理论的深度学习模型Retinex-Net,将低光照图片拆分为光照层与反射层后,使用BM3D算法[9]对反射层进行去噪,并对处理结果重新合成得到最终增强效果,该模型解释性强,因此后续涌现了大批基于该理论的低光照增强模型;随后,基于不同网络架构与数据类型的低光照增强方法不断被提出。Jiang等[8]首次将生成对抗神经网络(generative adversarial network,GAN)应用于低光照的图像增强,由于不是利用成对的低/正常光照图像进行训练,带来了极大的灵活性,使得模型可以适应不同场景下的增强;Guo等[9]通过设计一系列无参考的损失函数,实现了零次学习,仅需要输入低光照图片即可完成训练,极大地减少了模型参数,标志着低光照增强模型设计更加轻量化,实时性强,处理效果得到明显改善;Jin等[10]提出了无需标定的raw图像低光照增强。Raw图片,即未经过图像信号处理的图片,由于保留了更多的图像细节信息,故在该类型图片上进行低光照增强时往往有更高的视觉表现及性能上限。该方向中基于标定的方法占据了主流,然而相机标定过程过于复杂,且不同相机间噪声、参数各异,导致降噪网络仅能适用于特定相机。为了解决该问题,Jin等设计了一个包含ELD中所有开源噪声参数的空间数据集,并利用该数据集训练了一个U-Net网络,在实际标定时只需少量目标相机配对数据进行微调,大大减少了标定过程的工作量,使得基于raw类型图片的低光照增强技术可以得到更快的部署;基于Retinex理论的低光照增强方法经常出现颜色严重失真的情况,先前的工作主要通过施加一些额外的先验或正则化参数来解决问题,有很大的局限性。Fu等[11]提出了一种用于Retinex分解的对比学习方法和自知识提取方法,在该网络中通过堆叠的transformer模块获得光照层分量,并引入对比学习来监督反射层分量的估计。通过对比学习引入额外的监督,无需增加额外的正则化参数。

如今的低光照增强深度学习模型,由于缺少图片结构细节信息刻画和图片背景信息认知,常常出现轮廓丢失、曝光不足的情况。为了解决以上所述问题,本文提出了一种结合语义信息与注意力机制的低光照图像增强方法,通过两个阶段逐步由粗到细地对图像进行恢复以及调整。

1融合语义信息与注意力机制的低光照增强

注意力机制模拟了人类对感兴趣区域的注意力分配方式,能够使模型更加集中于重要的信息。而语义信息代表图像或视频中可视内容的解释,分类出图像中不同区域块所代表的对象种类。在一张图片中,同一语义下图像块往往有着相近的的光照分布,同时不同语义块的交接处往往蕴含着物体的结构信息,由此可看出,语义信息特征中的先验信息可以辅助低光照增强进行更加合理的光照分配,边缘信息刻画。基于以上注意力机制以及语义信息特点,提出了一个基于语义信息与注意力机制的低光照增强网络,首先提取出低光照图像以及语义信息特征,后续通过注意力机制,重分配不同区域的增强效果以达到更好的图像增强效果。

该网络完整流程方法如图1所示。首先,利用联合训练网络获得图像初步增强结果与语义信息概率分布图。其中联合训练网络如图2所示,使用成对的U-Net网络分别得到低光照图像增强特征和语义信息特征,在下采样阶段,两个网络使用了共享的编码器,上采样阶段,每个U-Net网络的每一级解码器输入特征包含了另一个U-Net网络的上一阶段的输出,两个网络互相利用另一网络特征信息优化自身的输出结果。在第二阶段中,将初步增强的图像与输入的低光照图片进行拼接后进行特征提取,拼接后的输入不仅包含了原有输入低光照图片的有效信息,同u2NuGezVZLpSYAJxVTewoA==时又带有第一阶段U-Net网络多次编码解码后得到的增强信息特征。对输入的拼接图片进行多次卷积提取出主要特征后,结合语义信息分布概率图,利用注意力机制模块再分配不同特征间的权重信息,在考虑图像间关系的同时,考虑不同语义信息块间相互关系。最后,对输出进行上采样恢复到输入图片的大小,得到最终的注意力权重矩阵,并将输出的权重矩阵与第一阶段增强结果进行相乘,增强图片中的轮廓细节信息,微调场景曝光状态,得到最终增强的结果。

2联合训练的U-Net网络

直接使用低光照图片进行语义分析很难获得理想的分割效果,而U-Net网络具有很强的适用性,其在于语义分割,低光照增强等不同的图像处理应用上均有不俗的表现。因此,可以利用U-Net网络架构的适用性,设计一个共享特征的联合U-Net网络,同时进行有监督的低光照图片的增强与语义信息获取的联合学习,获得语义特征的同时得到初步的低光照增强结果,减少后续网络训练时间。

联合训练网络由一对U-Net网络构成,其基本模块由堆叠的编码器−解码器组成,该网络的输入是RGB格式的低光照图片,进行有监督的低光照图片的增强与语义信息获取的联合学习,具体网络结构如图2所示。两个U-Net网络并不是单独工作的,通过将部分解码器的输出特征进行拼接作为下一个解码器的输入,使两个网络间得以通过共享特征的方式进行联合学习,从而促使低光照增强与语义信息获取的同时进行紧密的学习,同时这也是许多多任务联合学习中常用的方法(如Baslamisli等[12],Tang等[13],Wang等[14])。

该网络的输出结果分别为低光照图片的初步增强结果I和先验信息语义Ψ即语义信息概率分布图P,

Ψ=P=(P1,P2,···,Pk,···,PK)(1)

其中Pk为第k个语义类别的语义信息概率图,其代表的是每个像素点归属于k类别的概率。K是所有语义类的总数。

提取特征阶段编码器卷积网络使用共享的网络权重,编码器由大小为3×3,padding为1的卷积、BN层(Batch Normalization Layer)和ReLU激活函数组成。除了第1个编码器步长为1外,其余的步长皆为2。第1个到第2个解码器同样由大小为3×3,padding为1的卷积、BN层和ReLU激活函数组成,其中步长都是1。后续解码器在原来的解码器基础上多了上采样过程。

该网络的损失函数由几个函数组成,其中图像增强的损失函数Lenhance计算方式为

式中:I为低光照图片的增强结果;Igt为正常照度的场景照片;Ⅱ·Ⅱ2(2)为均方差计算;SSIM对比两个输入图像的结构一致性;损失函数中的最后一项中Δ代表取梯度操作,通过对比两个输入图片中的梯度保证模型的输出与I gt的纹理一致性。

语义信息输出的损失函数Lce为

Lce=一i(Σ)ceM(Σ)log(pi(c))(3)

式中:pi(c)代表像素i属于类别c的概率;M为定义的类集,在本文所采用的数据库中种类数为K=14。

整合以上两个损失函数即为联合训练网络的损失函数为

通过联合网络的设计,第一阶段不仅得到了语义信息分布概率图,同时在对低光照图片进行初步粗犷增强的过程中,实现对图片全局亮度的调整,整体轮廓信息的恢复。

3注意力机制

相较于U-Net网络,注意力机制网络能够根据任务的需要自适应地调整感受野,利用输入的语义信息特征,模型可以更好地理解对象的形状和位置以及轮廓信息,引导网络进行更加合理的低光照特征权重分配,恢复图像轮廓信息与细节,以得到更好的图像增强效果。同时网络通过调整注意力的分配,还可以减少噪声和伪影的干扰,提高模型的抗干扰能力。因此,在第二阶段,引入注意力机制模块融合语义特征信息进行二次低光照增强。

注意力机制模块的结构示意图如图3所示。首先利用一个3×3的深度可分离卷积进行特征提取,之后将得到的特征和语义特征分别通过全连接层后可以得到一个query向量(Q),一个value向量(V),以及一个key向量(K),具体计算过程为

式中:dk表示每个特征向量的维度,值为16;a为输出的注意力。

通过上采样恢复到原图像的大小,即得到输入特征的权重矩阵组W

式中:Wc i为r,g,b不同通道下的权重矩阵。E为一个无限接近于0的数值,在本文中设置为E=1e-9。

最后通过将输入的低光照与输入图片进行相乘后相加即得到经过注意力机制调整后的最终强化效果Io,具体可表示为

Io=(max(WO Ii+Ii),0)(8)

为了减少注意力机制网络的训练难度,此处只使用均方差损失(mean-square error loss,MSE loss)作为该阶段的损失函数,其方程式为

LMSE=ΣⅡIgt-IoⅡ2

注意力机制模块将联合训练网络中提取得到的语义信息与低光照特征通过注意力机制模块进行融合后,输出拼接图片不同位置特征信息的权重,通过权重比对图片进行对比度,色彩失真调整。

4实验结果及分析

程序代码框架选择为pytorch,训练设备配置为英伟达GP100显卡、16G内存。为了适应模型训练要求,数据集的所有图片在加载时会重新调整为320×240的大小,Batchsize设置为4,优化器采用Adam(Adoptive Moment Estimation),学习率设置为0.000 5,优化参数对(β1,β2)为(0.9,0.999),epoch为200。

本文的模型训练分为两个步骤,第一阶段只对图2的联合U-Net网络进行训练,使用损失函数Ljoint,这有助于确保联合U-Net网络能够同时学习到低光照和语义信息的有效特征。第二阶段将训练好的联合U-Net网络参数加载到图1整体网络中进行中进行微调,此时使用的损失函数为LMSE,只进行低光照图片的增强。这种分步训练的方式,可以更好的提高低光照增强效果,降低过拟合风险,在复杂任务和多阶段处理中非常有效。

4.1数据集

本文中使用的数据集来自于Zhang等[15]分享的公开数据集LLRGBD-real,该数据集是在真实场景下,利用打开/关闭室内灯后改变光照条件,只使用一个LED灯照明后通过单反相机进行拍摄后获得。拍摄场景主要是客厅、厨房、浴室、客厅和办公室,包括515对640×480分辨率的正常/低光图像,其中415张图像作为训练集,另外100张则为测试集。除了成对的正常/低光照图片,该数据集还对所有的图片进行了语义分割的标注,将语义类分割为14种。

4.2评价指标

本文的训练中涉及到两部分指标,分别低光照增强效果指标和语义分割指标。其中低光照增强部分的性能指标为PSNR(Peak Signal-to-Noise Ration)与结构相似性SSIM(Structural Similarity)。语义分割的指标采用全局准确度OA(Overall Accuracy),平均准确度mAcc(Mean Accuracy),其计算式为

式中:C是预定义语义信息类别的数量,包括背景类;pii表示被正确预测的像素;pij是属于第i类但被归类为第j类的像素。

4.3语义分割实验

语义分割结果如图4所示,在验证集上OA与mAcc指标分别达到了66.3%和60.2%,对于大多数的语义分割任务而言,这两个数值并不是很理想的效果。这是因为在低光照的情况下,图像中的细节和纹理很难被模型准确地捕捉到,导致模型难以正确地分割出不同的类别。此外,低光照条件下的图像可能存在噪声和阴影等问题,这些也会影响模型的表现。由图4可以看出,尽管出现了不准确的语义分类结果,但总体而言,同样光照强度下的图像块,大部分仍被划分为同一语义块,可以为后续的轮廓增强提供有利信息,因此语义分割部分符合后续模型要求。

4.4低光照增强对比实验

对比实验部分选取了深度学习低光照增强领域具有代表性的5种低光照增强方法,分别是EnlightenGAN[10],RetinexNet[8],KinD[16],MBLLEN[17],Zero-DCE[11],从低光照增强图片的表现效果和性能指标两个方面进行对比参考。

各方法的低光照增强效果如图5所示,从结果中可以看出,采用RetinexNet的低光照增强图像出现了严重的颜色失真和伪影问题。EnlightenGAN、KinD和Zero-DCE的结果中存在着不同程度的过度曝光问题,MBLLEN则相反,在部分场景中出现了亮度增强程度不足的情况。对比之下,采用本文方法得到的低光照增强图片,曝光正常,也未出现严重的颜色失真,伪影等问题。全局的图像亮度更加均匀,没有出现局部过亮或者过暗的情况。不同语义下的物体间亮度有更好的区分度,这些特点说明了引入注意力机制与语义信息后,网络对于全局与局部的亮度把控更加合理,证明了上述方法的有效性。

表1列出了不同方法下PSNR与SSIM的指标对比,由对比可以看出,除外视觉表现效果上的对比,本文方法在定量分析中也取得了最好的效果,也从另一方面说明了本文方法的有效性。

4.5消融实验

在消融实验部分主要通过删除部分模块后,对可视效果与指标数值上进行对比,探讨关于引入注意力机制模块与语义信息的必要性。

如图6(b)U-Net输出图片可以看出,尽管U-Net网络已经达到了一定的图像增强效果,提高了图像的整体亮度,恢复了部分原本低光照图像中难以观察到的细节部分。然而图像的整体仍呈现出亮度偏暗,边缘信息丢失的缺点。与本文方法对比可以明显发现该图片存在饱和度不足,结构信息严重丢失的问题。

图6(c)(d)分别是删除语义信息后模型的输出效果与完整模型下输出效果,尽管差别并不十分明显,但仔细对比仍然可以发现失去语义信息的引导后,模型对于图像整体的结构分布信息的感知能力下降,进而导致输出图片的对比度下降,不同区域块之间的区分度不高。为了进一步观察该现象的原因,在图7中提供了图6中所示低光照图片在增强过程中得到的的注意力权重分配图,为了更好的对比注意力的分布,将三通道的输出结果进行加权平均后进行可视化。通过对比有无引入语义信息的注意力分布可以看出,在加入语义信息后,不同区域块,物体之间的注意力权重有了更加明显的区分。通过在不同区域间的权重分配,避免了图像整体曝光度过于一致化而导致的区分度不高的问题。进一步说明了语义信息的引入对提高模型结构感知能力有很好的提升效果。

图8展示了是否删除注意力机制的增强结果对比图。由图中可以明显看出,在失去了注意力机制模块的引导后,由于亮度分布不均匀等因素,在低光处出现了大量的伪影,在对比之下,加入注意力机制模块后的图像的光线照度整体更加自然,这是因为有注意力机制的引导下,模型在对局细节进行光照增强的同时,也会考虑图像中其他区域块的特征,抑制其中的伪影现象。说明了注意力机制通过合理的权重分布,在有效增强弱光条件下的细节与纹理同时,很好地保留了图像的全局上下文信息,证明了其有效性。

表2列出了删除不同模块后的模型输出结果的性能指标,由表可以看出,加入注意力模块与语义信息不论是PSNR,或者SSIM,都有着不同程度的提升,从指标评估方面也可以证明这些模块的有效性。

5结论

本文提出了一种融合先验信息,即语义信息与注意力机制进行融合的低光照增强方法,利用注意力机制模块融合语义信息,将语义信息中所包含的全局结构信息与低光图像信息进行融合,消除图像伪影的同时,提高图像的饱和度与不同区域块的对比度。使增强后的结果具有更加生动的颜色和真实性,通过对比实验和消融实验证明了本文方法的有效性。今后也将考虑将本文的框架使用其他先验知识进行验证,如可将深度信息作为先验知识引入,与低光照增强进行融合,抑或使用语义信息与图像去雾进行融合等,从而将算法推向更多的应用场景。

参考文献:

[1]董丽丽,丁畅,许文海.基于直方图均衡化图像增强的两种改进方法[J].电子学报,2018,46(10):2367–2375.

[2]KIM J Y,KIM L S,HWANG S H.An advanced contrast enhancement using partially overlapped sub-block histogram equalization[J].IEEE Transactions on Circuits and Systems for Video Technology,2001,11(4):475–484.

[3]IQBAL K,ODETAYO M,JAMES A,et al.Enhancing the low quality images using Unsupervised Colour Correction Method[C]//Proceedings of 2010 IEEE International Conference on Systems,Man and Cybernetics.Istanbul:IEEE,2010:1703−1709.

[4]李庆忠,刘清.基于小波变换的低照度图像自适应增强算法[J].中国激光,2015,42(2):0209001.

[5]JOBSON D J,RAHMAN Z,WOODELL G A.Properties and performance of a center/surround retinex[J].IEEE Transactions on Image Processing,1997,6(3):451–462.

[6]JOBSON D J,RAHMAN Z,WOODELL G A.A multiscale retinex for bridging the gap between color images and the human observation of scenes[J].IEEE Transactions on Image Processing,1997,6(7):965–976.

[7]LORE K G,AKINTAYO A,SARKAR S.LLNet:a deep autoencoder approach to natural low-light image enhancement[J].Pattern Recognition,2017,61:650–662.

[8]JIANG Y F,GONG X Y,LIU D,et al.EnlightenGAN:deep light enhancement without paired supervision[J].IEEE Transactions on Image Processing,2021,30:2340–2349.

[9]GUO C L,LI C Y,GUO J C,et al.Zero-reference deep curve estimation for low-light image enhancement[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Seattle:IEEE,2020:1777−1786.

[10]JIN X,XIAO J W,HAN L H,et al.Lighting every darkness in two pairs:a calibration-free pipeline forRAW denoising[C]//Proceedings of 2023 IEEE/CVF International Conference on Computer Vision.Paris:IEEE,2023:13229−13238.

[11]FU H Y,ZHENG W K,MENG X Y,et al.You do not need additional priors or regularizers in retinex-based low-light image enhancement[C]//Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Vancouver:IEEE,2023:18125−18134.

[12]BASLAMISLI A S,GROENESTEGE T T,DAS P,et al.Joint learning of intrinsic images and semantic segmentation[C]//Proceedings of the 15th European Conference on Computer Vision.Munich:Springer,2018:286−302.

[13]TANG Q,CONG R M,SHENG R H,et al.BridgeNet:a joint learning network of depth map super-resolution and monocular depth estimation[C]//Proceedings of the 29th ACM International Conference on Multimedia.ACM,2021:2148−2157.

[14]WANG F Q,ZUO W M,LIN L,et al.Joint learning of single-image and cross-image representations for person re-identification[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:1288−1296.

[15]ZHANG N,NEX F,KERLE N,et al.LISU:low-light indoor scene understanding with joint learning of reflectance restoration[J].ISPRS Journal of Photogrammetry and Remote Sensing,2022,183:470–481.

[16]ZHANG Y H,ZHANG J W,GUO X J.Kindling the darkness:a practical low-light image enhancer[C]//Proceedings of the 27th ACM International Conference on Multimedia.Nice:ACM,2019:1632−1640.

[17]LV F F,LU F,WU J H,et al.MBLLEN:low-light image/video enhancement using CNNs[C]//Proceedings of British Machine Vision Conference 2018.Newcastle:BMVA,2018:220.

(编辑:张磊)