隧道场景下行人检测DA-Zero-DCE图像增强算法

2024-02-05李冬春田雨聃

重庆理工大学学报(自然科学) 2024年1期

周桐,李冬春,田雨聃

(1.重庆师范大学计算机与信息科学学院, 重庆 401331;2.重庆工程职业技术学院大数据与物联网学院, 重庆 402260;3.重庆大学自动化学院, 重庆 400044)

0 引言

交通隧道场景下的视频图像检测是当前掌握隧道内的交通状况和安全状况的重要渠道和手段。对于隧道场景下的行人目标检测系统,图像信息清晰度直接影响检测结果准确度。但是,隧道场景下物理设备捕获的图像质量仍然存在以下不足:第一,为了满足监控管理的要求,摄像机处于地面上方某一固定位置,这时虽然可以拍摄到较宽的路面范围,但传回的图像都是远景,其中行人多是弱项目标,像素值低,比较模糊,并且特征信息较少;第二,隧道场景是一种受人造光源影响较严重的,总体亮度比露天场景更低的半封闭场景,图像模糊不清或者因光照或角度遮挡等条件造成隧道背景与行人目标难以区分。这些因素导致常用的图像识别算法很难在隧道交通场景下获得良好的表现,不能满足实际工程要求。因此,如何通过图像增强算法改善隧道场景下物理设备获取的原始图像画质,凸显更多的行人特征信息,对于提高隧道行人目标检测准确性,是一个亟待解决的问题。

目前,国内外学者提出各种理论和算法来解决图像增强问题,原理上可将其分为5种类型:分布映射类[1]、色调映射类[2]、背景融合类[3]、模型优化类[4-6]和深度学习类。其中,深度学习作为近年来发展最快的方法之一,已经被广泛应用于低级视觉任务中。然而,深度学习技术在解决低光照图像增强问题上仍然存在许多挑战[7]。最早基于深度学习技术来解决低光照增强问题的工作从2017年开始,后逐渐发展成为一种主流方法[7]。从实现目的上,基于深度学习技术来实现的低光照增强方法分两类:亮度增强类方法和结合亮度增强与噪声去除类方法。

亮度增强类的方法的核心是通过提升图像亮度来突出图像的更多结构和细节,由于早期缺乏成对数据集的原因,大多采用合成数据进行训练。Chen等[8]基于U-Net[9]架构进行全局增强,并采用Wasserstein GAN(generative adversarial network)的训练机制,然后通过自适应加权达到更快的收敛速度。Yu等[10]使用深度强化对抗学习,将原始低光照图像分割为可反映曝光动态范围变化的子图像,并在子图像上使用策略网络的顺序自动学习每个子图像的局部曝光,以达到整体曝光的平衡。

以上方法都致力于对亮度的估计和提升来增强图像,但是容易忽略一些恶劣条件下图像的噪声问题。因此,结合亮度增强与噪声去除的神经网络模型被提出。Wei等[11]提出了RetinexNet,一种基于Retinex理论的低光照图像增强网络。该网络由光照估计和反射层估计模块组成,能够同时预测图像的光照分量和反射分量。为了训练网络,Wei等[11]还建立了一个基于曝光时间的调整来获得有合成噪声的全新成对数据集(即LOL数据集)。然而,该方法仍然存在一些未知伪影和过于细化的细节,这是因为对中间变量的约束不足。KinD[12-13]是一种低光照图像增强网络,它的架构类似于RetinexNet。与RetinexNet不同的是,KinD在训练过程中加入了更多的损失函数来引导网络的权重更新。另外,Wang等[14]将低光照图像增强的问题看成一个残差学习问题,即对低光照和正常光照之间的残差进行估计。为了准确地估计出残差光照,他们在网络结构中迭代地执行增亮和变暗过程,使用光照反向映射(LBP)来实现。

由于当前成对数据训练机制泛化性能的不足和现有成对数据自身的不精确性,很多旨在减轻对成对数据集依赖的工作正在相继提出。为了使增强图像更加自然,Guo等[15]提出了Zero-DCE(zero-reference deep curve estimation),这是一种基于图像处理软件亮度曲线的像素级别曲线估计卷积神经网络。他们采用逐步推导的方法,设计了一系列零参考训练损失函数,解决了光照不足时的图像增强问题。该网络在训练中不需要依赖于成对数据集,因此在某些特殊场景下具有较好的实用价值。Li等[16]提供了加速的版本Zero-DCE++,显著提升运算效率,性能几乎保持不变。Jiang等[17]提出了一种具有自我注意力机制的生成对抗网络,该网络使用不成对的数据集进行训练。尽管该方法的性能远优于现有的一系列基于GAN的低光增强方法,但由于忽略了物理原理的影响,因此效果总是不如预期,会产生一些未知的伪像。

近年来,计算机视觉技术飞速发展,在交通领域中也发挥极大作用,如车牌识别、行人检测等。其中,基于深度学习的视觉识别技术用于隧道场景下的行人检测也逐渐开始应用。然而,受光线强度、角度以及物体遮挡影响,导致隧道拍摄图片成像质量较差、局部区域亮度偏低、噪声较多,在不升级硬件基础上,通过软件优化交通隧道场景下行人图像的相关研究工作较少。Guo等[15]提出的Zero-DCE算法能有效增强图片中的弱光部分,但是,其光照特征提取主干网络的设计比较简单,导致模型在增强弱光时损失了图片中较多的特征和细节,且增强效果受原始图像限制,特别是当原图中含有噪声时,算法表现更为敏感。因此,该模型虽具有较高的泛化性,但在实际工程应用场景中表现不如预期。

为了更好地对隧道场景中的图像进行优化和增强,本文中提出DA-Zero-DCE(denoising-attention based zero-reference deep curve estimation)算法模型,其在Zero-DCE[15]模型基础上加入了NAF-Net[18]噪声去除模块,将原算法低光照增强后的数据再进行去噪处理,从而进一步提升图像质量。此外,该算法还改进了低光照增强部分的损失函数,将空间一致性损失从4邻域计算改为8领域计算,让光照增强后的图像与原图具有更好的结构相似度;将低光照增强的主干网络替换为U-Net结构[9],让输出特征图具有更多的语义信息,在适当损失泛化性的同时提高了结果的增强质量;加入坐标注意力机制Coordinate Attention[19]让网络更加关注需要低光照增强的区域,从而缓解增强后图像整体过曝的情况。

1 算法设计

Zero-DCE[15]以一幅原始低光照图像作为输入,通过主干网络DCE-Net提取图像特征,训练亮度参考曲线参数图,然后利用训练的结果对图像亮度进行像素级别调整。经过多次迭代得到增强后的图像,总体处理流程如图1所示[20],参数迭代见式(1)。

图1 Zero-DCE算法总体流程

LEn(x)=LEn-1(x)+Λn(x)LEn-1(x)(1-LEn-1(x))

(1)

本文在Zero-DCE算法的基础上,对低光照增强的算法处理过程进行了改进与优化,如图2所示。

图2 DA-Zero-DCE算法流程

首先,通过5层U-Net网络结构作为光照估计的主干网络对输入图像进行特征提取;然后,在特征输出结果上加入坐标注意力机制,让网络自身更加关注需要被增强的局部低光照区域,再通过输出各像素的光照估计参数,计算出光照增强后的图像;将弱光增强后的图像送入去噪模块NAF-Net,对图像进行噪声去除,输出最终结果。此外,通过对损失函数的优化,本算法可以在训练过程中获得低光照增强与图像去噪的双重能力。与原算法Zero-DCE相比,本文中提出的DA-Zero-DCE隧道低光照增强算法在局部光照优化与图像去噪方面有明显提升。

1.1 坐标注意力机制

由于轻量级网络模型的参数数量和计算能力限制,目前应用在该类模型上的注意力机制以Squeeze-and-Excitation (SE) attention[21]为主,依赖于在2D数据上做全局池化操作来计算通道维度的权重,最后与通道数据相乘得到注意力的作用结果。从过程中可以看出其计算过程比较简单直接,并且数据处理的角度有限,仅仅关注了通道维度的全局信息而并未考虑局部的特征分布,然而局部特征在视觉类任务中对图像结构的学习和感知尤为重要。

DA-Zero-DCE将主干网络设计成U-Net结构与坐标注意力机制相结合,使得主干网络不仅可以学习到图像的跨通道特征,还可以捕获对于方向与位置敏感的信息,使主干网络在不需要大量增加算力消耗的同时可以学习到需要进行亮度增强的局部感兴趣区域,坐标注意力机制结构如图3所示,其中,C为特征图通道维度,H、W分别为特征图的宽、高维度,r为通道压缩倍数。

图3 坐标注意力机制结构

基于精确的位置信息与通道的对应关系和长期依赖性编码,坐标注意力机制实现了注意力作用过程,步骤大致分为坐标信息嵌入以及坐标注意力生成2步。首先,通过H维度和W维度的平均池化操作得到每行与每列的权重分布,然后通过数据堆叠的方式进行合并,合并以后经过卷积层与正则化层和激活函数。然后,将结果拆分为H维和W维的数据,拆分的数据并行进入一个卷积层和Sigmoid激活函数。最后,生成H维的权重和W维的权重,与输入特征图进行相乘,即可得到坐标注意力作用后的结果。

1.2 基于U-Net改进特征提取主干网络

神经网络的特征提取性能将极大地影响后续的预测结果,相对使用复杂的卷积神经网络来提取图像的特征,轻量级网络具有参数少、计算量小、推理时间短等特点,能极大地提升模型特征提取效率,可以非常好地应用于实际的工程场景或移动设备上。U-Net作为这种轻量级的特征提取网络的代表,被广泛应用于实际场景中。

U-Net采用encoder-decoder结构,参考图4(a),分为编码部分和解码部分,左侧的编码部分的实现为典型的VGG网络中的下采样模块的组合,下采样模块由2或3个重复堆叠的3×3卷积和ReLU层构成,而每个模块间通过最大池化操作对宽高尺寸进行缩放。而右侧的解码部分则是每层通过2×2的卷积核,步长为2的转置卷积来实现上采样操作,使通道数减半且宽高加倍。然后,与编码部分每个模块的提取结果进行通道维度的拼接,再经过2个3×3的卷积和ReLU层。经过4次这样的解码操作后,通过1×1的卷积层调节最后的通道数,再结合全连接层来调节最后的输出shape。

图4 特征提取主干网络结构

U-Net具有浅层和深层卷积的特征融合操作,一方面,浅层卷积能获取到更多细节特征;另一方面,深层卷积更加关注高层语义特征,通过连接的方式使得特征图兼顾了二者。下采样操作通常容易丢失一些边缘细节信息,而这些信息在上采样中无法通过学习得到,而通过连接的方式则可以弥补这种信息的缺失,使最后的结果更加具有准确性。因此,我们将Zero-DCE算法中用于生成光照估计曲线的特征提取主干网络DCE-Net替换为U-Net,在输出结果前加入坐标注意力模块,作为DA-Zero-DCE的主干网络结构,如图4(b)所示。

1.3 NAF-Net去噪模块

增强后的图像虽然暗光区域的特征得到加强,但仍然存在一些噪声。为此,引入了NAF-Net去噪模块来对调整后的图像进行去噪处理,其结构如图5所示,其中,⊙为矩阵点乘,*为按通道相乘。(d)为模块总体架构,(a)为NAF Block内部结构,(b)为简化后的通道注意力机制SCA(simple channel attention),(c)为用于替换GELU激活函数的结构SimpleGate。

图5 NAF-Net模块结构

模块参考了U-Net结构,采用基于块的跳跃连接堆叠方式,充分减少了内部块之间的复杂度。此外,还加入LayerNormal层使得训练更加平滑,可以通过放大学习率的方式提升性能。GELU激活函数在保持降噪性能的同时可以大幅提升模型去模糊化的性能,但由于其复杂性影响模型效率,使用SimpleGate替换原始ReLU激活函数,简化模型结构。此外,简化版通道注意力机制(SCA)可以满足计算效率的同时引入全局信息。

通过DA-Zero-DCE算法,图像增强功能具有局部暗光区域提亮的同时,噪声也得到了消除与缓解。

1.4 损失函数设计

NAF-Net去噪模块让整个算法模型具有了图像去噪能力, CharbonnierLoss损失引导去噪部分结构的权重在反向传播时进行学习和更新,去噪损失函数如式(2)。

(2)

Losstotal=WexpLossexp+WtvALosstvA+WcolLosscol+WspaLossspa+Lossdenoise

(3)

Lossexp代表图像曝光损失,如式(4)。

(4)

式中:E为图像亮度中间值,一般取0.6[15];Y为大像素区域中亮度平均值;M为大像素总个数。

LosstvA代表图像的光照平滑损失,如式(5)。

(5)

式中:N为迭代次数;▽x和▽y分别表示水平和垂直梯度算子,即当前像素与左方像素的差值以及当前像素与上方像素的差值。

Losscol表示色彩恒定损失,如式(6)。

(6)

式中:p与q遍历了RGB颜色通道中的两两组合,Jp表示颜色通道p的平均亮度值。

Lossspa代表空间一致性损失,如式(7)。

(7)

从式(7)中可以看出,该损失函数的思路是通过类似卷积的4个滤波器来刻画单一像素与4个邻域之间的空间差异性,再与原图做最小二乘法。其中,K是图像的总像素个数,i是像素遍历索引,Ω(i)是第i个像素的4邻域,Y与I分别为增强图像与输入图像。在DA-Zero-DCE中,将Ω(i)作用范围进行了扩大,即与第i个像素相邻的8个相邻像素,提高了增强图像与原图的空间一致性。

最后,在总损失Losstotal的计算表达式中,权重项Wexp、Wcol、Wspa、WtvA分别为10、5、1、200[15]。

2 实验与分析

2.1 实验设置

DA-Zero-DCE算法的训练与测试在CPU为i5-10400、显卡NVIDIA GTX3070 Lap-top(8 GB)、内存16 GB平台上进行,深度学习程序基础框架Pytorch。训练参数包括:轮次为300次、批次大小为5、优化器采用Adam、初试学习率为0.000 1,学习率按余弦函数衰减。

2.2 数据集

本文所用的模型训练数据集为LOL,其中包含了500个低光照与正常光照图像的配对,图像尺寸为600(w)×400(h),通道数为RGB三通道,其中大多数图像通过调整相机的曝光时间和ISO来得到。虽然Zero-DCE的训练不需要正常光照的图像来计算损失,但由于引入了图像噪音去除模块,所以需要通过最终的正常光照图像来衡量去噪损失,改进的算法训练过程如图6所示。

图6 训练过程数据变化

2.3 评价指标

本文采用了峰值信噪比(PSNR)和结构相似性 (SSIM)来评价图像增强的效果。PSNR峰值信噪比使用较为广泛,是一种误差敏感的图像质量评价指标;SSIM结构相似性指标考虑到了人眼的视觉感受,分别从对比度、亮度以及结构3个方面去衡量与计算图像的相似性。PSNR值与SSIM值越高,表明算法增强后的结果图像质量越优。

2.4 实验分析

由于该算法的应用场景是在交通隧道对隧道行人进行目标检测,因此,对于隧道中图像的增强能力需要进行实验和证明。

通过收集到的隧道图像,对本模型进行训练和预测,图像增强结果如图7所示,图7(a1)—图7(a3)为原始图像输入,图7(b1)—图7(b3)为LI提出的隧道图像增强算法[22]增强后的图像输出,图7(c1)—图7(c3)为DA-Zero-DCE算法增强后的图像输出。

图7 DA-Zero-DCE算法对隧道场景下的增强图像

通过图7可知, DA-Zero-DCE算法对于隧道场景下的图像,在保证暗区部分光照的提升的同时也很好地平衡了图像噪声。由于LI提出的隧道图像增强算法处理单张图片的效率约2 s,对比图8中的处理效率,本算法对单张图像的增强所耗的时间约50 ms,当前隧道视频流的处理能力需求在20 fps左右,可以在一定程度上满足工程要求。

图8 DA-Zero-DCE算法与Zero-DCE算法效率曲线

为验证所提模型在增强图像上的有效性,对比了原始Zero-DCE 算法,LI提出的隧道图像增强算法[22](P7)以及DA-Zero-DCE算法。

从表1可以看出,U-Net结构的替换(P3—P6)、NAF-Net去噪模块(P2、P6)、坐标注意力的引入(P4-P6)对算法的PSNR和SSIM的提升较为明显,而损失函数的改进(P1—P2、P5—P6)对于两大指标的提升则较小。以上指标对比结论可证明DA-Zero-DCE模型的相关改进对于增强结果是有效的。

表1 各项改进组合与评价指标(基于LOL数据集)

此外,为验证通过DA-Zero-DCE算法增强图像对行人检测准确性的提升,基于经典图像分类模型AlexNet[20],对图9中采用DA-Zero-DCE算法增强前(a1)—(d1)与增强后(a2)—(d2)的图片进行是否包含行人的分类预测,预测结果如表2所示。

表2 AlexNet模型预测结果

图9 DA-Zero-DCE对真实隧道行人图像的增强效果

从表2的AlexNet模型预测结果可以得出,对比原始图像,使用DA-Zero-DCE算法增强后的图像的预测置信度有了显著提升,进一步验证了本文算法在图像质量优化层面的有效性。

3 结论

隧道场景下的行人目标检测,图像质量很大程度上决定了目标检测结果的准确性。然而,隧道拍摄的图像受环境限制,通常存在局部偏暗、噪点较多等问题。为优化隧道场景下成像质量,本文中提出了一种基于坐标注意力机制的隧道行人检测图像增强算法DA-Zero-DCE,在Zero-DCE算法基础上,把主干网络改进为U-Net结构,并结合了坐标注意力机制,将空间一致性损失函数扩展到了8邻域的损失计算,优化结果的平滑度,缓解输出失真和局部过曝的现象。为进一步减少输出结果的噪声,引入NAF-Net图像去噪模块,可有效去除输出图像中的大部分噪声,使最终的增强效果更清晰。通过相关的消融实验和效果验证,对比Zero-DCE算法,在增强结果上PSNR提升约10 dB、SSIM提升约0.1,证明了相关改进的有效性。此外,基于AlexNet分类模型,对比原始图片和增强图片识别结果的置信度可得出,通过本算法对原始图像增强后,有利于提升隧道行人识别的准确性。