面向暗光场景的目标偏振/可见光融合检测方法
2024-05-17马如钺王晨光曹慧亮
马如钺,王晨光,曹慧亮,申 冲,唐 军,刘 俊
(1.中北大学 信息与通信工程学院,太原 030051;2.中北大学 仪器与电子学院,太原 030051)
0 引言
偏振是光的重要物理特性,它可以表征场景中任何物体反射的光波,即使在弱光照或强反射的情况下,偏振也能够描述物体的重要物理特性,包括其表面几何结构、材料性质及其粗糙度。反射光的偏振态与物体的强度、形状和反射特性等物理特性高度相关[1]。偏振成像技术是通过获取线偏振度(DoLP,degree of linear polarization)图像和偏振角(AoP,angle of linear polarization)图像来获得目标的内在属性,作为一种先进的技术,它不仅能获得目标的偏振信息,还能提供二维空间的光强分布特征,在许多领域都有广泛的潜在应用,包括目标探测[2-3]、通信[4]、水下探测[5]和医疗成像[6]等领域。
然而光的偏振特性容易受到环境(如雾霾、阴雨、弱光)的影响,使得偏振图像质量难以达到适用水平。由于可见光图像和偏振图像往往具有互补特性,研究人员通常采用将DoLP图像与 AOP 图像融合或将DoLP图像与可见光图像融合等方法来增加图像信息,从而提高单幅偏振图像的多维细节信息。偏振图像融合方法主要分为传统融合方法和神经网络融合方法两类,目前较为常见且应用广泛的为神经网络融合方法。2021年,文献[7]提出了一种新型的自学习策略深度神经网络,实验验证该方法在视觉质量和定量测量方面均优于几种最先进的方法;2022年,文献[8]利用改进的小波模式最大值算法提取光强图像和偏振度图像的边缘,然后对两个边缘进行细化和融合得到最终的边缘信息,最终可获得边缘更清晰的融合图像;文献[9]提出了一种基于 Transformer 的深度神经网络,对红外偏振图像的长程特征进行编码,利用自注意机制获取全局上下文信息,以提高红外偏振图像融合的性能;文献[10]通过像素信息引导和注意力机制提出了一种新型无监督偏振和可见光图像融合网络,设计了损失函数来执行融合图像与源图像之间的像素分布约束,展现出更丰富的偏振信息和更优良的亮度。这些融合方法都为后期偏振成像在目标检测等领域打下坚实的基础。
目标检测是计算机视觉领域内的热门研究课题,其目的是在图像中定位出目标的位置并识别出目标物的类别,近年来深度学习算法在目标检测中的广泛应用足以证明其优越性,不仅可以高精度检测物体,还在处理速率上达到质的飞跃。目前基于深度学习网络的目标检测算法主要分为两类:第一类是两阶段目标检测算法,例如Fast R-CNN(Region-convolutional Neural Network)[11]、Faster R-CNN[12]、Mask R-CNN[13]等,这类算法将检测任务分为两步,相比传统目标检测算法能够提取到更加丰富、深层的图像特征信息,同时检测精度和检测速度都得到了大幅的提升,但两阶段算法仍然难以满足实时目标检测的要求;因此第二类单阶段目标检测算法应运而生,例如SSD(Single Shot MultiboxDetector)[14]、YOLO(You Only Look Once)系列算法[15-18]等,此类算法直接将图像输入检测网络,能够达到实时检测的要求,因此单阶段算法成为目前热门的研究方向,应用领域也更加广泛。文献[19]针对小目标物体提出了一种特征金字塔结构RetinaNet,有效提升了小目标的检测精度;文献[20]提出了基于中心点的方法CenterNet,使用关键点估算来寻找中心点,并对所有其他物体属性进行回归,如大小、三维位置、方向甚至姿态等;文献[21]使用单个卷积神经网络将物体边界框检测为一对关键点,将目标检测分为图像分类和目标定位两个子任务,并且引用了新型池化层,解决遮挡和多目标问题。文献[22]将卷积模块替换为基于自注意力机制的swinblock结构,将注意力机制计算限制在非重叠的局部窗口,同时允许跨窗口连接,获得较好的检测效果。
尽管目前的图像融合算法和目标检测算法已经取得了较好的性能,但针对偏振目标的检测,尤其是极端天气下的目标检测研究还不够充分,同时目前也没有公开使用的偏振数据集,这对偏振成像下的目标检测的研究有一定阻碍。为研究暗光条件下的目标检测,提高基于偏振成像的目标检测精度,本文首先构建了暗光场景下的偏振数据集,提出了一种基于卷积神经网络的可见光图像与偏振图像融合网络,对损失函数进行了优化,以更大程度地还原偏振图像细节信息。还引入了一种基于拉普拉斯算子的图像增强方法,利用待测目标灰度与偏振图像中背景噪声灰度之间的差值来提高偏振图像的质量,最终得到同时具有偏振信息和可见光信息的待测目标。在偏振图像增强的基础上,基于YOLOv5s提出了一种轻量化自注意力机制的目标检测模型。通过引入CA(Coordinate Attention)注意力机制,不仅同时引入空间注意力和通道注意力,还考虑到长程依赖的问题,有效实现了检测精度的提升。最后,我们使用主观和客观的评估标准对融合算法以及目标检测算法进行评估,并将提出的目标检测算法与几种经典目标检测算法进行比较,使用多个评价指标来评估所提出的网络的可靠性和可用性。
1 图像融合网络
本文所提出的图像融合网络总体架构如图1所示,旨在实现更好的图像融合效果。该模型基于卷积神经网络(CNN,convolutional neural network),主要由3部分组成:编码器、融合模块和解码器。首先,将可见光图像S0和偏振度图像DoLP同时输入编码器,分别提取其图像特征,然后由图像融合模块进行融合,最后,融合后的特征图进入解码器,以便解码器重建最终的融合图像。在该网络结构中,滤波器和步长分别为 3×3 和 1。在整个过程中,图像大小不会改变,并使用零填充操作来确保图像大小的一致性。表1为具体的网络配置参数表。接下来将详细介绍这3部分的结构与作用。
表1 网络配置参数
图1 本文提出的图像融合网络架构
1.1 网络结构介绍
图2 Dense Block网络架构
融合网络部分:将两个特征图进行物理拼接,得到一个包含128个通道的融合特征图,然后将其作为解码器的输入。其中活动水平测量和融合规则在随后的卷积层中自主学习,无需人工设计。
在数字图像处理领域,拉普拉斯算子[26]常用于图像增强、边缘检测和模糊判定等任务。它也是工程数学中常见的积分变换,具有旋转不变性,即无论图像如何旋转,得到的响应都是不变的。当图像灰度发生剧烈变化时,对其进行一阶微分会形成局部极值,而对其进行二阶微分则会形成过零点,这个零点的一边会产生波峰,另一边会产生波谷,因此可以设置一个阈值来检测这个过零点。函数的一阶微分和二阶微分如图3所示。
图3 函数的一阶微分和二阶微分表示
二维图像的拉普拉斯变换是每个同相项的二阶导数,其定义如下:
(1)
在数字图像处理中,平面图像可以看作是像素点在x和y两个方向上的集合排列,在分布上是离散的,因此拉普拉斯算子一般使用微分近似,如下式所示:
▽2(f)=f(x+1,y)+f(x-1,y)+
f(x,y+1)+f(x,y-1)-4f(x,y)
(2)
拉普拉斯算子对原始图像进行变换时,保留了图像的高频成分,抑制了图像的低频成分,从而增强了图像灰度跳变处的对比度,增强了图像的细小细节部分,保留了图像的背景色调,使图像的细节比原始图像更加清晰。
1.2 损失函数
损失函数用于评估模型预测值与真实值之间的差异程度[27],差异值越小则表明模型的效果越好,因此损失函数的选择在卷积神经网络训练中非常重要。结构相似度(SSIM,structure similarity)的概念于2004年提出[28],它从图像中提取3个主要特征:结构、亮度和对比度,然后根据这3个特征比较两幅图像的相似度,其定义为:
(3)
(4)
(5)
∑w(βw·SSIM(IS0,IF;w)+(1-βw)·SSIM(IDOP,IF;w))
(6)
其中:w∈{3,5,7,9,11}表示不同的窗口,同时用不同的窗口提取不同尺度的特征信息,SSIM(x,y;w)表示窗口w下两幅图像的结构相似度,βw为权重系数,计算公式如下:
(7)
LossMWSSIM主要从3个方面比较源图像和融合图像的结构相似性,但忽略了一些细节信息,如像素信息、边缘信息等。然而,细节信息在图像应用中至关重要。为了更好地训练模型,减少源图像和融合图像之间的细节信息差异,我们在图像边缘损失函数中引入了多尺度加权融合质量指标QW[29],定义如下:
QO{(x,f;w)+[[1-λ(w)]·QO(y,f;w)]}
(8)
(9)
(10)
(11)
其中:s(x;w)反映了窗口w中图像x的局部相关性,它一般取决于对比度、清晰度或熵等因素。由于本算法中的图像增强更侧重于图像边缘,因此我们选择对比度来表示图像特征。λ(w)表示图像x相对于图像y的相对重要性,其取值介于0和1之间。给相对于输入图像具有较高显著性的窗口分配更多权重,如公式 (9) 所示,c(w)为窗口的总体显著性权重。此外,QO(x,y;w)是窗口w中x和y的相似度度量,取值在-1和1之间,当图像x和y相等时,最大值为 1。
最终的损失函数表示如下:
Loss=LossMWSSIM+αLossQW
(12)
其中:α是平衡参数,用于平衡损失函数的数量级,在实验中设定为α=0.1。
2 目标检测网络
2.1 YOLOv5网络框架
YOLO算法最初是由Redmon等人[15]提出的一种目标检测算法,区别于传统目标检测算法,该框架直接根据检测性能进行端到端的优化,并且达到了实时处理图像的要求,优于领域内其他检测方法。随着研究人员的深入研究拓展,YOLO系列算法已经发展到v8模型。YOLOv5在YOLO系列中是当前使用最广泛也是效果最好的目标检测模型之一,本文通过对其改进以实现对暗光条件下偏振成像的目标检测。
如图4所示,YOLOv5主要由4个部分构成:Input(输入端)、Backbone(主干网)、Neck(颈部)和Head(头部)。输入端采用了Mosaic数据增强,一般使用4张图片按照一定比例进行拼接,从而缩小目标识别范围;采用自适应锚框计算,不同于前YOLO系列的模型使用单独脚本进行锚框计算,YOLOv5在训练前会根据不同数据集来自适应地计算锚框;采用自适应图片缩放,自动计算图片缩放比例并缩短黑边以提高检测速度。Backbone模块采用Focus结构和CSP结构提高了计算力,且不会丢失有用信息。Neck模块中采用了CSPNet设计的CSP2结构,加强网络的图像特征融合能力。最后在Head结构中采用了Boundingbox损失函数和NMS非极大值抑制,NMS主要用来消除检测时冗余的框,提高检测效率。YOLOv5算法通过灵活的参数配置和超参优化策略,达到优异性能的同时体量相比后YOLO系列算法更小,适合应用于实时偏振目标检测场景。
图4 YOLOv5网络结构
2.2 引入CA注意力机制
一般的注意力机制在求取通道注意力的时候,通道的处理一般是采用全局最大池化或者平均池化,而这样会损失掉物体的空间信息,因此引用CA(Coordinate Attention)注意力机制[30],CA通过获取精确的位置信息对通道关系和长期依赖性进行编码,将位置信息嵌入到了通道注意力中,也就是引入了空间注意力机制。CA注意力机制的算法流程图5所示,具体操作主要为Coordinate信息嵌入和Coordinate Attention生成。
图5 CA注意力机制流程图
1)首先对全局平均池化进行分解,获取具有精准位置信息的远程空间交互信息。Input为输入的特征图像,尺寸为C×H×W,然后对Input分别进行X方向与Y方向的池化操作,从而生成尺寸为C×H×1和C×1×W的特征图,通过这种方法产生的特征图可以使CA注意力在一个通道内捕获长距离的依赖关系,并且有助于保留精确的位置信息,从而使网络能够更加准确地定位对象,图6展示了特征图的平均池化过程。
图6 特征图的平均池化过程
2)将生成的尺寸为C×1×W的特征图zh和zw进行Concat操作,即按空间维度进行拼接:
(13)
(14)
f=δ{F1[(zh,zw)]}
(15)
拼接后得到特征图f∈RC/r×(H+W)×1,其中r用于控制块的减小率。再将特征图经过F1卷积变换函数(1×1卷积)和非线性激活函数产生中间特征图f。
3)基于空间维度,将中间特征图f进行split操作拆分成两个张量,分别表示为fh∈RC/r×H×1和fw∈RC/r×1×W,然后利用Fh和Fw卷积变换函数(1×1卷积)升维度,再结合sigmoid激活函数得到最终的坐标注意力向量gh∈RC×H×1和gw∈RC×1×W:
gh=σ[Fh(fh)]
(16)
gw=σ[Fw(fw)]
(17)
4)将gh∈RC×H×1和gw∈RC×1×W与源输入相乘,即CA注意力机制的输出公式为:
(18)
CA不仅同时引入空间注意力和通道注意力,解算二者之间的关系,还考虑到长程依赖的问题,有效实现了检测精度的提升;同时其参数量、计算量相比其他注意力机制也较少,这种足够轻量与灵活的特点使其能够更便捷地插入到轻量级网络的模块中。
3 实验结果与分析
3.1 网络训练与参数设置
由于没有足够成熟且庞大的公开偏振图像数据集,本文自制了偏振数据集用于训练与测试网络。数据集来自 Lucid 的 Phoenix PHX050S-PC 偏振相机,Phoenix 相机传感器芯片集成了4个方向的纳米级阵列偏振片,可以同时获取4个方向的偏振图像。共获取了500 幅大小为 1 224×1 024 的偏振图像,主要场景包括阴天暗光环境下建筑物、汽车、行人与单车等,图7展示了数据集中的一些代表性图像。偏振图像按照相邻的4个像素进行分解,得到 0、45、90和135°共4个不同偏振方向的图像,分解后的图像大小为 612×512,同时进行归一化处理,以便统一像素范围。用于训练和测试的计算机配置为Intel(R) Core(TM) i5-7300HQ CPU @2.50 GHz和(NVIDIA)GeForce GTX 1050。
图7 部分数据集中的图像
对于图像融合网络:在网络模型的训练阶段,选取了200对图像作为融合网络数据集,其中150对图像用于训练图像融合网络,40对图像用于检验网络,剩余的图像则用于测试网络性能,在训练之前先对可将光图像与偏振度图像的像素范围规范在[1,0]内以便模型处理。在训练、验证和测试过程中均不对源图像进行任何变动,直接输入模型。在参数设置方面,学习率设为 0.000 1,训练轮数设为 30,批次大小设为 128,并在 TensorFlow 平台上实现网络模型,使用Adam优化器训练模型。
对于目标检测网络:由于数据集的数量相对较少,不足以充分训练改进的YOLOv5模型,本文对数据集进行增强处理,通过水平翻转、垂直翻转、裁剪拼接、改变亮度等方式将原有的500幅图像增强到3 273张,达到了充足训练网络的水平。在训练前先将数据集以7∶2∶1的比例分成3部分,分别作为训练集、测试集和验证集用于模型中,选取汽车、行人与单车3个标签作为目标检测类别。权重衰减率为0.000 5,初始学习率设为 0.01,训练轮数设为100,批次大小为16,动量因子设置为0.937,在Pytorch平台上实现网络模型。
3.2 结果与分析
首先使用主观方法对图像融合网络的效果进行评估,图8展示了两个场景下的图像融合结果,其中S0为可见光图像,DolP为偏振度图像,AoP为偏振角图像,Ave为S0和DolP的平均图像,Our则为S0和DolP的平均图像。从主观上来看,本文所提出的图像融合方法可以将可见光图像的目标信息与偏振度图像的偏振细节信息有效融合,并且融合后的图像呈现出较好的视觉效果,对比度增强且边缘清晰,融合后的图像可以应用到目标检测场景中。
图8 图像融合网络效果图
使用主观方法对图像融合网络的效果进行评估,本文建立了不同的验证集:可见光图像验证集、偏振度图像验证集和融合图像验证集,使用改进的YOLOv5目标检测算法在不同验证集下的检测结果对比如图9所示。第一组图像为室内光照不足条件下的人像图,由于图像融合后获得清晰的边缘信息,因此对人像的检测有一定提升效果;第二组图像中,由于左下角车辆玻璃的材质以及反光影响,产生一定的偏振噪声,导致融合后的精度降低,但其他目标的精度均有提升,尤其是对于小弱目标的检测精度;第三组图像中最左侧的车辆在可见光图像下未识别出,待测目标有一定遮挡且尺度较小,肉眼也很难观测到,而融合后的图像具有更多特征信息,能够被有效检测;在第四组图像中,拍摄场景在多云阴天,有较多环境干扰信息,经过图像融合后有效抑制了环境造成的冗余特征,将关注点更多地放在有用区域。
图9 不同验证集下的检测结果对比图
接下来对改进的YOLOv5模型进行可行性分析,改进模型的损失函数曲线如图10所示,其中box_loss为目标锚框的定位面向暗光场景的目标偏振可见光融合检测方法损失,obj_loss是置信度损失,loss为总损失。观察图中曲线可看出3种损失均在训练过程中逐渐收敛,最终达到一个稳定值,总损失loss在前15轮迅速下降到0.03以下,在之后的轮次也逐渐趋于稳定,最终达到0.000 5左右,说明了模型的稳定性与有效性。
图10 损失函数曲线
为更好地验证本文改进的YOLOv5模型的优势,选取几种目前主流的目标检测算法:Faster-R-CNN[11]、YOLOv4[18]、YOLOv5s、YOLOv5m和YOLOv5l,在相同数据集下进行对比实验,并且使用针对目标检测的评价标准进行客观性评价,评价标准主要有以下几个:召回率μR,表示模型预测的正样本数占实际正样本数的比例,也称为查全率;精确率μP,表示预测正确样本数占所有识别为正样本的样本比例;均值平均精度mAP@0.5,代表模型在IOU阈值为0.5时的平均精度,其中IOU是交并比,表示模型预测的目标框和人工标定目标框的交并集之间的比例;均值平均精度mAP@0.5∶0.95,代表IOU阈值从0.5~0.95,步长为0.05时的平均精度;推理时间t,表示模型检测一张图像所需要的时间;平均精度AP,指P-R曲线的面积,代表平均精度,计算公式如下:
(19)
(20)
(21)
其中:P(R)表示P-R曲线;FN表示样本的真实类别是正样本,但是模型将其预测为负样本;TP表示样本的真实类别是正样本,模型将其预测的结果也是正样本;FP表示样本的真实类别是负样本,但是模型将其预测为正样本。
不同算法的性能指标对比结果如表2所示,可以看出本文算法与其他经典算法相比,精确率和召回率都更高,分别为89.3%和82.5%;mAP@0.5只有本文算法和YOLOv5s达到了90%以上,但本文算法效果更好,相比YOLOv5s提高了2.6%;mAP@0.5∶0.95达到70%的有4种算法,本文算法略高与其他3种,相比于第二优秀的YOLOv5s提高了1.8%;在检测速率方面YOLOv5s算法的速度最快,由于本文算法引入了CA注意力机制,使检测速率平均慢了2.9 ms,但在几种算法中仍然具有一定优势,能够满足实时监测的要求。整体来看,本文改进的YOLOv5算法兼顾了实时性与检测精度,通过引入注意力机制,有效抑制了阴天暗光等环境因素对目标检测的影响,将更多的注意力集中在待测目标上,从而提升微小目标的检测精度与准确度。
表2 不同算法的性能指标对比结果
4 结束语
为了提高阴天暗光场景下的偏振目标检测效果,首先从改善可见光和偏振图像的融合效果入手,提出了一种基于 CNN 的有效融合网络,该网络以无监督的方式进行训练,无需手动设计复杂的融合规则和活动水平指标,而是可以在卷积层中自主学习。还引入了DenseBlock来充分提取图像特征,设计了一个新的损失函数来确保网络的融合性能,在更大程度上缩小了融合图像与源图像之间的差距,引入拉普拉斯算子来增强融合图像的对比度和边缘强度,最终得到同时具有偏振信息与可见光信息的待测目标。然后提出了一种基于改进的YOLOv5s模型,通过添加CA注意力机制将空间注意力机制与通道注意力机制相结合,使网络更容易捕捉到待检测目标物,提升模型检测精度,并且该模型足够轻量,实时性高,全局感知能力强。
为验证所提算法的有效性,从主观和客观两个方面评估了融合算法的有效性,通过与5种经典目标检测算法进行对比实验,使用5种评估指标对目标检测网络进行评估。实验结果表明,本文所提出的偏振目标检测网络相比最优的YOLOv5s模型,精确率和召回率分别达到了89.3%和82.5%,mAP@0.5和mAP@0.5∶0.95分别提高了2.6%和1.8%,因此本文提出的图像融合算法与目标检测算法解决了暗光条件下目标信息缺失难以被检测到的问题,先通过融合网络将目标的偏振信息与可见光信息相融合,构成信息丰富的融合图像,然后通过改进的目标检测网络将注意力集中在目标物区域,从而提升目标检测的准度与速度。相比于YOLOv5和其他主流目标检测模型在检测精度、检测时间等方面有较大提升,适合一些极端条件下的目标检测场景。本文在检测速率以及模型轻量化方面仍有继续提升的空间,也缺少对更多极端场景下的目标检测研究,这也是后续算法的进一步优化方向。