基于跨模态特征增强的RGB-T行人检测算法研究
2022-06-04王留洋胡睿哲蒋群艳
王留洋,芮 挺,郑 南,胡睿哲,蒋群艳
(陆军工程大学, 南京 210007)
1 引言
图像是自然景物的客观反映,也是环境感知的关键数据,随着深度学习技术的进步,基于自然图像的目标检测技术得到了快速的发展,在自动驾驶、环境探测等领域得到了广泛的应用,但当前的目标检测算法大多是基于可见光图像,原因在于可见光图像分辨率高,具有丰富的颜色和纹理特征,运用深度卷积网络可以较为准确地提取到通用场景中的目标特征,并进行目标的识别分类。然而,在一些特殊的场景下,如光线昏暗、目标受到遮挡以及背景杂乱且颜色与目标相近的环境中,依靠颜色、纹理等特征的单模态可见光图像并不能很好地表示出目标的特征信息,以至于目标大量丢失,导致检测算法性能不佳。
针对以上问题,本文提出将可见光图像与红外热图像进行特征级的信息增强融合,改善特殊场景下目标丢失率高的问题。由于辐射成像的原理,红外图像虽然存在对比度低、细节模糊问题,但可以全天候获取场景图像信息,且其中的目标表现出高亮的形状特征,可以对特殊场景下可见光图像做出有效的信息补充。因此,本文首先构建出可见光和红外双模态特征提取网络,用于提取可见光红外图像的特征信息,然后在空间和通道2种模式下分别对可见光和热红外图像信息进行特征增强,并在特征层次上对2种模态特征图进行信息互补,使得即使在背景杂乱、遮挡和光线昏暗情况下,也可大大降低了目标的检测丢失率,有效改善了算法的检测性能。
2 相关工作
目标检测作为计算机视觉领域的重要组成部分,多年来一直备受研究界的关注,尤其是针对于可见光图像中的行人、车辆等目标。由于自然环境和背景信息的限制,存在于可见光图像中特殊目标特征表示能力较差,尤其是在有遮挡或光线条件差的环境中,Wang等设计一种排斥力损失函数,通过判定目标与周围环境的吸引排斥关系,对目标进行定位; 杨钧智等则是通过在卷积神经网络中加入注意力机制,利用特征图相乘融合策略自适应的学习目标特征,有效地改善了遮挡目标的误检问题,增加了遮挡检测准确率,但对于光线昏暗、目标能见度不高情况,检测性能依然不够理想。针对此种情况,当前的一些研究将可见光与红外图像相融合,以提高目标识别能力,文献[8]通过运用多尺度变换的策略对不同尺度的可见光和红外特征进行融合,但易受抖动和噪声的影响;Song等从一种鲁棒的多光谱特征融合网络中提取出多尺度可见光和红外图像的语义信息,用于行人目标识别;文献[10]提出将增强决策树应用于区域建议网络,重新对建议区域评分以减少潜在误检率,但在推理速度上稍有不足;文献[11]组合不同模态检测模式的概率,并通过通道加权融合,来有选择地使用2种模态特征,以提高多谱融合检测的效果;李秋华等设计针对不同特征的分类器,并决策级融合策略对多个分类器分类结果进行融合处理,使检测精度有了提升,但对特征图信息利用不够充分,鉴于以上检测方法有的易受干扰、有的推理速度较慢的问题,本文提出跨模态特征增强网络,旨在于通过对可见光和红外2种模态的图像特征在空间和通道上进行特征增强,通过逐像素相加的方法对2种模态图像进行特征级融合,以减少受遮挡、光线等复杂条件影响的目标的误检丢失率。
3 本文算法
YOLOv5s算法作为单阶段端到端的检测算法,其融合跨阶段局部网络(cross stage paritial network,CSPNet)和Darknet53,用于提取图像特征信息,又结合特征金字塔(feature pyramid network,FPN)和路径聚合网络(path aggregation network,PANet),进行图像特征信息融合,在检测速度和检测精度方面具有较大的竞争力。针对检测中目标受光照变化和遮挡等不利情况导致检测效果不好的问题,结合当前目标检测领域最新研究,利用可见光和红外图像信息互补的优势,提出以YOLOv5s为基准的跨模态特征增强的目标检测算法。
3.1 双模态特征提取网络
考虑可见光图像与红外图像特征信息的特点,本文采用灵活高效的CSPDarknet53作为特征提取网络。该网络融合了残差和跨层思想,能够有效缓解梯度消失问题,从输入图像中提取丰富的图像特征信息。本文将可见光和红外2种模态的图像同时输入到特征提取网络中,一路输入可见光图像,另一路输入热红外图像,利用深度卷积神经网络强大的特征提取能力,快速高效地提取出红外图像的高亮轮廓和可见光图像的颜色纹理等特征信息。在特征提取网络中,将第2、3、4个CSP后的3个尺度图作为检测输出,其包含了检测图像浅层的纹理轮廓信息和深层的图像语义信息,在输入图像尺寸为608时,分别形成76×76、38×38、19×19尺度的特征图,网络结构如图1所示。
图1 双模态特征提取网络示意图
3.2 跨模态特征增强网络
图2 跨模态特征增强网络结构示意图
3.2.1 空间特征增强
图2中的空间特征增强机制可以将特征图中广泛的上下文信息编码为局部特征,并在其上建立丰富的上下文关系,从而增强其特征表示能力。首先通过卷积对每个尺度的特征图进行降维,然后通过和支路的图像特征信息,利用矩阵变换运算,建立起表征特征图任意2个像素之间空间关系的空间矩阵,计算式如式(1)所示,将该矩阵与支路特征进行矩阵乘法操作,再将乘的结果矩阵与原始特征逐元素求和,最终得到能够表示特征图中上下文关系的输出结果,数学表达为:
(1)
3.2.2 通道特征增强
如图2所示,为了更好地保留每个通道之间特征的关联性,通道特征增强模块不需要进行卷积降维。首先,将原始特征图分为4个支路,然后,将第三、四支路特征图分别做矩阵变换,并将2个矩阵做乘法运算,以得到可以表征2个通道相关性的通道矩阵;再利用得到的通道矩阵与第二支路特征图变换矩阵作乘法,乘法结果再与第一支路特征图逐元素相加,得到可以表示特征图之间语义关系依赖的通道增强特征图,计算公式为:
(2)
式(2)中:、为通道标识;表示尺度系数,初始化为0;表示增强结果。通过对特征图进行通道特征增强,提高了目标特征在每个通道上的关联程度,增强了红外图像中目标的语义表示,同时也增加了可见光图像中目标颜色、纹理等特征的信息表达能力,纠正一些错误分类的类别。
3.2.3 特征信息融合
=+
(3)
式(3)中,、、分别代表增强后可见光、热红外以及融合后图像在通道中(,)位置的元素值。通过利用可见光和红外图像2种不同的信息表达特性,将可见光中的颜色纹理等信息与红外图像中的高亮位置轮廓信息相融合,使得受限于微小且被遮挡的外观、杂乱的背景以及夜间的不良能见度条件下图像目标表示较差的情况得到了有效改善。
图3 特征融合示意图
4 实验与分析
为了验证双模态特征提取和跨模态特征增强网络的有效性,在KAIST多谱行人检测数据集上与其他主流算法进行对比,并进行消融实验,验证各个模块的有效性,最后对检测结果进行可视化。
4.1 实验设置
实验在PyTorch-1.4.0深度学习框架下进行,配置一块GeForce RTX 2080Ti GPU,使用随机梯度下降法(SGD)对网络进行训练,动量参数为0.9,衰变值为0.005,共训练100个周期,基准学习率为0.001,训练过程中每次迭代训练包括1次前向传播和1次反向传播,前向传播过程预测结果,反向传播过程更新权重参数。
算法在KAIST数据集上进行训练与测试,KAIST是利用可见光相机、红外热成像相机采集大规模双模态行人数据集,包含95 328可见光和热红外图像。本文选取7 373幅图像作为训练集,2 252幅图像作为测试集,其中,测试集与训练集图像不重合,且包含合理比例下白天、黑夜、遮挡的情况。本文通过固定参数对算法进行测试,并利用平均每幅图像的错误率作为评价指标,通过一系列实验来评估所提算法的有效性。
4.2 消融实验
本文通过多尺度提取可见光和红外图像特征,并对2种模态的图像特征进行增强,通过将增强策略应用于不同尺度的特征层,在相同测试集下以不同的场景数据对算法进行测试评估,以寻求具有高效率的最佳检测方法组合,消融实验设置如下:
1) 不使用特征强网络对图像特征进行处理,直接将网络提取的2种模态特征信息进行特征融合。以No-enhance表示。
2) 分别只对提取出的76×76、38×38、19×19尺度的特征图信息进行特征增强,以评测增强不同网络深度下的图像特征,对检测结果的影响。其方法设置以76-enhance、38-enhance、19-enhance表示。
3) 对2种不同尺度的图像特征进行组合增强,以检验综合不同尺度的图像特征信息对检测准确度和推理速度的影响。其组合名称以76&38-enhance、76&19-enhance、38&19-enhance表示。
4) All-enhance则表示将双模态特征提取网络所提取的所有尺度的可见光和热红外图像特征,都送入特征增强网络进行处理,以获得检测准确率和推理速度。
在相同的配置下,利用不同组合方法对网络进行训练,并在具有不同遮挡程度的图像和合理范围内不同光线下的图像组成的相同测试集上进行评测,得到的实验结果如表1所示。
表1显示了不同方法在测试集图像上的平均错误率以及推理速度。由表1可知,在不对2种模态图像进行特征增强的情况下,白天、晚上和全天的检测错误率分别高达18.46%、10.11%、15.90,而且在无遮挡、部分遮挡和严重遮挡的情况下,检测错误率也高达33.53%、45.61%、62.69%;对单尺度特征图进行特征增强后,检测效果稍有提升,其中“38-enhance”情况下白天、晚上和全天的检测错误率分别为14.59%、7.25%、12.16%,无遮挡、部分遮挡和严重遮挡的检测错误率为30.73%、38.30%、61.26%;对2种尺度特征图组合增强后,“38&19-enhance”条件下,白天、晚上和全天的检测错误率分别降至15.47%、5.38%、11.50%,无遮挡、部分遮挡和严重遮挡的检测错误率也降为27.79%、33.94%、54.71%,推理速度为0.019 s;而对所有尺度特征图增强后,白天、晚上和全天的检测错误率分别只有12.79%、5.17%、10.26%,无遮挡、部分遮挡和严重遮挡的检测错误率也仅为27.15%、33.35%、53.31%,检测速度稍有增加,为0.021 s。
表1 消融实验结果
由实验结果可知,在对抗光线影响方面,随着光照条件的弱化,可见光中目标的能见特征信息逐渐减少,目标识别能力受到挑战,而通过对红外图像目标特征信息的提取,能够有效利用到目标所表现出来的高亮轮廓信息,并对可见光图像信息进行了有力的补充。另外,浅层网络具有较强图像颜色纹理信息,而随着网络深度的增加,图像语义信息表达能力增强,通过在不同网络深度提取的不同尺度特征图上进行特征增强,使得图像在各个尺度上的信息表示能力有了充分的提高,最终在白天、晚上和全天的检测失败率上相对于没有特征增强的情况分别降低了5.67%、4.94%和5.64%,大大提高了检测性能。
而通过对不同尺度特征图在空间层次和通道层次上进行相关矩阵运算,使得算法能够充分整合图像目标的不同特征,更加有效地利用图像的深层语义信息,对目标的分类提供了较大的帮助,在处理遮挡情况时,能够使得图像中目标的位置特征更加突出,图像的语义信息更加丰富,最后将2种模态图像在特征级别上实现像素融合,互补了可见光和红外图像各自的特征信息,令受遮挡的目标能够更清晰地表达出自己的位置和类别特征,最终使得算法对不同程度遮挡目标的检测错误率分别达到了27.15%、33.35%和53.31%这一较低水平。
另外,本文通过不同组合方式对目标特征进行深层次高水平的增强,而随着特征图数量的增加,计算复杂度也有所提高,使得推理速度有所增加,但仍然实现了0.021s的高速实时性,使得算法在整体性能上表现良好。
4.3 对比试验
本文通过双模态特征提取网络提取红外可见光图像特征,并利用消融实验得到的特征增强模块的最佳组合,对RGB-T双模态特征进行空间和通道上的增强,实现了图像目标检测性能的提高。为了证明本文所提算法的有效性,本节利用上文所述的训练集对网络进行训练,并选取合理范围内的白天、晚上和全天的测试子集上对网络性能进行评测,将评测结果与其他主流算法结果列表如表2。
表2中,第1列为当前已有的可见光红外图像融合检测算法,表格数据表示在相同测试子集上的测试结果,由表2可知,本文所提算法在合理范围内白天、晚上和全天的检测错误率分别为12.79%、5.17%和10.26,在光线条件不好的晚上场景,本文算法超越了其他的算法,取得了最优的结果。本文通过将红外特征和可见光特征通过跨模态特征增强网络进行目标特征信息增强,又在特征层次上进行了2种模态特征图的逐像素相加操作,使网络能够更加充分利用2种模态图像信息,在目标层面上实现了2种特征信息的优势互补,极大增强了图像目标的特征表达能力,使得所提算法在合理范围内晚上测试子集上的检测结果优于其他算法,在晚上光线较差的情况下,通过信息互补之后,检测效果显著,以较低的丢失率证明了本文算法的有效性。
表2 不同算法漏检率实验结果
4.4 检测结果
本节利用训练好的网络对受到不同情况影响的目标进行可视化显示,图4、图5分别表示在合理范围内白天和晚上的检测结果,图6、图7分别表示目标在受到轻微遮挡和严重遮挡情况下的检测结果。
图4 Reasonable-day测试效果图
图5 Reasonable-night测试效果图
图6 Occlusion-partial检测效果图
图7 Occlusion-heavy检测效果图
图4~图7中,第1列为检测原图,第2列为其对应的红外图像,第3列为本文算法检测结果在可见光图像上的显示。图4、图5分别代表白天和晚上的检测情况;图6表示目标受到轻微遮挡,其中第1组表示目标受到大树遮挡,第2组表示目标受到同类目标遮挡的情况;图7表示目标受到严重遮挡的情况,其中第1组表示受到同类目标严重遮挡,第2组表示受到车辆遮挡。由检测结果可知,目标在受到环境光线和物体遮挡情况下,在单独的可见光图像或红外图像中,目标特征表达能力较弱,类别特征和位置特征共存能力不足,但是,通过对2种模态图像特征增强融合之后,综合了目标的位置和类别特征信息,使得算法能够较好地对目标进行检测,检测效果显著。
5 结论
本文提出了一种跨模态特征增强网络,用于RGB-T图像行人目标检测。在轻型特征提取网络YOLOv5s上加入注意力机制模块,用来在空间与通道层次上进行多尺度特征增强,以提高不同特征层的目标特征表征能力。通过研究发现,特征增强网络能够将提取的不同模态不同尺度特征信息在空间和通道层次上进行特征增强,提高目标特征的表达能力。大量的实验结果表明,跨模态特征增强算法能够有效融合可见光与红外特征,降低行人检测算法在背景光照变化及遮挡情况下检测的丢失率,算法具有较高实时性。未来,通过加入更加合理的注意力机制,可使双模态特征能更加有效的融合,进一步提高多谱行人检测的性能。