改进YOLOv7-tiny的轻量级红外车辆目标检测算法

2024-01-18许晓阳高重阳

计算机工程与应用 2024年1期

许晓阳，高重阳

西安科技大学计算机科学与技术学院，西安 710054

道路交通安全是不可忽视的公共交通安全问题，据统计，道路交通事故导致全世界每年约130万人死亡和5 000 万人受伤，其中受极端天气影响及夜间驾驶行车导致的车祸近70%，给个人及社会造成了极大的损失。因此，如何解决道路交通安全、动态识别目标在计算机视觉方向已经逐步成为一个关注的焦点。

目标检测是计算机视觉领域目前的研究热点。该技术主要通过结合目标定位和识别检测两项技术，在给定图像中精准定位目标边框并检测出目标所属的具体类别。目标检测技术在许多领域被广泛应用，如人脸识别、机器人视觉、智能视频监控、无人驾驶（如道路检测、交通灯检测）、医学图像检测、光学遥感图像检测[1]等领域。目标检测算法分为传统目标检测算法和基于深度学习的目标检测算法两类。传统目标检测算法有基于手工特征设计的HOG[2]（histogram of oriented gradient）检测器，但HOG 实时性较差，且由于梯度的原因，对于噪点相当敏感，导致检测精度较差；也有基于传统滑动窗口检测方式DPM[3]（deformable parts model），通过构建尺度金字塔进行搜索，该方法运算速度快，但性能一般，且无法进行大幅度旋转，稳定性较差。

近年来，随着深度学习的发展，使用人工神经网络进行目标检测的算法越来越多。基于深度学习的目标检测算法主要分为两类，双阶段目标检测和单阶段目标检测。双阶段目标检测先进行区域生成（region proposal，RP），再通过卷积神经网络进行样本分类，随后进行分类和回归来实现目标检测，例如SPPNet[4]、Faster R-CNN[5]等。双阶段目标检测算法精度较高但检测速度较慢，并不适合进行实时检测。另一类算法为不使用RP 的单阶段目标检测算法，直接预测物体的类别和位置。通过锚框对物体进行检测，并采用非极大值抑制（non-maximum suppression，NMS）得出最终预测结果，例如：SSD[6]、YOLO[7-9]等。该类算法虽然精度一般，但检测速度快，较为适合完成实时检测任务。

目前研究者们主要研究可见光下的目标检测，但红外场景下的目标检测较少。可见光图像可以提供丰富的目标细节信息，但容易受到环境因素的影响，在缺乏光源、阴雨天和雾天的情况下，几乎无法识别到目标物体。红外图像与可见光图像成像的原理不同，可见光图像属于反射成像，在白天视野较为良好的情况下图像包含丰富的图像边缘、纹理和颜色等细节，但在光亮度较差时图像的识别度较差。红外热成像识别技术具有探测能力强、作用距离远的优点，且具有穿透烟雾、云层、雾霾等能力，即使在面对暴雨、暴雪等恶劣环境和夜间行车光线不佳的复杂背景环境下，仍能准确识别待检测目标。

吴杰等人[10]基于YOLOv4算法设计轻量级多尺度监督网络，降低了模型的体积。李北明等人[11]基于YOLOv5算法，通过使用GhostNet 模块与模型剪枝进行网络改进，降低了模型的计算量和体积。胡皓等人[12]基于YOLOX-S 算法，通过引入结构重参数化模块提高检测精度。贾天豪等人[13]基于SSD算法，引入增强特征映射块提高小目标检测效果。上述学者在轻量化与小目标检测精度方面取得了一定的成果。

赵明等人[14]提出了跨域融合网络，结合多模态进行红外目标检测，并在红外数据集FLIR上取得了87.7%的准确度；黄磊等人[15]引入MobileNetV3模块，并使用DIoUNMS[16]后处理方法改善对遮挡物体的检测能力，降低了参数量与计算量，精度下降了0.37%。以上方法虽然对红外目标检测取得了较高的准确度，但由于整体目标检测算法存在检测模型体积庞大、参数量较大、计算量较高且难以部署在资源有限的边缘设备中。目前也有学者研究轻量级红外目标检测算法，虽在模型轻量化方面取得了一定的进展，但对比原有模型与其他轻量级模型，精度方面仍有一定程度上的损失，并不能达到轻量化与精度相平衡。本文基于YOLOv7-tiny[17]算法的基础上，提出了一种改进的轻量级红外车辆目标检测算法KD-YOLO-DW。首先，通过融合深度可分离卷积提出了ELAN-DW模块，并将其作为模型的特征提取主干网络，在保证原有精度的同时实现特征提取主干网络的轻量化。其次，在特征融合层采用GhostNet V2[18]模块，在参数量与计算量更少的前提下，融合更多层次的特征信息。使用动态非单调FM（focusing mechanism）的WIoU[19]损失函数，解决了由于数据集本身带来的难易样本不平衡的问题，进一步降低小目标的检测难度，提高对小目标的检测精度。然后，提出跨尺度融合策略以提高轻量化模型精度并降低红外小目标的漏检率。最后，通过知识蒸馏[20]对YOLO-DW 算法进行优化得到KD-YOLODW算法，进一步提高了YOLO-DW算法对红外车辆目标检测的准确性。该方法为解决道路安全问题提供了新的方法思路。

1 基础理论

本文对红外车辆目标检测问题进行研究，选取YOLOv7-tiny为基准算法进行改进。在提高算法检测精度的条件下，同时解决红外车辆小目标检测难度大的问题。

YOLOv7-tiny 是一种轻量级目标检测算法。该算法由四部分组成：输入层（Input）、特征提取主干网络（Backbone）、特征融合层与检测头（Head）。将固定尺寸的图片输入，将其送入由普通卷积层、Mpconv与Elan卷积层构成的特征提取主干网络中。将主干网络提取的特征图送入通过SPPF[21]改进后的SPPCSPC 模块，进行处理后再送入Head网络。随后采用聚合特征金字塔结构，最后采用卷积对不同尺度的特征进行通道调整，借助CIoU损失函数计算目标框的置信度。

YOLOv7-tiny算法具有较少的参数和计算量，能保持较高的检测精度，但该算法仍然有一些不足之处。首先，由于在特征提取主干网络中使用了大量的ELAN模块，导致网络参数量过多、计算量过大，检测速度仍有优化的空间。其次，由于在特征融合层也过多地使用了ELAN 模块，使特征融合容易出现特征冗余的情况，导致识别精度降低。最后，该算法受轻量化设计和网络结构的限制，检测精度较差，无法准确地检测红外车辆场景下的目标，尤其是该场景下的小目标。

2 模型设计

检测模型的准确性、轻量化程度是红外车辆目标检测算法的重要评价指标，由于汽车驾驶平台资源有限，模型需要在一定程度上做到轻量化。本文改进YOLOv7-tiny 提出了KD-YOLO-DW 算法，其网络结构如图1 所示。首先，使用本文设计的高效轻量级层聚合网络ELAN-DW 模块，充分利用梯度路径设计策略，减少运行时间、提高网络运行效率、提高网络模型特征提取能力。其次，使用轻量级GhostNet V2模块替换特征融合层的ELAN 模块，降低模型计算复杂度、获取更为丰富的语义信息并增强图像特征的融合能力。同时使用动态非单调FM 的WIoU 损失函数，解决难易样本不平衡的问题，提升模型非线性表达能力、提高对小目标的检测精度。随后，根据残差网络结构思想提出了跨尺度融合策略，设计了新的跨尺度、多尺度连接网络，如图1中红线所示。通过利用浅层特征提取阶段的目标特征，融合深层网络的语义信息，实现从深层到浅层的多特征提取，能够获得更全面、更准确的特征表示，提高模型对目标的理解和识别能力，也可以更好地识别小目标、模糊目标和遮挡目标等较难检测的目标，从而提高轻量级目标检测模型的准确率。

2.1 轻量级GhostNet V2模块

轻量级GhostNet[22]模块将输入特征图分为两部分，一部分通过卷积生成特征图，另一部分则直接进行线性操作获得，最终将其拼接。这样可以大幅度地减少计算代价，但这个过程中，一些细微重要的特征信息可能会丢失，导致特征失真的风险增加。GhonstNet V2 提出了解耦全连接注意力机制（DFC attention），它具有动态校准与捕捉长距离空间信息的能力，更易在硬件上部署。直接将DFC attention与Ghost module并行连接会引入额外的计算成本，但将特征的宽度和高度缩放为原始的一半，就可减少DFC attention 75%的计算量。再把得到的特征图通过上采样操作还原到原始大小，以匹配Ghost分支特征的分辨率大小。GhostNet V2采用反向瓶颈设计，使用两个Ghost module将特征维度先升高后降低，这种设计策略自然解耦了模型的表现能力与容纳能力。而将DFC attention与第一个Ghost module并行，可以增强扩展的特征。增强后的特征被输入到后面的Ghost module中产生输出特征，同时捕捉到不同空间位置的像素之间的长距离依赖性，在大量降低计算复杂度的同时极大程度地增强了特征的融合能力与模型的表达能力。GhostNet V2 通过将通道分组使得网络计算并行化，能够适应不同大小的输入数据，拥有更少的计算开销。此外，使用低秩分解技术在减少冗余参数数量的同时，保证模型精度。考虑到红外轻量级模型需要适配资源受限的设备中，而GhostNet V2模块能在减少计算复杂度的同时更好地学习特征，因此更适合本文模型。图2为GhostNet 与GhostNet V2的结构图。

2.2 轻量级ELAN-DW模块设计

高效层聚合网络（efficient layer aggregation network，ELAN）在网络层面上属于梯度路径设计网络[23]的范畴，主要解决在执行模型缩放时深度模型的收敛性会逐渐恶化的问题。ELAN 模块中设计了“计算块中的堆栈”策略，来避免使用过多过渡层的问题，并使整个网络的最短路径梯度快速变长。对于梯度路径设计策略，有以下优点：

（1）有效地使用网络参数。梯度路径设计策略通过调整梯度传播路径，帮助不同计算单元学习不同信息，促进网络多样性与表达能力。

（2）稳定的模型学习能力。梯度路径设计策略直接确定并传播信息以更新权重到每个计算单元，所设计的架构可以避免训练期间的退化。

（3）快速的推理速度。梯度路径设计策略使得参数利用非常有效，因此网络可以在不增加额外复杂架构的情况下，提高模型的精度和效率。

如图3 所示，（a）为YOLOv7 中的ELAN 模块，由6个卷积块组成。（b）为YOLOv7-tiny中的ELAN模块，较（a）保持一定精度的同时，降低部分参数量与计算量。（c）为本文设计的ELAN-DW模块。通过对ELAN模块进行分析并联合梯度路径设计策略，将深度可分离卷积（depthwise separable conv，DWconv）[24]融入模块中。其中利用步长为2、卷积核大小为3的卷积进行下采样，步长为1的3×3的DWconv进行特征提取。通过增大卷积核使得在不同尺度情况下获取更大感受野，提高不同特征的判别性，增加网络的非线性表达能力，最终提高模型的特征学习与表达能力。此外，浅层能够提取较多丰富的特征信息，并在第四层采用较小尺寸的深度可分离卷积进一步降低参数量与计算量。使得特征图的每个通道之间具有一定的信息交流，并将下层的特征信息与前几层更为丰富的特征信息互相补充。通过ELANDW模块构建主干网络，能够在不同层级上构建多个路径，捕捉到更为丰富的信息，并且将不同路径上的特征进行融合，从而较典型特征提取主干网络有更多不同层次的细节特征与语义信息。

在参数量方面，深度可分离卷积使用的参数量远远小于普通卷积，能够在损失较少精度的同时大大减少参数量。深度可分离卷积分为两部分，由逐通道卷积和逐点卷积组成。普通卷积计算量为：

其中，DF×DF×M为输入特征维度，M为通道数，N为卷积核数量，Dk×Dk为卷积核大小。深度可分离卷积先通过逐通道卷积，其计算量为：

随后将特征维度为M×DF×DF的特征图进行逐点卷积最后输出特征图，其中逐通道卷积核逐点卷积计算量为：

将上述计算量相加，深度可分离卷积的计算量可表示为：

在忽略整体模型庞大的卷积核数量时，根据公式可推知普通卷积计算量为深度可分离卷积的倍。

2.3 损失函数改进与跨尺度融合策略

2.3.1 损失函数改进

原YOLOv7-tiny 模型中使用CIoU 边界框损失函数，CIoU考虑边界框回归的重叠面积、中心点距离与纵横比，使得回归定位更加精准。但仍存在以下问题：在预测框回归过程中，一旦预测框和真实框（ground truth box）的高和宽纵横比呈线性比例时，CIoU损失函数中相对比例的惩罚便退化为0不起作用。

本文使用具有动态非单调FM 的WIoU v3。当一个性能良好的模型为低质量样本生成高质量锚框，单调FM 为这些锚框分配较大的梯度收益时，模型的学习效果会被大幅度降低。Zhang等人[25]提出了非单调调频的Focal-EIoU和单调调频的Focal-EIoU，Focal-EIoU的FM是静态的，它规定了锚框的边界值，使得IoU 损失函数等于边界值时具有最高的梯度增益，但没有考虑到锚框的质量评价体现在相互比较之中，因此没有充分利用非单调调频的优势。此外，由于数据集本身难易样本不均衡，训练数据会不可避免地出现一些低质量的样本。传统的IoU 损失函数通过距离、长宽比等会加重低质量样本的惩罚，降低模型的泛化性，而两层注意力机制的WIoU v1则不会出现这些问题，在WIoU v1基础上设计的WIoU v3 使用动态非单调FM 可以屏蔽训练过程中诸多负面影响，通过权衡低质量样本与高质量样本的比例，解决小目标模糊不清、重叠遮挡目标难以检测的问题，从而进一步提高模型精度及模型检测的整体性能。具体计算公式如下：

下文中WIoU 统一指WIoU v3 损失函数。为进一步验证WIoU损失函数的泛化性与有效性，使用YOLOv7-tiny 作为实验模型，将WIoU 损失函数与CIoU、Focal-EIoU、α_iou[26]（α=3）目前使用的主流损失函数在本文数据集上进行对比实验，如图4所示。

图4 损失函数对比Fig.4 Comparison of loss functions

从图4中可以看出WIoU损失函数在不增加参数量与计算量的情况下，在mAP@0.5 方面具有一定程度上的优势。这是由于WIoU损失函数中的动态非单调FM根据红外目标检测任务权衡红外数据集中弱小目标与模糊目标的比例，充分发挥动态非单调FM 的优势，促进模型更准确地预测目标的边界框，从而提升模型在红外目标检测任务的泛化能力。结果表明WIoU 是优于目前使用的主流损失函数，效果更为优秀。

2.3.2 跨尺度融合策略

当神经网络层数达到一定深度时，继续增加网络层数并不会提高精度，甚至可能会产生导致梯度消失或梯度爆炸问题。为提高红外车辆目标检测网络特征提取能力，联合残差结构思想，构建了特征融合层与Backbone层的跨尺度特征融合，如图1中红色箭头所示。图像深层特征包含更高级的语义信息，如物体的形状纹理等。浅层特征具有更细致的局部特征信息，如边缘信息等。利用浅层特征提取阶段得到的目标特征，将其与深层网络的语义信息进行融合，实现了从深层到浅层的多特征提取。本文提出的跨尺度融合策略增加了低层级与高层级之间的跨层连接，能够在底层信息与上层信息融合过程中学习到更多细节特征，从而提高模型对目标的理解与识别能力。此外，还能更好地应对一些挑战，例如小目标、模糊目标和遮挡重叠目标等难以检测的目标。

跨尺度融合从以下三个方面提高模型检测准确率。（1）信息融合方面。可以将不同尺度的特征图进行融合，增加了多尺度信息的交互性，提高了模型的准确率。（2）感受野方面。跨尺度连接可以扩大模型感受野，将低分辨率特征图的信息通过卷积操作融入高分辨率的特征图中，有效增强高分辨率特征图的有效感受野。（3）减少漏检误检情况。在某些红外场景下，当物体大小非常接近时，容易错误地检测为一个物体或者同类物体。根据轻量级模型的红外车辆检测任务，提出的跨尺度特征融合策略可以将来自不同尺度的信息融合在一起，从而增加模型对待识别目标的理解，提高小目标检测的准确性、大幅度降低漏检、误检的概率。

为评估本文提出的跨尺度特征融合策略的有效性，分别对YOLOv7-tiny和YOLOv7模型使用该设计，评估本文提出的跨尺度网络特征融合策略的优劣性，实验结果见表1。

表1 跨尺度网络对比Table 1 Cross-scale network comparison 单位：%

表1 中++代表使用了本文设计的跨尺度特征融合策略。由表1实验结果可以看出，通过增加特征融合层与Backbone 层不同尺度特征的跨尺度信息融合，改进后的YOLOv7-tiny 与YOLOv7 模型分别较原始模型在mAP@0.5、mAP@0.5：0.95方面均有较高的提升。这是由于本文提出的跨尺度特征融合策略将主干网络输出的多层级特征再次融合，将不同类型、不同层级、不同尺度的特征拼接，增加了低层级与高层级之间的信息跨层交流，对特征互相补充学习，获取更为丰富的语义信息与特征信息，验证了本文根据网络模型设计的跨尺度特征融合策略的有效性。

2.4 知识蒸馏

较小的模型复杂度与计算成本低，但不能达到红外车辆目标检测所需的精度要求。因此本文采用知识蒸馏模型技术来提高算法识别精度。知识蒸馏（knowledge distillation）是通过较大的教师模型将知识压缩到学生模型中，在保持高精度的同时减少学生模型的复杂性与计算成本。其原理如图5所示。

图5 知识蒸馏示意图Fig.5 Schematic diagram of knowledge distillation

知识蒸馏将教师模型中生成预测的软目标作为监督信号，学生模型通过最小化其输出与教师模型输出之间的距离来学习教师模型的知识。其在Softmax中增加温度参数T来实现软目标的分布。通过增加蒸馏温度可以使生成的概率分布更加平滑，从而使得简单的学生模型更容易学习到较为复杂的知识，其公式为：

其中，qi表示类别i的概率，取值范围为[0，1]；Zi表示输入到Softmax函数的线性输出；T为所设置的温度参数，其取值越大，输出的目标类别的概率分布越平滑，软标签的软化程度越高，概率分布越平滑。选取较高的温度值会有更平滑的概率分布，导致学生模型在训练时过于关注教师模型的概率分布，使得学生模型过度拟合教师模型的错误预测，进而降低学生模型的泛化能力。较低的温度值则会导致更加尖锐的概率分布，使得学生模型对于预测概率较高的类别产生更集中的预测，最终导致在测试集的精度下降。

3 实验结果与分析

3.1 实验环境与数据集

3.1.1 数据集

数据集选用FLIR公司公开数据集。该数据集由安装在车辆上的红外摄像头获取，共有14 452 张红外图像，包含四类目标，分别为汽车、行人、自行车与犬类。由于犬类图像过少，将无效图像与犬类的图像剔除后，选取8 000张图片，将其按照8∶1∶1划分成训练集、验证集、测试集。

3.1.2 实验环境与实验设置

本文实验使用Ubuntu18.04系统，处理器采用Intel®Xeon®W-2150B CPU@3.00 GHz，GPU 型号为Nvidia GeForce RTX3090Ti，显存24 GB，实验环境为Python 3.8、Pytorch 1.11、Cuda 11.3。

实验训练参数设置为：初始学习率为0.01，Batch_size设置为12，选择Adam优化器进行优化，权重衰减系数为0.000 5，采取epoch 为300、学习率动量参数为0.937的Warmup方法训练，并采取一维线性插值更新学习率，在Warmup之后采取余弦退火算法对学习率进行更新。实验过程模型训练均设置为300个epoch。

3.2 消融实验设计

为验证本文对原网络模型改进的有效性。以mAP@0.5与mAP@0.5：0.95作为消融实验评估指标，以原模型YOLOv7-tiny 算法为基准设计消融实验进行模块评估分析，实验结果见表2。其中“√”表示实验中采用该模块，否则为不使用该模块。

表2 消融实验结果对比Table 2 Comparison of ablation results

根据表2的结果可以看出：通过在Head特征融合层嵌入GhostNet V2模块，仅在精度均值下降了0.91个百分点的情况下，参数量减少了9.8%。表明GhostNet V2模块在保持轻量级的同时，通过并行计算与注意力机制等可以更好地捕捉图像特征，提升模型的表达能力，更适合应用于边缘设备中。由于特征提取主干网络与Head部分采用本文设计的轻量级ELAN-DW模块后，精度均值仅下降了2.03个百分点，但模型的参数量大幅减少了37.7%。这表明，通过本文设计的ELAN-DW 模块构建的主干网络通过不同层级的多个路径得到不同尺度的语义信息与细节特征，将这些低层级的细节特征与高层级的语义特征融合，能够更好地捕捉目标的上下文信息，提高检测的准确性。主干网络中的ELAN-DW模块通过路径梯度策略将不同大小、不同参数量的卷积集成，拥有更小的参数量。而传统主干网络通常由固定感受野设计，参数量多且具有较弱的特征表达能力。因此本文所设计的模块在参数量与准确性之间取得了平衡，在降低模型参数量的同时能有效保证检测精度，验证了本文设计模块的有效性。E组实验可看出，本文主要通过ELAN-DW 模块与GhostNet V2 模块中的多层级连接，能够尽可能多地减少普通卷积层，从而大量降低参数规模。值得注意的是，在多组损失函数对比实验中，本文采用了WIoU 损失函数，相较于原始网络使用的CIoU 损失函数，模型的实验精度有所提高，这是由于WIoU损失函数中的动态非单调FM根据红外检测任务的需求及时调整，对小目标的重叠程度更加敏感，且能够更准确地预测目标的边界框，从而提高模型的检测精度与泛化能力。此外，D组实验表明本文提出的跨尺度融合策略在不增加计算量的前提下拥有更好的效果。区别于传统特征融合金字塔，本文提出的跨尺度融合策略能够将ELAN-DW 模块不同层级融合后的语义信息与特征再次跨尺度拼接，增加特征的丰富性和多样性，使得模型能够同时利用多种信息，因此能够较高程度地提高轻量级模型检测的准确性。最后，在E组实验基础上添加WIoU损失函数与跨尺度融合策略，增加了极少的参数量与计算量。模型整体在使用较少卷积层与池化层的情况下提高了模型精度。这主要得益于不同层级特征图互相融合互相学习，信息跨层交流从而减少了冗余，增加了模型所学习特征的丰富性和多样性。与基准网络YOLOv7-tiny进行对比，结果表明在参数量下降24.5%的基础上，精度方面提升1.29 个百分点。实现了模型在具有较高轻量化程度的同时在精度方面未有损失，仍有所提升，满足部署在资源有限的嵌入式设备中的需求。

3.3 知识蒸馏温度对比实验

为验证温度对知识蒸馏效果的影响，本文使用YOLOv7作为教师网络，本文所提出的YOLO-DW作为学生网络，对比原始基准模型YOLOv7-tiny 网络，对不同的蒸馏温度进行实验测评，实验结果如表3所示。

表3 不同蒸馏温度对比结果Table 3 Comparison results of different distillation temperatures

其中KD 表示对模型使用知识蒸馏（knowledge distillation）处理。由表中数据可以看出，随着蒸馏温度的升高，训练精度逐步增加，但测试精度可能在某一温度点后逐步下降，整体呈现出先升后降的趋势。因此选取一个合适的蒸馏温度极为重要。对本文设计的KD-YOLO-DW 算法采用不同的蒸馏温度，精度方面都有不同程度的提高，当蒸馏温度为25 时可获得最佳的模型精度。

3.4 目标检测算法对比实验

为了验证本文所提出模型的轻量化程度与准确性，本节对所提出的KD-YOLO-DW模型与其他目标检测模型进行对比。所有算法均使用相同的硬件设备，以本文数据集进行训练，以确保实验结果的可靠性与公平性。将参数量（Params）、计算量（FLOPs）、mAP@0.5、mAP@0.5：0.95、模型体积大小与FPS作为评估指标，具体实验结果如表4所示。

表4 不同模型的对比实验Table 4 Comparative experiments of different models

表4 实验结果可以看出，与轻量级YOLOv3-tiny、YOLOv4-tiny算法相比，本文算法的参数规模分别下降了47.1%和22.0%，计算量分别下降了15.3%和32.01%，精度方面分别提升了22.89 个百分点和20.69 个百分点。且FPS有较高程度的优越性。

同时，将本文模型与现有主流的轻量级网络YOLOv5s、YOLOv6s、YOLOX-s 算法进行了对比，在参数量方面，本文模型分别下降了34.2%和42.5%，计算量下降了30.8%和49.0%，mAP@0.5 提升了7.84 和1.98 个百分点，FPS 方面提高了82.8%和18.5%。与YOLOv6s算法对比，虽然FPS方面下降了4%，但在参数量与计算量下降75.1%与75.7%的情况下mAP@0.5 提高了3.07个百分点，这表明参数量与计算量的庞大并不能够保证模型的高精度与高实时性。与原始网络YOLOv7-tiny对比，本文模型不仅在参数量与计算量方面下降了24.6%和16.7%，保证了改进网络模型的高轻量化程度。FPS方面虽有一定程度的损失，但仍能完成实时检测任务。同时mAP@0.5 与mAP@0.5：0.95 上升了3.27 和3.15 个百分点，改进的KD-YOLO-DW网络模型不仅实现了高轻量化，同时也大大提高了精度。

综上所述，KD-YOLO-DW 模型在六类指标的结果中均优于其他模型，这表明本文所提出的轻量化模型在更少参数量、更低计算量、更小模型体积的条件下，精度并未损失且有一定程度上的提高，证明了本文算法的有效性与先进性。

mAP@0.5 代表当检测的目标框与真实目标框的IoU大于等于0.5时，将其视为正确的检测结果。mAP@0.5：0.95表示在IoU阈值从0.5到0.95范围内，以0.05为步长计算不同阈值下的AP，并取平均值作为mAP 的结果。图6、图7 为YOLOv7-tiny、YOLO-DW 与KDYOLO-DW 的模型曲线图，其中横坐标epoch 为训练轮数、纵坐标为mAP 取不同阈值的准确率，符合表3 与表4中的性能指标。

图6 不同算法mAP@0.5对比图Fig.6 Different algorithms mAP@0.5 comparison graph

图7 不同算法mAP@0.5：0.95对比图Fig.7 Different algorithms mAP@0.5：0.95 comparison graph

通过图8 展示的6 组检测结果可以发现，第一组与第六组对比图显示，原模型在远距离情况下未检测出行人，存在小目标漏检情况。然而，本文的KD-YOLODW模型正确检测到模糊小目标。如图中红框所示，本文模型通过使用动态非单调FM的WIoU损失函数解决了小目标模糊不清、难以检测的问题，可以明显看出模糊小目标检测的效果得到了显著的改善。第三组对比图显示，原模型在遮挡和待检测目标不完整的情况下只检测到自行车上的人。第五组则未能正确检测对向车道行驶的车辆。相比之下，采用本文提出的ELAN-DW模块和跨尺度融合策略通过融合不同层次的特征信息，将其互相补充提高模型的学习能力与表达能力。可以正确检测自行车与人，同时还能检测到树下停放的车辆与对向车道行驶的车辆，检测到模糊小目标，满足车辆驾驶过程中的检测任务，从而验证了本文改进的通用性与有效性。在第二组与第四组对比图中，原模型存在检测车辆不完整和遮挡人物未正确检测的问题。本文提出的算法提高了对小目标、模糊目标、遮挡重叠目标检测的辨识度，在更轻量化的同时具有更好的检测效果与更强的鲁棒性，从而满足车辆驾驶过程中对红外场景下轻量化、高精度检测的需求。

图8 检测结果图像对比Fig.8 Image comparison of detection results

4 结论

为了进一步降低红外目标检测算法的参数量和计算量，提高待检测目标与小目标的精度，本文提出了一种轻量级红外目标检测算法：KD-YOLO-DW。首先，结合深度可分离卷积设计了轻量级ELAN-DW模块，将其作为YOLOv7-tiny的主干网络模块，极大地降低参数量与计算量。其次，在Head 层引入GhostNet V2 模块，进一步降低模型的参数量和计算量。针对原始网络引入动态非单调FM 的WIoU 损失函数，解决数据集带来的难易样本不平衡问题，以进一步提高模型的检测性能。然后，根据轻量级网络模型结构提出跨尺度融合策略，联合残差结构思想设计全新跨尺度网络，在不增加参数量的前提下大幅度提高模型的学习能力和泛化能力，从而得到轻量级YOLO-DW算法。最后，使用知识蒸馏技术对YOLO-DW算法进一步浓缩优化，获得高精度的轻量级红外目标检测算法KD-YOLO-DW。与YOLOv7-tiny算法相比，本文提出的KD-YOLO-DW算法在检测精度方面提升了3.27个百分点，参数量和计算量分别下降了24.6%和16.7%，可以更好地满足边缘设备部署的需求。