面向路侧视角目标检测的轻量级YOLOv7-R算法*

2023-11-09张小俊奚敬哲史延雷袁安录

汽车工程 2023年10期

张小俊，奚敬哲，，史延雷，袁安录

（1.河北工业大学机械工程学院，天津 300401；2.中国汽车技术研究中心汽车工程研究院，天津 300300）

前言

得益于新一代互联网的飞速发展，自动驾驶技术已经成为汽车产业未来发展的主要组成部分，但当前该领域研究通常聚焦于单车视角提升检测精度与效率，而对匹配路侧视角图像信息特点的目标检测模型的研究相对较少，且忽略了道路与车辆的协同性。而路侧感知系统可用“上帝视角”的大范围感知能力来弥补单车系统的感知盲区，降低事故概率，提高道路交通效率。视觉传感器又因其成本较雷达传感器低廉，且能够准确表达目标纹理特征的特点，在感知任务中扮演重要角色。因此在车辆网联领域中，如何将各类交通参与者的检测任务完成于路侧单元（road side unit，RSU）较低算力的边缘计算平台已成为自动驾驶技术赋能的必要条件。

目前在目标检测算法方面，传统方法因实现手段复杂、计算过程低效等原因已较少采用。在深度学习中，目标检测算法分为R-CNN［1］系列双阶段算法和YOLO［2］、SSD［3］系列单阶段算法。双阶段算法先定位再识别，所以精度上优于单阶段，但参数量和实时性较差，不能满足RSU 低计算资源及高实时性的需求。与R-CNN 算法相比，SSD 算法有更快的推理速度，但其检测精度存在一定的局限性，而YOLO系列算法相对其他算法在检测速度上有很大提升，同时兼顾了准确度，适合作为路侧感知场景中的检测方法。

与其他检测算法相比，YOLO 系列算法会一直利用深度学习最新成果来不断地进行优化更新。Wu 等［4］在YOLOv5s 的基础上，提出了YOLOv5-Ghost，调整了原有的网络结构，网络参数大大减少，推理速度有所提高，但检测精度下降3%。Liu 等［5］通过引入通道注意力模块和集成DIOU 损失函数，提高了对自动驾驶系统中小目标的检测性能。Zhou等［6］在YOLOv5 的Backbone 中用混合使用深度卷积，同时利用Focal Loss函数提升算法的检测精度。

虽然将上述算法移植到路侧视角下目标检测的过程中针对车辆等交通目标的特点已经做了一定的优化，但是检测能力仍旧存在不足。吉林大学的张舜然［7］将MobilNetv3 结构融入到YOLOv4 网络，并加入注意力优化与卷积计算优化，使检测精度达到90%，但模型参数量没有下降很多，也没有考虑交通环境中目标与目标之间的遮挡问题，若被遮挡目标的特征提取不充分就会导致算法在检测时出现遗漏；山东大学的皮任东［8］采用了路侧激光雷达与YOLOv5 结合的方法，算法mAP 值提高了4.48%，但也存在参数量庞大的问题。还有很多路侧感知算法虽然降低了网络参数量，适合部署在移动端，但忽略了同类目标在路侧视角下因其远近关系所呈现出多种尺度大小的问题，使模型学习困难，导致精度下降。

本文将ELAN 高效网络融入到EfficientNetv2-s［9］结构中，构成新的EfficientNetv2-e 轻量化检测网络，更换掉YOLOv7［10］算法的Backbone；在预处理阶段适当地删除输入图像中的部分信息，来增强对被遮挡目标的学习能力；根据路测感知信息有着背景信息不变的特点，将SE（squeeze-and-excitation）［11］通道注意力机制更换为CA（coordinate attention）［12］坐标注意力机制，解决被测目标的多尺度问题；再引入Focal-EIoU Loss［13］损失函数，增加算法收敛速率，由此提出一种轻量级YOLOv7-R 算法。实验表明，本文算法的综合性能相较于对比算法更优。

1 YOLOv7-R算法

1.1 YOLOv7算法

为了保证RSU 系统检测的实时性，本文预选择YOLO 系列算法为模型基础。YOLO 系列算法，以其结构精简、性能高效、容易部署等优点，被广泛应用于工业开发，其中YOLOv7 是目前YOLO 系列较为先进的算法，十分适用于路侧视角下的交通目标检测。

YOLOv7 采用扩展高效网络架构（E-ELAN）［14］、基于级联模型［15］、重参数化卷积［16］等策略，兼顾了检测精度与检测速度。如图1所示，YOLOv7的网络结构包括3 部分：Input、Backbone 和Head。Input 端同传统YOLO 一样，采用了自适应锚框设计，解决了不同数据集之间相同目标大小不同的问题，为被检测图像提供了合适的预选框。Backbone 部分由几组Conv卷积层、ELAN 架构和MPConv 组成。Conv模块由卷积、批量归一化、SiLU 激活函数［17］组成，用来提取图像特征；ELAN 网络架构有两条分支，第一条分支是通过一个1×1的卷积使通道数变化，第二条分支先通过一个1×1 的卷积，改变通道数，再通过4 个3×3 的卷积，做特征提取，最后把得到的特征堆叠到一起得到最终的特征提取结果；MPConv 在Conv 层的基础上增添了最大池化层，构成两个分支，最大池化可以增大感受野，减少输入特征的数据量，Conv 用作特征提取，再通过Concat 操作将两个分支提取到的特征进行堆叠，增强网络的学习能力。还使用了SPP模块，其作用是通过MaxPool增大感受野，使算法适应不同的分辨率图像，便于识别区分大小不同的目标；CSP 模块将输入分为两部分，一个部分采用标准卷积，另外一个部分采用SPP 处理，最后把这两个部分Concat 在一起，可以减少一半的计算量，且速度变得更快，精度变得更高。Head 部分由路径聚合特征金字塔网络（PAFPN）构成，通过创造由底向上的路径来让底层特征更容易传递到输出层，以便不同尺度特征的高效融合，再通过RepVGG Block（Rep）结构调整PAFPN 输出特征图的通道数，最后经过1×1 卷积进行置信度、类别和锚框的预测。

图1 YOLOv7网络结构

1.2 主干网络改进

尽管YOLOv7 性能优异，在自动驾驶任务中表现优秀，但是从模型大小上，其在资源较少的移动端上部署并没有那么顺利，YOLOv7 模型参数计算量如式（1）所示：

式中：Cin、Cout为输入、输出通道数；d表示卷积的深度；k表示卷积核大小。从式（1）中可以看出，当模型的通道数C扩大n倍时，模型参数量J将扩大n2倍；若将模型的深度d扩大n倍时，参数量J也扩大n倍。

YOLOv7 主干网络的通道数C设置较大，由式（1）可得，其模型复杂度较高。为了使模型复杂度降低，使算法更适合完成RSU 的检测任务，受到文献［9］启发，本文使用EfficientNetv2-e 主干网络替换YOLOv7 的Backbone。EfficientNetv2-s 是一种轻量级网络，采用渐进式学习策略，通过缩减网络通道数C，扩增深度d的方式，实现了网络复杂度和特征提取精准度的折中。EfficientNetv2-s 中多使用深度可分离卷积（depthwise separable convolution，DSC），运算过程如图2所示。

图2 深度可分离卷积结构

深度可分离卷积是逐层卷积和逐点卷积的结合，深度卷积首先对每个输入通道分别执行逐层卷积，然后通过点卷积（1×1 卷积）将输出通道混合。即在一个标准的卷积中将输入同时进行滤波和组合操作，但DSC将这个操作进行拆分，第一步将输入进行滤波操作，第二步再将其进行组合操作。这种将标准卷积进行分解的操作方法可以有效地减少运算代价和网络模型的尺寸。相较于普通卷积，DSC 的参数更少，参数量下降比为

参数量下降必然导致模型的学习性能受损，为弥补模型的这一缺点，将YOLOv7 主干网络中的ELAN 高效网络架构融入到EfficientNetv2-s（图3（a））主干网络中，称为EfficientNetv2-e 架构。ELAN在不破坏原有梯度的情况下，通过控制最短和最长的梯度路径，网络能够学习到更多样、更准确的特征信息，具有更强的鲁棒性。改进后YOLOv7-R 的主干网络如图3（b）所示。

图3 主干网络改进

1.3 注意力机制优化

注意力机制是一种仿生物视觉机制。将人眼以“高分辨率”关注某个特定区域的习惯用在深度学习之中，让模型去学习图像中哪里是更重要的特征信息。一般来说，将该机制用于轻量网络上时，通道注意力会比较明显地改善网络的性能，这是因为通道注意力使轻量网络更关注图像中重要的语义信息，而丢弃部分不重要的信息，由此削弱噪声对输入图像特征提取的不良影响，增加模型的检测精度。

同样，EfficientNetv2 使用SE 通道注意力机制来增强模型性能，然而，它只考虑了建模输入数据的通道关系，从每个通道的角度提取感兴趣的区域，忽略了位置信息，不能精确地定位对象。这就可能会产生因相同目标呈现多尺度而导致模型漏检的问题。因此本文采用CA 坐标注意力机制来替换SENet，CA注意力机制网络结构如图4 所示，其中XAvg Pool 和YAvg Pool 是沿着两轴做平均池化提取宽高方向上的特征信息，并通过Concat操作来拼接得到的特征，接着做卷积来获得长程依赖关系，再进行归一化，得到每个维度的全局信息，然后沿着X轴和Y轴做split操作，再进行Conv和Re LU激活，最后将得到的信息重新加权，完成坐标注意力的施加。

不同于SE 注意力，CA 注意力机制把通道注意力分解成两个方向进行特征编码，其优点是沿一个方向获得长程依赖，沿另一个方向保留精确的位置信息，形成具有方向感知和位置信息的特征图，以提高在特征提取过程中更关注感兴趣区域的能力，使得算法能够关注大范围的目标位置信息忽略无效重复的背景语义信息，又不会带来计算量的增加，足够灵活和轻量，有助于模型通过位置信息更好地定位和识别多尺度目标。引入CA 注意力机制后的EfficientNetv2-e网络中MBConv和Fused-MBConv 的结构如图5所示。

图5 MBConv和Fused-MBConv结构

1.4 损失函数优化

深度学习中损失函数的选取很大程度影响训练所得的算法性能。YOLOv7 的训练方式分为带auxiliary head 训练与不带auxiliary head 训练两种方式，带auxiliary head 的训练方式中，aux-head loss 和lead-head loss 两者之间的比例不能过大，不过它们的损失函数相同，整体和YOLOv5 系列保持一致，分为3 部分：坐标损失、置信度损失和分类损失。后两部分使用BCEWithLogits loss［18］，坐标损失则默认采用CIoU loss［19］。CIoU loss计算公式如下：

式中：A为预测框；B为真实框；IoU为A和B的交并比，即A与B交集部分与并集部分面积之比，IoU越大，说明预测框越接近真实框，但当预测框与真实框没有重叠部分时，或两者完全重合时，IoU不能给出优劣评价；b为预测框的中心点；bgt为真实框的中心点；ρ表示欧式距离计算；C为能够包含预测框和真实框的最小闭包区域的对角线距离；参数a用于调节平衡比例；参数v用来描述预测框与真实框的宽高比的一致性，当中心点重合时，可通过v来衡量预测框和真实框的接近程度。

YOLOv7 的CIoU loss 考虑了重叠面积、中心点距离及宽高比，使得预测框的回归更加稳定，但它还不够完美。因为其公式中使用参数v宽高比比例来衡量与真实框的宽高接近程度，并不是宽和高的真实值，所以有时会阻碍模型的优化；而w和h其中一个值增大时，另一个值必然减小，它们不能保持同增同减，这也会导致损失函数收敛过慢以及回归框定位的不精确。为了提高算法性能和检测精度，本文采用Focal-EIoUloss 来替代CIoUloss，Focal-EIoUloss的计算公式如下：

式中LIoU、Ldis、Lasp分别表示重叠面积损失、中心点距离损失及宽高比损失，边界框回归的EIoU 损失如图6所示。

图6 边界框回归的EIOU损失

EIoU loss 相较于CIoU loss 所做出的改进是将损失函数拆分为重叠面积损失、中心点距离损失及宽高比损失3 部分，并且对CIoU loss 中的a和v进行了修改，Cw和Ch为可包含真实框、预测框的最小框的宽度和高度，EIoU loss 利用和直接计算包围框宽高的真实值，这样便解决了CIoU loss 使用宽高比比例所造成的阻碍优化问题，还能解决训练过程中的发散问题。此外，考虑到预测框的回归中存在训练样本不平衡的问题，即在输入图像中回归误差小的优质锚框的数量远少于误差大的低质量数量，质量较差的样本会产生过大的梯度影响参数的优化，又借鉴了解决正负样本不平衡的Focal loss［20］，将偏差大的地方设置更大的梯度优化，以便于关注对难样本的检测，降低质量差的样本对算法性能的影响。通过整合EIoU 损失函数和Focal 损失函数，得到最终的Focal-EIoU loss 的表达式，如式（9）所示。当EIoU loss 很小时，Focal-EIoU Loss 也会很小，虽然这会抑制高质量样本对模型训练的影响，但数据表明，这种抑制效果对RSU 感知系统所需的背景不变数据集的影响是微弱的。

2 实验设计

2.1 实验配置和评价指标

实验环境为Ubuntu20.04 操作系统，处理器型号为i7-10700K，显卡是RTX3090，显存为12 GB，采用的深度学习环境为pytorch1.11，编程语言为python3.8，安装CUDA11.3、CUDnn8.0.4 以及OpenCV4.6.0.6等扩展包。本文算法与对比算法的实验结论均在此实验环境中得出。

YOLOv7 的训练方式分为正常训练及auxiliary head 训练，auxiliary head 训练生成两组不同的软标签，即粗标签和细标签，细标签与lead head引导标签分配器生成的软标签相同，粗标签则通过放宽更多的网格作为正样本的约束而成，但在路侧感知数据集中粗标签的附加权重接近于细标签的附加权重，就会导致在最终预测时产生不良的先验，所以本文采用不带auxiliary head 的训练策略。为了准确评估YOLOv7-R 算法在路侧感知图像上的检测性能，按照COCO 数据集的标准，实验评价指标采用总体样本平均精确度mAP，即算法对数据集中各类目标检测精度的平均值，每个类别使用准确率（precision，P）和召回率（recall，R）作为x轴和y轴，可绘制一条曲线，该曲线与两轴围成图形的面积则为AP值。APsmall表示像素面积小于32×32 目标的AP值，APmedium表示像素面积大于32×32 小于96×96 目标的AP值，用来专门评判算法对多尺度检测中的小目标检测精度。推理速度指标采用FPS，即网络每秒传输帧数，单位是f/s（帧/秒）。具体公式如下，其中TP为真正例，FP为假正例，FN为假反例。

2.2 实验数据

本文选择的数据集为清华大学智能产业研究院（AIR）在2022 年2 月份发布的DAIR-V2X-I 中开源的7 058 张图片。DAIR-V2X 是全球首个车路协同图像数据集，开创了行业先河。数据来自北京市高级别自动驾驶示范区10 km 城市道路、10 km 高速公路及28 个路口，涵盖晴天、雨天、雾天、白天、夜晚等丰富场景。DAIR-V2X-I 即为RSU 捕捉到的图像数据集，由Car（乘用车）、Truck（货车）、Van（面包车）、Bus（公交车）、Pedestrian（行人）、Cyclist（自行车）、Tricyclist（三轮车）、motorcyclist（摩托车）、Barrowlist（手推车）、TrafficCone（交通锥桶）这10 类组成，数据类别实例如图7 所示。由于DAIR-V2X-I 中的三轮车的类别数量为0，并且手推车的类别数量仅为128，占比很小，所以真实类别可计为8 类。又因为这些数据中序号相近的图片多为相邻时刻的图片，所以要随机打乱再划分数据集。但是数据集中各种目标的样本数量差距较大，训练效果差，必须要对样本数量少的类别数据进行增强处理。

2.3 数据增强策略

因为数据类别的严重不平衡，数据增强策略不可或缺。YOLOv7 输入端使用了Mosaic 数据增强，拼接4 张图片训练，主要作用是丰富背景。而由于DAIR-V2X-I 数据集具有背景信息不变性的特点，并不需要丰富背景，遂即舍弃Mosaic数据增强，进而转为外部针对遮挡物体的GridMask［21］数据增强，参数设置分别为1/3、0.1、0.1、0.1，效果如图8（b）所示。该方法对数据中的信息进行有序的删除，以模拟对交通目标的部分遮挡，还不会造成擦除部分的不均匀。倘若模型对GridMask 处理后的图片进行训练，模型就能够有效提高对被遮挡目标的检测性能。

图8 数据增强效果

对于数据量较少的种类，使用Multiplicative-Noise 随机噪声，在图片中加入噪点，不改变太多背景信息的情况下进行数据增广，增加图片数量的同时，还可模仿雨雪天气的路侧情况；还使用Random-Gamma 随机灰度系数变化，改变图片的对比度，模仿夜间、傍晚时刻的路侧情况，提高模型的泛化能力。最终将所得图片以0.8∶0.1∶0.1 比例进行随机打乱划分，得到训练集8 469 张图片，验证集和测试集各有1 059张图片。

3 实验及结果分析

在训练参数的处理上，设置训练epochs为300；训练BatchSize为32；训练动量Momentum为0.937；选择学习率动态变化设置，lr0为0.01，weight_decay设置为0.000 5；优化函数采用Adam。图9（a）为训练所得YOLOv7 与YOLOv7-R 的mAP@0.5 函数曲线，图9（b）为训练得到的mAP@0.5：0.95函数曲线，纵坐标代表mAP值，横坐标代表迭代次数。对比两条曲线可知在训练迭代超过20 次之后，YOLOv7-R算法的mAP曲线始终高于YOLOv7 算法，说明本文的YOLOv7-R有更好的检测精度。

图9 YOLOv7与YOLOv7-R的mAP值对比

3.1 损失函数收敛性验证

在与上述同一实验条件下，对YOLOv7 与本文算法的损失函数进行分析试验。两种Loss函数的曲线变化如图10 所示。其中，两条曲线分别为坐标损失使用CIoU Loss 与使用Focal-EIoU Loss 时的平均损失值的情况。

图10 损失函数迭代对比

从图10 可以看出，持续的训练学习，Focal-EIoU Loss 和CIoU Loss 最终都到达收敛状态。但是Focal-EIoU 方法的收敛速率和损失值相较于CIoU方法更优，稳定性也有所提升。所以，使用Focal-EIoU 作为YOLOv7-R 的损失函数，对检测性能提升有着积极作用。

3.2 消融实验

为清晰地了解本文所提出的改进措施对路侧视角下目标检测算法性能的影响，设计了一组消融实验，在基线算法YOLOv7的基础上添加和修改各个模块，对比分析了：（1）原YOLOv7模型；（2）在YOLOv7基础上更换EfficientNetv2-e 作为Backbone；（3）在（2）基础上更改SE 注意力机制为CA 注意力机制；（4）在YOLOv7 基础上将损失函数CIoU loss 改为Focal EIoU loss；（5）同时更换加入CA注意力机制的EfficientNetv2-e 和Focal EIoU loss 函数的本文算法。在相同的实验条件下，在本文数据集上进行实验，输入数据大小为1920×1080。具体实验结果见表1。

表1 消融实验结果

由表1 可知，在除参数量之外的所有指标里，本文最终算法均为最优。将YOLOv7 模型的Backbone更换为EfficientNetv2-e可以使其减少53.7%的参数量，增加23.7%的检测效率，但这也使得模型精度有所降低；CA 注意力机制及Focal-EIoU Loss 都提高了模型的检测精度。对比模型（3）和本文算法可知，更换Focal-EIoU Loss 后的模型（3）的mAP@0.5：0.95 值提高了4.3%，所以可知Focal-EIoU Loss 非常有利于模型在该数据集上精度的提升，在进行算法优化时使用该方法是必要的。除此之外，由模型（2）和（3）可知，CA 坐标注意力机制对模型多尺度小目标的精度提升也是显著的，APsmall与APmedium分别提高了2%和5.7%。最后可得本文算法与YOLOv7 算法在DAIR-V2X-I 数据集上相比，在参数量降低52.3%的同时mAP@0.5提高了3%，mAP@0.5：0.95提高了4.8%，且检测速度增加了24.6%，验证了YOLOv7-R 模型在路侧单元感知数据集上的可行性，完全可作为车路协同产业中可以落地的模型基础。

为了进一步验证YOLOv7-R 面向被遮挡目标检测任务的有效性，从DAIR-V2X-I 数据集中筛选部分有遮挡的图像，进行目标检测，图11 可视化了有遮挡目标的图像经过本文算法YOLOv7-R 与原YOLOv7 算法的目标检测结果，原图中使用虚线标记红框中的目标为未被YOLOv7 检测到的被遮挡目标。

图11 遮挡目标的检测效果实例

从图11 中可以看出，本文模型对被遮挡的目标的敏感程度要优于YOLOv7算法，漏检目标如第1个场景中公交车面前被遮挡的行人、第2 个场景中对向车道被遮挡的车辆以及第3 个场景中斑马线上行驶的自行车目标。上述表明了本文模型在遮挡目标检测中的巨大优势。其原因在于输入数据经过GridMask 增强后，模型对被遮挡目标的学习能力提高，最终实现检测性能的提升。

3.3 对比实验

为进一步表明本文算法的有效性，使用本文的YOLOv7-R 算法分别与 SSD、EfficientDet［21］、YOLOv4［23］、YOLOv5-m、YOLOv5-s、YOLOv7、YOLOX-s［24］及最新的SOTA 算法YOLOv8 在本文数据集上进行了对比实验验证，因为双阶段目标检测算法的参数量和检测效率都不符合路侧感知系统的部署条件，所以本文没有谈及。对比实验结果如表2所示。

由表2 可知，YOLOv5-s 因为其极简的网络结构，所以具有较小的参数量，虽然本文算法在参数量上的表现不及YOLOv5-s 与YOLOX-s，但检测精度与检测效率为本次实验中的最优，比YOLOv5-s 的mAP@0.5高9%，比YOLOX-s的mAP@0.5高8.2%。实验结果表明，YOLOv7-R 在兼顾精度与速度的条件下，优化了参数量与模型大小，具有更好的性价比，也体现了YOLOv7-R 在路侧视角图像检测上的优势。

表2 不同算法对比

3.4 本文算法检测效果

为了更直观地感受YOLOv7-R 算法的检测性能，在天津市津塘公路的路口采集了一些路侧视角图像进行测试，检测效果如图12 所示。在a 组检测图片中，可以看到待检测图片为拥堵时段的路口，属于复杂场景，YOLOv7-R 算法能够将各交通目标准确地检测出来。在b 组检测图片中，从原图可以看到车辆正处于低光照条件下，属于夜间场景，YOLOv7-R 也能准确地将待检测目标测出。在第3组检测图片中，图12（c）为YOLOv7 算法的检测结果，图12（d）为YOLOv7-R 的检测结果，可以看到当应对存在遮挡目标的情况时，YOLOv7 算法漏检了道路中央被车辆所挡住的行人，这就可能带来安全隐患，而如图12（d）所示本文算法则是精准地检测出了他们。最后一组检测图片为目标多尺度的检测效果图，因相同目标的尺寸不一，导致YOLOv7 算法漏检了远处的小目标车辆，而图12（f）中的本文算法将待测目标准确测出。上述检测效果表明，本文算法能够实现对路侧视角下的道路交通目标的准确检测，且在漏检率、遮挡目标分辨率上的表现均优于基线算法，更适合部署在RSU设备当中。

图12 检测效果对比

4 结论

为了实现V2X（vehicle to everything）中RSU 感知系统的实时检测应用，本文提出了一种基于YOLOv7 改进的目标检测算法YOLOv7-R。针对在算力较低的RSU 上部署模型困难的问题，文中更换了YOLOv7的Backbone，引入了添加ELAN 高效网络架构的EfficientNetv2-s 网络，以简化卷积来实现模型的轻量化；针对被侧目标呈多尺度、可能导致模型漏检问题，本文使用CA坐标注意力机制代替主干网络中的SE 注意力机制，通过捕捉目标的方向信息与位置信息，降低模型的漏检率；针对模型轻量化所带来的精度损失，修改原有的损失函数为更精确的Focal-EIoU loss，减小低质量样本对算法性能的影响，提升模型的检测精度；针对数据集中的被测目标重叠问题，采用GridMask 数据增强策略，进一步提升模型的检测性能。实验结果表明，在有效地提升检测速度及精度的前提下，还减小了模型的大小，以更小的参数量实现了对于目标数据集更高精度的检测。

虽然本文算法能够实现对RSU 检测场景中的部分交通目标较为准确的识别，但还有进一步提升的空间。DAIR-V2X-I数据集只有8类交通目标，而实际中的交通参与者类别会更多，后续研究将不断扩充数据集中的类别，以提高算法的泛化能力。