APP下载

基于深度学习的车载影像交通标志检测方法研究

2023-11-06车普民

经纬天地 2023年4期
关键词:交通标志类别尺寸

车普民

(垣曲县测绘地理信息中心,山西垣曲 043700)

0 引言

车道级高精度地图是支撑智慧交通与无人驾驶技术实现的核心技术之一,交通标志作为道路的核心元素,准确获取交通标志是自动驾驶行为判断过程中的必要步骤。但受限于道路环境复杂、拍摄距离等原因,道路交通标志影像在采集中多数以小尺寸目标为主,且正样本个数较少。因此,如何利用海量道路采集影像来实现对交通标志高精度的定位和分类,是当前的一项研究热点。随着近年来深度学习技术的不断进步,由卷积神经网络为基础构建的目标检测模型已经在各种物体检测领域取得很好的成果。其中,吴军等针对输电线路巡检问题,提出一种以ResNet101 网络和多层级联分类器对Cascade R-CNN 改进的输电线路小目标缺陷检测方法[1],并在无人机航拍数据集上与YOLOV3 算法对比,验证了所提出算法的有效性和优越性;何颖等基于加权双向特征融合技术对YOLOV5 算法进行修改,提出一种经济林木虫害目标检测算法[2],该算法在测试集上的平均精度达到了0.923,且推断速度为64.9m·s-1;林思玉等通过在聚焦层网络引入多尺度检测和可变形卷积方式,实现了一种小建筑物目标检测方法[3],该方法在测试环境下与原始方法相比,对小建筑物目标提升了3.6%,减少了小建筑物目标漏检、误检的问题。

受拍摄距离以及道路交通标志的实际大小限制,影像中的交通标志大多为个数较少且较为分散的小目标;此外,自动驾驶等任务在要求高精度检测的同时对于检测的实时性也有着较为严格的要求。针对以上问题,研究了一种交通标志检测模型,模型包括骨干网络、特征金字塔、检测输出端3部分,骨干网络首先通过特征聚焦层对输入影像进行无损下采样,然后通过瓶颈结构并联卷积核组实现特征提取,特征金字塔通过多尺度特征图拼接输出3 个尺寸的特征图,最终在检测端使用自适应锚点框机制来实现目标框的检出。

1 交通标志检测模型

1.1 骨干网络

骨干网络通过多层次堆叠的特征提取层和下采样层对输入的图像进行多次特征提取与下采样,通过多张由不同大小的特征图实现多尺度目标检测。然而网络层数的不断加深会导致模型计算量大幅上涨,进而使得模型难以得到充分训练。为了在降低骨干网络计算量的同时不对后续特征增强与提取造成影响,在骨干网格的首层使用了特征聚焦层(Focus)对图像进行一次无损尺寸降采样。Focus 层通过一个2 × 2 大小的卷积核对输入尺寸为640 × 640 × 3 的特征图进行横向与纵向采样间隔均为1 的提取切片,提取后的特征图尺寸变为320 × 320 × 12,聚焦层的具体结构如图1(a)所示。经过提取后的特征图被尺寸压缩并延展到了12 个图像通道上,由此实现了无损下采样。一张影像经过多层次的特征提取会丢失很多的目标特征细节,而检测对象是以小尺寸目标为主的交通标志,这种特征细节的丢失对于小尺寸目标来说是灾难性的,会直接导致模型无法获取到足够的目标特征进行学习。因此,为了特征提取过程中尽可能地保留更多原始的小尺寸目标特征信息,通过瓶颈结构[4]的卷积核组来构建特征提取层,具体结构如图1(b)所示。瓶颈结构首先以一个1 × 1 大小的卷积核对来自上层的特征图进行通道维度的压缩,然后,使用尺寸3× 3 的卷积核进行特征提取,并通过批量归一化与激活函数对提取后的特征进行归一化与非线性化处理,来降低数据的偏移[5],最后,再次使用1×1 大小的卷积核将提取后的特征图恢复到输入图的通道数。相比使用单独的3 ×3 卷积核独自完成特征提取与通道的压缩,这样的方式可以节约很多计算开销。此外,在常规提取路径的基础上使用了残差结构,提高提取层输出特征图信息复杂度的同时避免梯度消失问题[6]。在非线性激活函数方面,以参数化PReLU激活函数(Parametric Rectified Linear Unit,PReLU)作为特征的非线性激活函数,具体如式(1)所示:

图1 骨干网络结构图

式中:x为输入的特征值;a为可学习更新的参数。

为了保留更多的特征信息,以3×3 的卷积核作为下采样层,通过2 倍的采样间隔的方式实现对特征图尺寸的压缩。最终,骨干网格输出5 个不同尺寸的特征图。

1.2 特征金字塔

来自骨干网络的多尺度特征图中,小尺寸特征拥有较多较大尺寸目标的轮廓信息,大尺寸特征图拥有更多目标细粒度的纹理特征。而特征金字塔通过多尺度的特征图跨层融合,将骨干网络中不同尺寸的特征图进行融合,来获取语言特征更为丰富的特征图进行检测输出。结合对小尺寸交通标志检测的任务特点,构建了跨尺度多层融合特征金字塔,具体结构如图2 所示。

图2 模型结构图

从图2 中可以看出:所构建的特征金字塔向检测端输出3 张不同尺寸图像,而每张图像分别来源于骨干网络中的2~4 层,上两层特征图的0.5 倍、0.25 倍尺寸下采样以及底层小尺寸特征图的2 次尺寸上采样,然后,通过通道叠加的方式拼接而来。

1.3 检测输出端

为了实现对多个尺寸目标的检测,基于回归的目标检测模型需要使用自适应锚点框机制,通过多个尺寸的锚点框在不同特征图上来实现对相应大小目标的回归检测。而在训练阶段,所使用的初始锚点框与真实目标的尺寸分布越接近,模型的训练情况就越好。因此,通过基于K-means++非监督聚类的自适应锚点框算法来获取所需要的锚点框。首先,综合考虑特征金字塔输出层数以及检测计算量的开销,确定最终所获得的锚点框为12 个,以K-means++以训练集中的真实目标框为数据进行非监督聚类,接着使用遗传算法对所获取的最终聚类中心进行随机变异500 次后作为最终的锚点框,最后将获取到的12 锚点框按照3 个尺度特征图的尺寸大小进行分配。

由于检测对象存在较为严重的正负样本不平衡现象,故而在训练过程中使用焦点损失函数对模型进行迭代训练,损失函数具体分为目标框定位损失与目标分类损失两部分,具体如式(2)、式(3)所示:

式中:N为正样本个数;p为预测框分类正确概率;l̂为预测框与真实框的偏移;c、g分别为目标框的类别和正样本目标的位置参数;φ为两个子函数的权重值,实验取经验参数设置为为目标框类别概率;γ为超参数;smoothL1如式(4)所示:

2 实验与结果分析

2.1 训练集增强

道路采集影像中的交通标志往往尺寸较小且在单幅影像内分布稀疏。为了让模型充分学习目标特征的同时,具备较好的泛化能力,首先以采集于不同时间和地点的中国交通标志检测数据集(CCTSDB)与清华—腾讯交通标志数据集(TT100k)作为数据源,从中筛选出道路中最常见的4 种标志“限速50”“限速60”“限速70”“禁止停车”作为样本,按照4∶1 的比例划分为训练集和测试集,然后对训练数据集进行了样本多样性增强。模型需要尺寸统一的训练数据才能进行训练,故首先通过裁剪的方式将所有训练集中的图像尺寸转化为608×608,然后随机选取部分训练数据采取了旋转、扭曲、增加高斯噪声等方法进行增强处理,通过马赛克增强,即通过随机选取的方式获取4 张训练样本后按照随机尺寸变换将4 张影像拼接为1 张尺寸与原图相同的样本,通过多张样本融合的方式来提高单幅影像中正样本目标的数量,具体结果如图3 所示。

图3 马赛克增强样本示意图

将所有强化后的样本放入训练集参与训练,按照VOC 格式对所有样本行标注,最终参与训练的“限速50”样本1287 个(标注为Xiansu50),“限速60”样本1452 个(标注为Xiansu60),“限速70”样本1351 个(标注为Xiansu70),“禁止停车”样本1135个(标注为Nostop)。

2.2 实验环境及评价机制

为了全面客观地评价模型性能,以单类别精度均值(Average Precision,AP)、平均精度均值(Mean Average Precision,MAP)、每秒检测帧数(Frame Pre Second,FPS)3 项指标对模型的单类别与全类别检测精度以及检测速度进行评价,具体计算如式(5)所示:

式中:TP为正确检出的正样本;FP为错误检出的负样本;FN为未检出的负样本;p为检测精确度(precision);r为检测的召回率(recall);n为类别个数,取经验参数n=3。同时,为了进一步体现所提出模型对应交通标志检测任务的优越性,使用目前主流的回归检测模型YOLOv5、RetinaNet 以及Faster R-CNN 模型进行对比测试。

2.3 模型训练

模型的训练和测试工作均在安装大型显卡的图形工作站上完成,其中CPU 型号为Intel-i9-12 900K,GPU 型号为Nvidia RTX 3090,内存大小为32 G,硬盘为1 TB SSD,工作站的操作系统为Ubuntu 16.04,机器学习的开发框架为Tensor Flow 2.5.0。模型在训练过程中采用Adam 优化器进行参数优化,其中,衰减系数为0.9,训练的总迭代次数为300次,每次训练过程中送入模型训练的样本个数为12个,训练过程中使用动态学习率来避免局部极小值,初始学习率为0.000 1,每训练100 次缩小0.1倍,在训练过程中模型的损失变换情况如图4 所示。

图4 模型训练损失

由图4 可以看出:在训练过程中,训练损失值经过初期的小幅震荡后始终保持收敛下降,最终稳定在0.06 左右,说明在设定的参数环境下模型实现了较好的训练收敛。

2.4 实验结果分析

使用训练数据集所提出模型与对比模型进行测试,并通过选定的指标对所有模型进行评价。所提出模型以及参考模型对于4 个类别目标的实际检测效果如表1 所示。

表1 检测指标评价

由表1 可知:所提出交通标志检测模型对于4个类别的目标均能够实现较为精准的检测,对于禁止停车类别的检测精度达到最高水平,而在其余类别的检测精度中表现相当,由此可以说明所构建的训练数据集中样本分布合理,模型对几个类别的目标特征都进行了充分学习。所构建模型对全部类别目标的平均精度均值达到0.93 MAP,相比其余3种参考模型分别提高了9.46%、25% 以及10.78%,在输入影像尺寸一致的情况下,所构建模型在测试数据集上精度表现最佳,可以充分说明所提出结构在检测精度方面的优越性。在检测速度方面,对于全部测试数据集中的样本,所提出模型能够达到29 m·s-1的检测水平,在检测速度方面明显优于基于候选区域的Faster R-CNN 模型以及经典的RetinaNet,但低于YOLOv5,而从模型的结构中可以看出:特征金字塔结构通过多层特征图进行跨尺度融合,同时使用了12 个锚点框来进行多尺度检测,这就使得模型在追求检测精度的同时不可避免地牺牲了检测速度,而相比之下YOLOv5 仅使用9 组锚点框进行检测,其检测速度更快但是在精度方面略低。

所提出模型检测结果如图5 所示。可以看出:所提出模型对于不同逆光、远距离、多类别样本密集等多种复杂的情况均能够实现较好地检出,不仅体现了模型在性能方面的优越性,也说明了所使用的训练集能够对模型进行充分训练。

图5 检测结果图

3 结语

针对道路环境下交通标志快速精准检测问题,提出一种基于回归的深度学习检测模型,并以道路交通影像数据集CCTSDB 与TT100K 为基础,利用多种图像变换算法与马赛克拼接构建了样本类型更丰富、正样本数量更多的训练数据集来进一步充分训练模型。为全面评价模型性能,使用单类别精度均值、平均精度均值、每秒检测帧数等几项指标对所提出模型与3 组对照模型进行综合评价。根据实际检测结果和统计评价结果,得出以下结论:在检测精度方面,模型单类别精度最高可达到0.91,并且所有类别检测精度相当,4 种类别目标的综合检测为0.93 MAP,相比3 组对比模型分别高了9.46%、25% 以及10.78%,说明所提出的检测模型具有较高的检测精度;在检测速度方面,所提出模型采用3 个检测尺度的特征金字塔,通过12 个锚点框来完成多尺度、多类别的目标检测,在一定程度上增加了模型的运算量,因此造成检测速度略低于YOLOv5 模型,但是仍可达到29 m·s-1的检测速度,具备实时检测的性能水准。

根据以上结论可以总结出:所提出的检测模型能够对道路影像范围的多尺度、不同角度的交通标志目标实施精准快速地检测,能够在高精度地图的快速采集绘制、无人驾驶决策等领域发挥重要作用。在未来的研究中,将对模型结构不断改进,同时采用更多的策略优化训练数据集。

猜你喜欢

交通标志类别尺寸
交通标志认得清
尺寸
基于双向特征融合的交通标志识别
CIIE Shows Positive Energy of Chinese Economy
D90:全尺寸硬派SUV
交通标志小课堂
服务类别
佳石选赏
论类别股东会
我们欢迎你!