基于深度学习的铁路异物侵限检测模型

2023-11-27曹利安

铁路计算机应用 2023年10期

徐鑫，潘杰，曹利安，罗伟，谢松

（中国铁路成都局集团有限公司科学技术研究所，成都 610081）

随着我国铁路的高速发展，截至2022年底，全国铁路运营里程已达15.5万km，其中，高铁里程达到4.2万km。2022年，铁路货运总发送量达49.84亿t，铁路发送旅客量达到16.73亿人[1]，铁路运输在我国经济发展中发挥着越来越重要的作用，铁路运输安全的重要性也愈发凸显。然而，铁路沿线行人、家畜、野生动物等侵入铁路线路的事件时有发生，威胁铁路行车安全。

目前，针对异物侵入界限（简称：侵限）检测的方法主要有电网检测法、光纤光栅检测法、视频检测法、雷达检测法、超声检测法和红外线屏障法等[2]。这些方法的检测原理不同，适用的场景也不尽相同，其中，以视频检测法较为通用，使用该方法时，完全不需要对铁路线网进行任何设施改造。根据《铁路综合视频监控系统技术规范》[3]，铁路沿线均建设有监控摄像头，并由专人24 h盯控，以便及时发现异物侵限等异常事件。由于这种方法监测的时空范围和防护能力有限，仍存在误报、依赖人工判识等问题[4]，基于此，本文研究YOLOv5深度学习模型[5]，针对铁路场景，对该模型进行适应性改进，并将其作为铁路异物侵限检测模型，检测铁路线路异物侵限情况，实现提高检测精确率的目的。

1 检测模型

1.1 YOLOv5模型网络结构

YOLOv5模型网络结构如图1所示，主要由主干（Backbone）网络、颈部（Neck）网络、头部（Head）网络组成。其中，Backbone网络采用较为轻量级的跨阶段局部网络（CSPDarknet，Cross Stage Partial Darknet）[6]，提取目标特征，减少模型参数数量，在保证高精度的同时大幅减少了计算量；Neck网络采用路径聚合网络（PANet，Path Aggregation Network）[7]，通过上采样和下采样操作实现多尺度特征的融合，构建特征金字塔网（FPNet，Feature Pyramid Network）；Head网络对FPNet进行目标检测，输出检测结果。

图1 YOLOv5模型网络结构

1.2 铁路异物侵限检测模型

铁路异物侵限检测场景往往背景复杂多变、各类目标尺寸和形态差异较大、远小目标数量占比较大，并且真实目标样本数量过少。为了提高检测精度，本文主要在目标框损失函数和检测尺度方面对YOLOv5模型进行了适应性改进，以此作为铁路异物侵限检测模型。

1.2.1 目标框损失函数改进

YOLOv5模型使用CIoU损失函数作为目标框回归的损失函数，CIoU利用预测框和真实框之间的距离、重叠区域、宽高比等指标指导模型收敛。但是CIoU及GIoU等损失函数均未考虑预测框和真实框之间的方向性，大量“游离在外”的预测框对于模型收敛不能提供任何有效信息。因此，本文引入SIoU作为目标框损失函数[8]，将预测框和真实框之间的位置关系加入到模型回归参数中，有效降低了预测框的自由度，使模型收敛速度更快，训练结果也更准确。

1.2.2 检测尺度改进

YOLOv5模型使用FPNet+PANet的方式提供3个尺度的特征图输出，以（像素为）640×640的图像输入为例，YOLOv5将输出3个像素分别为20×20、40×40、80×80的特征图。YOLOv5使用20×20的特征图检测大目标，通过2次上采样和拼接操作，进行特征融合，分别得到40×40、80×80的特征图，用于检测中等尺度的目标和小目标。

本文经过对相关数据集整理发现，在铁路异物侵限检测场景中，发生侵限的目标（如行人、动物等）在监控摄像机画面中的像素面积占比通常都较小，特别是发生在距离摄像机较远处的侵限，即便是YOLOv5提供的最大尺度（80×80）的特征图仍无法对远处的小型侵限目标进行精准检测。此外，现实场景中极少出现在画面中占比非常大的侵限目标，因此，YOLOv5提供的最小尺度（20×20）的特征图在本文场景中几乎没有实际作用。

基于上述考虑，本文对YOLOv5的检测尺度进行了适应性修改，通过增加一个额外的上采样和特征融合模块，获得尺度更大的特征图（160×160），能够检测到更远、更小的侵限目标。此外，还裁剪掉了原模型中作用不大、最小尺度为20×20的相关检测模块，减少了模型推理期间的计算量，提升模型推理速度。

改进后的模型网络结构如图2所示，图中，红色背景为本文新增的、更大尺度的检测模块，灰色连接箭头及模块为本文移除的检测模块。

图2 改进后的YOLOv5模型网络结构

改进后模型输出的3个尺度的特征图为40×40、80×80、160×160，分别用于检测大、中、小目标，能更好地适应铁路场景的异物侵限检测。

2 数据集构建

当前并没有专门针对铁路场景的行人和动物的图像数据（简称：数据）集，既有的公开数据集，如COCO等[9]，缺乏铁路轨道及列车（特别是我国的各类高速动车组列车）背景，若将此类公开数据集直接用于铁路场景异物检测模型的训练，模型不能有效学习到铁路轨道相关场景特征，容易产生大量的误检和漏检。例如，基于此类数据集训练出来的检测模型极易将铁路扣件、铁路道外立杆、动车组列车部件等多种铁路常见场景误识为行人类型，而在铁路轨道中行走的行人（特别是夜间或者雨天）和动物则会产生较多的漏检。

因此，本文将通过多种途径采集铁路场景专用的异物侵限数据，并从公开数据集中挑选部分相关样本、辅以多种数据增强技术，构建一个更适合铁路场景的异物侵限数据集。

2.1 数据采集

本文从铁路综合视频监控平台中选取了60路运营中的铁路轨道旁的常规监控视频，包括有砟普速客、货运铁路，以及无砟高速铁路，涵盖桥梁、隧道口、隧道内等多种场景。根据实际使用需要，从选取的监控视频中采集了白天、夜间、阴天、晴天、雨天、雪天、雾天等多种条件下的数据，经过人工筛查，构建了含有6 000张样本的数据集，并对这些样本进行了标注。其中，5 500张样本中包含铁路轨道中行走的行人（主要是夜间上道作业的人员和部分经过居民聚居区的货运线路上行走的行人）及少量动物，剩余500张样本为不包含行人和动物的铁路轨道背景及各式列车背景，作为负样本使用。

真实线路中，能采集到的动物数据非常有限，远不足以满足模型训练要求。经过对铁路沿线异物侵限情况的调研、与铁路巡线人员及铁路综合视频盯控人员的沟通，最终选定了牛、羊、狗、猫、兔、鸡、松鼠、猴、狐狸、鹿等多种线路上较为常见的动物作为训练类别。针对其中的羊、鸡、猪等易发生侵限的动物，在铁路试验场地内按真实线路规格架设摄像机，以可控方式引入这些动物进行样本采集，共采集并标注了约500张包含行人和动物的样本。其他动物的数据由于获得性和可控性较差，不便进行现场采集，故通过公开数据集获取到这些动物的数据，通过技术手段叠加到此前采集的真实线路背景样本中，又生成了3 500张包含各类动物的铁路场景样本。

至此，本文共得到了10 000张包含铁路场景下的行人、常见动物、列车的样本。完成标注后，共有28 000个各类目标。

图3为本文采集和生成的部分样本图片示例。图3（a）为本文在铁路试验场地内采集的动物（羊、鸡）样本，图3（b）为真实铁路上采集的动物（猫、猴）侵限样本，图3（c）为使用本文方法将动物（狗、牛）素材叠加至铁路线路生成的样本。

图3 采集和生成的部分样本图片示例

2.2 数据增强

由于样本采集的设备数量和场景有限、各个场景相似度也略高，直接将上述数据用于模型训练，很容易产生过拟合，泛化能力较差。如果将来应用于训练集中未曾出现过的场景、或者采用像素值相差较大的摄像机进行拍摄，模型准确性可能会有所下降。因此，在模型训练前需要对数据集进行增强，提高数据集的丰富程度。

为提高模型泛化能力、减少过拟合现象的发生，本文使用改变图像的亮度、对比度、饱和度、色调，进行随机旋转、裁剪、翻转[10]，增加额外噪声等技术对数据进行增强处理。通过此类数据增强技术可弥补数据采集设备型号、现场光照环境等的不足，从而更好地将模型应用于训练集之外的设备和场景。

此外，本文还使用Mosaic、Cutout、Mixup等数据增强技术，将多张样本进行随机缩放、裁剪、拼接，将多个目标集成于单张图像中，有效提升学习效率，同时，可随机将图像中的部分区域剪切，模拟目标被部分遮挡的情况，提高模型鲁棒性。图4为使用数据增强技术产生的部分用于训练的样本图片示例。

图4 数据增强技术产生的部分样本图片示例

3 测试及结果分析

3.1 模型训练环境

本文进行模型训练使用的软、硬件配置如表1所示。

表1 模型训练软、硬件配置

基于YOLOv5网络，初始学习率（learning rate）为0.001，使用Adam优化器，IOU阈值0.7，批大小（batch size）为64，启用了旋转、色调、饱和度、翻转、Mosaic、Cutout、Mixup等数据增强技术。模型训练共使用10 000张样本，按照8 : 1 : 1的比例划分为训练集、验证集、测试集。

3.2 模型指标评估

深度学习目标检测任务中，一般使用精确率（precision）、召回率（recall）、平均精度均值（mAP）等指标评估模型性能。其中，精确率表示在所有检出目标中真实目标的占比，精确率越高，代表错检率越低；召回率表示所有真实目标被检出的比例，召回率越高，代表漏检率越低。计算公式为

式中，P为精确率，R为召回率，TP表示检测出的真实目标数量，FP表示检测出的错误目标数量，FN表示未被检出的目标数量。

精确率和召回率从两个不同的角度衡量模型性能，单独看任何一个指标都不足以评价模型的好坏，故引入了AP（Average Precision）概念，用于表述不同召回率下的平均精确率。而目标检测任务包含多个类别，对所有类别的AP取平均即得到评估指标mAP。

图5为模型训练过程中，训练集和验证集的损失函数曲线，包括目标框损失函数（box_loss）、目标置信度损失函数（obj_loss）、目标类别损失函数（cls_loss）。本文共训练了约250轮迭代（epoch），从损失函数曲线可以看到，模型训练约200轮后，验证集的各个损失值均已趋于平稳，不再有明显下降趋势。最终，采用训练250轮得到的模型文件进行后续试验。

图5 模型训练损失函数曲线

图6为本文最终选择的模型在验证集上的精确率－召回率曲线（PR曲线，IoU阈值为0.5）。图中，灰色线条为各类别的PR曲线，蓝色线条为所有类别平均的PR曲线。根据PR曲线，模型所有类别最终平均精度（mAP）为0.863。

图6 模型精确率－召回率曲线

3.3 测试结果分析

使用本文训练得到的模型对测试样本中的铁路场景和非铁路场景的行人、动物数据进行检测。按行人、动物两大类别统计，本文训练模型在1 000张测试样本（含各类目标共2 713个）中的检测性能指标如表2所示。从表2的指标可以看到，模型在测试集上整体精确率为0.897左右、召回率为0.854左右，其中，行人的精确率和召回率均略高于动物的。部分检测结果如图7所示。