基于深度学习的接触网鸟巢异物识别研究*

2022-05-14王科理高福来

铁道机车车辆 2022年2期

王科理，高福来，杨鹏，王亮

（1 中国铁道科学研究院研究生部，北京 100081；2 中铁检验认证中心有限公司，北京 100081；3 智洋创新科技股份有限公司，山东淄博 255086）

随着中国的高速铁路里程逐渐大幅度增加，高铁沿线设备采用高铁综合检测车或运营车辆实时视频监控方式，即通过接触网安全巡检装置（2C）、车载接触网运行状态检测装置（3C）、接触网悬挂状态检测监测装置（4C）等设备获取现场设备的图像信息，因此采集到的视频和图像数据量非常庞大。传统人工后台排查的方式进行数据分析不仅效率低下，而且容易受到工作人员的工作状态影响，给行车安全带来隐患。因此研究准确高效的图像自动目标检测方法，对于提高铁路运行效率，保障铁路系统正常运营安全具有重要意义。

在铁路线路中，鸟巢异物属于比较常见的隐患类型，鸟巢的组成部分是树枝、铁丝等，极易造成接触网设备短路跳闸、绝缘子闪络等故障，影响高铁行车安全，给铁路部门带来极大困扰。目前铁路部门根据鸟巢搭建的位置以及对供电安全产生的危害程度，划分为A、B、C 3个级别进行处理。距离带电设备小于500 mm的鸟巢以及正在建设中且距离带电设备小于1 000 mm的鸟巢列为A级，此种情况下需立即申请天窗时间进行处理；鸟巢距带电设备在500~2 000 mm范围内列为B级，此种情况下必须在当日天窗或临时天窗进行处理；当鸟巢距带电设备在2 000 mm以外时列为C级，此种情况下对供电安全没有影响，可在14日内处理完毕。对于鸟巢异物隐患，目前主要处理方式分为人工巡检或者人工观察采集到的现场图片进行鸟巢异物的识别并调动人员去现场清除。由于鸟巢位置隐蔽，在图片中所占比例过小以及形状不规则等原因，采取这些方式不只浪费人力物力财力，同时也无法及时有效地排除安全隐患。

近几年来，借助于深度学习尤其是卷积神经网络的飞速发展，计算机视觉领域也开始了前所未有的技术革新，在互联网、安防、语音识别等领域中体现了巨大的应用价值和商用价值。而在接触网图像识别领域，现有技术仍然停留在传统图像处理算法和一些直接应用的经典深度学习算法，缺少与实际场景相适应的深层次研究。因此，基于深度学习的接触网图像目标检测技术是众多国内研究者不断深入探究的课题。

为更好地解决上述难点，文中提出一种基于深度学习的铁路鸟巢异物检测方法，实现了针对铁路接触网鸟巢异物目标检测。算法分为2部分，首先是对采集的现场图像数据进行图像处理操作完成预处理，然后基于预处理后的图片输入到卷积神经网络进行鸟巢异物的识别。

研究内容突破传统的人工识别、人工巡检方式，基于深度学习技术对铁路鸟巢异物进行精准的目标识别。在解决铁路接触网鸟巢异物检测的同时，也可为其他领域的目标识别方法提供一种新思路，并且在一定程度上提高铁路电气化线路鸟巢异物识别的检测速度、准确度，提升巡检自动化水平，降低接触网整体运营管理的人力物力成本。

1 相关工作

关于铁路鸟巢异物检测，目前大多研究内容集中使用传统图像处理方法提取特征进行识别。段旺旺等人［1］提出了一种采用局部动态阈值二值化和Zhang-Suen细化算法等传统图像处理方法粗略得到疑似鸟巢的关键区域，之后通过提取HOG特征使用支持向量机（SVM）分类器进行分类，提取出鸟巢区域位置。谢亮凯［2］研究出了一种根据鸟巢和硬横梁相对位置不变性的检测方法。该方法将预处理后的图像利用Sobel水平算子将图像边缘检测出来，之后再使用概率Hough变换直线检测算法校正图像的角度，并结合待分析图像中线段的长度关系对最前面的硬横梁进行检测，最后对校正后的图像进行Otsu二值化处理，进而通过统计硬横梁之间的白色区域面积，判断鸟巢是否存在。目前铁路鸟巢检测采用的传统图像处理技术对于光照、遮挡等自然环境变换的场景适应性能不稳定，没有很好的普适性，很容易出现漏检误检的情况。铁路鸟巢异物检测的工作仍需要人工进行大量的看图识别，工作量可想而知。

随着学者们在深度学习领域多年深耕，各高校以及研究机构已经开始尝试将深度学习技术应用到缺陷、异物等目标检测领域，进一步证明了基于深度学习的铁路鸟巢异物检测的可行性。

2 关键实现技术

为了实现铁路接触网鸟巢异物检测，首先需要对采集的原始铁路线路图片进行预处理，主要包括图像缩放、图像去噪和图像增强。然后再使用卷积神经网络模型进行鸟巢检测。其具体流程如图1所示。

图1 鸟巢异物检测流程图

2.1 鸟巢图片预处理

由于接触网处于户外环境，现场拍摄的图片会随时受到天气变化的影响，包括明暗变化和噪声大小等，尤其在遇到恶劣天气时，采集的图像则更加容易失真。为了将图像特征清晰的目标图像输入到目标检测模型，需要提前对采集的现场图片进行图像去噪和图像增强等操作。同时由于目前现场采集的装置是高清摄像机，采集到的图片都是高分辨率的图像。但是高分辨率就意味着相同尺寸大小所包含的像素点数量多，占用内存大，运算量相应增大，为了更好地实现算法的实时性并减少运算量，需要对高分辨率的图像进行图像缩放。

2.1.1图像缩放

在处理计算机图像的过程中，图像缩放是一种非平凡地对数字图像大小进行调节的过程，因此图像缩放需要在处理效率和结果的平滑度以及清晰度上做出权衡。

文中采用最近邻插值法进行图像缩放，是一个将变换后的图像中的原像素点最邻近像素的灰度值赋给原像素点的方法。最近邻插值法将原始图像中的像素点（x0，y0）在x和y方向上扩展到相应的像素点（x1，y1），其缩放系数为kx，ky，变换矩阵为式（1）：

设x1=i+u，y1=j+v，其中i，j为非负整数；u、v∈［0，1）。若u<0.5，v<0.5，将（i，j）赋予（x1，y1）；若u<0.5，v>0.5，将（i，j+1）赋予（x1，y1）；若u>0.5，v<0.5，将（i+1，j）赋予（x1，y1）；若u>0.5，v>0.5，将（i+1，j+1）赋予（x1，y1）。

2.1.2图像去噪

图像在形成时由于车速改变、光照强度变化、车体振动和相机传感器本身会叠加一定的噪声，图像在计算机中各种处理的过程中也可能会伴随着噪声。这种噪声会削弱图像的细节特征，使细节特征发生模糊甚至丢失，对随后的目标检测带来不利的影响。因此，必须将这些噪声加以过滤和处理，常用的滤波算法包括均值滤波、中值滤波以及双边滤波等。在文中，采取双边滤波的方法来限制噪声。该方法可以完成平滑降噪和保留边缘特征的任务，是一种非线性滤波方法。和其他滤波原理一样，双边滤波也是使用加权平均的计算方法，其中某个像素的强度由周围像素亮度基于高斯分布的加权平均来表示。此外，双向滤波权重除了考虑了像素范围内的辐射差异，还计算了像素的欧氏距离，如卷积核心中的像素与中心像素的深度距离、颜色强度、相似程度等。在计算中心像素时，这2个权重都要考虑。双边滤波算法为式（2）：

式中：f（x，y）为输入图像，（x，y）=p；g（p）为双边滤波输出；p为像素点；q为邻域像素点；L为邻域像素集合；C为标准量；w s为空间邻近函数；w r为灰度相似度函数。

2.1.3图像增强

图像增强是指将图像中有用的特征信息进行加强并且可以在一定程度上接受失真，其目的旨在针对给定图像的应用场景突出我们需要的整体或局部的图像特征，并且突出图像中不同目标特征之间的差别，从而提高目标判断能力和识别效果。对于现场采集到的铁路图片，需要通过图像增强方法增强鸟巢区域特征信息，使目标检测模型更好地学习特征、判断类别、检测区域。

文中使用直方图均衡化算法进行图像增强，变换函数由灰度级概率密度函数得出，随后根据变换函数调整图像的灰度级分布。变换函数T（r）与原图的概率密度函数pr（r）满足式（3）：

式中：r为原图像的灰度级。

上式满足如下条件：

（1）T（r）在区间0≤r≤1中为单值单调递增。

（2）当0≤r≤1时，0≤T（r）≤1。

2.2 鸟巢异物目标检测

2.2.1基于YOLO v3的目标检测算法

首先采用One-Stage算法中的YOLO v3［3］来进行目标识别。全卷积网络YOLO v3采用Darknet-53结构（含有52个卷积层和1个全连接层）进行图像特征提取，通过使用残差跳层连接和去掉池化层的手段，降低了层级之间的特征损失［3］。Darknet-53主要由3×3和1×1的卷积核以及类似ResNet中的快捷链路构成。相较于ResNet-152，Darknet-53有更低的BFLOP（10亿次浮点数运算），在分类准确率相同的情况下缩减一半的时间。

YOLO v3使用了Darknet-53前面的52层，设置卷积层步长为2来实现降采样。YOLO v3中采用类似特征金字塔网络（FPN）的上采样和融合做法，在多个尺度（scale）的特征图（feature map）上做检测，可以适用于多尺度大小的目标检测。

我们将图像预处理后的鸟巢图片输入网络后，YOLO v3会先将输入图片重置为416×416大小的图片，然后使用Darknet-53深层网络来提取目标特征，再将特征向量送至特征金字塔结构中进行多尺度预测，从而完善并提高目标检测准确率和位置精度，最后对预测框进行非极大值抑制，以减少重复检测。从而获得目标类别和坐标等信息。其坐标信息公式为式（4）：

式中：tx、ty、th和tw为模型预测输出；cx和cy为网格单元坐标；pw和ph表示预测前边界框（bounding box）的大小；bx、by、bh和bw为预测得到的边界框（bounding box）中心的坐标和尺寸。

2.2.2 基于Faster RCNN的目标检测算法

Faster RCNN［4］作为一种Two-stage算法，主要由卷积层、RPN（Region Proposal Network）网络、ROI（Region Of Interest）池化层以及分类和回归4部分组成。

卷积层提取输入图像的特征图，用于RPN网络和全连接层共享和生成候选区域。传统的检测框生成过程很慢，Adaboost［5］利用滑动窗和图像金字塔结合的方法完成检测框的生成，RCNN是使用SS（Selective Search）的方法来生成检测框，而Faster RCNN则是直接使用RPN生成候选区域，去掉了滑动窗口和SS方法，从而很大程度上加快了检测框的生成速度。

对于预处理后的原始鸟巢图片，为了提升算法的通用性，我们使用2阶段的Faster RCNN检测算法。将输入的鸟巢图片重置为1 200×900大小，使用ResNet50骨干网络进行图片特征的提取，接着将特征向量送至RPN层和ROI池化层中进行多尺度预测，最终通过后续的全连接层和softmax网络对目标框做分类。Faster RCNN算法识别流程如图2所示。

图2 Faster RCNN检测流程图

3 试验结果与分析

试验环境为：12196MiB显存、Ubuntu 16.04.6 LTS操作系统、OpenCV4.1.1、NVIDIA 2080Ti显卡、CUDA10.1等。

分别采用基于Darknet框架的YOLO v3方法和基于Tensorflow框架的Faster RCNN模型对预处理后的现场采集的图片进行鸟巢异物检测。

铁路鸟巢数据集共有5 200张图片，图片分辨率均为2 456×2 054。文中将训练集和测试集的比例设置为9∶1。为了方便于后续训练，在预处理过程中，首先进行图像缩放，每张图片缩放4倍，之后进行图像去噪和图像增强。

在YOLO v3方法中，为了提高检测的效果并加快模型训练速度，我们使用在ImageNet［6］数据集上训练的网络参数进行初始化，并对模型进行微调［7］使其训练能够快速收敛，更加适用于铁路鸟巢的检测。为了抑制过拟合，将学习率设置为0.001，动量（momentum）设为0.9进行训练。在迭代15 000 epoch后，损失函数趋于稳定。在Faster RCNN训练的过程中，选择ResNet50的预训练权重。Faster RCNN在迭代80 000 epoch后，损失函数趋于稳定，学习率设为0.001，动量设为0.9进行训练。

YOLO v3算法和Faster RCNN算法试验结果的对比见表1，采取的评判指标是误检率、准确率、漏检率和检测速度。将IOU（Intersection Over Union）大于0.5且分类正确的样本视为正样本，将其和总样本的比值作为准确率，通过计算预测错的负样本和预测出的总样本的比作为误检率，通过计算未检测出的样本和总样本的比作为漏检率。通过表1可以看出Faster RCNN在检测鸟巢的准确率、误检率以及漏检率上表现更优。Faster RCNN作为2阶段的目标检测算法，准确率方面要比单阶段的YOLO v3算法更高，但是检测速度慢于YOLO v3算法。2种方法的检测效果如图3、图4所示，可以看出对图片中铁路鸟巢异物有较好的检测结果。