APP下载

基于深度学习的铁路实例分割研究①

2021-12-21鑫,李

关键词:掩模集上特征提取

翟 鑫,李 昕

(安徽理工大学 电气与信息工程学院,安徽 淮南 232000)

0 引 言

在汽车自动驾驶领域中,使用深度卷积网络构建的计算机视觉(CV)技术在自动驾驶中的多种视觉感知场景中取得了可观的进展[1]。目标感知、目标追踪、场景理解、动态感知等技术均依靠卷积神经网络(CNN)网络实现了可靠的实际应用[2]。在铁路无人驾驶领域中,城市轨道交通中的地铁列车运行环境相对的封闭,使得较容易开展无人驾驶,从上世纪80年代开始无人驾驶系统应用于法国、日本、马来西亚、加拿大、新加坡等国家,国内城市轨道交通中北京、上海、重庆、深圳均有地铁线路应用了无人驾驶系统[3]。相比于汽车与轨道交通的自动驾驶,地上铁路的无人驾驶有其独特性,铁路的运行环境相对汽车具有封闭性,但是相对于轨道交通的运行环境又是开放的,铁路机车是依据列控系统的信号进行运行的,随着铁路机车自动化水平的提高,现有运行系统配合环境感知系统即可实现无人驾驶。使用RGB图像作为进行路轨环境计算机视觉分析感知的基础数据源。MaskRCNN是目前广泛使用的一种实例分割深度卷积网络架构,但其进行图像分割的精度不够高,图像边缘不够精确,使用经过改进的MaskRCNN网络进行铁路图像的像素级精确实例分割[4]。

1 DseNet架构

传统的图像分类网络,如LeNet-5,AlexNet,VGG等是整体设计而成的,网络有扩展能力不足的缺点。后继的ResNet,DenseNet,MobileNet等是预先设计的基本网络块组成特征提取网络,可根据任务需求调整网络结构,以便兼顾准确率和计算量。DseNet在模块结构上继承了模块化单元块网络的思想,设计了一个新的卷积网络单元Dseblock。在特征流动上综合了ResBlock[5]和DenseBlock[6]特性,在CIFAR-10数据集上图像分类的准确率超过了广泛使用的ResNet网络。具体的卷积网络块Dseblock结构如图1所示。Dseblock模块有2个模块结构相同的子模块串联而成,由于子模块中采用了通道下采样,所以串联2个为最合适的数量。子模块中使用了拼接连接,以便最大化的传递特征,而在Dseblock中使用的短接连接为了提高网络在训练中的收敛速度。

图1中混合深度分离卷积是在普通卷积基础上,首先进行逐深度卷积运算,之后进行逐点卷积运算,其在一个逐深度卷积运算中混合了多个不同大小的卷积核,以获取更广泛的输入特征,提高网络的运算效率。相对于常用的批量正则化(BN),滤波响应正则化(FRN)在小批量数据上性能更优越,因此本文中使用FRN代替了BN,以便提高DseNet的特征提取性能。SE是一种通道注意力机制,首先使用全局平均池化提取输入的空间分布特征,之后通过一个两层的全连接网络进行变换,最后与输入道进行逐通道的乘法运算。拼接与短接,是深度卷积网络中常用的连接方式。

图1 Dseblock结构图

DseNet的主要结构由DseBlock单元块进行线形组合构成,组合的深度可根据任务数据集规模不同可灵活改变。DseNet网络由输入段、若干DseBlock、后处理输出段组成,输入段将输入图片进行上采样提高维数,DseBlock对输入段的输出信息进行逐级的特征提取,后处理段根据具体任务不同而选择不同的结构。DseNet网络结构示意图如图2所示。

图2 DseNet架构示意图

2 DseNet-MaskRCNN

MaskRCNN是目前广泛使用的一种实例分割架构,MaskRCNN是在FasterRCNN的基础上添加了一个mask分支实现了像素级的掩膜产生。

图3所示为DseNet-MaskRCNN网络架构示意图,在DseNet-MaskRCNN网络架构中,使用的特征提取网络是DseNet构建的特征金字塔网络架构,经过区域建议网络运算后进行前背景区分及边框回归。最终运算出目标物的边框损失、类别损失、掩膜损失和边缘损失。MaskRCNN的mask分支采用的是全连接卷积网络的方式,本文在此基础上尝试加入了通道注意力机制,形成了新的Mask-se头,其结构如图4所示。

图3 DseNet-MaskRCNN结构示意图

图4 Mask-se头结构图

Mask-se头将来自RoIAlign的输出作为SE块的输入,经过Mask-se模块运算后输出网络所需的掩膜。

DseNet-MaskRCNN的损失函数由三部分合并而来:

L=Lcls+Lbox+Lmask

其中Lcls表示分类误差,Lbox表示边界框的回归误差,Lmask表示掩膜的分割误差,为了提高掩模的边缘准确度,加强图像的边缘分割精度,在上式中加入了边缘加权函数Lb,其中源和目标对象边缘的数据采用sobel算子进行边缘滤波得到,Lb的表达式如下:

其中∂表示权重系数,p表示分割边缘B上的点,M是对真值边缘的距离变换,y′表示预测掩模的边缘,y表示真值掩模的边缘。

3 铁路实例分割实验

由于网上无合适的公开铁路数据集可用,因此实验所使用的铁路数据集由爬虫程序从网络抓取得到,实例分割铁路轨行区需要较为清晰的路轨区域,并且障碍物应该尽可能少,经过人工筛选共得到2350张适用的铁路图片。这些图片使用VIA工具进行像素级的铁轨轨行区域手工标注。

经过标注的铁路数据集规模较小,仅以此进行的网络训练难以使网络充分收敛,不能使网络在图片的实例分割中达到较为满意的正确率,因而在进行铁路数据集实例分割前,首先将DseNet-MaskRCNN网络在MSCOCO数据集上进行预训练。MSCOCO是一个大型的目标识别数据集,包含10余万张80个类别的图像,是目标识别领域较为常用的数据集。使用MSCOCO预训练可以使得网络的各部分得到一个比较合适的初始权重,在目标数据集上训练时可以大大加快网络的收敛速度。

为了验证DseNet-MaskRCNN网络的性能,在实验中进行了其与MaskRCNN以及与不含掩模边缘加权误差的Dse网络,不含Mask-se头的Dse网络的对比实验,实验中采取0.8:0.1:0.1的比例划分训练集、验证集和测试集,初始学习率设为0.001,使用Adam梯度下降算法进行网络训练。将上述网络在自制铁路数据集上经过充分训练,所得实验结果如表1所示,其中的评价指标AP90和AP95分别代表交并比大于90和交并比大于95时的样本占比。

表1 实验结果对比

表1中Mask代表MaskRCNN;Dse1代表使用不含Mask-se头结构与掩模边缘加权误差的Dse(DseNet-MaskRCNN缩写下同)网络;Dse2代表使用不含掩模边缘加权误差损失的Dse网络;Dse则代表包含Mask-se头结构与掩模边缘加权误差的完整的Dse网络。

从表1可知,Dse的AP90和AP95均大于MaskRCNN,在AP90指标上,Dse网络达到了93.8%的正确率。其中Dse1的结果表明本文所设计的特征提取网络性能良好,能够高效的提取出目标特征,在加入了掩模边缘加权损失和Mask-se头后正确率得到进一步的提高。

在网络的推理阶段,DseNet-MaskRCNN计算每张图像的平均运行速度为66.6ms,约15帧/秒,该速度稍快于MaskRCNN的12帧/秒。由于实验中的程序基于python语言编写,运行效率较低,在实际应用中可以考虑使用c语言编写程序代码,进一步的提高运行速度。

DseNet-MaskRCNN的实例分割效果对比如图5所示。

(a)MaskRCNN (b) DseNet-MaskRCNN (c) MaskRCNN (d) DseNet-MaskRCNN

图5中(a),(c)的为MaskRCNN所检测到的铁路区域,在铁路边缘区域存在小范围的漏检,图5中(b),(d)的为DseNet-MaskRCNN所检测到的铁路区域,该网络在整个铁路区域上取得了良好的实例分割效果。

上述结果表明在采用了新的特征提取网络、Mask-se头后,DseNet-MaskRCNN在本文采集得到的铁路数据集上可以取得满意的铁路实列分割效果,从图5中明显可见目标边缘处的检测效果得到了有效的增强。

在铁路实际行车时,由于车辆宽度超过铁轨宽度,铁轨两侧若干距离也属于限制区域,这个距离和铁路行车的速度以及车辆种类有关,由于铁轨两侧的可提取特征相对稀少,使用传统的图像处理方法划分两侧侵限范围更加有效。可以简便的根据铁轨所占像素值计算出同位置的像素距离比,继而可得到铁路行车的侵限范围。

4 结 语

实验结果表明DseNet这种结构简单的网络可以用于构建高效的特征提取网络模型。DseNet所采用的通道注意力机制混合深度卷积、滤波响应正则化等卷积运算形式取得了良好的效果,在CIFAR10数据集上经过充分训练后正确率达到了92.8%,而经典的ResNet仅达到了92.6%的正确率。在路轨的检测与识别应用上,改进自MaskRCNN的DseNet-MaskRCNN性能可靠,能够从测试图片中高质量的检测与识别出路轨区域,检测与识别的准确率达到了93.8%,速度达到15帧/秒略快于MaskRCNN。为后续的铁路无人驾驶等实用化研究提供了坚实的基础。但是由于能力所限,本文自制数据集规模有限,无法涵盖所有铁路实际环境,且该方法不能适用于光照条件不足或雨雪雾等复杂气象环境下,后续研究中需要进行更深入的工作。

猜你喜欢

掩模集上特征提取
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
基于直写技术的微纳掩模制作技术研究进展*
基于Daubechies(dbN)的飞行器音频特征提取
复扇形指标集上的分布混沌
掩模图像生成时阈值取值的合理性探讨
Bagging RCSP脑电特征提取算法
掩模位置误差对光刻投影物镜畸变的影响
Cr光栅掩模对金属平板超透镜成像质量的影响
基于MED和循环域解调的多故障特征提取