基于高精度多阶段网络的X 光图像违禁品检测
2024-05-03张洪斌李嘉毅谢启胜通信作者
李 纯,张洪斌,李嘉毅,谢启胜(通信作者)
(北京首都国际机场股份有限公司 北京 101317)
0 引言
随着交通运输业的快速发展,安全检查的压力也日渐增大。以广州市为例,在航空运输方面,2017 年广州白云国际机场的年旅客吞吐量已突破6 500 万人次。在城市轨道交通方面,2019 年广州地铁的日均客流量达到906.8万人次。在铁路运输方面,仅2019 年广州南站的日均列车停靠次数约为800 趟,日均发送旅客量和到达旅客量均超过20 万人。
为应对日益增长的安检需求,本文提出了一种违禁品检测系统,用于从X 光安检图像上检测违禁品[1]。在该系统中,X 射线设备对需要安检的物品进行图像采集,利用深度学习检测算法对图像中的违禁品进行检测,安检人员根据系统检测结果进行进一步查验。相较于纯人工视觉检测,该违禁品检测系统效率更高、成本更低,能够实现对枪支、刀具、毒品等违禁品的高精度检测。
1 研究与应用现状
1.1 基于深度学习的目标检测技术
基于深度学习的目标检测模型一般分为一阶段算法和二阶段模型,前者以YOLO(you only look once)和SSD(system specification description)等模型为代表,而后者以Faster R-CNN 模型为代表。其中,一阶段模型最大的优势在于速度快,更能够适用于对实时性有较高要求的应用场景,而二阶段模型首先在第一个阶段用主干网络预测出一些目标区域建议,然后在第二阶段利用分类网络进行分类和回归。相较于一阶段模型,二阶段模型往往速度较低,但具有较高的精度优势。然而,传统的二阶段模型也存在一些问题。两个阶段所提取的信息是不同的。第一,传统的模型不能适应两个阶段网络信息的差异;第二,传统的二阶段模型用全连接层输出所有的物体检测结果,但不同的物体类别会在网络中存在竞争;第三,在传统二阶段模型中,不同物体类别信息难以分离,很难重新训练单一物体类别或者扩展新的物体类别。
1.2 安检图像智能分析中的应用
在安检图像智能分析应用方面,国内已有诸多科研机构、安检设备制造商以及安防解决方案提供商提出了针对安检X 光机的智能识别算法和产品[2-3]。在其模型中,少量使用了传统的非深度学习的传统计算机视觉算法[4-5],而更加广泛地应用了基于深度学习的目标检测、图像分割以及图像分类技术。除此之外,还应用特征融合、注意力机制等新的技术手段。算法的接入方式也包括原始图像信号的直接接入和视频流接入两种主要方式。
2 基于多阶段网络特性的多分类网络
2.1 违禁品检测流程
本文采用的违禁品检测系统结构如图1 所示。该系统由违禁品识别模型训练和违禁品检测两个流程组成。
图1 X 光机违禁品检测系统结构
模型训练流程在线下完成,主要包括样本采集、标注、模型训练等环节,通过迭代方式不断吸收新样本、改进模型,以实现模型性能的持续提升。在识别流程中,智能识别系统以原始图像信号和视频信号两种方式获取图像,经必要的图像处理后,将结果提交给预先训练好的违禁品检测模型进行识别。获得识别结果后,以报警框的方式对相关人员进行违禁品展示报警[6]。图2 展示了利用违禁品检测系统检测违禁品的输出。
图2 利用违禁品检测系统检测出违禁品的示例
2.2 多分类网络结构
图3 展示了多分类网络的整体结构。该模型包含两个阶段:第一阶段利用主干网络提取图像整体特征,并通过区域提取网络提取区域,该区域中的特征在二阶段网络中进行处理。第二阶段,分类分支网络在一阶段网络中提取锚点和区域,在二阶段网络中进一步处理信息,生成分类结果并回归边界框以确定最终物体位置。这种网络结构既灵活又可训练,适用于联合训练和分割任务[7-8]。
图3 多分类网络结构
2.3 多分类网络训练
不同的数据集有不同的信息特点,因此也应采取不同的训练方式。Pascal 数据集中的图像为彩色图像,相较于违禁品的灰度图像有更多的信息量。因此,需要采用冻结主干网络参数的训练方式,以避免分类分支网络之间的竞争。冻结主干网络的训练过程包括3 个步骤:在第一步中,训练一个二阶段网络(比如Faster R-CNN 网络);在第二步中,冻结主干网络参数作为多分类网络中主干网络的参数;第三步为训练多分类网络中分类分支网络的参数。
本文采用图4 所示的流程重新训练多分类网络。训练完多分类网络之后,冻结主干网络的参数,重新训练分类分支网络。在第一次训练参数的分类分支网络以及重新训练参数的分类分支网络中,多分类网络选择检测精度有优势的网络作为选定的分类分支网络输出检测结果。
图4 多分类网络的重新训练过程
3 多分类网络实验
本文采用采集的违禁品X 光数据集以及Pascal 数据集对多分类网络进行实验。违禁品X 光数据集包含灰度图,而Pascal 数据集则包含彩色图。由于数据集的信息差异,采用不同的训练过程训练这两个数据集。Pascal 数据集采用冻结主干的方式进行训练,而违禁品X 光数据集则利用直接训练的方法训练多分类网络。
多分类网络主干网络根据Swin Transformer[9]的主干网络结构。在实验过程中,运用Swin Transformer 主干网络结构的多分类网络与采用Swin Transformer 主干网络结构的Faster R-CNN 网络进行效果对比。采用Swin Transformer 主干网络结构的Faster R-CNN 网络的具体网络结构如图5 所示。
图5 采用Swin Transformer 结构的Faster R-CNN 网络
相对于传统的Faster R-CNN 等二阶段网络,多分类网络可以显著提升检测精度,尤其是对于X 光的灰度图像。此外,多分类网络可以灵活地重新训练特定的物体类别并保证每种检测物体类别的检测精度。
3.1 Pascal 数据集实验
在Pascal 数据集上进行实验,评估了多分类网络的性能。实验中采用了特定的网络结构,如图6 所示。主干网络和分类分支网络均采用了Swin Transformer 的网络结构。在分类分支网络中,全物体类别分类分支网络输出所有物体类别的检测结果,而扩展分类分支网络则提升了单个物体类别的检测准确度。在所使用的网络中,主干网络与全物体类别分类分支网络的连接方式与传统的二阶段网络相同。
图6 训练Pascal 数据集时所用的多分类网络
由于Pascal 数据集彩色图的复杂性,直接用多分类网络训练会导致数据集不收敛。Pascal 数据集采用的训练流程包括3 个步骤:第一步,训练一个Swin Transformer 主干网络结构的Faster R-CNN 网络;第二步,冻结Faster RCNN 网络的主干网络,继承Faster R-CNN 网络中对应的参数作为全物体类别分类分支网络的参数;第三步,针对不同的物体类别,使用不同的扩展分类分支网络进行训练。如果针对某个物体类别的扩展分类分支网络在检测方面相较于全物体类别分类分支网络表现更好,本文会保留该扩展分类分支网络,并使用其具有更高检测精度的结果来替代全物体类别分类分支网络对应类别的检测结果。如果针对某个物体类别的扩展分类分支网络并没有展现出更高的检测精度,本文将视全物体类别分类分支网络对应类别的检测结果为整个多分类网络的检测结果。因此,整个多分类网络的检测结果可以确保不弱于原始的Faster R-CNN 网络。Pascal 数据集实验检测结果如表1 所示,由平均精度均值(mean average precision, mAP)进行度量。
表1 Faster R-CNN 网络与多分类网络检测精确度对比
3.2 违禁品X 光数据集实验
为了进一步验证多分类网络的效果,本文使用违禁品X 光数据集进行了实验。该数据集包含了35 万张灰度图像,其中包括7 种需要检测的违禁物品,包括电池、步枪、手枪、刀具、相机、香水和香烟。
针对违禁品X 光数据集,本文直接对多分类网络进行训练,并根据图4 所示的流程重新训练分类分支网络。重新训练后,步枪、刀具和相机的检测精度得到了提高,因此本文采用重新训练的结果来提升物品检测的准确度。违禁品X 光数据集的检测结果如表2 所示,多分类网络显著提升了检测精度。例如,手枪的召回率从60%提高到86.13%,同时误报率为0。刀具的召回率从85.58%提高到93.47%。通过重新训练,在误报率下降的同时,刀具的召回率进一步提高到96.03%。
表2 对比Faster R-CNN 网络和多分类网络的检测准确度
对于多分类网络而言,违禁品X 光数据集在检测准确度的提升方面表现较Pascal 数据集更为显著。在处理违禁品X 光数据集时,本文直接对整个网络进行训练,从而使整个网络在检测精度上协调一致地提升。相比之下,在处理Pascal 数据集时,本文采用了冻结主干网络的训练方式。这种方法避免了不同物品类别之间的相互影响,但无法提升主干网络本身的性能表现。
4 结语
综上所述,随着人工智能技术的快速发展,其在安防等领域的应用日益广泛。本文提出了一种基于人工智能技术的违禁品检测系统,利用X 光安检设备收集图像,并通过人工智能技术进行违禁品的检测,从而提高工作效率并降低人力成本。
本文提出了一种高精度的多分类网络,用于违禁品检测系统中的违禁品检测任务。多分类网络利用深度学习网络在不同阶段提取不同信息特征的优势,采用不同的网络结构对物体进行检测。实验结果表明,多分类网络在公开数据集上展现出良好的检测精度,并在使用的违禁品X光图像上表现出极佳的性能。