行李安检禁限带物品识别多标签图像分类算法

2022-11-11胡本翼彭凯贝吕晓军刘跃虎

铁路计算机应用 2022年10期

关键词：违禁品掩膜X光

胡本翼，彭凯贝，张驰，吕晓军，刘跃虎

（1. 西安交通大学人工智能学院，西安 710049；2. 中国铁道科学研究院集团有限公司电子计算技术研究所，北京 100081）

行李安检是公共轨道交通社会治安防控体系建设的重要内容。针对禁限带物品（简称：违禁品）的行李安检智能识别技术有助于高安检效率，降低安检劳动强度，尤其对于公共轨道交通公交化运营以及应对高峰时段安检具有重要的应用价值[1～2]。

1 行李X光安检图像的特点

与可见光成像的自然图像不同，行李安检图像是由X射线穿过不同密度材料的物品后，根据透射光强度，通过相应算法着色生成。

行李中互相重叠的物品会改变一些区域的透射光强度，形成X光伪彩色图像特有的影像混叠现象，即原本因遮挡而无法看见的物体会以迥异的形态重新出现[3]。如图1所示，相互堆叠的物品在X光图像中呈现典型的影像混叠现象。

图1 行李安检图像的物品影像混叠现象

行李安检图像识别的难点在于：（1）X光透射成像使物品间遮挡关系呈现为影像混叠，减弱了物品图像边缘、颜色等特征的可辨识性；（2）违禁品种类丰富、材料构成复杂、成像角度多变，造成不同类物品图像差异小，同类物品图像差异大的特点；（3）物品图像物理尺寸变化较大。

2 行李X光安检图像多标签分类算法

针对行李X光安检图像的特性，采用图像多标签分类深度神经网络框架，引入图像注意力机制，在行李物品堆叠的复杂场景中准确定位违禁品关键区域，以提升算法的细粒度辨识能力；在此基础上，引入能够动态融合各层预测结果的元选择网络，在物品视觉特征剧烈变化的条件下，自适应地融合多层信息，较为准确地预测图像中是否存在违禁品。

2.1 算法描述

行李安检图像违禁品识别任务的特点是：图像中可能出现的违禁品种类和数量不确定。本文将该问题建模为一个多标签分类问题，即假设数据集中可能出现有C类违禁品，给定输入行李安检图像x，深度神经网络g输出对应的C维向量yNC，即

2.2 算法流程

在深度卷积网络架构的基础上，构建主干网络、注意力分支、元融合分支，算法流程如图2所示。

图2 算法流程示意

（1）主干网络通过基于ResNet50的特征金字塔提取2个分支共享的卷积特征；

（2）注意力分支模块融合共享的卷积特征与原始输入图像，生成注意力掩膜，用于对金字塔特征进行筛选，以便在严重混叠情况下区分违禁品，并锁定物品细微特征，保证算法的细粒度辨识能力；

（3）元融合分支基于质量改善过的特征金字塔，通过外部神经知识引导的元融合预测物品类别。

2.2.1 金字塔主干网络

在实际安检场景中，违禁品种类多，且物理尺寸差异大。而卷积网络在前向传递过程中，随着层次的加深，卷积特征感受野越来越大，特征分辨率会越来越小。因此，仅使用单层特征图无法兼顾大尺寸物品和小尺寸物品的识别需求。

特征金字塔架构[4]将低分辨率的高层语义特征与高分辨率的低层细节特征进行连接，使所有尺度下的特征图都具有丰富的语义信息。在金字塔架构前向传递的过程中，把不改变特征图大小的层归为一个阶段，并将每个阶段最后一层输出作为该阶段的特征抽取结果，由此构成特征金字塔，如图3所示。

图3 特征金字塔架构

特征金字塔架构自上而下地对特征进行上采样处理，并将其与下层特征进行融合，得到融合了不同语义层信息的新特征图，以有效地处理不同尺寸特征图所蕴含语义信息悬殊的问题。

2.2.2 注意力分支

由于行李安检图像中各种物品图像特征相互纠缠，同时各类物品图像缺乏纹理信息，只能通过颜色、形状等低层视觉信息进行识别，增加了违禁品辨识难度。此外，各种违禁品的类间差别小，类内差别大，进一步增加了细粒度识别的难度。

为此，在特征金字塔架构上增加注意力掩膜，使网络能在复杂背景下定位关键区域,避免复杂背景带来的干扰与混淆；同时，锁定具有区分度的关键区域，为后续的细粒度识别奠定基础。为了解决物品识别严重依赖颜色、形状等低层视觉信息的问题，多批次引入原始输入图像，能够在分辨率不断丢失的前向传递过程中，不断补充关键的低层视觉线索，其架构如图4所示。

图4 注意力分支架构示意

具体地，对输出的第l级金字塔特征pl，利用注意力分支产生相应掩膜来预测该级所有违禁品的区域位置。在主干网络输出的最大空间尺度特征图的基础上，通过堆叠上采样模块构造注意力分支。其中，每个上采样模块由1个双线性上采样层（用于扩展空间大小）、4个膨胀卷积层（用于提取感受野更大的特征）和1个1×1卷积层（作为输出层）组成。

在每次上采样前，将特征与重新缩放的输入图像沿通道拼接；注意力分支输出预测掩膜后，再将多层金字塔特征同时与其对应的注意力掩膜相乘，以改善多尺度特征图。

2?.2.3 元融合分支

为了解决行李安检图像的物品影像混叠和尺寸大小变化问题，有效的信息融合机制是关键。对于混叠现象较为轻微的物品，可直接通过高层语义信息识别；对于混叠现象比较严重的物品，则需要借助颜色、形状等低层视觉信息。另一方面，小尺寸物品需要使用感受野小的低层特征来识别，而大尺寸物品则应借助感受野大的高层特征来发现。由于不同层级特征对物品辨识的作用不同，用于融合各层级预测结果的权重应动态地产生。

传统融合策略往往通过自定义或采用全连接层直接输出融合权重，缺乏有效的信号监督，容易产生权重偏差现象。已有研究表明，在其它X光安检图像数据集训练出的CNN模型，会在给定X光安检图像数据集上表现出更强的适应性[5]。因此，本文利用其它网络学到的外部神经知识，对各层级预测结果进行动态融合，以避免权重偏差现象。

如图5所示，元融合架构首先池化金字塔特征，使其具有7×7的空间大小；在通道侧拼接合并后，将其传递至元选择网络，输出每一维均以服从0～1分布的多维向量作为软融合权重，以增强网络在复杂场景下对多阶段信息自适应融合能力，从而提升算法在物品图像混叠和尺寸变化场景下的物品分类性能。

图5 元融合架构与元选择网络

2.3 多阶段损失函数定义

鉴于网络涵盖多个分支与任务，本文提出的算法采用多阶段损失函数：

（1）注意力分支网络训练阶段：采用均方误差函数（MSE）衡量注意力掩膜真值与预测值的差异，以抑制图像背景、突出前景，从而准确定位关键物品区域。

（2）元融合分支网络训练阶段：多标签分类网络采用二进制交叉熵（BCE，Binary Cross Entropy）函数，确保网络能同时准确地预测多类违禁物品；元选择网络使用标准交叉熵（CE，Cross Entropy）函数来衡量融合权重真值与预测值的差异，以获取不同层级特征的最优加权组合，损失函数定义为

其中，λ为控制元选择损失项的强度。

3 实验与结果分析

3.1 实验数据

在2个X光行李安检图像公共数据集SIXray和OPIXray[6]上进行实验，并与现有方法对比，针对注意力和元融合机制进行消融实验验证，就本文提出算法对违禁品的辨识能力进行量化分析。

SIXray是近几年使用比较广泛的公用X光安检图像数据集，共包含1 059 231幅X光图像，其中8 929幅图像包含枪械、刀具、钳子、剪刀和扳手等5类常见违禁品，如图6所示。按照SIXray数据集推荐的数据划分策略，将其中7 496幅图像作为训练数据，其他1 433幅用于测试。

图6 SIXray数据集包含5种违禁品

为了验证算法对类内差异的辨识能力，选择折叠刀、直刃刀、剪刀、美工刀和多功能刀5种刀具类实例，共计8 885幅图像的OPIXray数据集（如图7所示），将其中80%（即7 109幅）图像作为训练集，剩余20%（即1 776幅）图像作为测试数据。

图7 OPIXray数据集包含5类刀具

3.2 网络参数设置

本文算法只选取特征金字塔的最高3层，即式（2）中， l f3,4,5g， λ取0.1。为了驱动网络训练，由经验生成掩膜真值和元融合真值。

对于掩膜真值，在实例级标注基础上，为每个边界框生成一个内嵌椭圆，其中椭圆内像素设置为255，其余像素设置为0。

对于元融合真值，利用预先训练好的CHR（Class-balanced Hierarchical Refinement）模型对每张图像进行处理，得到所有层级金字塔特征的分类损失；元融合真值是一个独热向量，其维度与特征金字塔层数相同，1表示该层级特征产生的分类损失最小，否则为0。

3.3 算法训练阶段划分

本文算法训练分2个阶段：

（1）区域定位阶段：仅使用少部分实例级标注数据训练注意力任务，此时只更新主干网络和注意力分支参数，共训练350轮，初始学习率为1 e-5，每过100轮衰减10倍；

（2）类别辨识阶段：在完成第一阶段训练之后，继续在大量图像级标注数据上对网络模型进行训练，此过程将更新网络所有参数，共训练150轮，初始学习率为5 e-2，每经过30轮衰减10倍。

3.4 算法识别准确率对比分析

选取被广泛应用的ResNet50和对应特征金字塔架构的Res50-FPN作为实验比较的基准方法，并与同样基于特征金字塔架构、且在SIXray数据集上表现最好的CHR方法进行对比；实验结果采用均值平均精度（mAP， mean Average Precision）作为识别准确率评价指标，实验结果如表1所示。

表1 多标签分类算法识别准确率对比

由表1可知，相较于基准方法ResNet50、ResNet50-FPN和目前最优的CHR方法，本文算法具有2个优势。

（1）提升识别准确率

本文算法对所有具体类别违禁品的识别准确率均取得最佳结果；其中，在SIXray数据集上准确率平均提高2.82%，在OPIXray数据集上准确率平均提高3.10%。

（2）具有细粒度识别能力

在OPIXray数据集上，对形状外观极为相似的5种刀具的识别准确率均有显著提升；其中，直刃刀的识别率提高7.95%，表明本文算法可以较为准确地辨识违禁品的细微差异，对X光安检图像影像混叠具备一定的抗干扰能力。

3.5 算法有效性分析

3.5.1 注意力机制的有效性

表2是针对本文算法中图像注意力机制额消融实验结果。

表2 图像注意力机制对算法准确率的影响

可以看出，无论是否使用元融合机制，注意力机制总能带来算法准确率提升，说明注意力在处理X 光安检图像的影像混叠现象发挥了作用，表明区域定位可以有效提高算法在影像混叠场景下的物品辨识能力，聚焦于前景有助于算法学习细粒度物品的可辨识特征；注意力掩膜预测与掩膜真值的可视化对比的部分结果如图8所示。

图8 注意力掩膜预测与掩膜真值的可视化对比

以上对比表明：在存在复杂混叠的X光图像背景下，基于低层视觉信息的图像注意力机制有助于准确定位违禁物品区域，为后续的类别辨识奠定基础。

3.5.2 元融合策略的有效性

为了验证元融合的有效性，对门控融合、直觉元融合（MF-I）和本文算法采用的神经元融合（MF-N）3种策略进行消融实验，在SIXray数据集和OPIXray数据集上的实验结果如表3所示。

表3 不同融合策略的消融实验结果

由表3可知：

（1）在3种融合策略中，神经元融合的性能最好；

（2）相比于专家直觉给出的标签（即MF-I），由神经网络知识提供的标签（即MF-N）能够更好地利用金字塔特征，从而获得更好的泛化性能；

（3）MF-I在OPIXray数据集上的性能略有降低，原因可能是OPIXray数据集中违禁品的物理尺寸比SIXray数据集中的违禁品要小很多，由于先验知识与实际情况不匹配，故造成性能下降。

4 结束语

针对行李X光安检图像固有属性与特点，提出基于原始输入图像信息的注意力机制，用于定位关键物品区域、减轻影像混叠状态下背景干扰，还能够挖掘细粒度可辨识特征；针对传统无监督学习可能造成的权重偏置现象，提出基于外部神经知识的动态元融合，对多层级特征的选择融合进行优化。实验表明，本文提出的算法可有效避免物品图像影像混叠干扰，通过对网络多阶段预测的自适应融合，提升了对物品影像混叠和尺寸变化较大的行李安检图像的识别能力，有效提升了违禁品识别率。

在实际的行李安检场景中，由于系统硬件资源与安检人员精力均有限，可能无法应对本文算法对外部模型依赖较强、训练流程相对繁琐等问题，影响算法的应用效果。因此，如何挖掘模型本身丰富的多尺度特征信息，解耦对外部模型的深度依赖，以及简化模型训练与推理流程，将是下一阶段的研究重点。