X光图片禁带品智能识别技术

2019-08-15王玉维杨波马卫东

中国传媒大学学报(自然科学版) 2019年4期

王玉维，杨波，马卫东

(1.北京市地铁运营有限公司安保部；2.北京声迅电子股份有限公司)

1 前言

在地铁安检工作中，X射线安检常用于识别乘客随身物品是否带有禁带品，是地铁安检环节中极其重要的一部分。近年来，深度学习作为人工智能的一个分支，由于在图象识别领域拥有较快的检测速度、较高的检测准确率，被广泛的应用于各类需要目标检测的领域。X光图片中禁带品的标记识别过去常常由人工完成，在保证精度的前提下，如何提高X光图片禁带品的识别速度便成为了一个重要的课题。

区域卷积神经网络是当前目标检测领域的主流框架之一。本文根据Pascal VOC数据集格式建立训练数据集和测试数据集，并使用了VGG16作为基础特征提取网络进行禁带品识别模型训练，研究采用基于区域卷积神经网络框架的识别模型来辅助X光图片禁带品识别。

2 基于区域卷积神经网络的X光禁带品识别算法

区域卷积神经网络由基础特征提取网络，区域推荐网络(RPN)和区域卷积神经网络三部分组成。其中，基础特征网络首先对输入图片进行特征提取，然后RPN网络进行区域推荐，给出一系列候选框，最后由区域卷积神经网络在RPN网络提取的推荐框中进行物品类别的判断和物品概率的判断。区域卷积神经网络原理流程框架如下图所示：

图1 区域卷积神经网络原理流程框架

区域卷积神经网络运用同一个VGG16网络对输入图片进行特征提取，然后RPN网络和CNN网络在共享卷积层的前提下，分别完成推荐框生成和分类功能，最终实现了端到端的目标检测。算法实现步骤为：

1)对输入图像进行卷积操作得到卷积特征图；

2)在卷积特征图上使用滑动窗口进行卷积，在最后的卷积层上获得候选区域推荐框；

3)使用非最大值抑制算法，将步骤二获得的候选推荐框降低到300个；

4)在提取的特征向量后分别计算边框回归评分和分类评分。

3 X光禁带品识别模型的构建

3.1 X光图片数据预处理

基于机器学习的禁带品识别模型极其依赖训练样本大小，训练数据量越大往往训练效果越好。禁带品识别模型训练数据集采用Pascal VOC数据集格式，分为三个部分JPEGImages、Annotations和ImageSets。JPEGImages保存所有的训练图片和测试图片，Annotations存放xml格式的标签文件，单个xml文件对应JPEGImages中的同文件名的图片，ImageSets文件夹将训练集和测试集的图片文件名分别保存在train.txt文件和test.txt文件夹中。

本次实验的数据集通过收集轨道交通真实样本，将采集到的枪支器械、易燃易爆、管制刀具等禁带品得到的，禁带品的坐标标注由人工完成保存在txt文件中。由于物品标注后的坐标信息保存在txt文件内，因此，本文实验首先将原txt文件转为Pascal VOC数据集中Annotations文件夹中的xml文件。在去掉了部分标注有误、格式有误的错误数据之后，按照九比一的比例划分成了训练集和测试集，划分结果保存在ImageSets文件夹下train.txt和test.txt文件内。JPEGImages中的样本图片如图2所示。为了增强识别模型的健壮性，本研究还对样本图像进行了旋转变换操作，增加了样本数量。

图2 JPEGImages中的样本图片

3.2 禁带品识别模型训练

3.2.1 训练方式选择

区域卷积神经网络拥有两种训练方式：Alternating training(alt-opt)和Approximate joint training(end2end)。Alternating training训练方式分为两个阶段，stage1和stage2。第一阶段首先独立的对RPN网络进行训练，获得RPN模型M1，然后使用初步训练后的RPN网络模型M1对区域卷积神经网络网络进行初始化，获得区域卷积神经网络模型M2，同时使用RPN网络模型M1输出的推荐结果P1作为区域卷积神经网络的输入值来训练区域卷积神经网络模型M2。这部分是区域卷积神经网络训练过程的第一阶段，最终获得了一个区域卷积神经网络模型M2。第二阶段在共享卷积层权值的前提下，利用区域卷积神经网络模型M2来训练获得RPN网络模型M3，然后使用RPN网络模型M3生成推荐结果P2。使用RPN网络模型M3初始化区域卷积神经网络网络得到模型M4，并使用P2来训练调整区域卷积神经网络模型M4的参数，最后将M3的RPN层添加到区域卷积神经网络模型M4中，组成一个区域卷积神经网络模型。这一部分是区域卷积神经网络训练过程的第二阶段，第二阶段训练完成后便得到一个调整过一次参数的区域卷积神经网络模型网络。根据预先设定的两个阶段的迭代次数，不断迭代这个训练过程最后能获得一个参数调整非常充分的禁带品识别模型。Approximate joint training训练方式则将RPN和区域卷积神经网络融入到同一个网络中，同时进行迭代训练。本文在训练禁带品识别模型时，采用的是Alternating training训练方式。

3.2.2 训练参数选择

本文实验选择VGG16作为基础特征提取网络，VGG16提供了初始学习率和批尺寸等辅助禁带品识别模型训练的参数。Base lr影响VGG16网络中所有层的学习率，它表明的是网络的初始学习率。本文实验中，采用的学习率改变策略为每迭代30000次，便根据gamma参数(gamma值取0.9)和当前迭代次数iter来降低学习率。本次实验学习率改变公式如下所示：

batch size(批处理尺寸)是机器学习中的重要参数，它定义了训练过程中一次读入多少批量的图片。增大batch size可以提高数据处理速度，提高内存的利用率，但是也会导致训练时间增加，泛化能力差，容易陷入局部最优，模型收敛速度降低。

3.3 禁带品识别模型测试

在区域卷积神经网络框架中，常常将AP值(Average Precision)作为模型的评价指标。AP值的计算需要使用召回率和精确率两个值。正样本mTP指模型正确的将物体识别出来并标注正确，负样本mFN指模型将物品识别出来但标注为了其他的物品。将召回率作为横坐标，精确度作为纵坐标可得到一个precision/recall曲线图。AP值用来概括该曲线图的形状。首先，设定一组包含十一个点的阈值，当召回率大于某个阈值时，可以获得一个对应的最大精确度，这样我们能获得一组精确度，AP为这组精确度的平均值。

召回率和精确度的计算方式为：

4 实验结果及分析

本文实验采用的操作系统为Ubuntu14.04平台，编程环境基于Python，GPU为NVIDIA TITAN Xp，在深度学习框架Caffe下进行实验。拥有数据标注的X光图片总共有39000张，随机选择其中的90%作为训练数据集，剩余的10%作为测试数据集，其中训练数据集用于禁带品识别模型的参数调整，测试集用于检测训练完毕的禁带品识别模型的好坏。设定的迭代次数为第一二阶段区域卷积神经网络迭代次数为80000次，第一二阶段RPN网络迭代次数40000次。训练完成的禁带品识别模型都可以做到200ms一张图片的识别速度。试验结果表明：基于机器学习的区域卷积神经网络框架可以满足地铁安检工作的实时性要求。

表1对比分析了batch size分别取值为32，64，128时的X光禁带品识别模型的表现。可以看出，batch size为64时，能达到最终收敛精度上的最优。

表1 不同批处理尺寸对mAP的影响

表2对比分析了采用了不同的初始学习率时禁带品识别模型的性能表现。可以看出当初始学习率为0.0012时，禁带品识别模型能拥有更好的识别效果。

表2 不同初始学习率对mAP的影响

5 结束语

为了提高人工检测的效率，本文提出一种基于区域卷积神经网络的禁带品智能识别技术，并对两种不同的基础特征提取网络对禁带品识别精度影响进行了对比实验。通过实验验证了该方法在保证了较高的检测准确率的情况下能拥有很快的检测速度。该技术能辅助地铁X射线安检工作，提高安检工作效率。下一步可围绕对漏识别和误识别的图片数据集的整理，这些数据可用于微调现有的禁带品智能识别模型的参数，以进一步提高禁带品识别的准确率。