基于CNN的机场安检危险品自动识别研究
2019-10-11洪锐锋
高 强,潘 俊,洪锐锋
(广州民航职业技术学院 计算机系,广东 广州 510403)
0 引 言
机场安检是保障民航安全飞行的重要环节,关系着社会稳定。当前国际形势复杂严峻,与此同时机场客流量呈爆发式增长,而且危险品也更加多样化,这些因素都给安检的高质量和高效率带来了极大的挑战。目前,国内的机场安全检查危险品识别还依赖于X光机开机员人工识别。由于行李的摆放角度不同及物体的密度、体积不同,危险品的X光机图像特征千差万别,即使是同一危险品,在X光机中呈现的图像也不尽相同,这给开机员准确识别危险品带来了巨大困难,非常容易出现失误,进而对民航安全造成隐患。另外,开机员识别危险品图像属于典型的重复性任务,长时间高强度、紧张度的工作,开机员大脑、身体都容易疲惫,这对危险品识别的准确率、效率都有很大影响。
在图像识别领域,卷积神经网络[1](convolutional neural network,CNN)由于能够自动学习图像特征且识别准确率高,在医学图像识别[2]、人眼识别[3]、蝴蝶种类识别[4]、遥感图像分类[5]以及人脸识别[6-7]、车辆检测[8-9]、交通标志识别[10]以及物体检测[11-12]等领域应用广泛。由于GoogLeNet[13]、AlexNet[14]和ResNet[15]等CNN模型在图像识别大赛的优异表现,许多研究人员将这些模型直接或者改进后应用于相关领域的图像识别中,如李勇等[16]采用跨连接LeNet-5网络对人脸表情进行了相关研究。
尽管CNN在不同领域的图像识别均取得了很好的效果,但在机场安检危险品领域的研究、应用尚存空白;另外,传统CNN均假定数据集中各类别图像数量均衡,在设计模型时,通常只关注模型的识别准确率、实时性,并未考虑数据集的不均衡对识别效果的影响。基于此,文中提出一种基于GAN数据增强的卷积神经网络危险品自动识别模型,并和GoogLeNet、AlexNet、ResNet模型的识别效果进行对比,以验证该模型的有效性。
文中的贡献如下:
(1)将CNN应用于安检危险品自动识别,对提升机场安检智能化水平具有积极意义;
(2)提出一种基于GAN数据增强的卷积神经网络危险品自动识别模型,解决了数据集不均衡导致识别率低、实时性差的问题。
1 基于GAN数据增强的卷积神经网络模型
本节将详细阐述基于GAN数据增强的卷积神经网络危险品自动识别模型。首先描述了利用GAN进行数据增强的实现原理,并利用其实现安检危险品数据集的均衡化;然后从卷积层、池化层、全连接层及优化技术、训练过程几个方面介绍CNN模型。
1.1 数据集均衡化
传统的机器学习识别算法均假定数据集的各类样本数量相近,但在现实情况中,各类样本数量并不均衡,通常将数量较多的类称为多数类,反之称为少数类。由于传统的识别算法忽略了数据集中各类样本数量的不均衡性,识别算法经常偏置向多数类,少数类具有很高的误识别比例。一般情况下,各类样本数量不均衡比例超过1∶4,识别算法会因为数据不均衡而无法满足识别要求。文中采用的危险品数据集各类样本数量如图1(a)所示。
由图1(a)所知,危险品数据集中各类别数量不均衡性较为明显,因此,在设计卷积神经网络模型之前,需要对数据集不均衡问题进行处理。
Goodfellow等在2014年提出生成式对抗网络(generative adversarial networks,GAN)[17]这一深度学习模型。GAN能够根据已有样本数据,生成高质量目标数据,可以使得样本数据得以扩充,弥补训练样本数据不足的缺陷,对深度学习具有重大意义。Radford等将GAN和CNN相结合,提出了深度卷积生成对抗网络DCGAN[18],该模型采用步幅卷积、微步副卷积、批标准化、LRELU等操作,具有训练过程稳定、易收敛及生成样本多样性丰富的优点,成为目前使用率最高的模型。
文中采用DCGAN实现数据集均衡化,将少数类图像通过DCGAN网络进行扩充,以实现训练样本数据均衡化。经过DCGAN均衡化后的数据集各类样本数量如图1(b)所示。
(b)采用GAN均衡化后的各类危险品数量 图1 危险品类型及数量
1.2 卷积神经网络模型
危险品图像数据集经过GAN进行均衡化处理后,将输入卷积神经网络模型进行识别。模型由5个隐藏层构成,前4层是Conv1、Conv2、Conv3和Conv4卷积层,其中每层又分为卷积层(C)、激活层(R)和池化层(P),将Conv4中P4的输出结果进行扁平化操作后,与第5层全连接层FC5进行连接,最后输出9类危险品识别概率,其结构如图2所示。
卷积层:输入C1的危险品图像大小为100*100*3。C1、C2使用5*5大小的卷积核,卷积核个数分别为32、64;C3、C4使用3*3大小的卷积核,卷积核个数均为128;C1、C2、C3、C4的卷积移动步长均为1。
图2 卷积神经网络模型
激活层:R1、R2、R3和R4均使用ReLU激活函数,该函数将所有负值都变为0,而正值不变,这种单侧抑制操作使得ReLU激活函数具有稀疏激活性和收敛速度快的优点。其函数表达式如下:
(1)
池化层:P1、P2、P3和P4均使用核大小为2*2、步长为1的最大值池化操作。
全连接层:FC5以P4扁平化处理的结果作为输入,其含1 024个神经元;FC5与最后的输出层output进行全连接,output含有9个神经元。
模型在训练过程中,经过卷积、池化操作时,图像特征图大小变化如表1所示。
表1 各卷积层输入、输出特征图大小
1.3 模型优化技术
1.3.1 损失函数
模型的损失函数采用交叉熵代价函数。交叉熵代价函数不仅可以克服方差代价函数更新权重过慢的问题,还可以避免梯度消散,其公式如下:
(2)
其中,c为损失值;n为训练样本总数;a为神经元的实际输出;y为期望输出。
1.3.2 优化函数
模型的优化函数采用自适应矩估计(adaptive moment estimation,Adam)函数。Adam利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,其收敛速度更快,学习效果更为有效,而且可以纠正其他优化技术中存在的学习率消失、收敛过慢或高方差的参数更新导致损失函数波动较大等问题。Adam函数公式如式3~式7所示。
mt=u*mt-1+(1-μ)*gt
(3)
(4)
(5)
(6)
(7)
1.3.3 随机失活
为了提高泛化能力,降低过拟合风险,模型在全连接层采用dropout随机失活策略。dropout是一种为防止神经网络过拟合的正则化方式,它在神经网络训练的过程中随机抛弃隐藏层部分神经节点的输出值,在反向传播更新权值参数时,不需要更新与该节点相连的权值。dropout的工作原理如图3所示。
图3 dropout工作原理
2 实验验证
2.1 实验平台及数据集
实验在Dell Precision Tower T7920工作站上进行,采用python3.5+TensorFlow1.6实现卷积神经网络。工作站配置为CPU:Intel Xeon Silver 4114,10核20线程,主频2.2 GHz;GPU:NVIDIA Geforce GTX 1080TI,显存11G;内存64 GB,操作系统:Ubuntu 16.04 LTS(64位)。
为验证提出模型的有效性,实验采用的数据集来源于2017公安一所(全国最终版)危险品图像库。该数据集包含3 225幅、共计9种类型的危险品图像,分别为爆炸品、弹药、钝器、管制器具、火种、枪支等武器、锐器、危险物品、烟火制品。
将来源于2017公安一所(全国最终版)危险品图像库的数据集称为数据集I(9个类别、3 225幅图像),将数据集I采用GAN进行均衡化处理后得到的数据集称为数据集II(9个类别、7 391幅图像)。数据集I、II均分为训练集和验证集。数据集I、II中的危险品图像如图4所示。
图4 数据集I、II中的危险品图像(部分)
2.2 有效性验证
将数据集I、数据II分别输入文中提出的卷积神经网络模型进行训练、验证,以测试模型的有效性。实验参数为:训练集、验证集分别占80%、20%,批次大小为25,迭代次数为48,dropout参数设置为0.3。
经过48轮次的训练后,训练集损失值下降情况、验证集识别准确率分别如图5、图6所示。
图5 损失值下降
由图5和图6可以得出,提出的卷积神经网络模型在数据集II比数据集I上损失值下降更快、更趋向于0,说明模型在数据集II上具有更好的收敛性,证明了GAN实现数据集均衡化的有效性。另外,在每轮迭代过程中,数据集II的识别准确率均高于数据集I,并且在经过33迭代后,数据集II上的平均识别准确率稳定在90.7%,高于数据集I的平均识别准确率57.3%,证明了该卷积神经网络模型的有效性。
图6 识别准确率
2.3 方法效果对比
为了进一步验证提出的卷积神经网络模型(myCNN)的有效性,将myCNN与GoogLeNet、AlexNet、ResNet在数据集II上进行识别效果对比实验,结果如表2所示。
表2 数据集II的识别准确率 %
由表2可知,在数据集II上,myCNN的识别准确率分别比GoogLeNet、AlexNet、ResNet高出5.8%、7.2%和5.4%,进一步证明了myCNN的有效性。
3 结束语
对“基于不均衡数据集的机场安检危险品自动识别问题”进行了研究,提出了一种基于GAN数据增强的卷积神经网络模型。该模型针对数量非均衡分布的危险品图像,能够准确实现自动识别,为实现危险品自动识别提供了一种方法。下一步将该模型迁移到复杂环境(如多危险品遮挡、重叠等),并对模型的有效性及产生的新问题进行研究。