基于深度卷积特征的露天矿卡车装载状况识别技术研究

2021-10-28阮顺领卢才武顾清华张雪飞

煤炭科学技术 2021年10期

阮顺领，景莹，卢才武，顾清华，张雪飞

(1.西安建筑科技大学资源工程学院，陕西西安 710055；2.西安建筑科技大学管理学院,陕西西安 710055；3.内蒙古广纳煤业集团，内蒙古乌海 016000)

0 引言

卡车运载是露天矿生产作业中的关键环节，运输成本占矿山开采成本的40%～60%，车队运载工作量统计结果往往直接影响露天矿生产计划进度、作业安排和司机绩效考核等，卡车运载统计管理对矿山生产具有重要意义[1]。目前，在卡车的运载统计管控中，我国中小型露天矿通常采用地磅称重或人工计票的方式，但是地磅称重方式价格昂贵、维护成本高，还不能适应露天矿作业现场位置经常迁移变化的需求；而传统人工管控模式更不能满足矿山现代化建设和发展的要求。随着数字矿山的发展，出现了基于全球卫星定位技术和无线射频识别技术对车队运载工作量进行自动统计的技术，在一定程度上提升了卡车运载统计管控的便捷性，但仍存在无法判别卡车装载状况、轻车跑票等问题。因此，亟待提出一种更加便捷有效的方法来提升露天矿卡车运载统计的管理水平。

近年来，随着人工智能与机器视觉的快速发展，许多学者利用图像识别技术解决了一些行业难题。ZHANG等[2]利用图像识别技术突破了人类行为识别中视角固定或已知的限制，实现了从任意视角识别人类行为。张立亚[3]利用图像识别技术解决了工作人员对危险源辩识不到位导致事故的问题，实现了对井下高危区域运动目标的监测。曹现刚等[4]利用图像识别技术实现了基于多机械臂协同的煤矸自动化和智能化分选。图像识别的准确率与图像特征的表示有很大相关性[5-6]。露天矿卡车装载状况识别属于细粒度图像分类问题，图像区分度信息只存在较小的区域内且类间差异较小，难度更高，而早期人工设计特征的描述能力有限，很大程度上限制了细粒度图像分类的识别准确率[7]。深度卷积特征由卷积神经网络从输入的原始数据中自主学习得到，具有较强的描述能力，避免了人工设计特征导致的误差积累[8]。在不同识别任务和不同的数据集下，相比于描述能力有限的人工设计特征[9]，深度卷积特征具有更强的描述能力，在对图像分类、场景识别、细粒度图像识别、属性检测和图像检索等大多数视觉识别任务中展现出优异的性能，更加具有有效性和普遍性[10]。DU等[11]利用深度卷积特征对肿瘤上皮和基质进行分类，识别精度达到90.2%；HAFEMANN等[12]利用深度卷积特征对脱机手写签名进行验证，等误差率达到1.72%；徐述腾等[13]利用深度卷积特征实现了对镜下矿石矿物的智能识别，识别精度高于90%。然而通常从头开始训练一个卷积神经网络需要大量数据和时间，在现实中，考虑到收集大量数据的成本过高与时间资源约束，需要使用迁移学习方法将其他相关领域知识迁移到目标领域，从而提高学习效率，在较短时间内获得训练好的模型[14]。MILLER等[15]利用迁移学习后的卷积神经网络识别卫星图像中的横向卷云带，减少了网络训练时间与训练网络达到较好性能时所需的数据量，同时识别精度达到94%。YANG等[16]结合由迁移学习后的卷积神经网络提取的深度卷积特征和序列极端学习机对屏幕显示不均匀现象进行识别，其计算资源和时间远低于其他常用方法，实现了高效的实时识别。

综上可知，基于图像识别技术对露天矿卡车装载状况进行识别具有可行性。笔者将无线射频识别(Radio Frequency Identification,RFID)与装载图像识别技术相结合对卡车有效运载进行统计。其中，利用RFID实现车辆身份识别，利用图像识别技术判别装载是否有效。针对卡车装载状况的有效性识别，提出利用迁移学习后的卷积神经网络模型对卡车装载状况图像进行深度卷积特征提取，并采用支持向量机(Support Vector Machine,SVM)多类分类器对卡车装载状况自动识别，最终实现对车辆有效运载自动统计，以提高卡车运载统计管理水平。

1 卡车装载状况自动识别模型和方法

在空间资源和时间资源约束下，以弱监督为前提对基于深度卷积特征的露天矿卡车装载状况识别展开研究，卡车装载状况自动识别过程主要包括预处理、深度卷积特征提取和SVM分类。卡车有效运载自动识别过程如图1所示。卡车装载状况自动识别模型如图2所示。其中，图像预处理部分完成对试验数据集的构建；深度卷积特征提取部分完成对试验图像的特征提取；SVM分类部分实现露天矿卡车装载状况自动识别。

图1 卡车有效运载自动识别流程Fig.1 Automatic recognition flow of truck effective load

图2 露天矿卡车装载状况自动识别模型Fig.2 Automatic recognition mode of open-pit mine truck loading condition

1.1 露天矿卡车装载状况图像预处理

由于受到时间和成本资源的约束，收集到的试验数据为少量、非均衡分布的不理想状态，不利于整体的露天矿卡车装载状况识别过程，为减少这种负面影响，需要在图像预处理阶段，对露天矿卡车装载状况图像作相应的处理。

试验数据为摄像头拍摄的RGB三通道彩色图像，所选地区是内蒙古乌海地区某煤矿，图像大小为640 pix×800 pix。将露天矿卡车装载状况按照体积所占车厢百分比分为12类，见表1。

表1 露天矿卡车装载状况分类Table 1 Open-pit mine truck load degree classification

试验数据集中1—12类分别有264、209、218、191、176、245、231、197、227、262、216、240个。先从12个类别中随机选取50%作为验证数据集，最小图片数量为88张，在数量分布均衡的验证数据集上得到的才是平均识别准确率，因此在所有类别中随机采样，使每一类别中有88个验证样本，得到分布均衡的验证数据集[18]。除去验证数据集的样本作为训练数据集，1—12类训练数据集分别为：176、121、130、103、88、157、143、109、139、174、128、152个。

训练数据集样本数量分布不均衡，训练数据集的不平衡可能对卷积神经网络的整体性能产生严重的负面影响，而均衡的训练数据产生的效果最好，对不平衡训练数据集进行过采样，是消除这种影响的一种可行方法[19]。采用随机复制的方法对各类训练图像进行过采样，使每一类训练图像有176个样本，部分训练图像如图3所示。

卷积神经网络需求的数据量较大，试验数据集相对较小，为减少过度拟合，采用图像的仿射变换以对数据集进行图像增强，具体包括：左右翻转、随机裁剪、色彩抖动、随机添加高斯噪声、随机旋转。最终将训练数据集扩充了5倍，每一类别有880个样本，共有10 560个样本。

根据AlexNet的输入要求，输入图像像素大小须为227 pix×227 pix的三通道图像，试验使用的数据集为摄像头拍摄的RGB三通道彩色图像，像素大小为640 pix×800 pix像素，需要降采样至227 pix×227 pix。最终得到增强后的各类别部分图像如图4所示。

图4 增强后1—12类别部分图像Fig.4 Enhanced part images of different categories 1—12

1.2 特征提取及SVM分类

AlexNet是由5个卷积层和3个全连接层组成的卷积神经网络。卷积层进行卷积、池化和局部标准化操作。该模型从整体输入到输出的过程包含了卷积、池化、局部标准化、Dropout等操作。

1)卷积。为得到能够反映局部图像微小形变的特征映射图和减少网络复杂度、参数数量，对输入的露天矿卡车装载状况图像进行卷积操作。用I(i)表示第i层的输入，用O(i)表示第i层的输出，其表达式为

I(i)=O(i-1)⊗W(i)+b(i)(1≤i≤5)

(1)

O(i)=f(I(i)) (1≤i≤5)

(2)

式中：O(i-1)为第i-1层的输出； ⊗为用卷积核对第i-1层的输出进行卷积；W(i)为第i层卷积核的权值向量；b(i)为第i层的偏置值向量；f为ReLU(Rectified Linear Unit)函数，对I(i)进行激活函数处理以产生O(i)。

ReLU函数是一个分段线性函数，形式为

f(x)=max(0,x)

(3)

2)池化(下采样)。卷积层输出的露天矿卡车装载状况图像特征图尺寸较大，易导致模型过拟合与后期的SVM多类分类器计算量过多，因此需要对其进行池化操作。池化操作通过在保留有用信息的前提下对卷积层输出的特征图进行降维，可得到具有一定程度局部平移不变性的特征，提高网络的泛化能力[20]。这一操作不但使得参数量减少，同时也减轻过拟合。常见的池化操作包括平均池化、最大池化。这里对露天矿卡车装载状况图像特征图进行最大池化。

最大池化函数为

(4)

3)局部标准化。经过卷积、池化操作后，为增强对特征的感知，需要对露天矿卡车装载状况图像特征进行局部标准化操作，其过程可以表示为

(5)

4)Dropout。经过卷积、池化、局部标准化操作之后，为得到更具有表达性的露天矿卡车装载状况图像特征图、减轻过拟合，需要进行Dropout操作。在神经网络训练的前馈操作中，以概率p来随机省略每个隐藏神经元[22]，被省略的神经元的输出设定为0，对前向传递不做贡献，也不参与反向传播。网络的每次迭代伴随着随机性，可以产生不同的网络拓扑结构，减少了神经元之间复杂的协同适应，迫使每个神经元不依赖某个特定的神经元，而去学习更加具有鲁棒性的特征，也能去除一些冗余信息，间接减少了模型的复杂程度，减轻了过拟合。AlexNet中，p=0.5，Fc6和Fc7层采用Dropout方法，减轻了过拟合。

先对ImageNet数据集上预训练好的AlexNet模型进行微调，在微调后的网络基础上提取露天矿卡车装载状况图像的深度卷积特征。由于卷积神经网络低层细节通用，保留AlexNet的前5个卷积层作为迁移层，设置最后的3个全连接层为新层，新层的参数由露天矿卡车装载状况图像数据决定。设置较大的权重学习率和偏置学习率加快模型新层中的学习速度，同时为使训练过程平稳，设置较小的初始学习率，为达到最佳识别效果，选择训练过拟合前的最优模型作为下一阶段迁移学习的初始模型，逐次减小学习率，直到模型测试达到最佳效果[23]。选择Sgdm(Stochastic Gradient Descent With Momentum)作为优化算法，训练的主要通用参数见表2。对AlexNet进行训练的过程如图5所示。

表2 主要通用参数Table 2 Main general parameters

图5 AlexNet训练过程Fig.5 Training progressof AlexNet

由图5可知，模型在约600次迭代后趋向收敛，在约2 500次迭代后，训练数据集和验证数据集的准确率和损失值随着迭代次数的增加产生的变化不明显，训练数据集和验证数据集的准确率曲线和损失值曲线贴合度较高，表明模型性能较好，未发生过拟合现象。

将图像输入微调后的模型中，提取生成特征的各层的输出为特征。用训练特征训练SVM多类分类器，再对验证特征进行分类。本次研究的SVM算法来自MATLAB统计和机器学习工具箱，核函数选用线性核函数，采用one-versus-one方式实现多分类，即对t个类，设计t(t-1)/2个二类分类器，穷举所有类的组合，通过投票制得出分类结果。

2 试验结果与分析

以内蒙古乌海地区某煤矿为研究区域，选用摄像头拍摄的卡车装载状况RGB三通道彩色图像作为试验数据集。在堆场入口安装立柱及摄像头，摄像头的安装位置保证卡车经过立柱时，摄像头视野范围能够覆盖整个卡车顶部，如图6所示。

图6 获取试验数据集装置Fig.6 Device to obtain experimental dataset

卡车装载状况自动识别是判别卡车装载状况、是否轻车跑票以及对车队和司机有效运载趟数进行自动统计的依据，为验证其有效性，进行3组对比试验。采用分类精度作为分类性能评价指标，每次试验测试10次，取分类精度平均值。分类精度计算方式为

e=m/M

式中：e为分类精度；m为被正确分类的图像数；M为被分类的图像总数。

3组对比试验都使用本次试验数据集与线性核的SVM多类分类器，试验环境为Intel(R)Core(TM)i7-7800X CPU @ 3.50 GHz 4.0 GHz 16 GB内存。

1)各层特征表达能力分析。为分析经过微调的AlexNet网络中各层提取特征的表达能力，提取Conv1-5，Fc6-7层的特征，使用SVM多类分类器进行分类试验并做精度评价，结果如图7所示。

图7 微调后网络各层特征分类精度Fig.7 Classification accuracy of features from different layers in fine tuning network

由图7可知，分类精度随着模型层数的增加逐渐上升，在Fc7层得到了最高的分类精度0.972 2。这是由于在卷积神经网络中，在较低层提取较为基础的低级特征，如点、线、角等，将较低层输出的特征图作为较高层的输入，较高层将这些低级特征组合起来以学习得到更有表达性的复杂特征[24-25]，因此一般情况下，使用更深层提取的特征进行识别的精度较高。Conv1-5和Fc6-7层的特征可视化如图8所示。

图8 各层特征可视化Fig.8 Visualization of features from different layers

2)微调有效性分析。为验证微调的有效性，利用只进行简单参数迁移、不利用试验数据进行微调的网络直接提取特征，使用SVM多类分类器进行分类，试验结果如图9所示。

图9 未微调网络各层特征分类精度Fig.9 Classification accuracy of features from different layers in network without fine tuning

由图9可知，分类精度随着模型深度的增加而增加，这是由于在卷积神经网络模型中，通常特征表达能力的强度和由特征得到的分类精度呈正相关，而较深层特征的表达能力较强，因此分类精度与模型深度成正相关，但由Fc6层特征得到的分类精度高于由Fc7层得到的分类精度，这是因为即使Fc7层特征表达能力比Fc6层特征表达能力强，但只进行简单参数迁移、不利用试验数据进行微调的网络是在ImageNet数据集上进行训练的，其网络参数更利于ImageNet数据集的分类而不是本次研究数据集的分类，所以由Fc7层特征得到的分类精度反而低于由Fc6层特征得到的分类精度，Fc6层特征表达能力最强。而各层特征表达能力分析试验中的在本次数据集基础上进行微调的AlexNet网络，更利于本次研究数据集的分类，Fc7层特征表达能力最强，由Fc7层特征得到的分类精度也最高。本次试验中，由Fc6层特征得到的分类精度最高，但低于各层特征表达能力分析试验中由Fc7层特征得到的分类精度，由此可知，在研究数据集的基础上对AlexNet网络进行微调具有必要性。

3)方法有效性分析。为分析本方法选用的AlexNet深度卷积特征的有效性，选取GoogLeNet[26]、ResNet[27]、SqueezeNet[28]、DenseNet[29]预训练模型，分别对其进行迁移学习，为便于比较，对数据集进行12轮训练，除各个模型层数不同，冻结的层数不同之外，其他条件与对AlexNet进行迁移学习时的条件保持一致，训练过程如图10所示。

由图10可知，GoogLeNet模型在约2 000次迭代后趋向收敛，训练数据集和验证数据集的准确率曲线和损失值曲线贴合度较高，表明模型性能较好，未发生过拟合现象，但与AlexNet模型相比，收敛较慢，训练数据集和验证数据集的准确率较低。ResNet、SqueezeNet、DenseNet模型均出现了不同程度的过拟合，训练数据集的准确率较高，验证数据集的准确率较低。训练AlexNet、GoogLeNet、ResNet、SqueezeNet、DenseNet模型所用的时间分别约为143、199、780、86、1 795 min。

图10 迁移学习训练过程Fig.10 Training progress of transfer learning

利用迁移学习后的模型分别提取能达到最高分类精度的AlexNet、GoogLeNet、ResNet、SqueezeNet、DenseNet深度卷积特征，再提取试验数据集的2种传统人工设计图像特征，使用SVM多类分类器对特征进行分类，并作精度评价。其中多尺度LBP(Local Binary Pattern)金字塔特征曾应用于人脸识别、自然场景数据集与caltech-101数据集上的分类[30]等任务，多尺度LDP(Local Derivative Pattern)金字塔特征源自高阶LDP[31]。试验结果见表3。

由表3可知选用的几种卷积神经网络模型性能未表现出显著差异，其中AlexNet总体性能表现最佳，利用其所提取的深度卷积特征能够得到最高的精度，这可能是由于本次试验数据集相对较小和露天矿卡车装载状况图像中的显著特征多为边缘颜色等基础特征，相对于GoogLeNet、ResNet、SqueezeNet、DenseNet这些较深层结构的网络，Alexnet的较浅层结构对较小的数据集进行迁移学习效果更佳，能够在有限的空间资源和时间资源限制下提取出更加符合露天矿卡车装载状况自动识别任务的特征。与采用传统人工设计图像特征的2种方法相比，该方法选用的AlexNet深度卷积特征得到的总体分类精度最高，SVM多类分类器耗时也最少，这可能跟AlexNet深度特征向量尺寸小于其他2种特征向量尺寸有关，同时在这3种方法的提取特征耗时比较中，AlexNet深度卷积特征的提取特征耗时也较少。使用这3种方法得到分类结果的混淆矩阵见表4—表6。