基于深度学习的包裹追踪检测计数系统*

2019-02-26罗建坤黄道平吴菁刘乙奇刘少君

自动化与信息工程 2019年6期

罗建坤黄道平吴菁刘乙奇刘少君

基于深度学习的包裹追踪检测计数系统*

罗建坤黄道平吴菁刘乙奇刘少君

（华南理工大学自动化科学与工程学院）

根据深度学习的智能检测特点，以智能化管理仓库物流数据为目的，提出基于深度学习的包裹追踪检测计数系统，有利于仓库分拣中心的数字化管理。经某仓库分拣中心测试表明，该系统能实时检测包裹数量，并对检测点的数据进行处理，计算出包裹流量数据，可实时将检测数据上传到仓库数据管理中心。

深度学习；数字化管理；追踪；检测；实时监测

0 引言

随着经济的发展，我国快递业务量从上世纪80年代的153万件/年提升到2018年的507亿件/年，2019年有望突破600亿件/年，30年年均增速高达41.5%。我国已经成为世界上发展较快的新兴寄递市场，包裹快递量超过美国、日本和欧洲等国家的总和。然而，在物流体系方面国内还比较落后。推动物流企业采用智能科技，加快推进传统企业业务流程的数字化改造，是物流业发展面临的巨大挑战[1]。利用云计算、大数据、物联网等技术，把物流每个环节的信息转化为数据，并将这些数据在线化；同时，通过智能化技术使物流各个环节提高效率、降低成本，是解决传统物流企业业务数字化的关键。为促进物流企业仓库分拣中心的数字化管理，设计一个对不同类型的包裹进行实时追踪检测计数的系统至关重要。

包裹追踪计数的重要环节是包裹检测。包裹检测主要运用目标检测技术，包括物体识别和物体定位技术，不仅要识别物体属于哪个分类，更重要的是检测物体在图像中的具体位置。目标检测分为2类[2]：一类为两步检测，即将物体识别和物体定位分为2个步骤完成，其识别错误率和漏识别率较低，但检测速度较慢，无法满足实时检测需求，典型代表有R-CNN[3], fast R-CNN[4]和faster R-CNN[5]等；另一类为单步检测，具有较快的识别速度，可以达到实时性需求，且准确率也能达到faster R-CNN水平，典型代表有SSD[6], YOLO, YOLOv2[7]和YOLOv3[8]等。随着单目标检测模型的不断发展，学者利用公共数据集进行训练并测试典型的单步检测模型。测试结果表明，YOLOv3模型目标检测准确度高并且速度快。

现有的包裹追踪计数系统分为RFID录入计数和激光线扫描计数2种类型。其中，RFID录入计数对包裹的外包装要求较高，每个外包装都需要嵌入芯片，成本高；激光线扫描计数对堆叠的物体无法准确计数，且目标物体外包装的扫描标签面朝下时可能出现漏计的情况。为解决以上不足，本系统采用YOLOv3模型作为包裹检测识别模块，结合包裹的运动信息进行包裹追踪检测计数。

1　YOLOv3模型理论

1.1　模型结构

YOLOv3为提高目标检测的定位和分类精度，设计了更深的卷积神经网络，且融合了YOLOv2, Darknet-19以及其他新型残差网络的结构。为提升小目标检测的准确度，借鉴特征金字塔网络[9]，设计了多尺度特征提取结构。

YOLOv3模型主要由Darknet-53特征提取网络和多尺度融合网络组成。YOLOv3输出3个不同的尺度1,2,3，分别代表小、中、大尺度的特征图输出。YOLOv3模型结构如图1所示。

1.2　Darknet-53特征提取网络

Darknet-53特征提取网络主要由53个卷积层构成，并大量采用3×3和1×1的卷积核。为训练53层深度网络，需考虑浅层特征值丢失问题。借鉴深度残差网络[10]的设计思想，在卷积层之间构建残差模块，并设置跳跃连接，具体结构如图2所示。

图1　YOLOv3模型结构

图2　Darknet-53 网络结构

1.3　多尺度预测

1.4　预测框及相关量预测

2　系统方案

基于深度学习的包裹追踪检测计数系统主要包括多目标物体检测和多目标物体追踪2部分。基于视频流对每一帧图像进行多目标物体检测，可识别当前帧图像中多个目标物体的形状和位置；结合使用目标物体的运动信息实现多目标物体追踪计数。系统框图如图3所示。

图3　基于深度学习的包裹追踪检测计数系统框图

多目标物体检测部分采用深度学习目标检测技术设计YOLOv3识别检测模块。本文首先利用采集的数据训练YOLOv3模型；然后修改模型的接口形式，编写供本系统调用的功能模块，即YOLOv3识别检测模块。YOLOv3识别检测模块的输入是数据模块的图像数据，该图像数据由相机现场实时拍照采集；输出是检测的包裹在图像中的位置信息，并将该信息传到包裹运动追踪检测模块。

在多目标物体追踪部分，设计包裹运动追踪检测模块，其核心思想是利用多目标物体的运动信息，计算预测目标物体与深度学习识别物体形状位置的交集，建立运动物体一一追踪过程。包裹运动追踪检测模块的输入包括YOLOv3识别检测模块输出的包裹位置信息和数据模块的传送带运动速度，传送带运动速度由编码器数据采集模块实时采集；输出是包裹累计数量，并将该数据传到数据模块。

最后，LED显示屏实时显示包裹的累计数量。

3　YOLOv3识别检测模块

在某物流仓库里，利用工业相机连续拍照，采集大量图像数据，该数据包含各种类别的目标物体。按时间顺序采集的图像数据如图4所示。

3.1 标注和整理图像数据

首先标注目标物体在图像中的左上角坐标及右下角坐标，并保存为txt文件；然后利用Python将txt文件数据整理成含目标物体的xml文件，如图5所示；最后整理成YOLOv3模型训练所需的标签数据，并将标签数据与对应的图像数据整理成训练集和验证集。

3.2 初始化参数配置文件

利用YOLOv3通用模型的源代码及初始配置文件，初始化权值文件。初始配置文件cfg设置的参数包括一次迭代送入网络的图片数、学习率、学习下降方式、预选框、优化方法的动量参数和YOLOv3的神经网络配置参数（网络层数和连接及候选框等）等。本文设置一次迭代送入网络的图片数为64；学习率为0.001；学习方式为小批量梯度下降；预选框为9个，并使用K-means生成预选框的长和宽，9对预选框长、宽的数据如表1所示。

表1　预选框的设置

设置网络层（卷积层、池化层等）和层级连接。本文设置网络输入图像大小为448×448。神经网络连接设置如表2所示。

3.3 YOLOv3模型训练

导入训练集和验证集进行YOLOv3模型训练。下载初始的权值文件（weights文件），结合配置的cfg文件，开始模型的训练，模型会渐渐趋近收敛并停止训练。每次训练结束都对weights文件进行一次更新，如图6所示。

表2　神经网络连接设置

图6　 YOLOv3模型更新过程

3.4 YOLOv3模型训练的识别效果

每次模型训练结束后，YOLOv3模型都会输出验证集识别的效果，包括识别精度和召回率。根据模型输出的结果，判断YOLOv3模型是否需要调整再训练。若需要再训练则修改cfg文件的参数，再次训练YOLOv3模型。通过不断地优化训练，直到最后模型输出的识别精度和召回率满足要求，保存模型的cfg文件及weights文件，对YOLOv3模型的接口进行修改封装生成YOLOv3识别检测模块。YOLOv3模型训练的识别效果如图7所示。

图7　YOLOv3模型训练的识别效果图

4　包裹运动追踪检测模块

包裹运动追踪检测模块对连续帧图像中的同一物体进行跟踪。图像中的多目标物体可能出现残缺、遮挡和堆叠等情况，跟踪难度较大。利用YOLOv3识别检测模块输出的包裹位置信息和数据模块的传送带运动速度（包裹运动速度），设计包裹运动追踪检测模块跟踪目标物体的步骤。

1）跟踪过程需要结合物体的运动信息。利用编码器测量物体的运动速度，以前一帧的目标物体位置和识别框为基准，计算当前帧目标物体的位置信息和识别框。

2）建立时间与多目标物体之间的对应关系；调用YOLOv3模型接口，得到当前帧多目标物体的位置信息和识别框；根据步骤1）计算的识别框与步骤2）得出识别框的对应关系进行包裹数量的计数。

识别框的对应关系主要对由YOLOv3识别检测模块得到的当前帧图像的包裹位置和由当前传送带运动速度得到的当前帧包裹的位置作交并比运算，求出重叠的比例。若重叠比例高于阈值（一般设为0.8），判断结果为包裹数量没有增加；反之，判断结果为包裹数量增加。

3）在连续计数过程中，以某一位置拍照的图像为初始帧，以目标物体离开相机视野范围的某一位置为结束帧，重复前面2个步骤。

4）对包裹数量进行累计求和，并将数据传到数据模块。

5　系统测试

基于Windows操作系统开发平台和VS2013开发工具，搭建基于深度学习的包裹追踪检测计数系统。根据实际情况配置硬件环境：电脑（intel i5处理器、4 G内存、GTX1050Ti及以上版本显卡、100 G存储空间）、14寸显示器、相机、支架、网线和编码器等。在显卡1050Ti加速的情况下进行测试。

选取SSD，YOLOv2，YOLOv3三种模型进行测试，其中SSD采用SSD 300的网络结构；YOLOv2和YOLOv3设置网络输入图像大小为448×448。训练集和验证集一共有1871组数据，其中，训练集1851组，验证集20组。

评价模型的指标有平均检测准确度（average precision, AP），它表示张图像的平均检测准确度；平均检测准确度均值（mean average precision, mAP），它表示个类别的平均检测准确度、召回率（Recall）和每秒识别图像数（frames per second, FPS），它用来衡量检测速度的快慢，其数值由软件计时器计算得到。指标计算公式为

其中，表示正样本识别成正例的个数；表示正样本识别成负例的个数。这里的类别数是1，则与相等。

5.1　模型测试

3种模型的测试结果如表3所示。

表3　模型测试结果

由表3可以看出：YOLOv3模型的和相比SSD和YOLOv2有所提高，分别提高14%和8%；分别提高15%和11%。这主要是由于YOLOv3的特征提取网络Darknet-53及特征融合网络极大地提高了模型的识别准确度。然而，不足之处是识别速度有所下降，相较于SSD和YOLOv2分别减少了4帧和2帧，但仍然满足实时检测的需求。

5.2　系统测试

基于深度学习的包裹追踪检测计数系统在某仓库分拣中心进行测试，实时检测该传送带上的包裹数量。2018年12月12日16：00到18：00进行系统测试，每组数据连续测试时间为10 min，共测试了12组数据，测试结果如表4所示，其中软件计数是系统输出的包裹数量。

表4　系统测试的统计结果

由表4可知：实际包裹的数量比软件计数多644件，推测存在YOLOv3识别检测模块出现漏检测，包裹运动追踪检测模块出现匹配错误的情况。系统整体的准确率达到95%。

6　结语

本文设计的基于深度学习的包裹追踪检测计数系统经测试，运行稳定、识别速度快、准确率高、实现简单，且对复杂应用场景有较高的容错率。此外，系统对于目标物体的外包装没有要求，需要的成本较低。系统设计的难点是包裹堆叠严重时，YOLOv3识别检测模块的准确率下降，包裹运动追踪检测模块的计数准确度也会下降。后续考虑对包裹追踪检测计数系统进行改进，从三维观测视角对包裹进行全方位的检测追踪。

[1] 张欣.基于物联网技术的快递企业竞争力研究[D].济南:济南大学,2015.

[2] 谢娟英,刘然.基于深度学习的目标检测算法研究进展[J].陕西师范大学学报(自然科学版),2019,47(5):1-9.

[3] Sun Yi, Wang Xiaogang, Tang Xiaoou. Deep learning face representation by joint identification-verification[C]. International Conference on Neural Information Processing Systems (The 28 Annual Conference on Neural Information Processing Systems, Canada), 2014.

[4] Girshick R. Fast R-CNN[C]. IEEE International Conference on Computer Vision, Santigago, Chile,2015.

[5] Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]. International Conference on Neural Information Processing Systems. MIT Press, 2015:91-99.

[6] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox detector[C]. European Conference on Computer Vision, 2016.

[7] Redmon J, Farhadi A, YOLO9000: better, faster, stronger[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA,2017: 1384-1392.

[8] Redmon J, Farhadi A. Yolov3: an incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.

[9] Lin T-Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.

[10] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016:770-778.

Package Tracking Detection and Counting System Based on Deep Learning

Luo Jiankun Huang Daoping Wu Jing Liu Yiqi Liu Shaojun

（School of Automation Science and Engineering, South China University of Technology）

According to the intelligent detection characteristics of deep learning, a package tracking, detection and counting system based on deep learning is proposed to improve the intelligent management of warehouse logistics data, which is conducive to the digital management of the warehouse sorting center. In this paper, a detection system is designed for a sorting line in the warehouse sorting center.The system can detect the number of packages in real time. Then, it can obtain the package real-time monitoring data by processing the data of detection points and calculating the package flow data. Finally, the data can be uploaded to the warehouse data management center through the network.

Deep Learning; Digital Management; Tracking; Detection; Real-Time Monitoring

罗建坤，男，1994年生，硕士研究生，主要研究方向：图像检测。E-mail: 2689788379@qq.com

黄道平，男，1961年生，博士，教授，主要研究方向：智能检测与控制，软测量技术。

吴菁，女，1988年生，博士研究生，讲师，主要研究方向：软测量技术。

刘乙奇，男，1983年生，博士，副教授，主要研究方向：软测量，故障诊断和污水处理。

刘少君，男，1974年生，硕士，讲师，主要研究方向：智能检测与控制。

国家自然科学基金资助项目（61673181，61873096）；广州市科技项目（201804010256）。