基于卷积神经网络的物流货物图像分类研究
2021-08-21刘斌龙健宁程方毅龚德文
刘斌 龙健宁 程方毅 龚德文
摘要:基于卷积神经网络(CNN)针对物流环境下货物的图像分类问题进行了研究。首先,在实际物流环境下收集了13种货物的 ROI图像,并通过每隔10°旋转的方式来扩充数据集以防止过拟合现象的发生;然后,在考虑了实际硬件条件的情况下构建了轻量级 CNN ,并进行了基于自建数据集的训练,训练实验发现,轻量级 CNN模型具有很快的收敛速度并在验证集取得了100%的准确率;最后,研究了旋转对货物图像分类性能的影响,并进行了可视化分析,验证了 CNN对旋转操作基本不具备一致性。
关键词:卷积神经网络;图像分类;自动识别;旋转不变性
中图分类号:TP391.41 文献标志码:A 文章编号:1009-9492(2021)12-0079-04
Research on Goods Image Classification Based on Convolutional Neural Networkin Logistic Environment
Liu Bin1,Long Jianning1,Cheng Fangyi1,Gong Dewen2
(1. Key Laboratory of Polymer Processing Engineering of Ministry of Education//Guangdong Provincial Key Laboratory of Technique andEquipment for Macromolecular Advance Manufacturing// National Engineering Research Center of Novel Equipment for Polymer Processing,Guangzhou 510641, China;2. Guangdong Changheng Intelligent Technology Co., Ltd., Dongguan, Guangdong 523841, China)
Abstract: The classification of goods images in logistics environment based on convolutional neural networks has been studied. First, ROI images of 13 kinds of goods in logistics environment were collected and the data set was expanded by rotating every 10° to prevent overfitting. Then, a lightweight CNN was constructed and trained based on self-built data set considering the actual hardware conditions, and the training experiment showed that the model converged quickly and achieved 100% accuracy in the validation set. Finally, the effect of rotation on the classification performance of goods images was studied and performed a visual analysis, the result showed that CNN had poor invariance to rotation operation.
Key words: CNN; image classification; automatic recognition; rotation invariance
0 引言
近年來,随着电子商务的飞速发展,物流行业的业务量随之剧增,不断成熟的自动识别技术引入到现代物流当中以代替人眼对货物进行分辨识别,物流行业的自动化程度在不断提升的同时,物流过程的效率在很大程度上得以提升[1]。
目前,在物流行业中最为常见的两种自动识别技术为条形码技术以及 RFID 技术,但是,在诸如食品、医药以及化妆品等行业当中,不仅货物种类多样,而且其外表面没有或者难以张贴条码或射频卡等信息载体,这种情况下,就需要利用货物自身的形状、颜色以及表面纹理特征等,来实现货物种类的自动识别。传统的图像分类往往只能针对图像的某一特征,如颜色、轮廓、纹理等进行分类,因而鲁棒性和泛化能力不足,而鉴于物流环境下的复杂性,传统的图像分类就难以满足实际物流需求[2-3]。而卷积神经网络(CNN)可以将图像直接作为输入,并自动提取图像中的各种特征,得益于卷积神经网络的丰富的参数以及非线性计算,充分保证了图像处理过程中的泛化性和准确性,十分契合物流环境下货物图像分类要求[4-5]。
鉴于卷积神经网络的种种优势,本文基于卷积神经网络在图像分类上的强大能力,在真实物流环境下采集货物的图像信息,并建立自有数据集,并在此基础上通过卷积神经网络进行训练和参数优化,进一步提高图像分类效率以及准确率,以期为基于自动识别技术的物流货物分拣的研究和应用提供有益的参考和借鉴。
1 物流货物图像数据集的建立
图1所示为在物流输送线上采集的经过图像分割后的13种货物的 ROI 图像,序号代表其对应的标签。货物为13类纸箱,分别为“冰红茶”“卤香牛肉面”“安慕希”“早餐核桃牛奶”“水蜜桃”“百岁山”“脉动(椰汁菠萝)”“脉动(青柠)”“营养快线(组合装)”“藤椒牛肉面”“阿萨姆”“香菇鸡蛋面”以及“香辣牛肉面”。同个纸箱的6个面的颜色、纹理等不尽相同,在这里,只采集每种纸箱6个面当中特征最为丰富的一面的图像,作为利用 CNN进行图像分类的研究对象。
CNN模型分类识别的准确率往往依赖于训练数据的样本数量,在训练迭代次数相同的情况下,越多的训练数据可以得到越准确的分类识别结果[6]。过拟合现象的发生往往都是由于图像数据量不足,而实际 ROI 图像需要通过相机采集,工作量十分巨大且效率不高,因此,为了解决实际采集 ROI 图像数量不足的问题,每种纸箱分别获取40张 ROI 图像,并通过对 ROI 图像每隔10°旋转一次的方式扩充样本数量,如图2所示。通过数据扩充,样本数量扩充36倍,最终的数据集一共由18720张彩色图像构成。
2 卷积神经网络模型训练和调优
CNN模型的层数越多,相应的参数量以及计算量也越多,对于硬件的要求也越高,因此考虑到自建数据集的复杂性以及实际硬件条件,经过不断尝试,最终构建了一种轻量级 CNN模型,它包含4个卷积层和3个全连接层,每个卷积层后面连接着一个最大池化层,具体参数配置如表1所示[7]。
整个轻量级网络的参数总量为5526221,设置学习率为0.01,迭代次数为3000,優化方法选择 Adam[8],分别设置批处理量为8、16和128时,训练情况如图3所示。其中,批处理量为128时训练得到的模型称为模型 A。
由图3(a)可知,对比模型在3种批处理量下训练的损失函数变化,在批处理量为8的情况下,当迭代次数少于1000次时,损失函数曲线的波动十分剧烈,当迭代次数超过1000次后,损失函数趋于收敛;而在批处理量为16的情况下,当代次数少于250次时,损失函数曲线存在着较为明显的波动,当迭代次数超过250次后,损失函数趋于收敛;而在批处理量为128的情况下,损失函数的波动现象消失,并且函数收敛值比上述两种情况更小。查看批数据大小为128时的输出日志可以看到,迭代次数为100时,损失函数就已经降到5.57×10-4。根据深度学习理论,随着迭代次数的增加,模型参数不断优化,迭代次数分别为500、1000和3000时,损失函数为1.62×10-5、4.85×10-6和2.59×10-7。
综合对比分析图3(b)和图3(c)可知,模型在3种批处理量下训练的验证集准确率、测试集准确率变化与损失函数类似,随着批处理量的增大,验证集准确率以及测试集准确率曲线的波动逐渐减小并消失;同样的,随着迭代次数的增加,验证集准确率以及测试集准确率曲线都趋于收敛,而批处理量为128时,收敛速度最快。
3 旋转对物流货物图像分类性能的影响
3.1 CNN机制的相关研究
由于 CNN巨大的参数量和高度的非线性化,CNN的输入与输出之间就像一个黑盒,其内部运行机制不容易进行分析解释,只能以训练结果为依据不断地进行参数调整,还有结构优化,这会导致 CNN训练的时间成本很高而效率降低。
基于上述原因,近年来,CNN的可视化和可解释性受到了越来越多学者的关注和研究,解释 CNN的运行机制对于深度学习的发展意义非凡[9-10]。Zeiler等[11-12]使用反卷积网络来可视化各层提取到的特征图,结果发现 CNN 低层学习到的基本是颜色、轮廓等特征,中层学习的是纹理特征,到了高层则学习的是有区别性的特征,最后学习到的则是完整的、具有辨别性的关键特征。总而言之,提取到的特征随着层次的提高而越来越抽象,同时,特征的区分性越强。
3.2 实验方案和结果
参考 Zeiler等人提出 CNN对旋转操作基本不具备不变性的原理,这里做一个实验来研究旋转对物流环境下的纸箱货物图像分类性能的影响。
构建的数据集仅包含收集到的13种纸箱的上下左右4个方位的图像,每种纸箱的4个方位分别收集约30张图像,以此数据集进行训练而得到模型 B ,并在上下左右及45°倾斜方位上进行识别测试,上下左右及45°倾斜5个方位的示意图如图4所示[7]。使用批数据为128的轻量级 CNN进行训练,损失函数、训练集准确率和验证集准确率均很快收敛,其中,验证集准确率为100%。
利用模型 B 对每种类别货物进行5个方位的识别测试,每个方位测试10次,观察识别结果,上下左右方位几乎完全识别正确。45°方向识别结果如表2所示[7],其中,在10组测试中,”安慕希”、”早餐核桃牛奶”、”脉动(青柠)”和”营养快线”纸箱的识别错误率超过90%,而“阿萨姆”纸箱的识别错误率为50%,“卤香牛肉面”和“水蜜桃”纸箱虽然识别正确,但是置信度较低,“冰红茶”、“百岁山”、“脉动(椰汁菠萝)”、藤椒牛肉面”、”香菇炖鸡面”和”香辣牛肉面”纸箱的均识正确均为100%,并且置信度也均大于0.9。
利用仅收集上下左右4个方位图像信息进行训练而得到的模型 B ,测试上下左右及45°五个方位纸箱图像时,结果发现模型 B 能够正确识别上下左右方位的图像,而对45°方位图像的识别出现大量错误情况。同样地,利用批处理量设置为128的、经过每隔10°旋转扩充数据集训练得到的模型 A ,对每种类别纸箱图像任意角度测试20次,结果发现均识别正确且置信度大于0.99。
3.3 CNN的可视化分析
观察表2中的45°方位时的实验结果,推测 CNN在训练过程中提取了图像的颜色、纹理特征,可能原因如下:45°时“安慕希”纸箱和“营养快线”纸箱均被错误识别为“百岁山”纸箱,推测是由于“安慕希”纸箱、“百岁山”纸箱和“营养快线”纸箱均具有相似的颜色特征,即大片白色区域;而“卤香牛肉面”纸箱和“冰红茶”直线45°时均识别正确,是由于二者具有比较明显的不同表面纹理特征,但二者颜色相近,因此,识别的置信度不高;“阿萨姆”纸箱和脉动“(椰汁菠萝)”纸箱的表面均具有大面积的相似颜色区域,因此,在10次测试当中,45°时“阿萨姆”纸箱有4次被识别为脉动(椰汁菠萝);而“脉动(青柠)”纸箱和“脉动(椰汁菠萝)”纸箱不仅表面颜色相似,而且纹理特征也很相近,因此,在10次测试当中,,“脉动(青柠)”纸箱均被识别为“脉动(椰汁菠萝)”纸箱。
CNN提取特征的方式,可通过可视化图像经过卷积层运算后的输出结果來进行观察分析。由表1可知,所构建的轻量级CNN四个卷积层中的每一层都会输出数量很多的特征图,因此,为了方便展示,将图像在卷积层由卷积核经过激活函数之后的特征图按1∶1融合,可视化融合后整体的特征图。选择一张 45°倾斜的“脉动(青柠)”纸箱图像,可知其由模型B识别时,被错误识别为“脉动(椰汁菠萝) ”纸箱,可视化图像经过模型每一层卷积后的整体特征图,结果如图5所示。同样还是该“脉动(青柠) ”纸箱图像,将其输入模型 A 时,可以被正确识别为“脉动(青柠) ”纸箱,可视化卷积后的整体特征图如图6所示[7]。
综合对比图 5 和图 6,并结合文献[11]和[12]进行分析,由于模型A是经过训练360°图像得到的CNN模型,其由低层的颜色、轮廓等特征到中层的纹理特征,再到高层的抽象特征依次进行特征提取。而模型B是仅训练上下左右4个方位图像而得到的,其只需要学习到中层或相对高层的特征提取方式就已经可以准确地识别4个方位的货物图像,但是这种情况下,模型的泛化能力不足,因此,在输入 45°倾斜的图像时,模型容易出现识别错误。而在训练360°的货物图像时,模型提取的是高维的、具有区分度的抽象特征,因此,360°的纸箱图像训练得到的模型的鲁棒性和泛化性更强,能够较为准确地识别多个角度的纸箱图像。
4 结束语
在物流货物图像分类的应用研究中,收集了13种纸箱的ROI图像,为了避免过拟合现象的发生,通过每10° 旋转方式扩充数据集在所构建的轻量级CNN网络进行训练时,在实际硬件条件下可以轻易设置较大的训练参数,并在验证集上取得了100%的准确率。另外,还通过实验表明了旋转造成货物图像分类性能的下降,并由 CNN的可视化分析可知,虽然CNN的特征提取是由低维到高维的方式进行以保证鲁棒性以及泛化性,但是CNN 并不具备旋转一致性,因此,需要借助于旋转方式扩充数据集,以保证对任意角度货物图像识别的准确率。
参考文献:
[1] 郭午阳. 自动识别技术在物流管理中的应用分析[J]. 信息与电脑(理论版),2017(4):135-136.
[2] 周俊宇,赵艳明.卷积神经网络在图像分类和目标检测应用综述[J].计算机工程与应用,2017,53(13):34-41.
[3] 刘斌,程方毅,龚德文.图像自动识别技术在物流自动化中的研究与应用现状分析[J].机电工程技术,2020,49(10):104-109.
[4] 郑远攀,李广阳,李晔. 深度学习在图像识别中的应用研究综述[J]. 计算机工程与应用,2019(12):20-36.
[5] Gu J X, Wang Z H, Kuen J, et al. Recent Advances in Convolu? tional Neural Networks[J]. Pattern Recognition, 2018(77): 354-377.
[6] 焦瀚晖,胡明辉,王星,等.基于特征快速构造与卷积神经网络的机泵故障识别研究[J].机电工程,2020,37(9):1063-1068.
[7] 程方毅. 物流自动化标准单元智能分拣系统的研究与实现 [D].广州:华南理工大学,2020.
[8] Kingma D, Ba J. Adam: A Method for Stochastic Optimization[J/ OL]. https://arxiv.org/abs/1412.6980, 2017-01-30.
[9] Zhang Q, Zhu S. Visual interpretability for deep learning:a survey [J]. Frontiers of Information Technology & Electronic Engineer? ing, 2018, 19(1): 27-39.
[10] Zhou B, Khosla A, Lapedriza A, et al. Learning Deep Features for Discriminative Localization[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA, 2016: 2921-2929.
[11] Zeiler M D, Krishnan D. Deconvolutional networks[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 2528-2535.
[12] Zeiler M D, Fergus R. Visualizing and Understanding Convolu? tional Networks[C]//European Conference on Computer Vision. Zurich, Switzerland, 2014: 834-849.
第一作者简介:刘斌(1969-),男,博士,教授,研究领域为模具CAD/CAE/CAM和材料成型装备及数控技术,已发表论文230余篇。
(编辑:王智圣)