APP下载

基于改进深度残差网络的快递包装识别融合算法研究

2023-09-06邵占英刘飞李丽杰

现代信息科技 2023年14期
关键词:快递包装图像识别

邵占英 刘飞 李丽杰

摘  要:在普通的ResNet50的基础上修改激活函数,选取CeLU作为激活函数,增加了3个全连接层FC1、FC2、FC3;并在其中都加入了Droput,最后采用迁移学习的方式去训练模型。在快递包装图像预处理中采用Triplet相似性度量学习方法进行特征提取和用SIFT特征加以完善,以形成新的融合算法,并得出改进的ResNet50网络模型,整体的准确率为98.67%,精确度为97.67%、召回率为98.67%,F1分数为98.33%。通过最后的检测结果,充分地证明了改进的ResNet50融合算法应用于快递包装图像识别的性能优越,也为图像识别技术在智慧物流行业提供技术经验。

关键词:深度残差网络;图像识别;融合算法;快递包装

中图法分类号:TP18;F259.2   文献标识码:A   文章编号:2096-4706(2023)14-0061-06

Research on Fusion Algorithm of Express Packaging Recognition Based on Improved Deep Residual Network

SHAO Zhanying, LIU Fei, LI Lijie

(Department of Information Engineering, Hebei Construction Material Vocational and Technical College,

Qinhuangdao  066004, China)

Abstract: This paper modifies the activation function on the basis of ordinary ResNet50, selects CeLU as the activation function, and adds three fully connected layers of FC1, FC2, FC3. It adds Droput to them, and finally uses the transfer learning method to train the model. The Triplet similarity metric learning method is used for feature extraction and the SIFT features are used to improve in the preprocessing of express packaging images to form a new fusion algorithm. Finally, the overall accuracy of the improved ResNet50 network model is 98.67%, the precision is 97.67%, the recall rate is 98.67%, and the score of F1 is 98.33%. Through the final test results, it fully proves that the improved ResNet50 fusion algorithm has superior performance in express packaging image recognition, and also provides technical experience for image recognition technology in the intelligent logistics industry.

Keywords: Deep Residual Network; image identification; fusion algorithm; express packaging

0  引  言

近年來,我国快递行业随着电子商务的发展迅速崛起,在人们生活方便的同时,产生了大量的包装垃圾。社会各界开始关注包装回收等问题。由于人工智能技术的飞速发展,使得计算机视觉技术的发展越来越受到重视。若将海量数据、人工智能等新一代信息技术应用于快递行业,必然促进绿色包装、智慧物流的发展。本文研究的目的在于探索应用于快递包装识别的新型融合算法研究,并对模型进行合理优化,以达到适用于各种背景下的快递包装识别,提高快递包装识别算法的准确度。

1  卷积神经网络概述

卷积神经网络是用于图像识别的最佳学习算法之一,在图像分割、分类、检测和检索相关研究中表现出了堪称典范的性能。卷积神经网络的成功应用引起了各行各业的关注,在行业中,谷歌、微软、华为、NEC和Facebook等高科技公司已经开始组建了高水平的研究团队,以探索卷积神经网络的新架构。

卷积神经网络(CNN)在1989年开始被LeCun提出,并在计算机视觉相关研究工作中开始发挥出巨大的潜力[1]。随着卷积神经网络的发展,越来越多的变体模型的不断产生,一种被认为Deep Nets的进阶模型——深度残差网络(ResNet)被HE[2]等人提出。通过将残差块引入到卷积神经网络中来改变CNN的原有架构,并设计了一种有效的方法来训练深度网络,即深度残差网络。

2  快递包装图像数据集构建及预处理

2.1  获取快递包装图像数据集

以纸版类包装(纸袋子、纸箱子、报纸、货运物流货运单等)、塑胶类包装(包装袋、塑料膜、气泡膜、聚乙烯薄膜等)及木制类包装(人造板钉装)三类生活中常见快递外包装为研究对象,并构建快递包装图像数据集。本文的数据集通过Python爬虫技术进行获取。这是由于在大数据技术中,数据的采集与存储是其核心,而爬虫技术在两大核心技术中占有较大比例。基于Python语言独有的特性,它对数据处理十分灵活,较成熟的网络抓取模板,简洁的语言模式,丰富的资源库,相比其他方法而言,Python可以用很短的代码在最短的时间内获取更大规模的数据量。

在爬取过程中,通过爬虫基本流程进行数据爬取,如图1所示。

在构建快递包装图像数据集时,采集到的快递包装图像样本数据量为35 080张,即为快递包装图像数据集。快递包装图像数据集数量分布情况,如表1所示。

2.2  图像预处理

为提高模型的学习和收敛速度,提高模型的准确率,必须对包裹的数据进行预处理。本文使用了基于Torch的Python机器学习库——PyTorch对快递包装图像进行图像降噪、调节白平衡、图像均值化、空间尺度变换及张量处理,以保证快递包装图像数据归一化,再使用深度残差网络图像识别算法,快速定位快递包装图像特征点,排除背景干扰[3]。经图像预处理后的快递包装图像的尺寸为256像素×

256像素×3通道。

2.3  特征提取

在快递包装图像预处理中采用Triplet相似性度量学习方法进行特征提取和基于SIFT的不变性特性转换SIFT(Scale-invariant feature transform, SIFT)[3],SIFT是輔助特性,进行权重合并,增强特征的表现力,并加以完善,形成新的融合算法,以解决残差网络结构识别图像特征点时存在欠缺的问题。

3  算法的构建与分析

3.1  改进深度残差网络识别算法的构建

在训练的过程中,由于训练过程中存在梯度不能生成、梯度下降等问题,使得训练变得困难、模型损失值升高,但带有残差学习的深度卷积神经网络模型可以有效地规避此类问题。该模型从特征抽取中引入SIFT方法对包裹体的纹理进行精细的抽取,然后利用软件映射功能对包裹体进行标记,很大程度上提高了模型的准确率。本文选取了含有残差块的ResNet50模型,并根据快递包装图像样本的实际情况对ResNet50结构进行优化,使其在快递包装图像识别的应用中更加有效[4]。深度残差网络的残差结构如图2、图3所示。

在3×3卷积核前后,使用1×1卷积维的上升和下降可以降低残差网络结构的参数。在残差结构图2中实线和残差结构图3中的虚线作为下取样函数的输入,而残差配置图2是保持输出图像特征矩阵大小不变的残差配置;残差构造图3是一个增大比例的残差块,其输出的特征矩阵是高、宽的二分之一。ResNet50的残差结构使特征图具有更多的维数,能够较好地解决诸如梯度消失、退化等问题。普通的残差神经网络模型结构与改进后的残差网络模型结构如图4、图5所示。

改进的ResNet模型网络结构和普通ResNet模型网络结构的主题一样。这两种结构中的Input image(256,256,3)均表示输入了尺寸为256个像素×256个像素×3个通道的快递包装图像[5],ResNet50模型网络结构分别由输入层、1个7×7的conv层(卷积层中/2表示为卷积核的移动步长为2)、4个3×3的残差块(卷积核的数量依次为64、64、128、256、512)、池化层、全连接层及分类层组成。在上述ResNet50神经网络结构中conv为卷积层,BN为批标准化处理,Pool表示最大池化层,Avg Pool表示平均池化层,FC为全连接层[5]。在卷积层中没有添加偏置,批标准化处理(BN)可以加块神经网络的训练速度,将BN放在卷积层中的激活函数之前。

图5所示改进的深度残差网络与普通深度残差网络相比较后的区别在于激活函数由传统的ReLU改成了更适合的CeLU,并通过由He提出的Kaiming[2]正态分布来初始化卷积层的权重,同时在新增加的FC1、FC2和FC3三个全连接层中加入Dropout,以防止过拟合。

将快递包装图像输入到神经网络结构中,经卷积层、最大池化层、残差块、平均池化层以及全连接层进行处理,这样可以使输入图片先输出特征图像尺寸为7×7×2 048,再输出特征图像尺寸为1×1×2 048,然后输出快递包装特征图像的通道数为2 048和6,最后通过Softmax分类层输出3类快递包装对应的概率值,进而获得识别结果。

3.2  深度残差网络识别算法改进分析

在改进后的深度残差神经网络中重点改进和优化了普通深度残差网络的激活函数、初始化卷积层权重的方式、全连接层、Dropout、Loss函数及优化器与学习速率。

3.2.1  激活函数

ReLU是深度学习中广泛运用的一种激活函数,相比于sigmoid函数和tanh函数,ReLU函数中只存在线性关系,因此它的计算速度比sigmoid和tanh更快[6]。

当输入数据为正时,不存在梯度饱和的问题。但是,当输入数据为负时,输出值为零,使得反向传播的梯度消失,相应的参数无法进一步迭代。因此在改进的深度残差网络中,激活函数采用CeLU,该函数有利于深度神经网络的收敛和泛化,主要是是因为该函数是一个折点非线性且连续可微的指数平滑函数,ReLU激活函数与CeLU激活函数的计算参见式(1)、式(2),函数图像分别如图6、图7所示。

3.2.2  初始化卷积层权重的方式

因为Kaiming正态分布在CeLU激活函数中可以更快更有效地促进模型的收敛,改进的深度残差网络结构中初始化卷积层权重的方式采用的时Kaiming正态分布。

3.2.3  全连接层与Dropout

在改进的深度残差网络结构中增加了3个全连接层FC1、FC2、FC3,通过FC1、FC2、FC3可以有效地通过神经网络从快递包装图像上提取出更多的特征信息。在此基础上添加Dropout也有利于降低泛化误差,防止过拟合[7]。具体神经网络结构如图8、图9所示。

x

文中改进深度残差网络采用的损失函数(Loss)为交叉熵损失函数,其可以提高模型训练时的梯度与优化速度。表达式如下:

(3)

3.2.4  优化器与学习率衰减

ResNet50网络模型的学习进度取决于学习进度,ResNet50网络模型有效地控制了深度神经网络模型权重的迭代比率。(Adaptive Moment Estimation, Adam)优化算法是计算损失梯度的指数移动均值(Exponential Moving Average, EMA),这些移动平均值的衰减率由超参量beta1和beta2决定。

Adam可以被看作是RMSprop和Momentum的混合体。类似于RMSprop在二次动量中采用的指标运动平均值,Adam中对于一阶的动量,同样采用了一个指数的运动平均值。

具体推导如下:

(4)

(5)

其中,初值:

m0 = 0                               (6)

v0 = 0                               (7)

在迭代时,mt和vt有一个偏离(向0偏离),对一阶和二阶的动量作偏压修正(bias correction):

(8)

(9)

然后进行更新:

(10)

最终保证迭代较为平稳的衰减率,为深度神经网络模型设置自适应的学习率。

选用Adam优化算法用于改进的深度残差网络模型,取学习率为0.001,指数衰减β1、β2分别为0.9、0.999。在改进深度参残差网络模型的训练过程中,随着神经网络模型迭代次数的增加,学习率逐步减小,进而是的深度神经网络模型收敛更快,同时学习率衰减可以更高效的提高Adam优化算法的性能。

4  算法的训练与评估

4.1  ResNet模型的训练环境

ResNet模型的训练环境是:深度学习框架是Python 3.8、PyTorch,操作系统为Ubuntu 20.04,GPU是显存为12 GB的NVIDIA RTX A4000,在CUDA上加速深度神经网络模型的训练,主要使用Jupyter Notebook、Pycharm。

4.2  普通验证方法

将快递包装图像数据集划分为训练集和测试集,按比例分别为70%、30%。用训练集训练深度神经网络模型,用测试集对已训练好的图像识别模型的性能进行评估,以上就是普通的验证方法,即训练1次深度神经网络模型,能够更快的得出训练结果并优化超参数,又叫单次验证方法。

4.3  交叉验证方法

使用已有的快递包装图像数据集,训练改进的深度残差网络模型,然后评估得到的该模型的识别准确率、损失值、检测速度等一系列关键指标。本文采用的交叉验证方法是指K折交叉验证方法,即:在给定的样本数据集对于简单的模型训练、测试,亦或验证分割而言太小难以产生泛化误差的准确估计时,该验证方法可用于估计相关学习算法的泛化误差。

4.4  算法的训练过程

通过迁移学习的方法进行改进深度残差网络模型的训练,由于深度神经网络中的图像数据量大,而迁移学习可使深度残差网络模型收敛加速,来提高该模型识别的准确率[8]。改进后的深度残差网络模型训练过程如下:

通过深度学习框架PyTorch,快递包装数据集通过数据加载、图像预处理(采用基于Triplet相似性度量学习方法进行特征提取和进行尺度不变特征变换)、使用SIFT特征作为补充特征进行加权融合、改进的残差网络模型从训练集中抽取数量为批大小(每次调整参数前所选取的样本数量)的数据集样本利用Adam优化器优化模型的学习率,在梯度下降过程中,迭代次数设为80,开始训练改进的残差网络模型,在测试集中获得每次的预测结果,此时交叉熵损失函数使得模型损失之减小,以提高该模型的准确率[5]。

经历80次迭代后,深度神经网络模型会逐渐收敛,直到训练集和测试机的损失值和准确率趋于稳定。

5  实验结果分析

在深度神经网络模型的结果分析中,混淆矩阵非常重要,在混淆矩阵中有四个指数可以用来衡量深度神经网络模型的性能,分别是准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数(F1score),计算式如下:

(11)

(12)

(13)

(14)

计算公式中TP表示快递包装样本为真实值,是指被模型识别正确的种类的数量;FN表示快递包装样本为真实值,是指被模型识别错误的种类的数量;FP表示快递包装样本为错误值,但被模型识别正确的种类的数量;TN表示快递包装样本为错误值,被模型识别错误的种类的数量。准确率是指模型的识别准确率;精确度是指在所有预测结果中,模型预测正确的比例;召回率是指所有真实值中,模型预测正确的比例;F1分数表示精确度和召回率的综合评价指标。

改进深度残差网络的快递包装识别融合算法实验结果如表2所示,分析可知,在快遞包装图像数据集上训练改进的深度残差网络模型,该模型的精确度、召回率和F1分数都相对很高,整体的准确率为98.67%,精确度为97.67%。

6  结  论

本文提出了一种改进的深度残差网络快递包装识别模型,以纸版类包装、塑胶类包装及木制类包装三类生活中常见快递外包装为研究对象,以PyTorch深度学习库为研究框架,在普通的ResNet50的基础上修改了激活函数,选取CeLU作为激活函数,增加了3个全连接层FC1、FC2、FC3,并在其中都加入了Droput,最后采用迁移学习的方式去训练模型。同时,在快递包装图像预处理中采用Triplet相似性度量学习方法进行特征提取—进行尺度不变特征变换,SIFT特征作为补充特征,做加权融合,以形成新的融合算法。通过混淆矩阵的计算方法,可以得出改进的ResNet50网络模型整体的准确率为98.67%,精确度为97.67%、召回率为98.67%,F1分数为98.33%。通过最后的检测结果,充分地证明了改进的ResNet50融合算法应用于快递包装图像识别的性能优越。

参考文献:

[1] KHAN A,SOHAIL A,ZAHOORA U,et al. A survey of the recent architectures of deep convolutional neural networks [J].Artificial Intelligence Review,2020,24(14):1-62.

[2] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [J].Computer Vision and Pattern Recognition,2015,34(10):47-50.

[3] 罗海保.基于改进Faster R-CNN的多尺度小目标检测算法研究 [D].北京:北京交通大学,2019.

[4] XU H,TANG T,ZHANG B R,et al. Identification of two-phase flow regime in the energy industry based on modified convolutional neural network [J].Progress in Nuclear Energy,2022,41(9):147.

[5] 万鹏,赵竣威,朱明,等.基于改进Res Net50模型的大宗淡水鱼种类识别方法 [J].农业工程学报,2021,37(12):159-168.

[6] GUO Q B,WU X J,KITTLER J,et al. Differentiable neural architecture learning for efficient neural networks [J]. Pattern Recognition,2022,31(2):126.

[7] 张立峰,王智.基于多元经验模态分解与卷积神经网络的气液两相流流型识别 [J].计量学报,2023,44(01):73-79.

[8] 罗维平,徐洋,陈永恒,等.基于迁移学习和改进ResNet50网络的织物疵点检测算法 [J].毛纺科技,2021,49(2):71-78.

作者简介:邵占英(1981—),男,满族,河北秦皇岛人,高级工程师,硕士研究生,研究方向:人工智能、机器学习与数据挖掘;通讯作者:刘飞(1976—),女,汉族,山东龙口人,高级工程师,本科,研究方向:计算机软件开发与应用;李丽杰(1981—),女,汉族,河北保定人,讲师,硕士研究生,研究方向:区域物流与区域经濟。

猜你喜欢

快递包装图像识别
基于Resnet-50的猫狗图像识别
高速公路图像识别技术应用探讨
图像识别在物联网上的应用
图像识别在水质检测中的应用
浅谈模式识别在图像识别中的应用
基于标准化包装设计的我国快递包装回收机制探讨
我国快递包装废弃物循环再利用问题研究
电商环境下的快递绿色包装对策分析
浅析我国快递包装回收体系的构建
关于网购产品快递包装材料选择的分析及研究