基于LL_YOLO的行程码检测算法
2023-04-13王媛媛田海阳朱俊勋严少峰黄佳泷宋照渝
王媛媛 田海阳 朱俊勋 严少峰 黄佳泷 宋照渝
摘 要: “行程码”的有效使用需要解决图像模糊、网络权重大等问题。本文提出一种基于损失函数改进的轻量化模型LL_YOLO(Lightweight Loss YOLO)。LL_YOLO基于YOLOv5模型,通过接口在线调用图像增强函数进行画质增强、改进损失函数,提高检测精度,轻量化压缩模型。实验结果表明,LL_YOLO在图像增强与损失函数模块等的作用下,识别精度提高到91.82%,参数量降低为2.8M。因此LL_YOLO具有低参数量和计算量的优势,对高算力硬件的依赖性低,能够极大地降低应用部署成本。
关键词: 行程码; 损失函数; 轻量化; 图像增强
中图分类号:TP311 文献标识码:A 文章编号:1006-8228(2023)04-116-04
Abstract: The effective use of travel code needs to solve the problems of blurred image and heavy network weight. In this paper, we propose a lightweight model LL_YOLO (Lightweight Loss YOLO) based on improved loss function. It is based on the YOLOv5 model, and improves the detection accuracy and lightweight compression model by calling the image enhancement function online through the interface. The experimental results show that the recognition accuracy of LL_YOLO is improved to 91.82% and the number of parameters is reduced to 2.8M under the effect of image enhancement and loss function module. LL_YOLO has the advantages of low number of parameters and computation, low dependence on high-computing hardware, and can greatly reduce the application deployment cost.
Key words: travel code; loss function; lightweight; image enhancement
0 引言
最近几年,新冠疫情肆虐,行程码应运而生,采用计算机视觉方法解决在公共场所辅助检测行程码具有研究意义及实际应用价值。目前实现目标检测主要有单阶段和双阶段检测方法。单阶段算法如SSD[1],YOLO系列[2,3],优势是检测速度快,但精度较低;双阶段目标检测算法如RCNN系列[4],其优点是精度高,但双阶段处理导致时间复杂度提高,检测速度较慢。
针对上述应用研究的不足,本文做出如下改进。
⑴ 通过改进损失函数(Intersection over Union Losses,IoU),提升了模型对重要特征的提取能力,使模型的检测精度得到提高。
⑵ 改进原网络的C3网络,使用更为轻量的Mobilenetv3网络结构,使模型参数量得到极大的减少,使模型更利于实际的应用部署。
1 相关工作
1.1 模型选择
在目标识别领域中,就R-CNN而言,缺点十分明显,因为需要从2000多个候选框中提取出特征,所以R-CNN的檢测效率通常很低。而Alex-Net[5]的参数量十分庞大,不利于模型在移动设备上的部署。Transformer虽然改进了循环神经网络(RNN)训练比较慢的缺点,但同时带来计算量大、训练数据需求量高等问题。相比于这些算法模型,YOLOv5[6]模型更适合检测与内容识别。如图1所示为YOLOv5的网络结构,骨干网络(Backbone)的Focus模块在保证图像特征信息不丢失的情况下,将信息集中到通道中去。CSP可以增强网络的特征提取能力,融合不同分支的特征。空间金字塔池化模块(SPP)经过通道拼接后,使用1×1的卷积来实现特征融合,提高了网络在复杂环境下的检测效果。预测端(Prediction)则是将得到的三个不同大小的特征图用于最终结果的预测。因此,相比于其他卷积神经网络来说,YOLOv5更适合实际工程的应用。
1.2 行程码内容识别与检测
行程码内容识别与检测的流程图如图2所示,其可分为三步,第一步是使用YOLOv5的目标检测模块检测图片是否是行程码图片,第二步是行程码的内容识别,它采用ocr技术将行程码的内容识别出来,本文为取得更好的检测效果,在原有模型的基础上调用了图像增强函数对图像进行画质增强,并改进了损失函数;同时将模型进行轻量化改进以便于实践应用与部署。
2 检测算法改进
2.1 总体结构
本文所提LL_YOLO方法网络结构如图3所示,将YOLOv5骨干网络的BottleneckCSP结构替换成了更轻量的MobileNetv3网络结构,同时在骨干网络的Conv结构中融入改进的损失函数来提升其对重要特征的提取能力。
2.2 Mobilenetv3轻量化网络
YOLOv5主干特征提取网络采用C3结构,而此网络拥有的较大参数量会造成应用受限,首先面临的问题就是由于模型参数量十分庞大造成的内存不足问题,其次因为行程码检测要求的是实时检测。因此,研究一个高效且轻量的模型对卷积神经网络在实际应用中的部署是至关重要的。最新的轻量化模型主要是Shufflenetv2[7]和Mobilenetv3,本文采取适合在YOLOv5上融合的轻量化MobileNetv3网络,其网络结构图如图4所示,首先,激活函数由原来的ReLU替换成非线性激活函数swish,其次加入SE注意力模块,经过平均池化两个全连接层,输出的特征向量可以理解为是对SE之前的特征矩阵的每一个channel分析出了一个权重关系,它认为比较重要的channel会赋予一个更大的权重,对于不是那么重要的channel维度上对应一个比较小的权重。
2.3 损失函数
IoU Loss损失对bbox scales是不变的,所以能够更好的训练检测器[7],但是当预测框和真实框没有重叠的时候存在梯度消失的问题,从而导致降低收敛速度和检测精度。
本文采用Alpha-IoU损失函数[8],如式⑴,是基于现有损失函数IoU的统一幂化,可以通过α自适应来提高回归精度。由于α-IoU损失函数用于卷积神经网络能带来很好的性能提升,所以本文以YOLOv5模型为基准,融合α-IoU方法对行程码进行检测,实验表明本方法提高了模型对目标的检测精度。
2.4 图像增强
首先算法对目标图像进行canny边缘检测,canny函数有四个参数,分别代表输入的图片,检测的最小阈值,检测的最大阈值以及边缘检测器的大小,canny使用非极大值抑制判断弱边缘像素,最后使用霍夫变换:rho=x cos(theta)+y sin(theta),用霍夫线变换探测出图像中的所有直线,然后根据计算的每条直线倾斜角的平均值旋转矫正,最后根据文本尺寸截取图像,其行程码图像增强与内容识别流程如图5所示。
3 实验结果分析
3.1 实验环境及数据
本文是选取网络和生活中搜集到的2300张行程码图片作为实验数据,数据集包含各种颜色以及不同场景下的行程码,且有角度差异,光照差异,数据信息丰富,其中测试集和验证集都是随机从数据集中抽取一定比例进行划分。测试集比例为0.2,余下数据集中验证集与训练集的比例为2:8,其中训练集约为1840个行程码图像,验证集为460个行程码图像像。
3.2 评价指标
为了评估算法性能,本文采用模型参数量、Recall和mAP三个指标评价模型的精度、速度以及大小。Recall计算如式⑵,其中P表示准确率,其计算如式⑶,AP计算方法如式⑷,mAP的计算方法如式⑸。
[R=TPTP+FN] ⑵
其中,R表示召回率,TP表示被模型预测为正类的正样本,FP表示被模型预测为正类的负样本,r表示所有召回率的可能取值,k表示总类别数。
3.3 实验结果
训练结果如图6所示,训练集数据量为2300张图片,采用的batch_size为16,模型在训练到100次迭代时趋于平缓,准确率与召回率都在稳步上升直至稳定。
本文提出的基于LL_YOLO的行程码信息检测方法,在添加注意力机制的同时进行模型轻量化,其检测效果与模型大小之间取得了较好的平衡。如表1所示,LL_YOLO的模型权重仅为2.8M,召回率能够到达93.43%,优于其他几种模型的检测算法。
4 结束语
本文针对行程码检测任务,使用YOLOv5模型作为基准。增加图像增强函数,解决图像画质不清的问题;将轻量级网络模型与注意力模块融入YOLOv5中,增强模型对行程码的识别能力;降低模型参数量,减轻算法对硬件设施的依赖,得到本文的轻量级LL_YOLO模型。实验表明,LL_YOLO算法能很好的完成行程码检测任务,在所有改进的作用下,检测mAP达91.82%,且模型参数量仅为2.8M,对文本的提取更加精确,最终行程码目标识别效果准确率在90%以上,更加适用于条件有限的移动设备。
目前训练模型需要的标注样本仍然十分庞大,在很多情况下,对大量的样本进行标注是费时费力的。因此,下一步工作是把半监督或无监督方法应用于行程码的检测,力求少量标注样本或无需标注样本也能对目标检测达到一个较好的训练效果。
参考文献(References):
[1] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C].European conference on computer vision. Springer, Cham,2016:21-37
[2] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition June 27-30, 2016, Las Vegas, NV, USA. IEEE,2016:779-788
[3] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C].Proceedings of the IEEE conference on computer vision and pattern recognition,2017:7263-7271
[4] Ren S Q, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149
[5] Sun J, Cai X, Sun F, et al. Scene image classification method based on Alex-Net model[C].2016 3rd International Conference on Informative and Cybernetics for Computational Social Systems (ICCSS). IEEE,2016:363-367
[6] 王冠博,楊俊东,李波,等.改进YOLO v4的火焰图像实时检测[J].计算机工程与设计,2022,43(5):1358-1365
[7] Ma N, Zhang X, Zheng H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C].European conference on computer vision(ECCV),2018:116-131
[8] He J, Erfani S, Ma X, et al. Alpha-IoU: A family of power Intersection over Union losses for bounding box regression[C],2021:1-2
*基金项目:淮阴工学院—淮安经济技术开发区产学研合作项目(Z413H21522); 江苏省自然科学基金面上项目(BK20211365); 大学生创新创业训练计划项目(202211049087Y、202211049268XJ)
作者简介:王媛媛(1981-),女,江苏人,博士研究生,主要研究方向:云计算、大数据、计算机视觉。